NOUS AVONS LU Common Corpus, un corpus de textes libres de droit pour nourrir les LLMs... ... C'est ce que la startup française Pleias, menée par Pierre-Carl Langlais et son équipe, vient de réaliser.
Publié récemment sur la plateforme HuggingFace, ce corpus de texte regroupe un volume de 500 milliards de mots dans différentes langues, tous garantis d'être libres de droit. Common Corpus montre qu'il est possible d'entraîner des LLMs sur des corpus ouverts, y compris des oeuvres journalistiques et littéraires ... Le Common Corpus est le résultat d'une collaboration internationale, coordonnée par Pleias et impliquant des acteurs clés de la formation LLM, de l'éthique de l'IA et du patrimoine culturel. Cette initiative a reçu le soutien d'organisations majeures engagées dans une approche de science ouverte en IA, dont Hugging Face Occiglot, EleutherAI, Nomic AI et OpenLLM France avec le soutien de Lang:IA, une start-up d'Etat soutenue par le Ministère de la Culture et la Direction interministérielle du numérique (DINUM), ainsi que Scaleway qui nous a fourni une infrastructure critique pour ce projet. L'objectif de ce corpus est de devenir un commun, une ressource librement partagée afin de « permettre l'émergence d'acteurs alternatifs » qui pourront s'appuyer sur Common Corpus pour entraîner leur propre modèle de langage. Le corpus est principalement constitué de textes anciens (ce qui présente une limite au procédé), sélectionnés et choisis par les initiateurs du projets pour limiter au maximum le risque vis-à-vis du droit d'auteur. Dans la presse : https://teamopendata.org/t/common-corpus-un-vaste-corpus-de-donnees-pour-lentrainement-des-llms-base-sur-le-domaine-public/4460 ___________________ |