NOUS AVONS LU
sur le Net
 

Common Corpus, un corpus de textes libres de droit pour nourrir les LLMs...

... C'est ce que la startup française Pleias, menée par Pierre-Carl Langlais et son équipe, vient de réaliser.

   Publié récemment sur la plateforme HuggingFace, ce corpus de texte regroupe un volume de 500 milliards de mots dans différentes langues, tous garantis d'être libres de droit.
https://huggingface.co/blog/Pclanglais/common-corpus

   Common Corpus montre qu'il est possible d'entraîner des LLMs sur des corpus ouverts, y compris des oeuvres journalistiques et littéraires ...

   Le Common Corpus est le résultat d'une collaboration internationale, coordonnée par Pleias et impliquant des acteurs clés de la formation LLM, de l'éthique de l'IA et du patrimoine culturel. Cette initiative a reçu le soutien d'organisations majeures engagées dans une approche de science ouverte en IA, dont Hugging Face Occiglot, EleutherAI, Nomic AI et OpenLLM France avec le soutien de Lang:IA, une start-up d'Etat soutenue par le Ministère de la Culture et la Direction interministérielle du numérique (DINUM), ainsi que Scaleway qui nous a fourni une infrastructure critique pour ce projet.

   L'objectif de ce corpus est de devenir un commun, une ressource librement partagée afin de « permettre l'émergence d'acteurs alternatifs » qui pourront s'appuyer sur Common Corpus pour entraîner leur propre modèle de langage.

   Le corpus est principalement constitué de textes anciens (ce qui présente une limite au procédé), sélectionnés et choisis par les initiateurs du projets pour limiter au maximum le risque vis-à-vis du droit d'auteur.

Dans la presse :

https://teamopendata.org/t/common-corpus-un-vaste-corpus-de-donnees-pour-lentrainement-des-llms-base-sur-le-domaine-public/4460
https://www.leptidigital.fr/actualites/common-corpus-pleias-54783/
https://www.zdnet.fr/actualites/common-corpus-un-corpus-de-textes-libres-de-droit-pour-nourrir-les-llm-39965094.htm

https://www.clubic.com/actualite-522267-une-ia-ethique-concurrente-de-chatgpt-n-empietant-pas-sur-le-droit-d-auteur-cette-startup-francaise-y-croit.html/

___________________
Association EPI
MarsAvril

Accueil

Logiciels libres et Open source

Nous avons lu