Lien copié

Le projet Bloom : pour un ChatGPT européen plus ouvert et plus transparent.

Share On Facebook
Share On Twitter
Share On Linkedin
Plus ouvert et plus transparent“, selon la chercheuse Laurence Devillers, le projet Bloom est un modèle de langage qui pourrait alimenter un chatbot comparable à ChatGPT; mais conçu différemment (multilingue : 59 langues, open access, 176 milliards de paramètres). L’influence culturelle, la stratégie dans les choix de données, la transparence de ces choix … autant d’enjeux politiques qui justifient les intérêts pour ce projet, lequel manque aujourd’hui cruellement de notoriété selon L. Devillers (1). 
 
Où en est-on alors du projet Bloom, initié en 2022 ? Le CNRS résume les avancées la recherche française dans ce domaine de la manière suivante (2) : “« Bloom est un bijou sous-exploité. », concède François Yvon, directeur de recherche CNRS au Laboratoire interdisciplinaire des sciences du numérique. L’expert en traitement automatique des langues naturelles dans un contexte multilingue s’est engagé dès le départ dans le projet BigScience, initié par l’entreprise Hugging Face, fondée par trois Français à New York, et impliquant plusieurs centaines de scientifiques en intelligence artificielle issus de 72 pays et des sociétés comme Airbus, Meta AI, Mozilla, Orange Labs ou Naver Labs. En 2022, cette collaboration a donné naissance à Bloom (pour “BigScience Large Open-science Open-access Multilingual Language Model”), un modèle de langue multilingue et open source qui intègre des textes en 46 langues. L’objectif : comprendre comment entraîner, spécialiser, évaluer un modèle, en détecter les biais.

« Bloom présente des performances comparables aux autres modèles disponibles au moment de sa publication, mais il a été entraîné sur un corpus multilingue plus divers que la référence GPT-32 », détaille le chercheur qui a contribué à l’évaluation des capacités multilingues du modèle, tout en participant au comité de suivi français mis en place à la demande du CNRS – dont le supercalculateur Jean Zay a entraîné le modèle – et du ministère de l’Enseignement supérieur et de la Recherche. Mais « il s’agissait d’un projet de recherche, aujourd’hui terminé, qui n’avait pas vocation à être exploité commercialement et n’a pas été conçu pour être directement utilisable par le grand public ». Un obstacle qui ne nécessiterait qu’un peu de développement informatique : « il suffirait qu’une entreprise s’en empare », le modèle étant disponible sous un nouveau type de licence (voir encadré) qui le permettrait”.

 

1  – Intervention au colloque « Penser et créer avec les AI génératives », SciencesPo Paris le 30 juin 3023 ( organisée par l’équipe du projet ANR CulturIA (CIS, THALIM), medialab Sciences Po, l’Observatoire de l’Intelligence Artificielle et l’Institut d’Histoire et de Philosophie des Sciences et des Techniques).

2 – La recherche française face à ChatGPT. CNRS Infos,  25 avril 2023. https://www.cnrs.fr/fr/cnrsinfo/la-recherche-francaise-face-chatgpt

0 commentaire

Commenter

Your email address will not be published. Required fields are marked *

Champs obligatoires*