Compar:IA: la plateforme où les chatbots se défient en duel

Quel est selon vous le meilleur artiste musical français? Edith Piaf, Jacques Brel ou Johnny Hallyday? Les IA conversationnelles, elles, ne sont pas d’accord, à vous de les juger. Compar:IA est une plateforme française conçue par le ministère de la Culture. Elle permet de comparer jusqu'à 23 modèles d'IA différents dont Chat-GPT, Claude, Gemini, Mistral voire même le tout récent Deepseek. Sorti en octobre 2024, l'outil s'inspire de Chatbot Arena, un site anglophone qui permet lui aussi de comparer plusieurs chatbots.
À gauche, l’IA polyvalente du géant Google, Gemini 1.5. À droite, un des modèles les plus puissants du célèbre OpenAI, GPT-4o. Enfin, gauche ou droite… En réalité, on ne sait pas pour le moment quelle IA nous répond.
Une fois connecté à Compar:IA, l'utilisateur peut poser une question comme s'il parlait à un chatbot classique. Mais au lieu d'obtenir une réponse à sa question, il a deux résultats différents de deux chatbots anonymes.
L'utilisateur peut alors tester ces deux IA sur divers sujets et questions: "Comment faire Paris-Marseille en passant par Rouen?", "comment cuisiner une tarte au citron?" ou encore "quel est le meilleur jeu vidéo de tous les temps?"

Alors vous êtes plutôt d’accord avec quel modèle anonyme? Le modèle A qui propose le classique Tetris ou le modèle B qui lui préfère le révolutionnaire The Legend of Zelda: Breath of the Wild? Quand la discussion s'achève, Compar:IA demande à départager les deux chatbots en fonction de la pertinence des réponses. On peut évidemment pousser la discussion avec plusieurs autres questions voire même demander à une IA son avis sur la réponse de son adversaire.
Une fois que le choix est fait, place à la révélation des IA. On découvre alors quels sont les deux modèles avec lesquels on discutait précédemment. D’après vous, qui de Gemini ou de ChatGPT a proposé Tetris?
Mais d’où est née cette idée de comparateur d’IA? Elle part en réalité d’un constat. Lucie Termignon est cheffe de produit de Compar:IA, elle conduit le projet depuis sa création en janvier 2024. Elle explique alors: “En 2023, 0,16% des données d'entraînement de LLaMA 2 étaient en français alors qu’elles représentent entre 4 et 5% de l’ensemble des données sur internet. Cela entraîne des biais.”
Le gouvernement français affichait donc une “volonté de faciliter l’accès à des données d'entraînement en français tout en veillant respect du droit d'auteur ou la rémunération des auteurs”, indique la cheffe de produit.
En janvier 2024, le ministère de la Culture et la direction interministérielle du Numérique s’associent et créent une start-up d’état qui a pour problématique: “comment faciliter l’accès à des données en français pour entraîner les modèles de langage?” Une première phase d’investigation est lancée. Elle permet de "préciser le besoin auprès des acteurs de l’écosystème concernés et proposer une solution numérique à tester", ajoute-t-elle.

Lucie Termignon s’entoure de deux collaborateurs, un designer et un développeur, qui vont l’aider à mettre en place cette plateforme, “directement inspirée de Chatbot Arena”. “On trouvait intéressant ce système une comparaison à l’aveugle de deux modèles et qui permettent d’établir des corpus de préférence”, explique-t-elle. En octobre 2024, la plateforme compar:IA est lancée.
Le problème avec les IA les plus utilisées, c'est qu'elles sont souvent développées aux États-Unis. Ainsi, la plupart des jeux de données utilisés pour les entraîner sont conformes à la langue et à la culture de leur pays d'origine. “Il y a un ancrage très anglo-saxon des jeux de données d’entraînement et d’évaluation”, confirme Lucie Termignon.
Les réponses de certaines IA sont fortement influencées par cette dimension culturelle. On le constate par exemple quand on demande à l’IA: “Quels sont les 10 meilleurs films de tous les temps ?” Elle répondra par une majorité de films américains.

Compar:IA s’engage dans un objectif d’alignement des IA pour qu’elles soient adaptées à ses utilisateurs. En posant des questions aux chatbots et en indiquant leurs préférences, les personnes qui utilisent Compar:IA contribuent à constituer une base de données propres aux préférences et usages des francophones.
Mais l’outil est aussi pensé comme un moyen de sensibiliser la population française aux usages de l’IA. Une plateforme ludique et pédagogique qui met en évidence la diversité et le pluralisme des IA conversationnelles, petites ou grosses, propriétaires ou semi-ouvertes. En parallèle, Compar:IA met en lumière les biais culturels et linguistiques ainsi que l’impact environnemental de ces modèles.
“Cela répond à un double enjeu, un enjeu tech avec la création de ces données françaises qui sont très rares pour l’écosystème et un enjeu de sensibilisation et d’acculturation citoyenne de l’IA”, analyse Lucie Termignon.
Pas d’inspiration pour une question à poser? La plateforme propose des suggestions de prompt pour nous aider à lancer la compétition. Mais pour vraiment chercher à différencier deux IA conversationnelles, il va falloir les mettre en difficulté et chercher leurs failles. “Les questions culturelles, par exemple, sont les plus flagrantes”, conseille Lucie Termignon.
“Un test qu’on a fait était: “Quel est le lieu de naissance de Michel Sardou?” Et là, les deux IA n’étaient pas du tout d’accord”, témoigne la cheffe de produit. De notre côté, nous avons demandé à quatre IA différentes où était né Kad Merad. On a obtenu quatre réponses différentes.
Les réponses des IA sont à évaluer non seulement sur la véracité de leur contenu mais aussi sur leur mise en page, la longueur de leur réponse ou encore si elles arrivent à écrire une réponse entièrement en français. “On se sent un peu comme un juge de modèle”, explique Simon Zilinskas, chargé de déploiement pour Compar:IA.
L’outil peut notamment s’avérer utile pour des professionnels. Lucie Termignon développe: “Différents types d’acteur se posent parfois la question du modèle à choisir dans le cadre d’un projet. Compar:IA permet aussi de sélectionner manuellement deux IA candidates pour aider à choisir la plus adaptée à ses besoins."
Compar:IA ne se contente pas de comparer les réponses de deux modèles. Une donnée intéressante que l’outil affiche en fin de discussion, c’est la consommation électrique respective des deux IA durant l’interaction. On constate alors qu'en fonction de son nombre de paramètres, une IA va plus ou moins consommer. Ainsi plus elle a de paramètres, plus elle consomme d’énergie.
“Quelque chose qui choque les utilisateurs, c’est l’empreinte environnementale des modèles, raconte la cheffe de produit. On a tendance à la rendre invisible, et là, on voit que ce sont évidemment les IA les plus importantes qui consomment le plus.”
Consommation de matières premières, de ressources physiques et d’électricité notamment pour alimenter les datacenters. “14% des Français s'inquiètent de l'impact environnemental de l’IA, ce qui est très peu, expose Simon Zilinskas. Lorsqu’on s’aperçoit qu’une requête consomme autant qu’une d’ampoule led allumée pendant 6 heures, ça remet beaucoup en question.”

Dans son objectif de sensibilisation, Compar:IA souhaite donner de la visibilité à cet impact. La plateforme a d’ailleurs choisi de ne pas inclure de génération d’images en partie pour des raisons écologiques. Elle veut aussi encourager à découvrir des petits modèles qui sont très peu utilisés et qui répondent généralement tout aussi bien aux besoins.
Compar:IA a dépassé le seuil des 100.000 utilisations. Un corpus conséquent auquel les utilisateurs ont contribué en sélectionnant leurs préférences. Cela permet à l'équipe derrière compar:IA d’établir un “chantier bien identifié pour les prochains mois”.
“Maintenant qu’on a une matière, il faut savoir comment on l’exploite, comment séparer le bon grain de l'ivraie et comment mesurer la plus-value de ces corpus pour l’alignement des futurs modèles d’IA sur le français ”, se projette Lucie Termignon.
L’équipe Compar:IA souhaite à terme proposer en libre accès un jeu de données utile aux éditeurs de modèles de langage pour entraîner et affiner leurs futurs modèles. Cela favorisera l’alignement de ces IA qui pourront ainsi réduire leurs biais vis-à-vis de la culture francophone.
En parallèle, il existe un véritable enjeu de sensibilisation. L’outil commence à se déployer sur la plateforme Pix "et être utilisé en classe ou dans des associations de médiation numérique”. Compar:IA affiche ainsi sa volonté “d’appropriation responsable et réfléchie des outils d’IA par les citoyens”.