Imaginée par des étudiants et des chercheurs de l’Université de Berkeley, en Californie, et soutenue par Hugging Face, la Chatbot Arena est un projet visant à évaluer les performances des modèles génératifs en temps réel. Pour atteindre cet objectif, elle s’appuie sur les contributions des utilisateurs qui, à partir d’une requête identique, sont invités à départager anonymement deux modèles. Le principe est de communiquer avec les deux agents conversationnels jusqu’à identifier celui qui répond le plus précisément au prompt. Le projet, très populaire, a déjà recueilli plus d’un million de contributions, permettant de révéler certaines tendances sur le marché de l’IA générative.

Les 10 modèles de langage les plus performants en juin 2024

Auparavant dominé par les modèles génératifs d’OpenAI, qui conserve néanmoins la première position avec GPT-4o, introduit en mai et accessible à tous les utilisateurs, le classement de la Chatbot Arena a profondément évolué ce mois-ci. Les deuxième, troisième et quatrième positions sont désormais occupées par différentes versions de Gemini, le modèle d’IA conçu par Google. Elles surpassent GPT-4 Turbo et GPT-4, qui perdent chacun trois places en juin. Claude 3 Opus, le modèle le plus avancé de la startup Anthropic – qui propulse l’agent conversationnel Claude, récemment déployé en Europe -, recule de deux positions. Il est également à noter que Llama 3, qui alimente Meta AI dont l’arrivée en Europe a été retardée, quitte la première partie de tableau, à l’instar de Claude 3 Sonnet. Yi Large, le modèle d’origine chinoise, se maintient dans le top 10 malgré une perte de deux places.

Découvrez le classement des modèles de langage (LLM) les plus performants en juin 2024 :

  1. GPT-4o : 1 287 (score Elo)
  2. Gemini Advanced : 1 267
  3. Gemini 1.5 Pro 0514 : 1 264
  4. Gemini 1.5 Pro 0409 : 1 257
  5. GPT-4 Turbo : 1 257
  6. GPT-4 1106 : 1 251
  7. Claude 3 Opus : 1 248
  8. GPT-4 0124 : 1 246
  9. Yi Large : 1 240
  10. Gemini 1.5 Flash : 1 230

Accéder au classement complet

Chatbot Arena : quels sont les critères de classement ?

La Chatbot Arena adopte le système Elo pour classer objectivement les modèles de langage disponibles sur le marché. Couramment utilisé dans les compétitions d’échecs et d’esport, ce système attribue à chaque modèle une cote provisoire, qui évolue en fonction de ses performances. En pratique, si un modèle sort victorieux d’un affrontement contre un adversaire théoriquement supérieur, il engrange des points. À l’inverse, il en perd s’il est battu par un modèle jugé moins performant. “La différence de classement permet de prédire l’issue du match, détaillent les concepteurs de la Chatbot Arena. Le système de notation Elo est approprié, étant donné que nous avons plusieurs modèles et que nous mettons en place des duels”.