Différences générales
Avant de passer aux résultats de l'analyse des deux bots d'IA menée par Moonshot, intéressons-nous aux différences générales entre les deux.
1. Différence dans les modèles linguistiques
Sous les coiffes de ChatGPT et de Bard se trouve un formidable modèle de langage (LLM). Les LLM sont tout simplement des programmes informatiques capables de “comprendre” une question et de prédire les mots à utiliser pour y répondre. En quelques secondes, ils peuvent générer une réponse sous la forme d'une simple phrase à celle d'un livre entier.
Les LLM sont fondés sur des réseaux neuronaux artificiels qui apprennent par la pratique. Ceux-ci fonctionnent sur des superordinateurs et ont été entraînés sur des millions, voire des trillions de paramètres.
En 2017, Google a inventé les LLM en développant le modèle Transformer: le “T” de GPT signifie Transformer. La percée du modèle Transformer tient au fait qu'il n'avait pas besoin d'analyser une phrase de manière séquentielle comme ses prédécesseurs, mais qu'il pouvait tirer parti de traitement parallèle. Ainsi, un LLM peut s'entraîner sur des quantités de données beaucoup plus importantes que ses prédécesseurs.
OpenAI a amélioré le modèle Transformer et a introduit l'apprentissage par renforcement à partir de la rétroaction humaine (RLHF) pour aider le modèle à générer des réponses plus proches de la réalité. OpenAI a lancé son propre LLM en 2018: GPT-1. Ce modèle s'est entraîné sur 177 millions de paramètres. Il a depuis entraîné ses modèles sur de plus en plus de paramètres et les a affinés. En mars 2023, GPT-4 a été lancé et a été entraîné sur plus de 100 trillions de paramètres, soit une hausse significative au cours des cinq dernières années.
Bard utilise le LLM de Google appelé LaMDA. À la différence de GPT, LaMDA est spécifiquement entraîné sur du texte conversationnel. Ainsi, le nombre de paramètres pris en compte est inférieur à celui de GPT-4, 137 milliards contre 100+ trillions, mais les réponses sont plus proches du style conversationnel. LaMDA n'utilise pas de RLHF, mais s'appuie sur trois mesures (“qualité, sécurité et ancrage”) pour affiner ses réponses. Certains retours d'information humains ont été utilisés pour calibrer ces mesures.
Les utilisateurs trouveront probablement que les réponses de ChatGPT sont plus détaillées et plus précises, parfaitement adaptées aux réponses structurées et écrites, tandis que Bard peut sembler plus conversationnel. Cela a été clairement illustré dans les publicités qui ont suivi le lancement de Bard, dans lesquelles l'application a fourni une réponse incorrecte à une question sur le télescope James Webb, provoquant une chute de 100 milliards USD de la capitalisation boursière de Google.