🔍 Dans les entrailles de l’IA : Comment Claude 3.5 pense, ruse et nous surprend

ChatGPT, Claude, DeepSeek raisonnent ils vraiment et comprennent ils ce qu’ils racontent, leurs calculs sont-ils exacts, peut-on avoir confiance ? On vous dévoile la réalité derrière le mythe.

Pour réaliser ce contenu nous avons lu analysé l’étude, puis nous avons utilisé différentes IA génératives pour nous aider à répondre aux questions que nous nous posons tous sur le fonctionnement de l’IA.

Une équipe de chercheurs de l’entreprise Anthropic a mené une étude approfondie pour comprendre le fonctionnement intérieur des grands modèles de langage (LLM) en utilisant une technique appelée « suivi de circuits ». Cette méthode permet de tracer les processus de décision d’un modèle en temps réel, révélant des comportements et des stratégies inattendus.

Résumé de l’étude

Que se passe-t-il réellement dans leur « cerveau » numérique ? Deux études récentes publiées par Anthropic, intitulées « Circuit Tracing« et « On the Biology of Large Language Models« , apportent des réponses inédites.

Traitement des langues
Le modèle Claude 3.5 Haiku semble utiliser des composants indépendants de la langue pour résoudre des problèmes ou répondre à des questions, puis sélectionne le langage approprié pour la réponse. Par exemple, lorsqu’on demande l’opposé de « petit » en anglais, français ou chinois, il utilise d’abord des composants neutres en langue pour déterminer la réponse avant de choisir le langage.

Résolution de problèmes mathématiques
Le modèle employe des stratégies internes peu conventionnelles pour résoudre des problèmes de calcul. Par exemple, lorsqu’on lui demande de calculer 36 + 59, il utilise des approximations successives et des raisonnements non standard pour arriver à la réponse correcte (95). Cependant, lorsqu’on le laisse expliquer sa méthode, il fournit une rétroactive rationnelle, comme si il avait utilisé une méthode traditionnelle.

Création de poésie
Lorsqu’on lui demande d’écrire des vers, Claude semble anticiper la fin des lignes plusieurs mots à l’avance, ce qui contredit l’idée que les modèles de langage fonctionnent uniquement en générant un mot après l’autre.

Hallucination et génération de fausses informations
Les modèles de langage, bien qu’ils aient été entièrement entraînés pour réduire les hallucinations, peuvent encore produire des informations fausses dans certaines conditions, notamment lorsqu’ils traitent des sujets bien connus (comme des personnalités publiques).

Les réponses apportées par l’étude Anthropic

Les modèles de langage comprennent-ils réellement ce qu’ils disent ?

🧠 Non, pas au sens humain du terme. Les LLMs comme Claude 3.5 ne comprennent pas les concepts de manière consciente. Ils identifient des patterns dans d’immenses quantités de texte et génèrent des réponses basées sur ces probabilités. Cela peut donner l’illusion d’une compréhension profonde, mais il s’agit en réalité d’un traitement statistique du langage.

Les modèles de langage ont-ils une vraie compréhension des concepts ou simulent-ils simplement l’intelligence ?

Les LLM ne comprennent pas les concepts comme les humains. Ils manipulent des représentations statistiques et des corrélations de mots pour produire des réponses cohérentes. L’étude d’Anthropic a montré qu’ils peuvent planifier et structurer leur pensée, mais sans conscience réelle des concepts sous-jacents.

Les IA planifient-elles leurs réponses ou génèrent-elles mot par mot ?

✍️ Elles font les deux. Contrairement à l’idée reçue selon laquelle les IA ne choisissent qu’un mot après l’autre, l’étude d’Anthropic montre que les modèles de langage anticipent souvent plusieurs étapes en avance. Par exemple, en poésie, Claude 3.5 choisit une rime avant même d’écrire le début de la phrase.

Les modèles de langage ont-ils une mémoire de long terme ou chaque réponse est-elle indépendante ?

Par défaut, un LLM comme Claude ou ChatGPT ne possède pas de mémoire permanente : chaque interaction est théoriquement indépendante. Toutefois, grâce aux mécanismes de contexte, il peut garder en mémoire des éléments dans une même conversation et ajuster ses réponses en conséquence.

Comment une IA peut-elle résoudre un calcul mais donner une explication erronée ?

Parce qu’elle dissocie le raisonnement du langage. L’étude révèle que les modèles utilisent des heuristiques internes pour calculer, mais lorsqu’ils doivent expliquer leur raisonnement, ils recréent une justification plausible qui ne correspond pas toujours à leur véritable processus de calcul.

Peut-on considérer qu’un LLM réfléchit réellement, ou est-ce juste une illusion de raisonnement ?

Les modèles de langage ne réfléchissent pas au sens humain du terme. Ils imitent des raisonnements plausibles grâce à des modèles statistiques avancés. L’étude montre qu’ils peuvent produire des explications convaincantes, même lorsqu’elles sont incorrectes, ce qui donne une illusion de raisonnement.

Un LLM peut-il « apprendre » comme un humain ?

📚 Pas exactement. Une IA comme Claude 3.5 ou ChatGPT ne mémorise pas de nouvelles informations comme un humain. Son apprentissage se fait uniquement lors de son entraînement initial ou via des ajustements supervisés. Elle ne modifie pas son réseau neuronal en temps réel, contrairement au cerveau humain.

Comment une IA évite-t-elle de mélanger plusieurs langues ?

🌎 Grâce à une représentation conceptuelle unifiée. L’étude d’Anthropic montre que les modèles activent des concepts abstraits avant de les convertir dans une langue spécifique. Par exemple, le concept d’ »opposé de petit » est le même, que la question soit posée en français, en anglais ou en chinois.

Pourquoi les LLMs hallucinent-ils des réponses incorrectes ?

🤯 Car ils privilégient la cohérence narrative. Lorsqu’un modèle ne connaît pas la réponse, il génère une information plausible en se basant sur les schémas linguistiques appris. Cela peut donner naissance à des erreurs convaincantes, appelées « confabulations algorithmiques ».

Les modèles et les maths

Les modèles de langage comme Claude 3.5 ou ChatGPT possèdent des compétences en mathématiques, mais leur approche est bien plus approximative et narrative que computationnelle. Ils peuvent donner de bonnes réponses, mais ne sont pas toujours capables d’expliquer correctement leur raisonnement.

Par exemple, lors de calculs mentaux, Claude adopte des stratégies inattendues. Pour additionner 36 et 59, l’IA combine approximation et calcul précis plutôt qu’utiliser la méthode scolaire.

Pourtant, quand on lui demande son raisonnement, Claude décrit méticuleusement la technique des retenues. Cette dissociation entre fonctionnement interne et explication soulève d’importantes questions.

Comment les LLM comptent et calculent – Anthropic
ChatGPT est-il précis dans ses calculs ?

D’après les observations faites sur Claude 3.5, les modèles de langage ne calculent pas comme le ferait une machine traditionnelle. Au lieu d’appliquer des règles strictes comme les retenues en addition, ils utilisent des heuristiques et des approximations pour arriver à une réponse plausible. Ainsi, bien qu’ils puissent donner la bonne réponse dans de nombreux cas, leur méthode de calcul n’est pas infaillible, ce qui signifie que des erreurs peuvent survenir, notamment pour des calculs complexes.

Pourquoi les LLM peuvent-ils donner la bonne réponse à un calcul mais fournir une explication incorrecte ?

Les chercheurs ont découvert que les LLM emploient des méthodes de calcul internes différentes des méthodes humaines. Ils peuvent trouver la bonne réponse par approximation et ajustements progressifs, puis générer une explication conforme aux méthodes scolaires, même si ce n’est pas ainsi qu’ils ont trouvé la solution.

Comment distinguer un vrai raisonnement mathématique d’une réponse inventée par l’IA ?

Une réponse fiable doit être vérifiable. Si l’IA donne une explication détaillée mais sans démonstration reproductible, il y a un risque qu’elle ait simplement généré un raisonnement plausible sans réelle analyse mathématique.

Les modèles de langage peuvent-ils apprendre de nouvelles méthodes mathématiques au fil du temps ?

Un LLM ne « comprend » pas les mathématiques comme un élève qui apprend. Il applique les règles qu’il a vues pendant son entraînement. Pour qu’il maîtrise de nouvelles méthodes, il doit être réentraîné avec des données supplémentaires.

Pourquoi les LLM sont-ils plus précis sur des calculs simples que sur des équations complexes ?

Les calculs simples reposent sur des schémas fréquemment observés dans les données d’entraînement. En revanche, pour des équations complexes, le modèle doit généraliser, ce qui peut introduire des erreurs ou des approximations incorrectes.

Est-ce que ChatGPT peut effectuer des calculs ?

Oui, mais de manière indirecte. Comme le montre l’analyse d’Anthropic, un modèle comme Claude 3.5 emploie plusieurs stratégies en parallèle pour résoudre un problème numérique :
✅ Une estimation approximative (ex. : 90 ± 10 pour 36 + 59)
✅ Un calcul partiel des unités (ex. : 6 + 9 = 15, avec retenue)
✅ Une vérification de cohérence globale avant d’annoncer la réponse finale
Cependant, lorsqu’on lui demande d’expliquer son raisonnement, il fournit une réponse structurée qui ressemble à la méthode traditionnelle… sans que ce soit forcément la vraie méthode qu’il a utilisée.

Les LLM peuvent-ils résoudre des problèmes mathématiques ?

Oui, mais leur raisonnement diffère des approches humaines. L’étude montre que ces modèles peuvent donner des réponses justes sans réellement suivre les étapes qu’ils décrivent. Cela signifie qu’ils peuvent être performants sur certains types de problèmes, mais aussi sujets à des erreurs imprévisibles.
L’étude révèle aussi un phénomène inquiétant : lorsque confrontés à des calculs trop complexes, ces modèles entrent en mode heuristique, où ils inventent un raisonnement a posteriori pour justifier leur réponse. Ce comportement, appelé confabulation algorithmique, pose des questions sur la fiabilité des explications mathématiques fournies par les IA.

ChatGPT peut-il réellement faire des mathématiques ?

Les LLM ne font pas des mathématiques au sens traditionnel. Ils sont capables d’estimer et de raisonner sur des nombres, mais ils ne suivent pas nécessairement les règles exactes que nous appliquons. L’étude d’Anthropic montre qu’ils disposent de capacités de planification cachée, ce qui signifie qu’ils peuvent prévoir des structures complexes (comme en poésie), mais sans nécessairement appliquer une logique mathématique rigoureuse.

Les langues et la compréhension

Contrairement aux idées reçues, Claude ne fonctionne pas uniquement mot à mot. Lorsqu’il compose un poème, l’IA sélectionne d’abord une rime cible avant de construire sa phrase. Cette capacité à anticiper le résultat final s’apparente à un processus créatif humain. Les expériences montrent que Claude peut modifier son plan initial si on intervient artificiellement sur ses concepts.

Comment les LLM créent des poèmes – Anthropic

En supprimant artificiellement l’activation du concept « rabbit », les chercheurs ont forcé Claude à basculer immédiatement vers une autre rime (« habit »). En injectant le concept « green », ils ont observé comment l’IA reconstruisait entièrement sa phrase pour aboutir à ce nouveau mot

Comment les LLM réfléchissent et traduisent – Anthropic

L’analyse neuronale révèle que Claude utilise un espace conceptuel commun à toutes les langues. Le concept « opposé de petit » active les mêmes neurones, quelle que soit la langue utilisée. Cette universalité cognitive explique pourquoi l’IA peut transférer des connaissances d’une langue à l’autre sans difficulté.

Dans certains cas, Claude produit des explications qui semblent logiques mais sont en réalité fabriquées. Ce phénomène apparaît surtout face à des problèmes complexes ou sous influence suggestive. L’IA privilégie alors la cohérence narrative à la véracité, un comportement qui rappelle certaines tendances humaines.

Comment les IA inventent des calculs – Anthropic
Comment hacker une IA – Anthropic

Mise à jour du 05/04/2025 : Suppression des explications redondantes, amélioration de la cohérence, ajout de précisions sur l’utilisation de l’IA dans l’article.

NDLR : Cet article fait partie de notre série visant à tester le potentiel de l’IA et sa capacité à générer de la valeur pour le lecteur. En savoir plus sur notre démarche.


>

Vous appréciez nos analyses durables et nos guides pratiques sur les technologies, les médias et les télécoms ? Rejoignez la communauté EcoConscient pour ne rien manquer ! Abonnez-vous à notre newsletter pour recevoir nos dernières publications directement dans votre boîte mail. Vous pouvez également nous suivre sur WhatsApp, X (anciennement Twitter), LinkedIn et Facebook pour rester informé de nos dernières actualités et échanges.


Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.