🔍 Dans les entrailles de l’IA : Comment Claude 3.5 pense, ruse et nous surprend

ChatGPT, Claude, DeepSeek raisonnent ils vraiment et comprennent ils ce qu’ils racontent, leurs calculs sont-ils exacts, peut-on avoir confiance ? On vous dĂ©voile la rĂ©alitĂ© derriĂšre le mythe.

Pour rĂ©aliser ce contenu nous avons lu analysĂ© l’Ă©tude, puis nous avons utilisĂ© diffĂ©rentes IA gĂ©nĂ©ratives pour nous aider Ă  rĂ©pondre aux questions que nous nous posons tous sur le fonctionnement de l’IA.

Une Ă©quipe de chercheurs de l’entreprise Anthropic a menĂ© une Ă©tude approfondie pour comprendre le fonctionnement intĂ©rieur des grands modĂšles de langage (LLM) en utilisant une technique appelĂ©e « suivi de circuits ». Cette mĂ©thode permet de tracer les processus de dĂ©cision d’un modĂšle en temps rĂ©el, rĂ©vĂ©lant des comportements et des stratĂ©gies inattendus.

RĂ©sumĂ© de l’Ă©tude

Que se passe-t-il réellement dans leur « cerveau » numérique ? Deux études récentes publiées par Anthropic, intitulées « Circuit Tracing« et « On the Biology of Large Language Models« , apportent des réponses inédites.

Traitement des langues
Le modĂšle Claude 3.5 Haiku semble utiliser des composants indĂ©pendants de la langue pour rĂ©soudre des problĂšmes ou rĂ©pondre Ă  des questions, puis sĂ©lectionne le langage appropriĂ© pour la rĂ©ponse. Par exemple, lorsqu’on demande l’opposĂ© de « petit » en anglais, français ou chinois, il utilise d’abord des composants neutres en langue pour dĂ©terminer la rĂ©ponse avant de choisir le langage.

Résolution de problÚmes mathématiques
Le modĂšle employe des stratĂ©gies internes peu conventionnelles pour rĂ©soudre des problĂšmes de calcul. Par exemple, lorsqu’on lui demande de calculer 36 + 59, il utilise des approximations successives et des raisonnements non standard pour arriver Ă  la rĂ©ponse correcte (95). Cependant, lorsqu’on le laisse expliquer sa mĂ©thode, il fournit une rĂ©troactive rationnelle, comme si il avait utilisĂ© une mĂ©thode traditionnelle.

Création de poésie
Lorsqu’on lui demande d’Ă©crire des vers, Claude semble anticiper la fin des lignes plusieurs mots Ă  l’avance, ce qui contredit l’idĂ©e que les modĂšles de langage fonctionnent uniquement en gĂ©nĂ©rant un mot aprĂšs l’autre.

Hallucination et génération de fausses informations
Les modĂšles de langage, bien qu’ils aient Ă©tĂ© entiĂšrement entraĂźnĂ©s pour rĂ©duire les hallucinations, peuvent encore produire des informations fausses dans certaines conditions, notamment lorsqu’ils traitent des sujets bien connus (comme des personnalitĂ©s publiques).

Les rĂ©ponses apportĂ©es par l’Ă©tude Anthropic

Les modĂšles de langage comprennent-ils rĂ©ellement ce qu’ils disent ?

🧠 Non, pas au sens humain du terme. Les LLMs comme Claude 3.5 ne comprennent pas les concepts de maniĂšre consciente. Ils identifient des patterns dans d’immenses quantitĂ©s de texte et gĂ©nĂšrent des rĂ©ponses basĂ©es sur ces probabilitĂ©s. Cela peut donner l’illusion d’une comprĂ©hension profonde, mais il s’agit en rĂ©alitĂ© d’un traitement statistique du langage.

Les modĂšles de langage ont-ils une vraie comprĂ©hension des concepts ou simulent-ils simplement l’intelligence ?

Les LLM ne comprennent pas les concepts comme les humains. Ils manipulent des reprĂ©sentations statistiques et des corrĂ©lations de mots pour produire des rĂ©ponses cohĂ©rentes. L’étude d’Anthropic a montrĂ© qu’ils peuvent planifier et structurer leur pensĂ©e, mais sans conscience rĂ©elle des concepts sous-jacents.

Les IA planifient-elles leurs réponses ou génÚrent-elles mot par mot ?

✍ Elles font les deux. Contrairement Ă  l’idĂ©e reçue selon laquelle les IA ne choisissent qu’un mot aprĂšs l’autre, l’étude d’Anthropic montre que les modĂšles de langage anticipent souvent plusieurs Ă©tapes en avance. Par exemple, en poĂ©sie, Claude 3.5 choisit une rime avant mĂȘme d’écrire le dĂ©but de la phrase.

Les modÚles de langage ont-ils une mémoire de long terme ou chaque réponse est-elle indépendante ?

Par dĂ©faut, un LLM comme Claude ou ChatGPT ne possĂšde pas de mĂ©moire permanente : chaque interaction est thĂ©oriquement indĂ©pendante. Toutefois, grĂące aux mĂ©canismes de contexte, il peut garder en mĂ©moire des Ă©lĂ©ments dans une mĂȘme conversation et ajuster ses rĂ©ponses en consĂ©quence.

Comment une IA peut-elle résoudre un calcul mais donner une explication erronée ?

Parce qu’elle dissocie le raisonnement du langage. L’étude rĂ©vĂšle que les modĂšles utilisent des heuristiques internes pour calculer, mais lorsqu’ils doivent expliquer leur raisonnement, ils recrĂ©ent une justification plausible qui ne correspond pas toujours Ă  leur vĂ©ritable processus de calcul.

Peut-on considĂ©rer qu’un LLM rĂ©flĂ©chit rĂ©ellement, ou est-ce juste une illusion de raisonnement ?

Les modĂšles de langage ne rĂ©flĂ©chissent pas au sens humain du terme. Ils imitent des raisonnements plausibles grĂące Ă  des modĂšles statistiques avancĂ©s. L’étude montre qu’ils peuvent produire des explications convaincantes, mĂȘme lorsqu’elles sont incorrectes, ce qui donne une illusion de raisonnement.

Un LLM peut-il « apprendre » comme un humain ?

📚 Pas exactement. Une IA comme Claude 3.5 ou ChatGPT ne mĂ©morise pas de nouvelles informations comme un humain. Son apprentissage se fait uniquement lors de son entraĂźnement initial ou via des ajustements supervisĂ©s. Elle ne modifie pas son rĂ©seau neuronal en temps rĂ©el, contrairement au cerveau humain.

Comment une IA évite-t-elle de mélanger plusieurs langues ?

🌎 GrĂące Ă  une reprĂ©sentation conceptuelle unifiĂ©e. L’étude d’Anthropic montre que les modĂšles activent des concepts abstraits avant de les convertir dans une langue spĂ©cifique. Par exemple, le concept d’ »opposĂ© de petit » est le mĂȘme, que la question soit posĂ©e en français, en anglais ou en chinois.

Pourquoi les LLMs hallucinent-ils des réponses incorrectes ?

đŸ€Ż Car ils privilĂ©gient la cohĂ©rence narrative. Lorsqu’un modĂšle ne connaĂźt pas la rĂ©ponse, il gĂ©nĂšre une information plausible en se basant sur les schĂ©mas linguistiques appris. Cela peut donner naissance Ă  des erreurs convaincantes, appelĂ©es « confabulations algorithmiques ».

Les modĂšles et les maths

Les modĂšles de langage comme Claude 3.5 ou ChatGPT possĂšdent des compĂ©tences en mathĂ©matiques, mais leur approche est bien plus approximative et narrative que computationnelle. Ils peuvent donner de bonnes rĂ©ponses, mais ne sont pas toujours capables d’expliquer correctement leur raisonnement.

Par exemple, lors de calculs mentaux, Claude adopte des stratĂ©gies inattendues. Pour additionner 36 et 59, l’IA combine approximation et calcul prĂ©cis plutĂŽt qu’utiliser la mĂ©thode scolaire.

Pourtant, quand on lui demande son raisonnement, Claude dĂ©crit mĂ©ticuleusement la technique des retenues. Cette dissociation entre fonctionnement interne et explication soulĂšve d’importantes questions.

Comment les LLM comptent et calculent – Anthropic
ChatGPT est-il précis dans ses calculs ?

D’aprĂšs les observations faites sur Claude 3.5, les modĂšles de langage ne calculent pas comme le ferait une machine traditionnelle. Au lieu d’appliquer des rĂšgles strictes comme les retenues en addition, ils utilisent des heuristiques et des approximations pour arriver Ă  une rĂ©ponse plausible. Ainsi, bien qu’ils puissent donner la bonne rĂ©ponse dans de nombreux cas, leur mĂ©thode de calcul n’est pas infaillible, ce qui signifie que des erreurs peuvent survenir, notamment pour des calculs complexes.

Pourquoi les LLM peuvent-ils donner la bonne réponse à un calcul mais fournir une explication incorrecte ?

Les chercheurs ont dĂ©couvert que les LLM emploient des mĂ©thodes de calcul internes diffĂ©rentes des mĂ©thodes humaines. Ils peuvent trouver la bonne rĂ©ponse par approximation et ajustements progressifs, puis gĂ©nĂ©rer une explication conforme aux mĂ©thodes scolaires, mĂȘme si ce n’est pas ainsi qu’ils ont trouvĂ© la solution.

Comment distinguer un vrai raisonnement mathĂ©matique d’une rĂ©ponse inventĂ©e par l’IA ?

Une rĂ©ponse fiable doit ĂȘtre vĂ©rifiable. Si l’IA donne une explication dĂ©taillĂ©e mais sans dĂ©monstration reproductible, il y a un risque qu’elle ait simplement gĂ©nĂ©rĂ© un raisonnement plausible sans rĂ©elle analyse mathĂ©matique.

Les modÚles de langage peuvent-ils apprendre de nouvelles méthodes mathématiques au fil du temps ?

Un LLM ne « comprend » pas les mathĂ©matiques comme un Ă©lĂšve qui apprend. Il applique les rĂšgles qu’il a vues pendant son entraĂźnement. Pour qu’il maĂźtrise de nouvelles mĂ©thodes, il doit ĂȘtre rĂ©entraĂźnĂ© avec des donnĂ©es supplĂ©mentaires.

Pourquoi les LLM sont-ils plus précis sur des calculs simples que sur des équations complexes ?

Les calculs simples reposent sur des schĂ©mas frĂ©quemment observĂ©s dans les donnĂ©es d’entraĂźnement. En revanche, pour des Ă©quations complexes, le modĂšle doit gĂ©nĂ©raliser, ce qui peut introduire des erreurs ou des approximations incorrectes.

Est-ce que ChatGPT peut effectuer des calculs ?

Oui, mais de maniĂšre indirecte. Comme le montre l’analyse d’Anthropic, un modĂšle comme Claude 3.5 emploie plusieurs stratĂ©gies en parallĂšle pour rĂ©soudre un problĂšme numĂ©rique :
✅ Une estimation approximative (ex. : 90 ± 10 pour 36 + 59)
✅ Un calcul partiel des unitĂ©s (ex. : 6 + 9 = 15, avec retenue)
✅ Une vĂ©rification de cohĂ©rence globale avant d’annoncer la rĂ©ponse finale
Cependant, lorsqu’on lui demande d’expliquer son raisonnement, il fournit une rĂ©ponse structurĂ©e qui ressemble Ă  la mĂ©thode traditionnelle
 sans que ce soit forcĂ©ment la vraie mĂ©thode qu’il a utilisĂ©e.

Les LLM peuvent-ils résoudre des problÚmes mathématiques ?

Oui, mais leur raisonnement diffĂšre des approches humaines. L’étude montre que ces modĂšles peuvent donner des rĂ©ponses justes sans rĂ©ellement suivre les Ă©tapes qu’ils dĂ©crivent. Cela signifie qu’ils peuvent ĂȘtre performants sur certains types de problĂšmes, mais aussi sujets Ă  des erreurs imprĂ©visibles.
L’étude rĂ©vĂšle aussi un phĂ©nomĂšne inquiĂ©tant : lorsque confrontĂ©s Ă  des calculs trop complexes, ces modĂšles entrent en mode heuristique, oĂč ils inventent un raisonnement a posteriori pour justifier leur rĂ©ponse. Ce comportement, appelĂ© confabulation algorithmique, pose des questions sur la fiabilitĂ© des explications mathĂ©matiques fournies par les IA.

ChatGPT peut-il réellement faire des mathématiques ?

Les LLM ne font pas des mathĂ©matiques au sens traditionnel. Ils sont capables d’estimer et de raisonner sur des nombres, mais ils ne suivent pas nĂ©cessairement les rĂšgles exactes que nous appliquons. L’étude d’Anthropic montre qu’ils disposent de capacitĂ©s de planification cachĂ©e, ce qui signifie qu’ils peuvent prĂ©voir des structures complexes (comme en poĂ©sie), mais sans nĂ©cessairement appliquer une logique mathĂ©matique rigoureuse.

Les langues et la compréhension

Contrairement aux idĂ©es reçues, Claude ne fonctionne pas uniquement mot Ă  mot. Lorsqu’il compose un poĂšme, l’IA sĂ©lectionne d’abord une rime cible avant de construire sa phrase. Cette capacitĂ© Ă  anticiper le rĂ©sultat final s’apparente Ă  un processus crĂ©atif humain. Les expĂ©riences montrent que Claude peut modifier son plan initial si on intervient artificiellement sur ses concepts.

Comment les LLM crĂ©ent des poĂšmes – Anthropic

En supprimant artificiellement l’activation du concept « rabbit », les chercheurs ont forcĂ© Claude Ă  basculer immĂ©diatement vers une autre rime (« habit »). En injectant le concept « green », ils ont observĂ© comment l’IA reconstruisait entiĂšrement sa phrase pour aboutir Ă  ce nouveau mot

Comment les LLM rĂ©flĂ©chissent et traduisent – Anthropic

L’analyse neuronale rĂ©vĂšle que Claude utilise un espace conceptuel commun Ă  toutes les langues. Le concept « opposĂ© de petit » active les mĂȘmes neurones, quelle que soit la langue utilisĂ©e. Cette universalitĂ© cognitive explique pourquoi l’IA peut transfĂ©rer des connaissances d’une langue Ă  l’autre sans difficultĂ©.

Dans certains cas, Claude produit des explications qui semblent logiques mais sont en rĂ©alitĂ© fabriquĂ©es. Ce phĂ©nomĂšne apparaĂźt surtout face Ă  des problĂšmes complexes ou sous influence suggestive. L’IA privilĂ©gie alors la cohĂ©rence narrative Ă  la vĂ©racitĂ©, un comportement qui rappelle certaines tendances humaines.

Comment les IA inventent des calculs – Anthropic
Comment hacker une IA – Anthropic

Mise Ă  jour du 05/04/2025 : Suppression des explications redondantes, amĂ©lioration de la cohĂ©rence, ajout de prĂ©cisions sur l’utilisation de l’IA dans l’article.

NDLR : Cet article fait partie de notre sĂ©rie visant Ă  tester le potentiel de l’IA et sa capacitĂ© Ă  gĂ©nĂ©rer de la valeur pour le lecteur. En savoir plus sur notre dĂ©marche.

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.