" L’IA ne se heurte pas à un mur. Mais les LLMs si " : Gary Marcus à propos de la dernière recherche d’Apple
Les capacités de raisonnement des modèles actuels peuvent s’effondrer complètement au-delà d’un certain niveau de difficulté. Ces modèles semblent " abandonner " l’effort de raisonnement quand la tâche devient trop dure — même s’ils disposent des ressources nécessaires.
- Un article publié ce week-end par Apple parle d'une quantification des capacités de raisonnement des LLMs qui semblent s’effondrer au-delà d’un certain niveau de complexité des tâches. Plusieurs observateurs parlent d’un coup dur, un mur de complexité auquel se heurte la génération actuelle des grands modèles de langage (LLMs). Qu’en pensez-vous ?
(GM) - Il ne s’agit pas d’un simple coup dur, mais d’une mise au tapis, d’autant que cet article n’est pas un coup isolé. Il fait suite à une autre recherche publiée l’année dernière par plusieurs des mêmes auteurs qui montrait déjà qu’il est impossible de construire des agents fiables sans raisonnement formel et abstrait suffisamment développé.
- Pourriez-vous résumer brièvement l’argument de l’article ?
(GM) - Apple a testé les capacités de " raisonnement " des intelligences artificielles actuelles, telles que ChatGPT, Claude ou DeepSeek. Si tous ces modèles semblent intelligents au premier abord, ils échouent totalement dès que la complexité augmente. La force globale de l’argumentation est indéniable — même s’il y a une faiblesse intéressante dans le nouvel argumentaire, la conclusion est sans appel.
Aucun des modèles fondés sur des LLMs ne fait preuve d’un raisonnement véritable. Il ne s’agit que de systèmes extrêmement coûteux de reconnaissance de motifs qui s’effondrent dès qu’on les confronte à des situations en dehors de leur zone d’entraînement.
- S’agit-il d’une impasse structurelle des LLMs pour certaines applications ?
(GM) - En effet, toutes les recherches sérieuses montrent désormais que les grands modèles de langage ne raisonnent pas de la même manière que les humains. Ils peuvent " réfléchir davantage " — mais seulement jusqu’à un certain point.
Au-delà d’un certain seuil, ils abandonnent rapidement, même s’ils disposent encore de ressources de calcul en quantité plus que suffisante.
Même lorsqu’on leur fournit l’algorithme exact à suivre — les règles pour résoudre une tâche complexe —, ces modèles ont tendance à très mal l’exécuter. Cela met en lumière une distinction essentielle : exécuter ne signifie pas comprendre.
Le problème ne réside pas dans un manque de créativité, mais dans une défaillance logique fondamentale. Les modèles ont tendance à " trop réfléchir " à des problèmes simples et à tester de mauvaises réponses même après avoir trouvé la bonne. Et face à des problèmes plus difficiles, ils réfléchissent moins. Il en résulte un gaspillage de ressources de calcul d’un côté et un abandon prématuré de l’autre.
- Comment cette nouvelle étude — qui prolonge l’analyse critique du paradigme actuel que nous publions déjà en 2023 dans nos pages — s’inscrit-elle, selon vous, dans le débat sur la capacité des LLMs à généraliser à des situations radicalement nouvelles ?
(GM) - D’une part, cette recherche fait écho et amplifie l’argument sur la distribution d’entraînement que je développe depuis 1998 : les réseaux neuronaux, sous diverses formes, peuvent généraliser à l’intérieur de la distribution de données sur laquelle ils ont été entraînés, mais leurs généralisations ont tendance à s’effondrer en dehors de cette distribution.
C’était le cœur d’un article que j’avais publié en 1998, dans lequel je critiquais les perceptrons multicouches (multilayer perceptrons) — les ancêtres des modèles de langage actuels — en montrant leurs échecs hors distribution sur des tâches simples de calcul et de prédiction de phrases.
Ce fut également l’axe central de mon premier livre, The Algebraic Mind (2001), qui élargissait cette critique, ainsi que de mon premier article dans Science (1999), où j’ai démontré, à travers une expérience, que des nourrissons de sept mois pouvaient extrapoler d’une manière que les réseaux neuronaux de l’époque étaient incapables de répliquer. C’était aussi la motivation principale de Deep Learning : Critical Appraisal (2018), puis de Deep Learning is Hitting a Wall (2022). J’ai identifié cette limite l’an dernier encore comme la faiblesse la plus importante — et la plus importante à comprendre — des LLMs.
Cela fait donc un certain temps que je travaille sur ce sujet…
- L’article s’appuie également sur le travail de Subbarao Kambhampati, chercheur en informatique de l’Arizona State University.
(GM) - Oui, et je veux le souligner. Cette recherche ne fait pas simplement écho aux arguments que Rao développe depuis plusieurs années, mais les renforce.
Il s’agit des critiques sur les modèles dits de " raisonnement " et les fameuses " chaînes de pensée " (CoT) qu’ils produisent qui semblent bien moins solides qu’on ne le prétend.
Pour ceux qui ne sont pas familiers du concept, une " chaîne de pensée " est, grossièrement, ce que le système prétend avoir " raisonné " pour arriver à une réponse, dans les cas où il effectue plusieurs étapes de réflexion. Les " modèles de raisonnement " désignent quant à eux la nouvelle génération de tentatives pour contourner les limites structurelles des LLMs, en les forçant à " raisonner " dans le temps, via une technique appelée inference-time compute (calcul au moment de l’inférence).
Rao n’a jamais été convaincu par cet argument.
Il a écrit une série d’articles brillants montrant, entre autres, que les chaînes de pensée générées par les LLMs ne correspondent pas toujours à ce que ces modèles font réellement. Récemment, par exemple, il a observé que nous avons tendance à sur-anthropomorphiser les traces de raisonnement des LLMs, en parlant de " pensée " là où ce terme ne paraît pas adéquat.
Un autre de ses articles récents montre que même lorsque les chaînes de raisonnement semblent correctes, les réponses finales, elles, ne le sont pas forcément.
Rao a d’ailleurs sans doute été le premier à démontrer que l’un de ces " modèles de raisonnement " — en l’occurrence o1 — souffrait du genre de problème que le rapport d’Apple documente aujourd’hui. Je conseille à tout le monde de lire son travail.
- Le papier d’Apple reprend la critique de Rao et la vôtre en se concentrant notamment sur un problème classique assez simple : la tour de Hanoï. De quoi s’agit-il ?
(GM) - Il s’agit d’un jeu classique composé de trois tiges et de plusieurs disques de tailles différentes. L’objectif est de déplacer tous les disques de la tige de gauche vers celle de droite, en respectant une règle essentielle : il est interdit de placer un disque plus grand sur un disque plus petit.
Si vous ne connaissez pas encore ce jeu, il faut un tout petit moment pour comprendre son fonctionnement.
Avec un peu de pratique, un enfant de sept ans intelligent et patient peut y arriver — et pour un ordinateur, c’est un exercice qui ne présente aucune difficulté. N’importe quel étudiant en première année d’informatique devrait être capable de réaliser un programme qui pourrait systématiquement résoudre le jeu.
Or les modèles les plus récents comme Claude peinent déjà à résoudre le problème avec 7 disques — atteignant moins de 80 % de précision — et sont pratiquement incapables de réussir avec 8 disques.
Apple a constaté que même le très apprécié o3-min (high) ne faisait pas mieux et a observé des résultats similaires sur plusieurs autres tâches.
Il est véritablement embarrassant que les LLMs ne parviennent toujours pas à résoudre de façon fiable un problème aussi trivial que la tour de Hanoï. Et ce, alors qu’il existe de nombreuses bibliothèques de code source disponibles gratuitement sur le web !
- Qu’est-ce que cela dit de l’intelligence des LLMs ?
(GM) - Si l’on ne peut pas utiliser un système d’IA à plusieurs milliards de dollars pour résoudre un problème que Herbert Simon — l’un des véritables " pères fondateurs " de l’IA — a résolu dès 1957 et que des étudiants de première année en intelligence artificielle résolvent sans problème alors la probabilité que des modèles comme Claude ou o3 atteignent un jour l’intelligence artificielle générale (AGI) paraît — au mieux — très éloignée.
L’un des coauteurs de la recherche, Iman Mirzadeh, a attiré mon attention sur la section 4.4 de l’article
Les chercheurs avaient fourni l’algorithme de solution au modèle qui n’avait plus qu’à suivre les étapes pour résoudre le problème. Or même dans ce contexte, ses performances ne s’étaient pas améliorées. Il a commenté ce paradoxe ainsi : " Notre argument n’est donc pas : ‘Les humains n’ont pas de limites, mais les modèles de raisonnement linguistique (LRMs) en ont, donc ils ne sont pas intelligents’. Mais plutôt : ‘ce que l’on observe de leur raisonnement ne ressemble ni à un processus logique, ni à une forme d’intelligence’ ".
- Vous dites avoir remarqué un point critique dans l’article, lequel ?
(GM) - Il s’agit d’une faiblesse qui a été bien exposée par un compte anonyme sur X — ce qui, en général, n’est pas une source réputée pour ses bons arguments…
Elle est la suivante : les humains ordinaires présentent eux aussi un certain nombre de limites, qui ressemblent à celles mises en évidence par l’équipe d’Apple pour les LLMs. Beaucoup de personnes — pas toutes — se trompent en essayant de résoudre des versions de la tour de Hanoï avec 8 disques.
Mais justement, nous avons une réponse à cette faille. Nous avons inventé les ordinateurs — et avant les calculatrices — précisément pour résoudre de manière fiable des problèmes complexes, fastidieux ou de plus ou moins grande ampleur, comme la Tour de Hanoi.
L’objectif de l’AGI ne devrait pas être de répliquer parfaitement l’humain, mais — comme je l’ai souvent moi-même dit — de combiner le meilleur des deux mondes : l’adaptabilité humaine avec la force brute et la fiabilité computationnelle.
- Vous pensez qu’avec les LLMs, on risque de combiner le pire des deux mondes ?
(GM) - La vision que j’ai toujours eue de l’AGI est celle d’un système qui allie les forces humaines et celles de la machine, tout en dépassant les faiblesses humaines. Une AGI incapable de faire une addition correcte ne m’intéresse pas. Et je ne voudrais certainement pas confier l’infrastructure mondiale ou l’avenir de l’humanité à un tel système.
Nous ne voulons pas d’une AGI qui oublie de retenir une unité dans une addition élémentaire sous prétexte que les humains font parfois la même erreur — bonne chance dans ce cas pour obtenir un véritable " alignement " ou " sécurité " sans fiabilité !
Au passage, les modèles comme o3 commettent bien plus souvent des erreurs dues à l’hallucination et peinent lourdement à dessiner des schémas fiables. Ils partagent certaines faiblesses humaines, mais ils sont simplement moins bons sur plusieurs aspects. Et si les humains échouent, c’est souvent par manque de mémoire ; les LLMs, eux, disposent de gigaoctets de mémoire, ils n’ont donc aucune excuse.
- L’enthousiasme autour des LLMs vous semble-t-il détourner l’IA de son véritable potentiel scientifique — celui, notamment, d’une alliance entre raisonnement causal et puissance de calcul ?
(GM) - Ce qui est évident c’est que nous n’allons pas " extraire le cône de lumière " de la Terre ou " résoudre la physique " quoi que puissent signifier ces déclarations prétentieuses de Sam Altman avec des systèmes incapables de jouer à la Tour de Hanoï avec 8 disques.
Quand on me demande pourquoi — contrairement à ce qu’on dit — j’aime l’IA, et pourquoi je pense que l’IA — mais pas l’IA générative — pourrait, à terme, bénéficier profondément à l’humanité, je cite toujours le potentiel de progrès scientifiques et technologiques que nous pourrions accomplir si l’on parvenait à combiner les capacités de raisonnement causal de nos meilleurs scientifiques avec la puissance de calcul brut des ordinateurs numériques modernes.
- Quelles seront les conséquences de cette progressive prise de conscience des limites de l’actuelle génération de modèles ?
(GM) - Ce que montre le papier d’Apple, de manière fondamentale — quelle que soit la façon dont on définit l’AGI —, c’est que les LLMs ne sont pas un substitut aux bons algorithmes conventionnels bien spécifiés.
Les LLMs ne savent pas jouer aux échecs aussi bien que les algorithmes classiques, ne peuvent pas replier des protéines aussi efficacement que certains hybrides neurosymboliques spécialisés, ne gèrent pas les bases de données aussi bien que les moteurs conçus pour cela… Dans le meilleur des cas — qui n’est pas toujours atteint —, ils peuvent écrire du code Python, en s’appuyant sur des blocs de code symboliques externes pour compenser leurs propres faiblesses — mais même cela n’est pas fiable.
La principale conséquence pour les entreprises et la société que je vois est la suivante : on ne peut pas simplement " brancher " o3 ou Claude sur un problème complexe et s’attendre à ce que cela fonctionne de manière robuste.
- Ne cherche-t-on pas à se rassurer ? L’usage des LLMs n’a jamais été aussi grand. Plus de personnes utilisent désormais ChatGPT que Wikipedia…
(GM) - Comme le montre le dernier article d’Apple, les LLMs peuvent très bien réussir sur un jeu de tests simple — comme la Tour de Hanoï à 4 disques —, et vous donner l’illusion d’avoir appris une solution généralisable, alors que ce n’est pas du tout le cas.
Au moins pour la prochaine décennie, les LLMs — avec ou sans " raisonnement " au moment de l’inférence — continueront d’être utiles, notamment pour le code, le brainstorming et la rédaction de textes. Et comme, me le disait récemment Rao : " Le fait que les LLMs/LRMs n’apprennent pas de manière fiable un seul algorithme sous-jacent n’est pas un obstacle absolu à leur utilisation. Je vois les LRMs comme des systèmes qui apprennent à approximer le déroulement d’un algorithme en allongeant progressivement le raisonnement à l’inférence. " Dans certains contextes, cela suffit. Dans d’autres, non.
Mais toute personne qui pense que les LLMs représentent un chemin direct vers une AGI capable de transformer radicalement la société pour le bien commun se berce d’illusions.
- Cela ne signifie pas que les réseaux neuronaux sont morts, ni que le deep learning est arrivé à sa fin.
(GM) -Les LLMs ne sont qu’une forme possible de deep learning, et peut-être que d’autres — en particulier ceux qui collaborent mieux avec des représentations symboliques — s’en sortiront mieux à l’avenir. Le temps le dira.
Mais cette approche actuelle a des limites qui deviennent chaque jour plus évidentes.
L’IA ne se heurte pas à un mur.
Mais les LLMs, probablement si — ou du moins ils atteignent un point de rendements décroissants.
Nous avons besoin de nouvelles approches, et de diversifier les voies qui sont explorées activement.
Auteur:
Info: https://legrandcontinent.eu/, 10 juin 2025, Gary Marcus interviewé par Victor Storchan
Commentaires: 0