Introduction

J’ai écrit sur l’histoire de l’IA, mais cet article concerne le présent. Un article d’Apple récemment publié, vu aux côtés d’un article plus ancien de Google Research, donne des limites supérieures et inférieures claires de la capacité de “processus de pensée” d’un LLM. Ce cadrage utile de “bornes” aide à comprendre les LLMs et leur application dans l’IA en milieu de travail. C’est quelque chose dont il faut être très conscient lors du choix de la façon d’automatiser les flux de travail.

Jusqu’à la semaine dernière, ma vision des LLMs et du raisonnement pouvait être résumée par cette déclaration :

La sortie des LLMs n’est pas du raisonnement de la façon dont nous raisonnons, ils ont simplement un Flux de Conscience mieux entraîné.

Il semble que nous (spécifiquement Apple) ayons trouvé la limite supérieure de la capacité d’un LLM à “raisonner” sur et résoudre un problème.

Ici, je référencerai deux articles clés, qui agissent comme des bornes à cette période de “Raisonnement Agentique” :

  1. Le premier article, publié en 2023 par Google Research, (Self-Consistency Improves Chain of Thought Reasoning in Language Models) a mis en évidence que générer plusieurs réponses à la demande originale et permettre au LLM de choisir sa réponse préférée produisait des scores plus élevés sur les évaluations.

  2. Le second article, publié ce mois-ci par Apple, (The Illusion of Thinking) a mis en évidence que les modèles sont capables de tâches de complexité faible à moyenne, et ils capitulent sur les tâches de complexité élevée.

Après plus de réflexion sur l’article d’Apple et en le liant à l’article de Google Research, j’aimerais être plus précis :

Les LLMs opèrent à travers une “construction stochastique à capacité limitée” plutôt qu’un raisonnement causal. Plutôt que du raisonnement, la sortie peut être appelée Flux de Conscience Agentique.

Articles encadrant un Flux de Conscience Agentique

Définitions Fondamentales : Le Paysage Cognitif

En m’appuyant sur l’approche de mon [Série IA 4/n] Une Grande Question : Pourquoi Étudier la Logique dans un Monde d’IA Probabiliste ?, voici les termes clés que nous devons comprendre :

Flux de Conscience

Ce que la Psychologie Appelle la Métaphore du ‘Flux de Conscience’

Wikipedia a cette belle définition :

La métaphore “flux de conscience” suggère comment les pensées semblent couler à travers l’esprit conscient. Les études de recherche ont montré que les humains n’expérimentent qu’un événement mental à la fois, comme un flux mental rapide. La gamme complète des pensées dont on peut être conscient forme le contenu de ce “flux”.

Je pense qu’il est important de dire qu’à aucun moment je ne suggère que les LLMs ont les mêmes mécanismes sous-jacents qu’un cerveau. Ils ne les ont pas. C’est des mathématiques et du silicium. Ils ont une merveilleuse capacité à connecter des concepts dans un flux cohérent.

William James a inventé le terme dans son livre de 1890 The Principles of Psychology.

Le flux de conscience est sans doute la métaphore psychologique la plus célèbre de James. Il a soutenu que la pensée humaine peut être caractérisée comme un flux coulant, ce qui était un concept innovant à l’époque en raison de l’argument précédent selon lequel la pensée humaine était plutôt comme une chaîne distincte. Il croyait aussi que les humains ne peuvent jamais expérimenter exactement la même pensée ou idée plus d’une fois. En plus de cela, il voyait la conscience comme complètement continue.

Soutien pour la Métaphore du ‘Flux de Conscience’ dans le Contexte des LLMs

Il y a des propriétés similaires entre cette définition du flux de conscience humain et l’inférence d’un LLM donnée une entrée (prompt). Je vois beaucoup de connexions de bon sens. L’article récent d’Edward Y. Chang The Unified Cognitive Consciousness Theory for Language Models: Anchoring Semantics, Thresholds of Activation, and Emergent Reasoning introduit l’idée d’une Thèse de Complémentarité Inconscient-Conscient (𝖴𝖢𝖢𝖳). Dans laquelle il propose des principes cognitifs et fait des connexions à des idées qui correspondent à la métaphore du “flux de conscience” :

… nous proposons la Thèse de Complémentarité Inconscient-Conscient (𝖴𝖢𝖢𝖳) : les LLMs fonctionnent comme des substrats inconscients, des dépôts de motifs latents, tandis que le comportement intelligent émerge lorsqu’une couche consciente, instanciée via l’incitation ou l’interaction structurée, active sélectivement et aligne ces motifs avec la sémantique pertinente à la tâche.

Où la Métaphore du ‘Flux de Conscience’ Diverge

Comme la conscience humaine, cette continuité peut être quelque peu illusoire, mais contrairement à la conscience humaine, c’est purement une construction stochastique. Un “subconscient” construit via l’apprentissage supervisé, non supervisé et par renforcement.

Chaque inférence d’un LLM est à la fois une nouvelle continuité et un processus potentiellement répétable. J’ai créé det pour vérifier la consistance stochastique des réponses d’un LLM. Il montre que certains LLMs produisent des sorties répétables, que chaque flux peut être une répétition d’un précédent “flux de conscience” et produire exactement la même “pensée” ou “idée”.

Il y a des changements architecturaux (par exemple, Mixture of Experts, température plus élevée pour sélectionner parmi plus que le token le plus probable) qui ajouteront de la randomité dans le processus. Cela soutient toujours la métaphore des réponses étant un flux de conscience des LLMs, cependant cela met en évidence les différences structurelles sous-jacentes et les connaissances que nous avons des LLMs.

Stochastique vs. Probabiliste vs. Statistique

Je préfère “stochastique” aux alternatives parce que cela capture la nature temporelle et orientée processus de la génération LLM :

  • Stochastique : Décrit les processus qui évoluent dans le temps avec une randomité inhérente.
  • Probabiliste : Concerne l’utilisation de distributions de probabilité pour quantifier les résultats. Peut facilement être mal interprété, c’est-à-dire qu’une vue bayésienne est prise cependant le lecteur a une vue fréquentiste de la Probabilité.
  • Statistique : Concerne l’analyse des données observées pour tirer des conclusions. Regardant vers l’arrière plutôt que génératif.

Réseaux de Neurones : Substrats Computationnels

Les réseaux de neurones sont des approximateurs de fonction computationnels - ils “approximent les fonctions non linéaires” à travers des compositions en couches de sommes pondérées et de fonctions d’activation non linéaires. Crucialement :

  • Phase d’entraînement : Stochastique (initialisation aléatoire, descente de gradient stochastique)
  • Post-entraînement : Déterministe (même entrée → même distribution de sortie)
  • Pendant la génération : Peut être stochastique (à travers des mécanismes d’échantillonnage)

Apprentissage par Cœur vs. Raisonnement Causal

Apprentissage par Cœur : Comme mon analogie d’un étudiant qui a mémorisé les tables de multiplication jusqu’à 12 mais est bloqué quand on lui demande 2 × 13 - il “n’a jamais appris au-delà de 12 et ne connaît pas la réponse.”

Raisonnement Causal : Comprendre pourquoi quelque chose est vrai ou comment une solution est dérivée, pas seulement quelle est la réponse. La capacité à décomposer les problèmes et généraliser des motifs spécifiques aux règles plus larges.

La Distinction Clé : Construction Stochastique vs. Causale

C’est le cœur : les LLMs opèrent à travers une “construction stochastique à capacité limitée” plutôt qu’un raisonnement causal. Ils sont des générateurs sophistiqués qui créent des séquences plausibles, pas des systèmes qui comprennent les relations causales sous-jacentes.

Les Preuves : Ce que la Recherche Montre

La recherche d’Apple fournit des preuves convaincantes à travers des environnements de puzzle contrôlés, révélant trois régimes de performance distincts :

Les Trois Régimes de Performance

Niveau de Complexité LLMs Standard Grands Modèles de Raisonnement Découverte Clé
Faible (1-3 disques) Haute précision (>80%) Modérée (<80%) Les LLMs standard surpassent souvent les LRMs
Moyenne (4-7 disques) Déclinante (<50%) Modérée-Haute (>50%) Les LRMs montrent un avantage clair
Élevée (≥8 disques) Près de Zéro Près de Zéro Les deux s’effondrent complètement

Effondrement Complet de la Précision

Au-delà de certains seuils de complexité, même les Grands Modèles de Raisonnement de pointe font face à un “effondrement complet de la précision” - la performance tombe à zéro indépendamment du modèle ou du type de puzzle. Ce n’est pas un problème de données d’entraînement ; les puzzles sont conçus avec des “structures logiques cohérentes” où seule la complexité augmente.

“Abandon” Contre-intuitif

De manière la plus révélatrice, à mesure que la complexité du problème augmente, les LRMs génèrent initialement plus de tokens (“pensée” apparente), mais en approchant de leur point d’effondrement, ils réduisent leur effort malgré avoir des budgets de tokens adéquats. Cela suggère qu’ils “abandonnent” plutôt que de s’adapter stratégiquement.

Échec avec les Algorithmes Explicites

Même lorsqu’ils reçoivent des algorithmes récursifs explicites (comme la solution des Tours de Hanoï), les modèles s’effondrent toujours aux mêmes seuils de complexité. S’ils pouvaient vraiment “raisonner”, exécuter un algorithme donné devrait être plus facile que d’en dériver un.

Le Phénomène de “Surréflexion”

Pour les problèmes plus simples, les LRMs identifient souvent des solutions correctes tôt mais continuent ensuite à explorer des alternatives incorrectes. Ce n’est pas de la délibération stratégique mais plutôt la continuation d’un “flux” qui privilégie la génération de séquences plausibles sur la résolution efficace de problèmes.

La Nuance : Élargir l’Horizon du “Raisonnement”

L’histoire n’est pas simplement “les LLMs ne peuvent pas raisonner.” La Recherche de Google démontre que quelque chose ressemblant au raisonnement se produit, créant ce que je vois comme une “borne” convaincante de recherche lorsque jumelée avec celle d’Apple.

Auto-Cohérence : La Borne Inférieure

L’Auto-Cohérence montre comment exploiter stratégiquement la nature stochastique des LLMs, et lui demander de s’auto-évaluer, peut améliorer dramatiquement la performance :

  • Chemins de Raisonnement Divers : Au lieu du décodage glouton, échantillonner plusieurs “flux de conscience” en utilisant des températures plus élevées
  • Agrégation : Utiliser le vote majoritaire pour trouver la réponse la plus cohérente à travers des chemins divers
  • Résultats Remarquables : +17,9% d’amélioration sur GSM8K, +11,0% sur SVAMP

Cela imite la résolution de problèmes humains où “plusieurs façons différentes de penser mènent à la même réponse, on a une plus grande confiance que la réponse finale est correcte.”

Crucialement, c’est toujours de la génération stochastique - juste déployée plus stratégiquement. L’article note que “les processus de raisonnement corrects, même s’ils sont divers, tendent à avoir un plus grand accord dans leur réponse finale que les processus incorrects.”

Recherche d’Apple : La Borne Supérieure

Les découvertes d’Apple définissent les limites fondamentales même de ces approches sophistiquées :

  • Effondrement complet au-delà de certaines complexités
  • Échec à bénéficier des algorithmes explicites
  • Réduction contre-intuitive de l’effort de “pensée”
  • Performance incohérente à travers les types de puzzles

Le Cadrage des Bornes

L’Auto-Cohérence démontre le début du raisonnement apparent - comment l’échantillonnage intelligent et l’agrégation peuvent pousser la construction stochastique à des hauteurs impressionnantes.

La recherche d’Apple révèle le plafond de cette approche - où même les méthodes stochastiques les plus sophistiquées frappent des murs fondamentaux.

Ensemble, ils définissent les frontières de ce que les “constructeurs stochastiques à capacité limitée” peuvent accomplir.

Théorie : Les LLMs comme Constructeurs Stochastiques à Capacité Limitée

Les preuves soutiennent voir les LLMs comme des générateurs stochastiques sophistiqués plutôt que des systèmes de raisonnement :

Pourquoi “Correspondance de Motifs” Sous-estime la Complexité

Les LLMs ne font pas simplement correspondre des motifs statiques. Ils sont des systèmes dynamiques qui génèrent des séquences contextuellement appropriées à travers des distributions de probabilité apprises dans un espace sémantique haute dimension. Le concept de “flux de conscience mieux entraîné” capture cela - ils sont entraînés à produire des flux de plus en plus sophistiqués et contextuellement pertinents.

Le Cadre Bayésien

J’aime penser aux LLMs comme des “séries de distributions de probabilité superposées.” Chaque couche crée une croyance subjective (au sens bayésien) basée sur l’entrée, et ces croyances se combinent pour générer une sortie cohérente. Mais la cohérence n’égale pas la compréhension causale.

Réseaux de Neurones comme Substrats

Les réseaux de neurones fournissent le substrat computationnel pour cette génération stochastique. Ils sont des approximateurs de fonction déterministes qui, lorsque combinés avec des mécanismes d’échantillonnage, deviennent des constructeurs stochastiques. La “capacité limitée” vient de leur espace de paramètres fini et de leur distribution d’entraînement.

La Métaphore du Flux

Comme le flux de conscience de James, la génération LLM coule continuellement, créant une progression logique apparente. Mais comme la recherche d’Apple le montre, lorsque le flux rencontre une complexité de problème élevée, il ne s’adapte pas stratégiquement - il échoue complètement, voire abandonne.

Les Grandes Questions

Ce cadrage soulève des questions fondamentales sur le développement de l’IA et nos attentes :

La Question Originale

“Comment résout-il des choses en dehors de ses données sources et de son entraînement ?”

Les preuves suggèrent que il ne le fait pas. Lorsque les problèmes dévient suffisamment des motifs d’entraînement, même les systèmes sophistiqués s’effondrent entièrement.

Implications pour l’AGI

Si les systèmes actuels sont des constructeurs stochastiques sophistiqués plutôt que des moteurs de raisonnement, que signifie cela pour le développement de l’AGI ? Mettons-nous à l’échelle le mauvais paradigme, ou ces systèmes sont-ils des tremplins vers quelque chose de genuinement différent ?

La Question de Déploiement Commercial

Comprendre les LLMs comme des “constructeurs stochastiques à capacité limitée” a des implications pratiques. Nous devrions les déployer là où la génération de motifs sophistiquée est précieuse tout en étant réaliste sur leurs limitations fondamentales.

Si vous créez un système Agentique, assurez-vous d’avoir une supervision humaine pour les tâches complexes. Adaptez vos prompts pour que les LLMs offrent un aperçu potentiel des connexions de données, plutôt que des solutions. Utilisez-les dans le but de décomposer le problème en une série de tâches moins complexes, ayez toujours une supervision humaine sur cette partie du processus.

La Méta-Question

Peut-être le plus important : Posons-nous les bonnes questions sur l’intelligence ? Le cadrage des bornes suggère que ces systèmes occupent un terrain moyen fascinant - trop sophistiqués pour être écartés comme simple correspondance de motifs, trop limités pour être appelés raisonnement véritable.

La réponse importe non seulement pour le développement de l’IA, mais pour comment nous comprenons l’intelligence elle-même.

Conclusion

Dans cet article, nous avons examiné deux articles clés, le travail d’Auto-Cohérence de Google et ‘Illusion of Thinking’ d’Apple, et montré qu’ils fournissent des bornes critiques pour comprendre les LLMs. Ils montrent que ces modèles sont des ‘constructeurs stochastiques à capacité limitée’ qui génèrent un ‘Flux de Conscience Agentique.’ Bien que remarquablement adeptes à imiter le raisonnement dans certaines limites, ils s’effondrent constamment face aux demandes de raisonnement causal véritable ou aux problèmes dépassant leur complexité inhérente.

Pour les entreprises et les développeurs d’IA, cette compréhension se traduit directement en stratégies de déploiement plus intelligentes. Les LLMs excellent lorsqu’ils sont utilisés pour résoudre des problèmes qui sont, relativement aux données d’entraînement, de complexité faible ou moyenne. Cependant, il est important d’éviter l’Illusion stochastique et de voir du raisonnement là où il n’y en a pas. Ils ne raisonnent pas causalement, et ne surmonteront pas les limitations fondamentales avec plus de ’temps de réflexion’. Une supervision humaine est requise.

La question plus large demeure : peut-on créer un système qui effectue un raisonnement causal (ce que certains appellent AGI) ? Les preuves suggèrent que les systèmes actuels ne le peuvent pas, cependant en regardant profondément nous pouvons voir ce qu’il ne fait pas aussi bien que ce qu’il fait. Un grand avantage de cela est qu’ils nous donnent des outils capables tout en nous enseignant ce que le raisonnement nécessite réellement.


Cette exploration s’appuie sur mon investigation de la Série IA sur les fondements de l’IA et mes réflexions antérieures sur le raisonnement LLM. Le voyage continue alors que nous essayons de comprendre ce que ces systèmes remarquables mais limités font réellement.