The friction was the lesson

Schools are adopting AI faster than they can evaluate it. The question isn’t whether it helps or harms — but whether it preserves the friction that installs judgment in the first place.

Schools are adopting AI faster than they can study it — and the question almost everyone asks is the wrong one. “Is AI good or bad for learning?” has no answer, because it isn’t one question. The answerable version is narrower and more uncomfortable: does learning with AI build the judgment that becomes expertise, or quietly dissolve it — and under exactly what conditions does each happen? On that, we are no longer guessing. There are controlled experiments now, and they tell a sharp, specific story.

What judgment is made of

Begin with the mechanism, because the headlines skip it. Expertise — what I’ve elsewhere called taste — is compressed experience: thousands of attempts, errors and corrections, packed down into a fast, wordless sense of what’s right. That compression is not free. It runs on a specific fuel, and learning science has a name for it: desirable difficulty. Robert Bjork’s decades of work show that learning which feels harder — where you struggle to retrieve, to generate, to produce the answer yourself before being told it — yields more durable, more transferable knowledge than smooth, easy study. The generation effect is the cleanest instance: produce an answer yourself and it sticks; read the identical answer and it doesn’t, not nearly as well.

This reframes friction completely. In learning, the struggle is not the obstacle standing in front of the lesson. The struggle is the lesson — it’s the process by which the schema forms. Remove it and you haven’t made learning easier; you’ve removed the part that was doing the work.

The natural experiment

Which is exactly what an unguarded answer-machine does — and we can now watch it happen under controlled conditions. Bastani and colleagues (published in PNAS, 2025) ran the cleanest test I know of: nearly a thousand high-school maths students in Turkey, randomised. One group got a plain GPT-4 assistant during practice; another got a guard-railed “tutor” that gave hints, one step at a time, and never the full solution; a control group got neither. The outcome is the whole article in a single finding. The plain-GPT-4 group did better during practice — and then did worse than the control group on the exam, once the tool was taken away. They had used it as a crutch. The practice score went up; the learning went down.

Sit with the shape of that, because it’s the dangerous one. The harm is invisible in the metric you are watching. Practice performance — what a teacher, a dashboard, a parent sees in the moment — improves. The damage surfaces only later, when the scaffold is gone and the student has to stand alone: the exam, the next course, the job. It is a debt, and like all debts it feels like a gift until it comes due. It’s the same structure as the reward that arrives before the work — the good signal cleanly decoupled from the thing it’s supposed to signal.

FIG. I — Directional, after Bastani et al. (PNAS 2025) and Kestin et al. (2025); the bars show the shape of the findings, not exact scores. Unguarded AI lifts performance during practice — the metric watched in real time — yet leaves students below the no-AI baseline once the tool is removed: the crutch effect. A scaffolded tutor that withholds the answer does the reverse. Same model; the design decides.

The result that rescues it from doom

Here a careful reading splits from a panicked one. The same study found that the guard-railed tutor — the one that withheld the answer and protected the struggle — did not cause the harm, and improved retention. And a Harvard experiment the same year (Kestin and Miller, 194 physics students) found that a well-designed AI tutor, instructed to be brief and to reveal only one step at a time, helped students learn more than twice as much as a traditional active-learning class, in less time. So the variable that decides everything is not the technology. It is a single design choice: does the tool give the answer, or guard the struggle? AI-as-oracle erodes; AI-as-scaffold builds. It is the same model in both arms. The pedagogy is the entire story.

There is even a suggestive neural footnote. An MIT Media Lab study (Kos’myna et al., 2025) put EEG caps on people writing essays with ChatGPT, with a search engine, or with nothing. The ChatGPT group showed the weakest brain connectivity, recalled their own essays least well, and — the unsettling part — the reduced engagement lingered after the tool was taken away. It’s a small study, a preprint, one narrow task; I wouldn’t set policy by it. But it points the same way as the classroom data: offload the generation, and the engagement that builds the schema scales down with it.

Why we will choose the harmful mode anyway

If the scaffold works, this should be easy — build tutors, not answer-machines. We won’t, by default, and the reason is structural. The answer-mode is cheaper to build, faster for the student, scales to any subject, and — fatally — looks better on the only metric schools measure in real time: immediate performance. The tutor-mode is harder to design, slower, frustrating on purpose, and its payoff is invisible for years. Every incentive in the system points at the mode that harms. We will reach for the frictionless tool precisely because it is frictionless — which is the exact failure, since friction was the active ingredient. Schools adopting AI “faster than they can evaluate it” is not a neutral accident: the version easiest to adopt is the version worst to adopt, and you only learn that after the cohort has already passed through.

The objection that has been right before

The strongest counter is historical, with a good record. Socrates warned that writing would destroy memory. Teachers swore calculators would kill arithmetic. Everyone said Google would end knowing things. Each panic was overblown; expertise survived every one. So why is this different — or is it simply my turn to be the old man shouting at a new tool?

Here is the disanalogy, and I think it holds. Every one of those tools offloaded a lower rung: storage, or computation. Writing offloaded memory; the calculator offloaded arithmetic; the search engine offloaded recall. In each case the reasoning — deciding what to remember, which calculation to run, what the answer means — stayed with the human. The calculator never chose which equation to write. The language model does. It is the first tool that offloads the generative reasoning and the judgment itself — the top rung, the one that was the expertise. Offloading storage made us faster thinkers. Offloading the thinking is a different transaction, and the very analogy that reassured us about calculators is the one that should worry us here.

Where I land

So both halves of the slogan are true at once, which is why it’s a real debate and not a slogan. AI in education is a genuine access tool — the Harvard and tutor results are real, and a patient one-to-one tutor for every child is something humanity has wanted for centuries. And it is a genuine branch-saw — the crutch effect is real, and it cuts at the root, in school, before anyone has the judgment to notice the branch is being removed. Which one we get is not decided by the technology. It is decided by whether we have the discipline to ship the harder, slower, struggle-preserving version when the easy one is right there and tests better this quarter.

I won’t pretend we have the twenty-year data; we don’t, and anyone claiming certainty in either direction is selling something. But “we’ll find out in two decades” is not a neutral stance — it means running an unmeasured experiment on a whole generation and calling the absence of evidence reassurance. The honest move isn’t to ban the tool or to cheer it. It’s to change the question we ask of every AI that walks into a classroom. Not did the score go up? — it will, that’s the trap — but: did the struggle survive? Because the struggle was never the obstacle to the learning. The struggle was the learning.

Les écoles adoptent l’IA plus vite qu’elles ne l’étudient — et la question que presque tout le monde pose est la mauvaise. « L’IA est-elle bonne ou mauvaise pour l’apprentissage ? » n’a pas de réponse, parce que ce n’est pas une seule question. La version qui se répond est plus étroite et plus inconfortable : apprendre avec l’IA construit-il le jugement qui devient expertise, ou le dissout-il en silence — et à quelles conditions exactement l’un ou l’autre se produit ? Là-dessus, on ne devine plus. Il existe désormais des essais contrôlés, et ils racontent une histoire nette et précise.

De quoi le jugement est fait

Commençons par le mécanisme, que les gros titres sautent. L’expertise — ce que j’ai appelé ailleurs le goût — est de l’expérience compressée : des milliers de tentatives, d’erreurs et de corrections, tassées en un sens rapide et sans mots de ce qui est juste. Cette compression n’est pas gratuite. Elle tourne à un carburant précis, et la science de l’apprentissage lui a donné un nom : la difficulté désirable. Les décennies de travaux de Robert Bjork montrent qu’un apprentissage qui semble plus dur — où l’on peine à récupérer, à générer, à produire soi-même la réponse avant qu’on ne vous la donne — produit un savoir plus durable et plus transférable qu’une étude lisse et facile. L’effet de génération en est le cas le plus net : produisez vous-même une réponse et elle tient ; lisez la même réponse et elle ne tient pas, loin de là.

Cela recadre entièrement la friction. Dans l’apprentissage, l’effort n’est pas l’obstacle planté devant la leçon. L’effort est la leçon — c’est le processus par lequel le schéma se forme. Retirez-le et vous n’avez pas rendu l’apprentissage plus facile ; vous avez retiré la part qui faisait le travail.

L’expérience naturelle

C’est exactement ce que fait une machine à réponses sans garde-fou — et on peut désormais l’observer en conditions contrôlées. Bastani et ses collègues (publié dans PNAS, 2025) ont mené le test le plus net que je connaisse : près de mille lycéens en mathématiques en Turquie, tirés au sort. Un groupe a reçu un assistant GPT-4 ordinaire pendant la pratique ; un autre, un « tuteur » bridé qui donnait des indices, un pas à la fois, et jamais la solution complète ; un groupe témoin, rien. Le résultat, c’est tout l’article en une seule trouvaille. Le groupe GPT-4 ordinaire a fait mieux pendant la pratique — puis moins bien que le témoin à l’examen, une fois l’outil retiré. Ils s’en étaient servis comme d’une béquille. Le score de pratique est monté ; l’apprentissage est descendu.

Arrêtez-vous sur cette forme, car c’est la dangereuse. Le dommage est invisible dans la mesure qu’on observe. La performance en pratique — ce qu’un enseignant, un tableau de bord, un parent voit sur le moment — s’améliore. Le mal ne fait surface que plus tard, quand l’échafaudage a disparu et que l’élève doit tenir seul : l’examen, le cours suivant, le métier. C’est une dette, et comme toute dette elle ressemble à un cadeau jusqu’à l’échéance. C’est la même structure que la récompense qui arrive avant le travail — le bon signal proprement détaché de ce qu’il est censé signaler.

FIG. I — Tendance, d’après Bastani et al. (PNAS 2025) et Kestin et al. (2025) ; les barres montrent la forme des résultats, pas des scores exacts. L’IA sans garde-fou élève la performance pendant la pratique — la mesure observée en temps réel — mais laisse les élèves sous la référence sans IA une fois l’outil retiré : l’effet béquille. Un tuteur qui retient la réponse fait l’inverse. Même modèle ; c’est le design qui décide.

Le résultat qui le sauve du catastrophisme

Ici, une lecture soigneuse se sépare d’une lecture paniquée. La même étude a constaté que le tuteur bridé — celui qui retenait la réponse et protégeait l’effort — ne causait pas le dommage, et améliorait la rétention. Et une expérience de Harvard la même année (Kestin et Miller, 194 étudiants en physique) a montré qu’un tuteur IA bien conçu, sommé d’être bref et de ne révéler qu’un pas à la fois, faisait apprendre aux étudiants plus du double, en moins de temps, qu’un cours actif traditionnel. La variable qui décide de tout n’est donc pas la technologie. C’est un unique choix de design : l’outil donne-t-il la réponse, ou protège-t-il l’effort ? L’IA-oracle érode ; l’IA-échafaudage construit. C’est le même modèle dans les deux bras. La pédagogie est toute l’histoire.

Il y a même une note neuronale suggestive. Une étude du MIT Media Lab (Kos’myna et al., 2025) a posé des casques EEG sur des personnes rédigeant des essais avec ChatGPT, avec un moteur de recherche, ou sans rien. Le groupe ChatGPT a montré la connectivité cérébrale la plus faible, se souvenait le moins bien de ses propres essais, et — la part troublante — l’engagement réduit persistait après le retrait de l’outil. C’est une petite étude, un preprint, une tâche étroite ; je n’en ferais pas une politique. Mais elle pointe dans le même sens que les données de classe : déléguez la génération, et l’engagement qui bâtit le schéma décroît avec elle.

Pourquoi on choisira quand même le mode nuisible

Si l’échafaudage marche, ce devrait être simple — bâtir des tuteurs, pas des machines à réponses. On ne le fera pas, par défaut, et la raison est structurelle. Le mode-réponse est moins cher à construire, plus rapide pour l’élève, s’étend à n’importe quelle matière, et — fatalement — paraît meilleur sur la seule mesure que les écoles observent en temps réel : la performance immédiate. Le mode-tuteur est plus dur à concevoir, plus lent, frustrant à dessein, et son bénéfice reste invisible pendant des années. Toutes les incitations du système pointent vers le mode qui nuit. On saisira l’outil sans friction précisément parce qu’il est sans friction — ce qui est l’échec même, puisque la friction était le principe actif. Que les écoles adoptent l’IA « plus vite qu’elles ne l’évaluent » n’est pas un accident neutre : la version la plus facile à adopter est la pire à adopter, et on ne l’apprend qu’une fois la cohorte déjà passée.

L’objection qui a déjà eu raison

Le contre-argument le plus fort est historique, et il a un bon palmarès. Socrate avertissait que l’écriture détruirait la mémoire. Les enseignants juraient que la calculatrice tuerait le calcul. On disait que Google mettrait fin au fait de savoir. Chaque panique était exagérée ; l’expertise a survécu à toutes. Alors pourquoi serait-ce différent — ou est-ce simplement mon tour de jouer le vieux qui crie sur un nouvel outil ?

Voici la dissemblance, et je crois qu’elle tient. Chacun de ces outils déléguait un barreau inférieur : le stockage, ou le calcul. L’écriture déléguait la mémoire ; la calculatrice, l’arithmétique ; le moteur de recherche, le rappel. Dans chaque cas, le raisonnement — décider quoi retenir, quel calcul lancer, ce que la réponse signifie — restait chez l’humain. La calculatrice n’a jamais choisi quelle équation écrire. Le modèle de langage, si. C’est le premier outil qui délègue le raisonnement génératif et le jugement lui-même — le barreau supérieur, celui qui était l’expertise. Déléguer le stockage nous a rendus plus rapides à penser. Déléguer la pensée est une autre transaction, et l’analogie même qui nous rassurait sur la calculatrice est celle qui devrait nous inquiéter ici.

Où je me situe

Les deux moitiés du slogan sont donc vraies à la fois, et c’est pourquoi c’est un vrai débat, pas un slogan. L’IA à l’école est un véritable outil d’accès — les résultats de Harvard et du tuteur sont réels, et un tuteur patient en tête-à-tête pour chaque enfant est une chose que l’humanité désire depuis des siècles. Et c’est une véritable scie à branche — l’effet béquille est réel, et il coupe à la racine, à l’école, avant que quiconque n’ait le jugement de remarquer qu’on retire la branche. Lequel des deux on obtient n’est pas décidé par la technologie. Il est décidé par notre discipline à livrer la version plus dure, plus lente, qui préserve l’effort, quand la facile est là, juste à côté, et teste mieux ce trimestre-ci.

Je ne prétendrai pas qu’on a les données à vingt ans ; on ne les a pas, et quiconque affiche une certitude dans un sens ou l’autre vend quelque chose. Mais « on verra dans deux décennies » n’est pas une posture neutre — cela revient à mener une expérience non mesurée sur toute une génération et à appeler l’absence de preuve une réassurance. Le geste honnête n’est ni d’interdire l’outil ni de l’acclamer. C’est de changer la question qu’on pose à chaque IA qui entre dans une classe. Non pas le score a-t-il monté ? — il montera, c’est le piège — mais : l’effort a-t-il survécu ? Car l’effort n’a jamais été l’obstacle à l’apprentissage. L’effort était l’apprentissage.