IA et raisonnement clinique : ce que le TCS révèle vraiment sur les LLM
McCoy et al., NEJM AI, septembre 2025 · 750 questions TCS · 10 LLM comparés
Un patient consulte pour une faiblesse musculaire à l’abduction de l’épaule gauche, sans traumatisme. Un test révèle une asymétrie nerveuse. L’EMG et l’IRM orientent vers une neuropathie compressive du nerf suprascapulaire — très loin de l’hypothèse initiale de coiffe des rotateurs.
Votre hypothèse glisse. Vous ajustez. Vous remettez en question.
C’est précisément ce que le test de concordance de script (TCS) permet de mesurer. Cette étude lève le voile sur les forces et les limites des LLM face à l’incertitude clinique.
⚡ Highlights
📖 Introduction
Les LLM ont impressionné sur les QCM médicaux et les examens d’autorisation d’exercer. Mais ces tests mesurent surtout la capacité à restituer des faits — pas à raisonner.
Le raisonnement clinique réel est un processus fluide, contextuel, incertain. Un clinicien adapte en permanence ses jugements en fonction de signaux parfois contradictoires. Peu de benchmarks actuels capturent cette dynamique.
L’étude de McCoy et al. (NEJM AI, 2025) propose une mesure inédite : la capacité des LLM à ajuster leur raisonnement à mesure que les données arrivent — et à se positionner dans l’incertitude.
🔬 Le TCS — Le test qui change tout
🧠 Comment fonctionne le Test de Concordance de Script (TCS)
Une situation clinique est présentée
Une hypothèse diagnostique ou thérapeutique est proposée
Une nouvelle donnée arrive — renforce-t-elle ou affaiblit-elle l’hypothèse ?
Noté par concordance avec un panel d’experts cliniciens
🔬 Méthodologie
📊 Résultats — Le classement et ses enseignements
| Modèle / Groupe | Score TCS | Niveau |
|---|---|---|
| 👑 Médecins seniors | Référence |
Humain expert |
| 🤖 OpenAI o3 | 67,8 % |
Meilleur LLM |
| 🤖 GPT-4o | 63,9 % |
2e LLM |
| 👤 Internes / Résidents | ~60–64 % |
Niveau intermédiaire |
| 👤 Étudiants | ~53–57 % |
Niveau débutant |
1 Des performances en demi-teinte
Le modèle o3 surpasse les étudiants, mais reste derrière les résidents seniors. Les modèles optimisés pour le raisonnement (o1-preview, DeepSeek, Gemini 2.5) font souvent moins bien que prévu.
2 Une surconfiance manifeste
Tous les modèles tendent à surutiliser les réponses extrêmes (±2) et à ignorer la réponse neutre (0). Signe d’une incapacité à intégrer l’incertitude — pourtant centrale dans le raisonnement clinique réel.
3 Une différence qualitative avec les cliniciens
Les médecins adaptent finement leurs jugements. Les LLM raisonnent par « sauts » logiques, sans nuances. Ils confondent incertitude et contradiction. Leur manque de calibrage probabiliste nuit à leur pertinence clinique.
Brillants sur les QCM, les LLM peinent à réagir de façon nuancée face à des données floues. La performance sur les tests standardisés ne prédit pas la pertinence en situation clinique réelle.
🎯 Conclusion
Cette étude révèle les limites actuelles des IA en raisonnement clinique. Le TCS, validé depuis longtemps en pédagogie médicale, fournit une métrique plus fine et plus humaine de la compétence clinique.
Le vrai enjeu : quelles compétences cliniques voulons-nous déléguer à l’IA ? Et comment en évaluer la fiabilité de manière crédible ?
🏥 Les changements à mettre en place au cabinet
-
1
Douter de la surperformance affichée
Un LLM peut briller aux tests standards sans être pertinent en situation réelle. Les scores aux QCM ne préjugent pas du raisonnement en contexte incertain.
-
2
Exiger une validation clinique, pas seulement technique
Avant d’intégrer un outil IA dans votre pratique, demandez : a-t-il été testé sur des situations cliniques réelles, avec incertitude ? Pas seulement sur des QCM standardisés ?
-
3
Former vos collègues à interpréter les réponses des IA
Les modèles IA expriment une fausse certitude dans les situations ambiguës. Apprendre à lire leurs limites est une compétence clinique à part entière.
-
4
Favoriser les outils transparents sur leurs limites
Préférez les outils qui affichent leurs taux d’erreur, leur niveau de validation et leurs incertitudes. La transparence est un critère de sécurité clinique.
-
5
Explorer le benchmark public
Un benchmark ouvert est disponible pour tester les IA médicales en conditions réalistes : concor.dance
Dans TOHA : accédez à des analyses critiques fondées sur les meilleures données actuelles — pas d’hallucinations, pas de probabilités non calibrées, une science rigoureuse pour guider vos décisions cliniques.
Votre usage de l’IA en clinique repose-t-il sur des outils vraiment validés ?
Accédez à votre espace TOHA pour distinguer performance théorique et impact clinique réel — et intégrer l’IA dans votre pratique avec lucidité.
Benchmark public : concor.dance



