🏥 Cas clinique qui interpelle

Un patient consulte pour une faiblesse musculaire à l’abduction de l’épaule gauche, sans traumatisme. Un test révèle une asymétrie nerveuse. L’EMG et l’IRM orientent vers une neuropathie compressive du nerf suprascapulaire — très loin de l’hypothèse initiale de coiffe des rotateurs.

Votre hypothèse glisse. Vous ajustez. Vous remettez en question.

👉 Et si un modèle d’IA vous assistait ? Saura-t-il adapter son jugement à mesure que les informations arrivent… ou persistera-t-il dans une voie erronée ?

C’est précisément ce que le test de concordance de script (TCS) permet de mesurer. Cette étude lève le voile sur les forces et les limites des LLM face à l’incertitude clinique.

⚡ Highlights

🤖Les LLM échouent à reproduire la flexibilité de raisonnement des cliniciens en situation d’incertitude
🏆Le modèle o3 d’OpenAI surpasse les autres, mais reste sous le niveau des médecins seniors
⚠️Les modèles optimisés pour le raisonnement font preuve d’excès de confiance — moins bons en réalité
🧪Le TCS se révèle comme un benchmark clinique fiable et nuancé pour évaluer les IA médicales

📖 Introduction

Les LLM ont impressionné sur les QCM médicaux et les examens d’autorisation d’exercer. Mais ces tests mesurent surtout la capacité à restituer des faits — pas à raisonner.

Le raisonnement clinique réel est un processus fluide, contextuel, incertain. Un clinicien adapte en permanence ses jugements en fonction de signaux parfois contradictoires. Peu de benchmarks actuels capturent cette dynamique.

L’étude de McCoy et al. (NEJM AI, 2025) propose une mesure inédite : la capacité des LLM à ajuster leur raisonnement à mesure que les données arrivent — et à se positionner dans l’incertitude.

🔬 Le TCS — Le test qui change tout

🧠 Comment fonctionne le Test de Concordance de Script (TCS)

Étape 1

Une situation clinique est présentée

Étape 2

Une hypothèse diagnostique ou thérapeutique est proposée

Étape 3

Une nouvelle donnée arrive — renforce-t-elle ou affaiblit-elle l’hypothèse ?

Score

Noté par concordance avec un panel d’experts cliniciens

🔬 Méthodologie

750
questions TCS analysées
10
bases de données internationales
10
LLM comparés (GPT-4o, o3, Claude 3.5, Gemini…)
1 563
participants humains (étudiants, internes, médecins)

📊 Résultats — Le classement et ses enseignements

Modèle / GroupeScore TCSNiveau
👑 Médecins seniors
Référence
Humain expert
🤖 OpenAI o3
67,8 %
Meilleur LLM
🤖 GPT-4o
63,9 %
2e LLM
👤 Internes / Résidents
~60–64 %
Niveau intermédiaire
👤 Étudiants
~53–57 %
Niveau débutant

1 Des performances en demi-teinte

Le modèle o3 surpasse les étudiants, mais reste derrière les résidents seniors. Les modèles optimisés pour le raisonnement (o1-preview, DeepSeek, Gemini 2.5) font souvent moins bien que prévu.

2 Une surconfiance manifeste

Tous les modèles tendent à surutiliser les réponses extrêmes (±2) et à ignorer la réponse neutre (0). Signe d’une incapacité à intégrer l’incertitude — pourtant centrale dans le raisonnement clinique réel.

3 Une différence qualitative avec les cliniciens

Les médecins adaptent finement leurs jugements. Les LLM raisonnent par « sauts » logiques, sans nuances. Ils confondent incertitude et contradiction. Leur manque de calibrage probabiliste nuit à leur pertinence clinique.

⚠️

Brillants sur les QCM, les LLM peinent à réagir de façon nuancée face à des données floues. La performance sur les tests standardisés ne prédit pas la pertinence en situation clinique réelle.

🎯 Conclusion

Cette étude révèle les limites actuelles des IA en raisonnement clinique. Le TCS, validé depuis longtemps en pédagogie médicale, fournit une métrique plus fine et plus humaine de la compétence clinique.

Le vrai enjeu : quelles compétences cliniques voulons-nous déléguer à l’IA ? Et comment en évaluer la fiabilité de manière crédible ?


🏥 Les changements à mettre en place au cabinet

  • 1
    Douter de la surperformance affichée

    Un LLM peut briller aux tests standards sans être pertinent en situation réelle. Les scores aux QCM ne préjugent pas du raisonnement en contexte incertain.

  • 2
    Exiger une validation clinique, pas seulement technique

    Avant d’intégrer un outil IA dans votre pratique, demandez : a-t-il été testé sur des situations cliniques réelles, avec incertitude ? Pas seulement sur des QCM standardisés ?

  • 3
    Former vos collègues à interpréter les réponses des IA

    Les modèles IA expriment une fausse certitude dans les situations ambiguës. Apprendre à lire leurs limites est une compétence clinique à part entière.

  • 4
    Favoriser les outils transparents sur leurs limites

    Préférez les outils qui affichent leurs taux d’erreur, leur niveau de validation et leurs incertitudes. La transparence est un critère de sécurité clinique.

  • 5
    Explorer le benchmark public

    Un benchmark ouvert est disponible pour tester les IA médicales en conditions réalistes : concor.dance

💜

Dans TOHA : accédez à des analyses critiques fondées sur les meilleures données actuelles — pas d’hallucinations, pas de probabilités non calibrées, une science rigoureuse pour guider vos décisions cliniques.

🤖

Votre usage de l’IA en clinique repose-t-il sur des outils vraiment validés ?

Accédez à votre espace TOHA pour distinguer performance théorique et impact clinique réel — et intégrer l’IA dans votre pratique avec lucidité.

📚 Référence McCoy et al. Script concordance testing reveals limitations of large language models in clinical reasoning under uncertainty. NEJM AI. September 2025.

Benchmark public : concor.dance