• Accueil
  • Toha, c’est quoi ?
  • Blog
  • Les Tohatiens
  • Nos tarifs
  • Contact
Commencer

Les modèles d’IA brillent aux QCM médicaux… mais que valent-ils face à l’incertitude réelle d’une consultation clinique ?

Posté le 17 octobre 2025

🏛️ Un cas clinique qui interpelle

Un patient consulte pour une faiblesse musculaire à l’abduction de l’épaule gauche, apparue progressivement et sans traumatisme. Les amplitudes sont diminuées, sans douleur marquée. Vous suspectez une atteinte de la coiffe des rotateurs, mais un test de rotation externe révèle une asymétrie nerveuse. Un EMG est demandé, puis une IRM montre une atteinte partielle du nerf suprascapulaire.

Votre hypothèse initiale glisse d’une lésion musculo-tendineuse vers une neuropathie compressive. Vous ajustez votre plan de traitement, mobilisez des techniques neurodynamiques, revoyez les exercices.

Et si un modèle d’IA vous assistait dans cette démarche ? Saura-t-il adapter son jugement à mesure que les informations arrivent, ou persistera-t-il dans une voie erronée ?

C’est précisément ce que le test de concordance de script (TCS) permet de mesurer. L’étude que nous décryptons aujourd’hui lève le voile sur les forces et les limites des Larges Languages Models (LLM) face à l’incertitude clinique.


🔹 Points clés (Highlights)

  • Les LLM échouent à reproduire la flexibilité de raisonnement des cliniciens en situation d’incertitude.
  • Le modèle o3 d’OpenAI surpasse les autres, mais reste sous le niveau des médecins seniors.
  • Les modèles optimisés pour le raisonnement font preuve d’excès de confiance.
  • Le test de concordance de script (TCS) se révèle comme un benchmark clinique fiable et nuancé.
  • Un benchmark public est maintenant disponible pour tester les IA médicales en condition réaliste.

🔍 Introduction

Les grands modèles de langage (LLM) ont marqué une avancée majeure dans le traitement automatique du langage naturel, franchissant avec brio des épreuves standardisées comme les QCM médicaux, les examens d’autorisation d’exercer, ou encore des jeux de questions-réponses cliniques. Ces performances ont généré un enthousiasme sans précédent autour de leur potentiel à transformer la pratique clinique — transcription automatique, synthèse de dossiers, assistance à la décision médicale…

Mais ces tests ont un biais fondamental : ils mesurent surtout la capacité d’un modèle à restituer des faits déjà vus ou encodés. Or, le raisonnement clinique — le vrai — ne se résume pas à un catalogue de savoirs. Il s’agit d’un processus fluide, contextuel, incertain. Un raisonnement probabiliste qui évolue à chaque nouvelle information. En situation réelle, les cliniciens adaptent en permanence leurs jugements en fonction de signaux parfois contradictoires, d’hypothèses concurrentes, d’une part d’intuition. Peu de benchmarks actuels sont capables de capturer cette dynamique.

Dans ce contexte, l’étude menée par McCoy et coll. (NEJM AI, septembre 2025) marque une étape clé. En s’appuyant sur un outil d’évaluation issu de la pédagogie médicale, le test de concordance de script (SCT), elle propose une mesure inédite : la capacité des LLM à ajuster leur raisonnement à mesure que les données arrivent, et à se positionner dans l’incertitude. Le SCT, validé de longue date pour évaluer les cliniciens en formation, devient ici un prisme rigoureux pour interroger la pertinence des IA en santé réelle.

Ce changement de paradigme ne vise pas à désavouer les progrès techniques, mais à mieux les contextualiser. Il permet d’ouvrir un débat crucial : quelles compétences cliniques voulons-nous déléguer à l’IA ? Et comment en évaluer la fiabilité de manière crédible ?


📊 Méthode

Le TCS se compose de vignettes cliniques. Une situation, une hypothèse, puis une nouvelle donnée : le modèle doit juger si cela renforce ou affaiblit l’hypothèse. La réponse est notée en fonction d’un panel d’experts (score plein si elle correspond à la réponse modale, score partiel si partagée).

Dans cette étude :

  • 750 questions TCS
  • 10 bases de données internationales
  • Comparaison entre 10 LLM (GPT-4o, o3, Claude 3.5, Gemini, etc.)
  • Échantillons humains : étudiants (n=1070), internes (n=193), médecins (n=300)

Les modèles ont été testés en zéro-coup, few-shot, avec ou sans incitation au raisonnement explicite.


📊 Résultats

Des performances en demi-teinte

Le modèle o3 d’OpenAI obtient les meilleurs résultats (67,8 %) suivi par GPT-4o (63,9 %), devançant les étudiants, mais restant derrière les résidents seniors. Les modèles optimisés pour le raisonnement (o1-preview, DeepSeek, Gemini 2.5) font souvent moins bien.

Une surconfiance manifeste

Tous les modèles tendent à surutiliser les réponses extrêmes (±2) et à ignorer la réponse 0, signe d’une difficulté à intégrer l’incertitude. Le modèle o3 reste le plus équilibré dans sa distribution.

Une différence qualitative avec les cliniciens

Les médecins adaptent finement leurs jugements. Les LLM raisonnent par « sauts » logiques, sans nuances. Les modèles confondent incertitude et contradiction, et leur manque de calibrage probabiliste nuit à leur pertinence clinique.


🤝 Conclusion

Cette étude révèle les limites actuelles des IA en raisonnement clinique. Brillants sur les QCM, les LLM peinent à réagir de façon nuancée face à des données floues. Le SCT, validé depuis longtemps en pédagogie médicale, fournit une métrique plus fine, plus humaine, de la compétence clinique.


🏥 Changements à mettre en place au cabinet

1. Douter de la surperformance affichée : Un LLM peut briller aux tests standards sans être pertinent en situation réelle. Avec TOHA, accédez à des analyses critiques pour distinguer performance théorique et impact clinique.

2. Demander la validation clinique : TOHA vous fournit des outils d’évaluation basés sur les meilleurs données actuelles, pas d’hallucinations, pas de probabilité, vous êtes guidés par la science.

3. Former vos collègues à l’interprétation de l’IA : L’onglet « IA clinique » de TOHA contient des modules pratiques pour apprendre à décrypter les réponses algorithmiques.

4. Participer à la recherche : Grâce à TOHA, contribuez à l’amélioration continue des modèles IA en partageant vos cas cliniques ou en rejoignant notre réseau.

5. Favoriser les outils transparents : TOHA met en avant les modèles qui affichent leurs limites, leurs taux d’erreur, et la qualité de leur validation. Vous gagnez en clarté et en sécurité.


✅ Cliquez ici pour explorer le benchmark : https://concor.dance

✅ Partagez cette analyse avec vos collègues pour une discussion éthique et clinique sur l’usage des modèles IA

Article précédent
Quand le budget décide des soins : les dilemmes silencieux des patients
Article suivant
La prise de notes : un outil que vos patients adorent… à condition d’éviter ces 10 pièges.

Articles récents

  • À la recherche d’une rééducation reproductible après reconstruction du LCA : que nous dit la science ? 5 décembre 2025
  • 🦵 Arthrose du genou : l’exercice n°1 validé par 217 études (vous l’utilisez ?) 28 novembre 2025
  • 7 étapes scientifiques pour transformer l’encadrement de vos stagiaires en clinique – avec TOHA comme allié numérique 21 novembre 2025
  • Avenir de la kiné : 3 niveaux de pratique pour sécuriser votre carrière 14 novembre 2025
  • Ordinateur vs. Papier : L’erreur invisible qui freine vos résultats 31 octobre 2025

Catégories

  • Appel à la communauté (enquête en cours) (1)
  • Astuces et tutoriels (7)
  • Défi relevé (9)
  • Dernières innovations (6)
  • Etudes de cas (34)
  • Etudes terminées (3)
  • La communauté (10)
  • Les fondements (4)
  • Non classé (2)

Vous voulez en savoir plus ?

Starting at only

$2.95

/mo

  • Toha, c’est quoi ?
  • Nos tarifs
  • Politique de confidentialité
  • Mentions légales
  • CGU
  • FAQ
Facebook
LinkedIn
Instagram

Contactez TOHA

Vous devez remplir ce champ
Veuillez saisir une adresse e-mail valide.
Vous devez remplir ce champ
Vous devez remplir ce champ
Gérer le consentement aux cookies
Pour offrir les meilleures expériences, nous utilisons des technologies telles que les cookies pour stocker et/ou accéder aux informations des appareils. Le fait de consentir à ces technologies nous permettra de traiter des données telles que le comportement de navigation ou les ID uniques sur ce site. Le fait de ne pas consentir ou de retirer son consentement peut avoir un effet négatif sur certaines caractéristiques et fonctions.
Fonctionnel Toujours activé
Le stockage ou l’accès technique est strictement nécessaire dans la finalité d’intérêt légitime de permettre l’utilisation d’un service spécifique explicitement demandé par l’abonné ou l’internaute, ou dans le seul but d’effectuer la transmission d’une communication sur un réseau de communications électroniques.
Préférences
Le stockage ou l’accès technique est nécessaire dans la finalité d’intérêt légitime de stocker des préférences qui ne sont pas demandées par l’abonné ou la personne utilisant le service.
Statistiques
Le stockage ou l’accès technique qui est utilisé exclusivement à des fins statistiques. Le stockage ou l’accès technique qui est utilisé exclusivement dans des finalités statistiques anonymes. En l’absence d’une assignation à comparaître, d’une conformité volontaire de la part de votre fournisseur d’accès à internet ou d’enregistrements supplémentaires provenant d’une tierce partie, les informations stockées ou extraites à cette seule fin ne peuvent généralement pas être utilisées pour vous identifier.
Marketing
Le stockage ou l’accès technique est nécessaire pour créer des profils d’internautes afin d’envoyer des publicités, ou pour suivre l’internaute sur un site web ou sur plusieurs sites web ayant des finalités marketing similaires.
  • Gérer les options
  • Gérer les services
  • Gérer {vendor_count} fournisseurs
  • En savoir plus sur ces finalités
Voir les préférences
  • {title}
  • {title}
  • {title}