L'IA est aussi efficace pour diagnostiquer les maladies que les humains

La première revue systématique et méta-analyse de ce type révèle que l'intelligence artificielle (IA) est tout aussi efficace pour diagnostiquer une maladie sur la base d'une image médicale que les professionnels de la santé. Cependant, des études de plus haute qualité sont nécessaires.

L'IA et les professionnels de la santé sont tout aussi efficaces pour diagnostiquer la maladie sur la base de l'imagerie médicale, suggèrent de nouvelles recherches.

Un nouvel article examine les preuves existantes pour tenter de déterminer si l'IA peut diagnostiquer les maladies aussi efficacement que les professionnels de la santé.

À la connaissance des auteurs - c'est-à-dire une vaste équipe de chercheurs dirigée par le professeur Alastair Denniston de l'University Hospitals Birmingham NHS Foundation Trust au Royaume-Uni - il s'agit de la première revue systématique comparant les performances de l'IA avec les professionnels de la santé pour toutes les maladies.

Le professeur Denniston et son équipe ont effectué des recherches dans plusieurs bases de données médicales pour toutes les études publiées entre le 1er janvier 2012 et le 6 juin 2019. L'équipe a publié les résultats de leur analyse dans la revue The Lancet Digital Health.

L'IA au même niveau que les professionnels de la santé

Les chercheurs ont recherché des études comparant l'efficacité diagnostique des algorithmes d'apprentissage profond à celle des professionnels de la santé lorsqu'ils avaient posé un diagnostic basé sur l'imagerie médicale.

Ils ont examiné la qualité des rapports dans ces études, leur valeur clinique et la conception des études.

De plus, pour évaluer les performances diagnostiques de l'IA par rapport à celles des professionnels de la santé, les chercheurs se sont penchés sur deux résultats: la spécificité et la sensibilité.

La «sensibilité» définit la probabilité qu'un outil de diagnostic obtienne un résultat positif chez les personnes atteintes de la maladie. La spécificité fait référence à la précision du test de diagnostic, qui complète la mesure de sensibilité.

Le processus de sélection n'a produit que 14 études dont la qualité était suffisamment élevée pour être incluses dans l'analyse. Le professeur Denniston explique: «Nous avons examiné plus de 20 500 articles, mais moins de 1% d'entre eux étaient suffisamment solides dans leur conception et rapportaient que les examinateurs indépendants avaient une grande confiance dans leurs affirmations.»

"De plus, seules 25 études ont validé les modèles d'IA en externe (en utilisant des images médicales d'une population différente), et seulement 14 études ont comparé les performances de l'IA et des professionnels de la santé en utilisant le même échantillon de test."

«Dans cette poignée d'études de haute qualité, nous avons constaté que l'apprentissage en profondeur pouvait en effet détecter des maladies allant des cancers aux maladies oculaires aussi précisément que les professionnels de la santé. Mais il est important de noter que l’IA n’a pas largement surpassé le diagnostic humain. »

Prof. Alastair Denniston

Plus précisément, l'analyse a révélé que l'IA peut diagnostiquer correctement la maladie dans 87% des cas, tandis que la détection par les professionnels de la santé a donné un taux de précision de 86%. La spécificité des algorithmes d'apprentissage en profondeur était de 93%, contre 91% pour les humains.

Les biais peuvent exagérer les performances de l'IA

Le professeur Denniston et ses collègues attirent également l'attention sur plusieurs limites qu'ils ont trouvées dans les études qui examinent les performances diagnostiques de l'IA.

Premièrement, la plupart des études examinent la précision du diagnostic de l’IA et des professionnels de la santé dans un contexte isolé qui n’imite pas la pratique clinique régulière - par exemple, en privant les médecins d’informations cliniques supplémentaires dont ils auraient généralement besoin pour poser un diagnostic.

Deuxièmement, disent les chercheurs, la plupart des études comparaient uniquement des ensembles de données, alors qu'une recherche de haute qualité sur les performances diagnostiques nécessiterait de faire de telles comparaisons chez les personnes.

En outre, toutes les études ont souffert de rapports médiocres, disent les auteurs, l'analyse ne tenant pas compte des informations manquantes dans lesdits ensembles de données. «La plupart [des études] n'ont pas indiqué si des données manquaient, quelle proportion cela représentait et comment les données manquantes ont été traitées dans l'analyse», écrivent les auteurs.

Les limites supplémentaires incluent une terminologie incohérente, ne fixant pas clairement un seuil pour l'analyse de sensibilité et de spécificité, et le manque de validation hors échantillon.

«Il existe une tension inhérente entre le désir d'utiliser de nouveaux diagnostics potentiellement vitaux et l'impératif de développer des preuves de haute qualité d'une manière qui puisse profiter aux patients et aux systèmes de santé dans la pratique clinique», commente le premier auteur, le Dr Xiaoxuan Liu, du Université de Birmingham.

«Une leçon clé de notre travail est que dans l'IA - comme pour tout autre aspect des soins de santé - une bonne conception des études est importante. Sans cela, vous pouvez facilement introduire des biais qui faussent vos résultats. Ces biais peuvent conduire à des affirmations exagérées de bonnes performances pour les outils d'IA qui ne se traduisent pas dans le monde réel. »

Dr Xiaoxuan Liu

«Les preuves sur la façon dont les algorithmes d'IA changeront les résultats des patients doivent provenir de comparaisons avec des tests de diagnostic alternatifs dans des essais contrôlés randomisés», ajoute la co-auteure Dr Livia Faes du Moorfields Eye Hospital, Londres, Royaume-Uni.

«Jusqu'à présent, il n'y a pratiquement pas d'essais de ce type où les décisions diagnostiques prises par un algorithme d'IA sont appliquées pour voir ce qui arrive ensuite aux résultats qui comptent vraiment pour les patients, comme le traitement en temps opportun, le délai de sortie de l'hôpital ou même les taux de survie.

none:  sécheresse oculaire lymphome arythmie