Infrastructures

Data Challenge JFR 2019 : l’IA aide à détecter les nodules pulmonaires

Share this post:

IBM France est l’un des trois lauréats du Data Challenge 2019 organisé lors des Journées Francophones de Radiologie. L’équipe d’IBM a su exploiter l’intelligence artificielle afin de détecter les nodules présents sur les images de scanners du poumon.

Les Journées Francophones de Radiologie 2019 (JFR 2019) – la grand-messe de l’imagerie médicale – accueillaient pour la deuxième fois un forum dédié à l’intelligence artificielle ; et un concours, le Data Challenge, centré cette année sur le thème du radiologue augmenté. Objectif : aider les radiologues à faire de meilleurs diagnostics, en leur montrant ce qui leur a échappé ou en détectant des problèmes non recherchés initialement. Le tout au travers de l’utilisation de l’intelligence artificielle (IA).

 

Un concours basé sur des cas réels

Trois épreuves ont été organisées par la Société Française de Radiologie :

  • calcul de la surface des muscles pour la sarcopénie ;
  • prédiction du handicap des patients touchés par la sclérose en plaques ;
  • classification d’images de scanners du poumon suivant la taille des nodules.

C’est ce dernier défi qu’a relevé – et remporté ! – l’équipe Systems d’IBM France. Un domaine où l’apport de l’intelligence artificielle est indéniable et hors de toute polémique, la technologie se mettant ici incontestablement au service de l’humain.

Le prérequis imposé pour ce concours, mais aussi nécessaire à la réussite d’un projet d’intelligence artificielle, était de constituer une équipe comprenant plusieurs profils de compétences ;

  • des data scientists ;
  • des experts venant de sociétés d’imagerie ;
  • un ou plusieurs radiologues ;
  • des étudiants.

IBM Montpellier s’est chargé de fournir les data scientists et de trouver les étudiants. Les sociétés QuantaCell et DataValoris ont apporté leur savoir-faire en imagerie. Un radiologue issu du centre de cancérologie Jean Perrin (Membre de groupement privé UNICANCER) a complété cette équipe.

Les organisateurs du concours ont proposé trois jeux de données successifs comprenant des centaines de scanners annotés par des radiologues. Des données anonymisées livrées au format Dicom et faisant apparaitre des nodules de tailles diverses, avec une annotation différenciée pour ceux de moins de 100 mm3 et ceux dépassant ce volume. Chaque scanner correspond à 100-200 Mo de données et chaque dataset comprend environ 80 Go d’informations. Un défi en matière de capacité de traitement.

 

La victoire d’une équipe

Réussir un tel projet impose de travailler de concert, car la datascience est avant tout un sport d’équipe. Le data scientist seul ne peut en effet rien faire. Il lui faut les jeux de données et la compétence métier des radiologues, ainsi que le savoir-faire d’experts en imagerie. Le radiologue a également eu pour tâche de vérifier les jeux de données, d’analyser les annotations, puis de contrôler la qualité du travail fourni par l’IA.

La chaine de traitement s’est composée de plusieurs tâches clés :

  • le prétraitement des images 3D, l’extraction des annotations et le détourage du poumon ;
  • l’entrainement du modèle de réseau de neurones à la détection des nodules ;
  • l’apprentissage de la classification des nodules, basé sur les détections opérées par le réseau de neurones et les analyses des radiologues.

L’IA n’apprend qu’à travers les données. C’est pourquoi il est essentiel de passer beaucoup de temps à collecter, traiter et nettoyer les données. Ces dernières doivent ensuite être analysées, afin de détecter les biais et informations manquantes, qui pourraient induire l’IA en erreur. Ce travail en amont est fastidieux, mais crucial. C’est celui qui prendra le plus de temps aux data scientists et data stewards[1]. Il faut savoir se montrer prudent et méthodique, afin de livrer des données propres, sans biais, défauts ou manques.

Les deux premiers jeux de données étaient fournis avec les annotations de radiologues, afin d’aider les équipes à entrainer leurs IA. Le troisième, livré sans annotations, constituait l’épreuve de vérité pour le système mis en place. Avec un score approchant les 90 % de réussite, l’équipe IBM a remporté le challenge. Les 90 % prennent en compte à la fois la capacité à détecter les nodules, à les classer en taille et à éviter les faux positifs. Le système mis au point s’est donc montré très bon à détecter les cas pathologiques, mais aussi à ne pas les « surdétecter ». Ainsi, sur 300 cas proposés, un seul faux positif a été relevé.

 

Des serveurs à la hauteur de l’enjeu

La chaine de traitement mise en place par l’équipe IBM s’est montrée particulièrement performante. Et pourtant ce sont des technologies standards d’intelligence artificielle et Open Source qui ont été utilisées, avec des algorithmes développés à partir de librairies Python Open Source elles aussi.

L’autre secret de la réussite d’IBM réside dans le matériel utilisé. Des serveurs conçus pour faire de l’intelligence artificielle. L’entrainement du réseau de neurones employé n’aurait probablement pas pu être mené à son terme en utilisant les GPU présents sur des cartes graphiques traditionnelles. Une puissance adaptée a permis d’explorer divers algorithmes et d’évaluer des hypothèses impossibles à tester sur d’autres machines.

Le volume de données exploité est aussi un facteur clé, car son accroissement permet de couvrir un plus large ensemble de cas et de lisser les biais présents dans certaines données. Rappelons que l’IA n’apprend que des données. Plus elles sont présentes en nombre et en qualité, plus le système pourra progresser. La capacité de traitement est donc l’autre aspect sur lequel les serveurs IBM ont su faire la différence. Une fierté pour l’équipe investie dans ce projet, qui fait partie de la Business Unit IBM créant ces solutions d’infrastructure.

Ce concours a permis aux data scientists d’IBM d’explorer de nouveaux jeux de données et de démontrer leur capacité à servir le secteur médical. Ceci permet de donner de la visibilité à IBM et de lui ouvrir les portes du monde de l’imagerie médicale, avide d’intelligence artificielle. Ce projet démontre également notre capacité à travailler en équipe avec des acteurs du secteur. Il montre enfin l’importance de l’infrastructure informatique et son impact sur l’efficacité d’une IA. Ici aussi, l’infrastructure IT peut aider à faire la différence.

 

[1] Coordonnateur des données

Technical Sales Specialist - Linux Servers

More Infrastructures stories
28 février 2024

L’intelligence artificielle et l’analytique avancée dans le système de santé français (Partie 2)

Face aux défis auxquels sont confrontés les systèmes de soins de santé, l’analytique avancée (AA) et l’intelligence artificielle (IA) sont des technologies à haut potentiel d’impact. Ces technologies peuvent équiper les systèmes de santé d’outils avancés pour renforcer les soins des patients et améliorer l’efficacité opérationnelle. La deuxième partie de cet article reprend le fil […]

Continue reading

15 février 2024

L’Intelligence Artificielle et l’Analytique avancée dans les systèmes de santé français (Partie 1)

Dans le paysage complexe de la Santé, les systèmes médicaux du monde entier sont confrontés à une multitude de défis. Ceux-ci vont de la gestion délicate des maladies chroniques jusqu’à la quête d’accès égaux aux services de santé. Dans ce contexte spécifique, l’émergence de l’Analytique avancée et de l’Intelligence Artificielle (IA) joue un rôle de […]

Continue reading

8 février 2024

De la donnée au passage à l’échelle de l’intelligence artificielle générative !

Notre monde est de plus en plus axé sur la donnée. Sa gestion en devient cruciale pour assurer la réussite des transformations des organisations actuelles. Cette année 2023 aura été pour moi un approfondissement des sujets d’architecture autour de la gestion de cette donnée. Je souhaitais partager mes sujets de réflexion pour les semaines à […]

Continue reading