Prévoir l’incidence de la maladie d’Alzheimer grâce à l’apprentissage automatique

Dans cet article, Antonio Javier Sutil Jiménez aborde l’étude « Prédiction de l’incidence de la maladie d’Alzheimer par apprentissage automatique en utilisant des données administratives de santé à grande échelle ».

Pourquoi l’étude de la prédiction de la maladie d’Alzheimer avec le machine learning est-elle importante ?

Les avancées technologiques peuvent parfois apporter des solutions inattendues à des problèmes médicaux. Un exemple en est l’utilisation de données administratives de santé pour créer des modèles prédictifs du risque de développer la maladie d’Alzheimer.

La grande nouveauté du travail de Park et de ses collaborateurs réside dans l’exploitation de cette quantité massive de données qui, comme le décrivent les chercheurs, n’a pas encore été pleinement exploitée dans de nombreux cas. Ainsi, la numérisation des dossiers médicaux est devenue une ressource précieuse pour réduire les efforts et les coûts liés à la collecte de données.

Malgré cela, son application à des maladies telles que l’Alzheimer était limitée. En partie, cette limitation a été surmontée grâce à l‘augmentation des capacités de calcul, permettant ainsi d’appliquer des techniques de machine learning à l’analyse des données et de créer des modèles prédictifs représentatifs de la population, grâce à des échantillons suffisamment grands.

Hypothèse de l’étude

L’étude repose sur l’hypothèse que l’utilisation de données de personnes présentant un risque de développer la maladie d’Alzheimer permettra une meilleure détection précoce des cas au stade préclinique, améliorant ainsi les stratégies thérapeutiques.

Pour atteindre cet objectif, le groupe de chercheurs a eu accès à la base de données du système national de santé de la Corée, qui contenait plus de 40 000 dossiers de santé de personnes âgées de plus de 65 ans, incluant des informations telles que les antécédents personnels, familiaux, les données sociodémographiques, les diagnostics, la médication, etc.

Méthodologie

Dataset

Pour mener à bien l’étude, une cohorte du NHIS-NSC (The National Health Insurance Service–National Sample Cohort) de Corée du Sud, comprenant plus d’un million de participants, a été suivie sur une période de onze ans (de 2002 à 2013).

La base de données contenait des informations sur les services de santé, les diagnostics et les prescriptions de chaque individu, ainsi que des caractéristiques cliniques, incluant des données démographiques, le niveau de revenu basé sur le salaire mensuel, les codes de maladies et de médicaments, les valeurs de laboratoire, les profils de santé, ainsi que les antécédents personnels et familiaux de maladies. Sur cet échantillon, 40 736 adultes âgés de plus de 40 ans ont été sélectionnés pour cette étude.

Définition opérationnelle de la maladie d’Alzheimer

Une définition opérationnelle de la maladie d’Alzheimer a été établie, fondée sur l’algorithme d’une étude canadienne antérieure.

Cet algorithme a atteint une sensibilité de 79 % et une spécificité de 99 %, en incluant des codes d’hospitalisation, des réclamations médicales et des prescriptions spécifiques pour la maladie d’Alzheimer.

Pour améliorer la précision de la détection, les étiquettes « AD définitive » ont été utilisées pour les cas avec un haut degré de certitude, et « AD probable » pour les cas confirmés uniquement par les codes CIM-10 (Classification Internationale des Maladies), afin de minimiser les faux négatifs. Avec ces étiquettes, la prévalence de la maladie d’Alzheimer a été de 1,5 % pour « AD définitive » et de 4,9 % pour « AD probable ».

Analyse

Pour l’analyse et le traitement des données, des caractéristiques telles que l’âge et le sexe ont été utilisées, ainsi que 21 variables provenant de la base de données NHIS-NSC, incluant les profils de santé et les antécédents familiaux de maladies, ainsi que plus de 6 000 variables dérivées des codes CIM-10 et des médicaments.

Après avoir décrit les caractéristiques, celles-ci ont été alignées en se concentrant sur l’incidence du diagnostic pour chaque individu, selon les codes CIM-10 et les codes de médicaments. Cela a permis d’éliminer les maladies rares et les codes de médicaments peu fréquents. En outre, les individus sans nouvelles données de santé au cours des deux dernières années ont été exclus. Le jeu final de variables utilisées dans les modèles comprenait 4 894 caractéristiques uniques.

Pour effectuer les prédictions à « n » années dans le groupe avec maladie d’Alzheimer, des fenêtres temporelles allant de 2002 jusqu’à l’année d’incidence ont été utilisées. Dans le groupe sans la maladie, les données ont été prises de 2002 à 2010-n.

Enfin, avant la mise en œuvre du modèle, des sous-ensembles d’entraînement, de validation et de test ont été créés en utilisant à la fois un jeu de données équilibré et échantillonné aléatoirement, ainsi qu’un jeu de données non équilibré.

Application des techniques de machine learning (ML)

Finalement, l’analyse des données a été effectuée en appliquant des techniques de machine learning telles que la forêt aléatoire, les machines à vecteurs de support avec noyau linéaire et la régression logistique.

L’entraînement, la validation et les tests ont été réalisés en utilisant une validation croisée stratifiée avec 5 itérations.

La sélection des caractéristiques a été réalisée au sein des échantillons d’entraînement à l’aide d’une méthode de seuil de variance, et la généralisation de la performance du modèle a été évaluée sur les échantillons de test.

Pour vérifier la performance du modèle, des métriques classiques telles que l’aire sous la courbe ROC, la sensibilité et la spécificité ont été utilisées.

Pour plus de détails sur la réalisation de cette étude, il est recommandé de consulter l’article original.

Quelles sont les principales conclusions de cette étude de prédiction de la maladie d’Alzheimer avec machine learning ?

L’étude met en évidence le potentiel des techniques d’apprentissage automatique orientées par les données comme un outil prometteur pour prédire le risque de démence de type Alzheimer.

Avantage principal de l’étude

Cette étude présente un avantage considérable par rapport à d’autres approches reposant sur des informations obtenues par des tests de neuro-imagerie ou des évaluations neuropsychologiques, puisqu’elle a été réalisée exclusivement à partir de données administratives.

Alors que d’autres études se concentrent sur des populations déjà dans une situation de risque clinique réel ou ayant suffisamment d’inquiétudes pour consulter un professionnel de santé, cette approche exploite la disponibilité des données administratives pour identifier les risques sans nécessiter d’évaluations cliniques préalables.

	AD certain	AD probable	Non-AD
Nombre de cas	614	2026	38.710
Âge moyen	80.7	79.2	74.5
Sexe (Homme, Femme)	229, 285	733, 1293	18.200, 20.510

Tableau 1. Données simplifiées sur les caractéristiques de l’échantillon. Pour des données plus précises et un plus grand nombre de caractéristiques, voir le tableau 1 de l’article original.

Les tableaux comparatifs entre AD certain et Non-AD, ainsi que AD probable et Non-AD sont présentés ci-dessous pour les années de prédiction 0 et 4, avec tous les classificateurs utilisés dans l’étude.

Années de prédiction	Classificateur	Métriques
		Précision	AUC	Sensibilité	Spécificité
0 ans	Régression logistique	0.76	0.794	0.726	0.793
	Support Vector Machine	0.763	0.817	0.795	0.811
	Random Forest	0.823	0.898	0.509	0.852
4 ans	Régression logistique	0.627	0.661	0.509	0.745
	Support Vector Machine	0.646	0.685	0.538	0.754
	Random Forest	0.663	0.725	0.621	0.705

AD certain ou non AD.

Années de prédiction	Classificateur	Métriques
		Précision	AUC	Sensibilité	Spécificité
0 ans	Régression logistique	0.763	0.783	0.689	0.783
	Support Vector Machine	0.734	0.794	0.652	0.816
	Random Forest	0.788	0.850	0.723	0.853
4 ans	Régression logistique	0.611	0.644	0.516	0.707
	Support Vector Machine	0.601	0.641	0.465	0.738
	Random Forest	0.641	0.683	0.603	0.679

AD probable ou non AD.

Les tableaux présentés ici sont des simplifications des tableaux de l’article original, limitant les années de prédiction à deux (0 et 4 ans).

Conclusions pour la prédiction

Un autre point marquant de l’article concerne les caractéristiques importantes découvertes pour la prédiction. Celles-ci sont décrites comme étant liées positivement ou négativement à l’incidence de la maladie d’Alzheimer. Certaines des caractéristiques associées positivement au développement de la maladie incluent l’âge, la présence de protéines dans les urines et la prescription de zotépine (un antipsychotique).

En revanche, des caractéristiques liées négativement à l’incidence de la maladie ont également été identifiées, comme la diminution de l’hémoglobine, la prescription de citrate de nicametate (un vasodilatateur), les troubles dégénératifs du système nerveux et les troubles de l’oreille externe.

De plus, le modèle de prédiction a été testé en n’utilisant que les 20 caractéristiques les plus importantes, et il a été constaté que la précision pour les années 0 et 1 était très similaire à celle du modèle original.

La détection basée sur des données administratives de santé est-elle possible ?

Ainsi, la conclusion de l’étude est qu’il est possible de détecter les individus présentant un risque de maladie d’Alzheimer en se basant uniquement sur des données administratives de santé. Cependant, les auteurs laissent ouverte la possibilité que des études futures menées dans différents pays et systèmes de santé puissent corroborer ces résultats. La réplication de cette méthode pourrait permettre une détection plus précoce et plus précise des personnes à risque.

Comment NeuronUP pourrait-elle contribuer à une étude comme celle-ci ?

NeuronUP possède de l’expérience dans le domaine scientifique dans deux domaines principaux :

Fournir un soutien aux groupes de recherche intéressés par la technologie,
Réaliser ses propres travaux pour publication dans des revues scientifiques de haut impact.

En particulier, pour des études présentant des caractéristiques similaires à celles de l’article, nous pensons qu’ayant accès à de grands ensembles de données comme ceux décrits, NeuronUP dispose de l’équipe et des compétences nécessaires pour :

D’une part, mettre en œuvre des techniques d’apprentissage automatique sophistiquées, comme celles mentionnées dans l’article ;
D’autre part, concevoir l’étude. En d’autres termes, NeuronUP dispose d’une équipe capable de formuler des questions en s’appuyant sur la littérature scientifique existante, et de réaliser des études « data-driven » (dirigées par les données).

La particularité des études data-driven est qu’elles se concentrent sur l’analyse et l’interprétation des données. Cette approche repose sur l’utilisation de grandes quantités de données pour découvrir des motifs et des tendances cachées.

L’utilisation des nouvelles technologies et des techniques d’analyse avancées, indispensables pour traiter ces grands ensembles de données, était difficilement accessible pour la plupart des chercheurs jusqu’à ces dernières années. Cette approche est donc essentielle pour les avancées actuelles.

L’utilisation de nouvelles technologies et de techniques d’analyse avancées, nécessaires pour traiter ces grands ensembles de données, était difficilement accessible à la majorité des chercheurs jusqu’il y a quelques années. Ainsi, cette approche devient importante et nécessaire lorsqu’on dispose de grands volumes de données, car elle peut offrir des conclusions novatrices qui ne seraient pas atteintes en utilisant uniquement des méthodes basées sur la théorie.

Bibliographie

Park, J.H., Cho, H.E., Kim, J.H. et al. Machine learning prediction of incidence of Alzheimer’s disease using large-scale administrative health data. npj Digit. Med. 3, 46 (2020). https://doi.org/10.1038/s41746-020-0256-0