Hugo Broucke & Christelle Algans - Data scientists Kaduceo
Suite à une première hospitalisation, les réadmissions pour des pathologies pulmonaires font parties des affections qui génèrent le plus de réadmissions et en conséquence engendrent des dépenses supplémentaires pour la sécurité sociale. Bien que certaines de ces ré-hospitalisations soient programmées et nécessaires, d’autres sont inopinées et potentiellement évitables. Ainsi, identifier un patient à haut risque de réadmission pour une pathologie pulmonaire permettrait d’améliorer son suivi post-admission, afin de minimiser son risque de réadmission et engendrer une économie non négligeable. Chez Kaduceo, nous cherchons à identifier ces patients en travaillant avec les données du PMSI de 2010 à 2019 d’un de nos hôpitaux partenaires.
Plusieurs études portant sur la prédiction des réadmissions à 30 jours pour des patients atteints de bronchopneumopathie chronique obstructive ont récemment été réalisées. Ces études abordent le problème en étudiant les variables liées aux caractéristiques du patient (âge, sexe, indice de masse corporelle…), aux comorbidités (Charlson Score Index [1]), aux modalités de prise en charge durant le séjour du patient (durée du séjour, mode d’arrivée…), aux procédures médicales réalisées (actes de chirurgie) ou encore aux facteurs sociaux-économique du patient (emploi, nombre d’enfants, statut marital…) [2-4]. Certaines études utilisent quant à elles le Natural Language Processing afin d’extraire des notes cliniques des médecins, des « motifs » associés à un plus grand risque de réadmission [5, 6]. Malgré la diversité des techniques de Machine Learning ou de Deep Learning employées, les scores prédictifs restent relativement faibles (c-statistic [0.6-0.9]) quelle que soit la maladie étudiée [7-30]. Bien que quelques outils commencent à voir le jour (Score de prédiction de réadmission en médecine interne hospitalière proposé par A. Zapatero [31]), il n’existe aucun modèle fiable à l’heure actuelle permettant de prédire la réadmission d’un patient.
Au sein de Kaduceo, la prédiction des réadmissions est un sujet sur lequel nous travaillons depuis 2019 (Modèle d’Intelligence Artificielle de prédiction de l’activité aux urgences). Dans cette étude, nous étudions cette problématique en utilisant les données médico-sociales du Programme de Médicalisation du Système d’Information (PMSI). Afin de se détacher des travaux existants sur le sujet, nous prenons en compte des variables qui ne sont habituellement pas utilisées dans la prédiction des réadmissions telles que des variables liées à la quantité de polluant dans l’air.
Démarche adoptée
Nous avons exclu de notre population d’étude les enfants ainsi que les patientes enceintes. En effet, nous estimons que la population des mineurs constitue un biais pour notre étude. Cette population à tendance à être réadmise plus souvent, pour de multiples causes (inquiétude des parents). De même, la population des femmes enceintes, a tendance à être réadmis en urgence juste avant l’accouchement.
Afin de déterminer notre variable cible, nous avons dans un premier temps réalisé une étude sur les réadmissions à 30 jours. En effet, il s’agit de la fenêtre de temps la plus utilisée dans la littérature scientifique et c’est un indicateur couramment utilisé aux Etats-Unis afin de juger de la qualité des soins prodigués par l’hôpital. Dans un second temps, nous avons utilisé la variable Catégorie Majeure de Diagnostic 4 (CMD) : « Affections de l’appareil respiratoire » issue du Groupement Homogène de Malade (GHM) du séjour d’un patient comme classe de maladie cible. Réaliser une étude sur une catégorie de maladie plutôt que sur les réadmissions toutes pathologies confondues, nous permet de faire le tri sur les pathologies à prédire. En fonction des résultats obtenus, nous pourrons affiner nos recherches en prédisant sur un type de maladie spécifique.
Notre étude porte sur une cohorte de :
+
10000
Patients majeurs entre 2010 et 2019
Parmi ces dossiers, 1 054 sont identifiés comme des dossiers de pré-réadmission à 30 jours pour des patients atteints d’une affection pulmonaire.
Afin de réaliser ces prédictions nous avons travaillé avec des variables médico-administratives créées à partir des données issues du PMSI (âge, sexe, complexité du GHM, provenance ou non des urgences, unités fonctionnelles visitées par le patient au cours des 6 derniers mois, nombre de visites d’un patient sur les 6 derniers mois…). Nous avons également ajouté des variables liées à la saisonnalité, au contexte géographique dans lequel le patient évolue (densité de la population de la ville de provenance du patient, indice de défavorisation sociale [32], distance du domicile du patient par rapport à l’hôpital), aux comorbidités dont est atteint le patient ainsi que des données liées à la quantité de polluant dans l’air.
Des techniques de
clustering nous ont permis d’identifier des groupes de patients pour lesquels le taux de réadmission est supérieur aux taux global du jeu de données initial. Cela nous a permis d’identifier des groupes de patients ayant une plus grande probabilité d’être réadmis.
Enfin, afin de pallier au problème du déséquilibre des classes (environ 3% des patients sont réadmis), nous avons utilisé plusieurs techniques de
sampling (SMOTE, oversampling et undersampling). Nous avons retenu la dernière méthode avec laquelle nous avons obtenu de meilleurs résultats.
Pour une compréhension plus exhaustive de notre cheminement, les différentes étapes du projet sont détaillées dans la figure ci-dessous.
Résultats et perspectives d'amélioration
Afin de réaliser les prédictions, nous avons comparé les résultats obtenus avec différents algorithmes de Machine Learning utilisés dans la classification : Random Forest (RF), Logistic Regression (LR), Support Vector Machine (SVM), Stochastic Gradient Descent Classifier (SGDC). Après optimisation des hyper-paramètres de chaque algorithme, et en utilisant une validation croisée (k=10) afin de s’assurer de la robustesse des résultats, on obtient en fonction de l’algorithme utilisé une c-statistique moyenne de 0.89 [0.893 – 0.898]. La figure 2 représente les courbes ROC obtenues selon l’algorithme de Machine Learning considéré.
Kaduceo développe des algorithmes et des plateformes de traitement de données de santé afin d’analyser, d’optimiser et de prédire des parcours de soins dans les établissements hospitaliers. À ce titre, la modélisation des parcours de soins est une brique essentielle de notre travail pour permettre aux professionnels de santé (médecins, cadres, administratifs) d’avoir une meilleure compréhension des parcours qui ont lieu dans leur établissement.
Nous obtenons une sensibilité ainsi qu’une spécificité moyenne de 0.82 ce qui signifie que les différents modèles parviennent à classer aussi bien les patients appartenant au groupe des pré-réadmis que les patients appartenant au groupe des non pré-réadmis. Parmi les variables expliquant le plus le modèle, on retrouve :
- Le nombre de visite par le patient à l’hôpital à 6 mois avant sa pré-réadmission
- La venue du patient à 6 mois dans une unité fonctionnelle associée à la pneumologie
- La présence des comorbidités « cancer » et « pathologie pulmonaire chronique »
- Des variables issues de l’étape de clustering réalisée
Ces résultats sont encourageants pour la suite et confirme notre position quant à la possibilité de créer un outil qui serait utile par les professionnels de la santé pour identifier les patients à fort risque de réadmission. Suite à cette première étude, nous poursuivons nos recherches ; l’analyse du parcours de soins ainsi que des actes classants dont a bénéficié le patient sont des premières pistes à explorer pour l’amélioration des scores prédictifs. Nous étendrons nos recherches en utilisant les données du PMSI de nos autres hôpitaux partenaires dans l’optique de rendre généralisable nos travaux.
Bibliographie
- Charlson, M.E., et al., A new method of classifying prognostic comorbidity in longitudinal studies: development and validation. J Chronic Dis, 1987. 40(5): p. 373-83.
- Goto, T., et al., Machine Learning-Based Prediction Models for 30-Day Readmission after Hospitalization for Chronic Obstructive Pulmonary Disease. COPD: Journal of Chronic Obstructive Pulmonary Disease, 2019. 16(5-6): p. 338-343.
- Lee, S., et al., Reducing COPD Readmissions: A Causal Bayesian Network Model. IEEE Robotics and Automation Letters, 2018. 3(4): p. 4046-4053.
- Min, X., B. Yu, and F. Wang, Predictive Modeling of the Hospital Readmission Risk from Patients’ Claims Data Using Machine Learning: A Case Study on COPD. Scientific Reports, 2019. 9(1).
- Agarwal, A., et al., A Natural Language Processing Framework for Assessing Hospital Readmissions for Patients with COPD. IEEE Journal of Biomedical and Health Informatics, 2018. 22(2): p. 588-596.
- Jain, P., A. Agarwal, and R. Behara. An approach to supervised classification of highly imbalanced and high dimensionality COPD readmission data on HPCC. 2019. Institute of Electrical and Electronics Engineers Inc.
- Almardini, M. and Z.W. Raś, A supervised model for predicting the risk of mortality and hospital readmissions for newly admitted patients, M. Kryszkiewicz, et al., Editors. 2017, Springer Verlag. p. 29-36.
- Baig, M.M., et al. Machine Learning-based Risk of Hospital Readmissions: Predicting Acute Readmissions within 30 Days of Discharge. 2019. Institute of Electrical and Electronics Engineers Inc.
- Barbieri, S., et al., Benchmarking Deep Learning Architectures for Predicting Readmission to the ICU and Describing Patients-at-Risk. Scientific Reports, 2020. 10(1).
- Ben-Assuli, O. and R. Padman, Analysing repeated hospital readmissions using data mining techniques. Health Systems, 2018. 7(3): p. 166-180.
- Brindise, L.R. and R.J. Steele. Machine learning-based pre-discharge prediction of hospital readmission. 2018. Institute of Electrical and Electronics Engineers Inc.
- Eckert, C., et al., Development and Prospective Validation of a Machine Learning-Based Risk of Readmission Model in a Large Military Hospital. Applied Clinical Informatics, 2019. 10(2): p. 316-325.
- Eggerth, A., et al., Utilising Information of the Case Fee Catalogue to Enhance 30-Day Readmission Prediction in the German DRG System, in Studies in Health Technology and Informatics, K. Fister, et al., Editors. 2018, IOS Press. p. 40-44.
- Garcia-Arce, A., F. Rico, and J.L. Zayas-Castro, Comparison of Machine Learning Algorithms for the Prediction of Preventable Hospital Readmissions. Journal for Healthcare Quality, 2018. 40(3): p. 129-138.
- Golmohammadi, D. and N. Radnia, Prediction modeling and pattern recognition for patient readmission. International Journal of Production Economics, 2016. 171: p. 151-161.
- Grzyb, M., et al. Multi-task cox proportional hazard model for predicting risk of unplanned hospital readmission. 2017. Institute of Electrical and Electronics Engineers Inc.
- Hilton, C.B., et al., Personalized predictions of patient outcomes during and after hospitalization using artificial intelligence. NPJ Digit Med, 2020. 3: p. 51.
- Jamei, M., et al., Predicting all-cause risk of 30-day hospital readmission using artificial neural networks. PLoS ONE, 2017. 12(7).
- Jones, C.D., et al., Predicting Hospital Readmissions from Home Healthcare in Medicare Beneficiaries. Journal of the American Geriatrics Society, 2019. 67(12): p. 2505-2510.
- Kulkarni, P., L.D. Smith, and K.F. Woeltje, Assessing risk of hospital readmissions for improving medical practice. Health Care Management Science, 2016. 19(3): p. 291-299.
- Lin, Y.W., et al., Analysis and prediction of unplanned intensive care unit readmission using recurrent neural networks with long shortterm memory. PLoS ONE, 2019. 14(7).
- Liu, W., et al., Predicting 30-day hospital readmissions using artificial neural networks with medical code embedding. PLoS One, 2020. 15(4): p. e0221606.
- Pakbin, A., et al. Prediction of ICU Readmissions Using Data at Patient Discharge. 2018. Institute of Electrical and Electronics Engineers Inc.
- Radovanović, S., et al. Framework for integration of domain knowledge into logistic regression. 2018. Association for Computing Machinery.
- Rajkomar, A., et al., Scalable and accurate deep learning with electronic health records. NPJ Digit Med, 2018. 1: p. 18.
- Sushmita, S., et al. Predicting 30-day risk and cost of « all-cause » hospital readmissions. 2016. AI Access Foundation.
- Venugopalan, J., et al. Combination of static and temporal data analysis to predict mortality and readmission in the intensive care. 2017. Institute of Electrical and Electronics Engineers Inc.
- Wang, H., et al., Predicting Hospital Readmission via Cost-Sensitive Deep Learning. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2018. 15(6): p. 1968-1978.
- Wang, L., et al., The application of unsupervised deep learning in predictive models using electronic health records. BMC Medical Research Methodology, 2020. 20(1).
- Yang, C., et al. Predicting 30-day all-cause readmissions from hospital inpatient discharge data. 2016. Institute of Electrical and Electronics Engineers Inc.
- Zapatero, A., et al., Predictive model of readmission to internal medicine wards. Eur J Intern Med, 2012. 23(5): p. 451-6.
- INSERM. Indice de défavorisation sociale (Fdep) par IRIS. 1 Avril 2019; Available from: