Kaduceo logo

Elodie Escriva - Doctorante en informatique

Depuis plusieurs années, les modèles d’Intelligence Artificielle (IA) sont utilisés dans de nombreux domaines, allant de la recommandation de films sur des plateformes en ligne à la voiture autonome ou au robot médical. L’utilisation de l’IA a permis de développer de nombreux outils pour aider les êtres humains, supporter de nombreuses tâches, résoudre des problèmes complexes ou encore aider à la prise de décision. Cependant, les risques inhérents à une erreur de l’intelligence artificielle n’ont pas le même impact en fonction des domaines d’application. Une erreur d’un robot médical pratiquant des interventions chirurgicales aura beaucoup plus d’impacts qu’une erreur de recommandation pour un film sur une plateforme de streaming. Les métriques d’évaluation des modèles telles que la précision, la spécificité ou la sensibilité ne sont pas toujours suffisantes pour évaluer des modèles par rapport au monde réel. En effet, ces métriques sont calculées sur des données de validation qui peuvent être différentes des données du monde réel, rendant les métriques non-significatives. [1]

Afin de réduire les erreurs et de mieux comprendre les prédictions faites par l’IA, l’explicabilité des modèles d’IA (Xai pour “eXplainable IA” en anglais) est apparu comme champ de recherche.

L’explicabilité est défini comme “la mesure par laquelle un être humain peut comprendre la cause d'une décision” [2].

Une IA hautement explicable fournie des prédictions facilement compréhensibles, augmentant la confiance de l’utilisateur.

Taxonomie des méthodes d'explicabilité

Avec l’apparition de méthodes d’explicabilité variées, des classifications sont apparues pour caractériser et répertorier ces méthodes. La classification décrite par C. Molnar [3] se décline en trois caractéristiques :

  • Intrinsèque vs. Ad-hoc : l’explicabilité provient directement du modèle grâce à sa structure simple ou une méthode est appliquée au modèle après l’entrainement pour l’analyser
  • Modèle-spécifique vs Agnostique : la méthode d’explicabilité est applicable à certaines classes spécifiques de modèle d’IA ou à toutes les classes de modèles
  • Global vs. Local : la méthode explique le comportement du modèle complet ou les prédictions individuelles

Il existe à ce jour de nombreuses méthodes et la taxonomie précédente permet de décrire deux grandes catégories : les modèles d'IA intrinsèquement interprétables (donc, modèle-spécifique) et les méthodes d'explicabilité post-hoc et modèle-agnostiques.

Les modèles intrinsèquement interprétables

Parmi les modèles intrinsèquement interprétables, les régressions logistiques et linéaires et les arbres de décisions sont les modèles d’IA les plus communs. Grâce à l’étude des poids de chaque variable pour les régressions logistiques et linéaires, il est possible d’étudier l’importance de chaque variable autant avec une approche globale du modèle que pour des individus spécifiques. Les explications peuvent cependant être contre-intuitives ou difficiles à comprendre dans le cas par exemple de variables corrélées. Les arbres de décisions sont utiles pour résoudre ce problème des régressions, grâce à leur capacité de représentation des interactions entre attributs et des relations non-linéaires entre les attributs et les variables expliquées. L'interprétabilité des arbres se base principalement sur leur capacité naturelle à être représentés graphiquement en nœuds et en branches. Il suffit alors de partir du nœud originel et de suivre les branches grâce aux seuils jusqu’au sous-ensemble de données d’intérêt. Les explications sont simples et générales, les décisions binaires sont facilement compréhensibles et la fiabilité des explications dépend des performances du modèle.

Figure 1 Arbre de décisions pour la classification des Iris de Fisher

Par exemple, dans le cas des Iris de Fisher (Figure 1), il est simple de comprendre les valeurs seuils pour les différentes classifications. En suivant la représentation graphique, les Iris Virginica sont les fleurs ayant :

  • Une largeur de pétale supérieur à 1,7cm (par conséquence, supérieur à 0,6cm)
  • OU une largeur de pétale entre 0,6 et 1,5 cm et une longueur de pétale supérieur à 4,9cm.

Cependant, les modèles intrinsèquement interprétables montrent rapidement des limites pour les tâches complexes puisqu’ils forment une catégorie de modèles restreinte en comparaison à l’ensemble des modèles existants. De plus, les modèles doivent obligatoirement rester simples pour être facilement explicables puisque, par exemple, une liste de 50 poids pour une régression ou un arbre avec 30 nœuds ne seraient pas facilement visualisables par l’être humain, et donc difficilement compréhensibles [3], [4].

Les méthodes agnostiques post-hoc

Les méthodes agnostiques post-hoc permettent de répondre à cette contrainte des modèles intrinsèquement interprétables en séparant le modèle des explications. Cette séparation apporte de la flexibilité puisque les explications ne dépendent plus de la classe du modèle d’IA et la capacité d’un modèle à être intrinsèquement interprétable n’est plus un facteur lors du choix du meilleur modèle pour résoudre une tâche [1]. Les méthodes LIME [5] et les méthodes dérivées des valeurs de Shapley [6] tel que SHAP [7] ou les méthodes coalitionelles [8], [9], appartiennent à la catégorie des méthodes agnostiques post-hoc.

Les méthodes dérivées des valeurs de Shapley se basent sur la théorie des jeux collaboratifs suivante : dans un jeu collaboratif, les joueurs collaborent pour un gain final à une hauteur différente pour chaque joueur et les valeurs de Shapley permettent de répartir équitablement les gains de la coalition de joueurs [3]. Dans le cas de modèles d’IA, les joueurs sont représentés par les attributs du jeu de données et le gain par la prédiction. La méthode calcule alors l’influence de chaque attribut sur la prédiction pour chaque individu du jeu de données. Afin de calculer ces influences, SHAP est défini en unifiant plusieurs méthodes tel que LIME avec les valeurs de Shapley et propose aussi des méthodes spécifiques pour certains modèles (notamment TreeSHAP pour les modèles basés sur les arbres de décisions). En parallèle, les méthodes coalitionelles sont une simplification des valeurs de Shapley grâce à un calcul de corrélation des variables.

Avantages

  • Explications individuelles et contrastives
  • Théorie mathématique robuste
  • TreeSHAP et méthodes coalitionelles relativement rapides

Inconvénients

  • SHAP avec des temps de calculs lents
  • Explication potentiellement mal interprétées
  • Nécessité d'accès aux données et au modèle

Les méthodes basées sur les exemples

Une autre manière de représenter des explications est celle des exemples. Le principe de ces méthodes est de sélectionner des individus existants ou non dans le dataset selon certains critères, afin de fournir des informations sur le comportement du modèle. Il existe plusieurs méthodes basées sur des exemples, comme les exemples contre-factuels [10], [11], les prototypes & critiques [12] ou les instances influentes [13]. Ces méthodes sont surtout intéressantes dans le cas d’images ou de texte.

Les exemples contre-factuels permettent d’illustrer les changements nécessaires sur une instance donnée pour que la prédiction change. Cette méthode se base sur l’idée qu’une prédiction est causée par les attributs de l’instance et qu’un changement significatif de ces attributs entraine une modification de la prédiction. Par exemple, dans le cas d’un loyer d’appartement, des exemples contre-factuels à l’instance « un appartement non-aménagé de 60m² avec 2 chambres et un balcon dans une grande ville se loue 800€ » pourraient être :

  • Une augmentation de surface de 15m² augmente le loyer de 150€ 
  • L’ajout d’une cuisine intégrée augmente le loyer de 100€ 
  • Louer un appartement meublé augmente le loyer de 300€

Ce type d’explications est facile à comprendre pour des humains car il se concentre sur un petit nombre de changement afin de proposer des explications contrastives. Les méthodes contre-factuelles n’ont pas besoin d’avoir accès aux données, ni au modèle mais seulement à la fonction de prédiction, rendant ces méthodes intéressantes pour des entreprises voulant protéger leurs données et modèles propriétaires [10], [11]. L’inconvénient majeur est alors de limiter le nombre d’exemples contre-factuels sélectionnés pour une instance donnée puisqu’il en existe théoriquement un nombre infini.

Limites

Travaux d’évaluation des méthodes avec des métriques spécifiques mais pas encore testés sur de larges volumes de jeux de données [14]

Absence d'une méthode unique d’explicabilité parfaitement optimale et applicable à tous les modèles d’IA

Problème de compréhension des explications et nécessité de créer des interfaces afin de les présenter sous formes de phrases ou de graphiques

Info en + : Interprétabilité vs. Explicabilité

Dans plusieurs publications scientifiques, les termes « Interprétabilité » et « Explicabilité » sont utilisés sans distinction. Il semble pourtant y en avoir une assez importante.

L’interprétabilité semble se référer à des notions purement mathématiques et traduit le fonctionnement mathématique du modèle, comme dans le cas des modèles intrinsèquement interprétables.

D’un autre côté, l’explicabilité se réfère à comprendre pourquoi un modèle produit un résultat particulier sans en comprendre tous les aspects mathématiques, sans ouvrir la « boite noire ».

Une personne sans aucune connaissance sur l’intelligence artificielle peut alors comprendre les prédictions et le comportement du modèle. Cependant, là où l’interprétabilité suit des règles mathématiques fiables, l’explicabilité peut être biaisée, injuste ou encore ne pas avoir de sens pour les humains car elle ne suit pas les règles du monde réel [15], [16].

Projet de thèse

Dans le cadre d'une convention CIFRE en partenariat avec l'IRIT et Kaduceo, Elodie prépare sa thèse sur l'explicatibilité des modèles

En savoir plus

Bibliographie

[1]  M. T. Ribeiro, S. Singh, et C. Guestrin, « Model-Agnostic Interpretability of Machine Learning », ArXiv160605386 Cs Stat, juin 2016, [En ligne]. Disponible sur: http://arxiv.org/abs/1606.05386

[2]  T. Miller, « Explanation in artificial intelligence: Insights from the social sciences », Artif. Intell., vol. 267, p. 1‑38, août 2018, doi: 10.1016/j.artint.2018.07.007.

[3]  C. Molnar, Interpretable machine learning. A Guide for Making Black Box Models Explainable. 2019. [En ligne]. Disponible sur: https://christophm.github.io/interpretable-ml-book/

[4]  T. Hastie, R. Tibshirani, et J. H. Friedman, The elements of statistical learning: data mining, inference, and prediction, 2nd ed. New York, NY: Springer, 2009.

[5]  M. Ribeiro, S. Singh, et C. Guestrin, « “Why Should I Trust You?”: Explaining the Predictions of Any Classifier », févr. 2016, p. 97‑101. doi: 10.18653/v1/N16-3020.

[6]        E. Strumbelj et I. Kononenko, « An Efficient Explanation of Individual Classifications using Game Theory », J. Mach. Learn. Res., vol. 11, p. 1‑18, mars 2010.

[7]  S. M. Lundberg et S.-I. Lee, « A Unified Approach to Interpreting Model Predictions », in Advances in Neural Information Processing Systems 30, Curran Associates, Inc., 2017, p. 4765‑4774. [En ligne]. Disponible sur: http://papers.nips.cc/paper/7062-a-unified-approach-to-interpreting-model-predictions.pdf

[8]  G. Ferrettini, J. Aligon, et C. Soulé-Dupuy, « Improving on coalitional prediction explanation », présenté à Advances in Databases and Information Systems, Lyon, 2020.

[9]  G. Ferrettini, E. Escriva, J. Aligon, J.-B. Excoffier, et C. Soulé-Dupuy, « Coalitional Strategies for Efficient Individual Prediction Explanation », Inf. Syst. Front., mai 2021, doi: 10.1007/s10796-021-10141-9.

[10]      S. Wachter, B. Mittelstadt, et C. Russell, « Counterfactual Explanations without Opening the Black Box: Automated Decisions and the GDPR », ArXiv171100399 Cs, mars 2018, [En ligne]. Disponible sur: http://arxiv.org/abs/1711.00399

[11]      S. Dandl, C. Molnar, M. Binder, et B. Bischl, « Multi-Objective Counterfactual Explanations », ArXiv200411165 Cs Stat, vol. 12269, p. 448‑469, 2020, doi: 10.1007/978-3-030-58112-1_31.

[12]      B. Kim, R. Khanna, et O. O. Koyejo, « Examples are not enough, learn to criticize! Criticism for Interpretability », Adv. Neural Inf. Process. Syst., vol. 29, 2016, [En ligne]. Disponible sur: https://papers.nips.cc/paper/2016/hash/5680522b8e2bb01943234bce7bf84534-Abstract.html

[13]      P. W. Koh et P. Liang, « Understanding Black-box Predictions via Influence Functions », ArXiv170304730 Cs Stat, déc. 2020, [En ligne]. Disponible sur: http://arxiv.org/abs/1703.04730

[14]      R. El Shawi, Y. Sherif, M. Al-Mallah, et S. Sakr, « Interpretability in HealthCare A Comparative Study of Local Machine Learning Interpretability Techniques », in 2019 IEEE 32nd International Symposium on Computer-Based Medical Systems (CBMS), juin 2019, p. 275‑280. doi: 10.1109/CBMS.2019.00065.

[15]      R. Draelos, « Grad-CAM: Visual Explanations from Deep Networks », Glass Box, mai 29, 2020. https://glassboxmedicine.com/2020/05/29/grad-cam-visual-explanations-from-deep-networks/

[16]      N. Lauga, « IA et éthique : Comment comprendre son modèle ? ⚖ », Medium, févr. 25, 2019. https://medium.com/@nathan.lauga/ia-et-%C3%A9thique-comment-comprendre-son-mod%C3%A8le-ec217c92616d