# Interpréter les modèles

Vous pouvez utiliser Azure Machine Learning pour interpréter un modèle à l’aide d’un *explicateur* qui quantifie l’influence de chaque caractéristique sur l’étiquette prédite. Il existe de nombreux explicateurs courants, adaptés aux différents types d’algorithmes de modélisation, mais l’approche de base de leur utilisation est la même.

## Installer des packages de Kit de développement logiciel (SDK)

En plus de la dernière version des packages **azureml-SDK** et **azureml-widgets**, vous aurez besoin du package **azureml-explain-model** pour exécuter le code contenu dans ce notebook. Vous allez également utiliser la bibliothèque d’interprétabilité d’Azure ML (**azureml-interpret**). Vous pouvez l’utiliser pour interpréter de nombreux genres typiques de modèles, même si leur apprentissage n’a pas été effectué dans une expérience Azure ML ou s’ils n’ont pas été inscrits dans un espace de travail Azure ML.

Exécutez la cellule ci-dessous pour vérifier que ces packages sont installés. 

In [None]:
pip show azureml-explain-model azureml-interpret

## Expliquer un modèle

Commençons par un modèle dont l’apprentissage a été effectué en dehors d’Azure Machine Learning. Exécutez la cellule ci-dessous pour effectuer l’apprentissage d’un modèle de classification d’arbre de décision.

In [None]:
import pandas as pd
import numpy as np
import joblib
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve

# load the diabetes dataset
print("Loading Data...")
data = pd.read_csv('data/diabetes.csv')

# Separate features and labels
features = ['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness','SerumInsulin','BMI','DiabetesPedigree','Age']
labels = ['not-diabetic', 'diabetic']
X, y = data[features].values, data['Diabetic'].values

# Split data into training set and test set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

# Train a decision tree model
print('Training a decision tree model')
model = DecisionTreeClassifier().fit(X_train, y_train)

# calculate accuracy
y_hat = model.predict(X_test)
acc = np.average(y_hat == y_test)
print('Accuracy:', acc)

# calculate AUC
y_scores = model.predict_proba(X_test)
auc = roc_auc_score(y_test,y_scores[:,1])
print('AUC: ' + str(auc))

print('Model trained.')

Le processus d’apprentissage a généré des métriques d’évaluation du modèle sur la base d’un jeu de données de validation de conservation. Vous avez donc une idée de la précision des prédictions, mais comment les caractéristiques des données influencent-elles la prédiction ?

### Obtenir un explicateur pour le modèle

Nous allons obtenir un explicateur approprié pour le modèle à partir de la bibliothèque d’interprétabilité d’Azure ML que vous avez installée précédemment. Il existe de nombreux types d’explicateurs. Dans cet exemple, vous allez utiliser un *Explicateur tabulaire*, qui est un explicateur « boîte noire » utilisable pour expliquer de nombreux genres de modèles en appelant un explicateur de modèle [SHAP](https://github.com/slundberg/shap) approprié.

In [None]:
from interpret.ext.blackbox import TabularExplainer

# "features" and "classes" fields are optional
tab_explainer = TabularExplainer(model,
                             X_train, 
                             features=features, 
                             classes=labels)
print(tab_explainer, "ready!")

### Obtenir l’importance d’une caractéristique *globale*

La première chose à faire est d’essayer d’expliquer le modèle en évaluant l’*importance d’une caractéristique* globale, autrement dit, en quantifiant l’influence de chaque caractéristique sur la prédiction en fonction de l’ensemble du jeu de données d’apprentissage.

In [None]:
# you can use the training data or the test data here
global_tab_explanation = tab_explainer.explain_global(X_train)

# Get the top features by importance
global_tab_feature_importance = global_tab_explanation.get_feature_importance_dict()
for feature, importance in global_tab_feature_importance.items():
    print(feature,":", importance)

L’importance d’une caractéristique est classée, la caractéristique la plus importante venant en premier.

### Obtenir l’importance d’une caractéristique *locale*

Vous disposez donc d’une vue globale, mais qu’en est-il de l’explication d’observations individuelles ? Générons des explications *locales* pour des prédictions individuelles, en quantifiant l’influence de chaque caractéristique sur la décision de prédire chacune des valeurs d’étiquette possibles. Dans ce cas, comme il s’agit d’un modèle binaire, il y a deux étiquettes possibles (non diabétique et diabétique). Vous pouvez quantifier l’influence de chaque caractéristique pour chacune de ces valeurs d’étiquette pour des observations individuelles dans un jeu de données. Vous allez juste évaluer les deux premiers cas dans le jeu de données de test.

In [None]:
# Get the observations we want to explain (the first two)
X_explain = X_test[0:2]

# Get predictions
predictions = model.predict(X_explain)

# Get local explanations
local_tab_explanation = tab_explainer.explain_local(X_explain)

# Get feature names and importance for each possible label
local_tab_features = local_tab_explanation.get_ranked_local_names()
local_tab_importance = local_tab_explanation.get_ranked_local_values()

for l in range(len(local_tab_features)):
    print('Support for', labels[l])
    label = local_tab_features[l]
    for o in range(len(label)):
        print("\tObservation", o + 1)
        feature_list = label[o]
        total_support = 0
        for f in range(len(feature_list)):
            print("\t\t", feature_list[f], ':', local_tab_importance[l][o][f])
            total_support += local_tab_importance[l][o][f]
        print("\t\t ----------\n\t\t Total:", total_support, "Prediction:", labels[predictions[o]])

## Ajout d’explicabilité à une expérience d’apprentissage de modèle

Comme vous l’avez vu, vous pouvez générer des explications pour des modèles dont l’apprentissage a été effectué en dehors d’Azure Machine Learning. Toutefois, lorsque vous utilisez des expériences pour effectuer l’apprentissage de modèles et les inscrire dans votre espace de travail Azure Machine Learning, vous pouvez générer des explications de modèle et les journaliser.

Exécutez le code dans la cellule suivante pour vous connecter à votre espace de travail.

> **Remarque** : si vous n’avez pas encore établi de session authentifiée avec votre abonnement Azure, vous serez invité à vous authentifier en cliquant sur un lien, en saisissant un code d’authentification et en vous connectant à Azure.

In [None]:
import azureml.core
from azureml.core import Workspace

# Load the workspace from the saved config file
ws = Workspace.from_config()
print('Ready to use Azure ML {} to work with {}'.format(azureml.core.VERSION, ws.name))

### Effectuer l’apprentissage d’un modèle et l’expliquer à l’aide d’une expérience

OK. Créons une expérience et plaçons les fichiers dont elle a besoin dans un dossier local. Dans ce cas, nous allons simplement utiliser le même fichier CSV de données sur le diabète pour effectuer l’apprentissage du modèle.

In [None]:
import os, shutil
from azureml.core import Experiment

# Create a folder for the experiment files
experiment_folder = 'diabetes_train_and_explain'
os.makedirs(experiment_folder, exist_ok=True)

# Copy the data file into the experiment folder
shutil.copy('data/diabetes.csv', os.path.join(experiment_folder, "diabetes.csv"))

À présent, nous allons créer un script d’apprentissage ressemblant à tout autre script d’apprentissage Azure ML, sauf qu’il inclut les caractéristiques suivantes :

- Les bibliothèques pour générer des explications de modèle que nous avons utilisées avant sont importées et utilisées pour générer une explication globale.
- La bibliothèque **ExplanationClient** est utilisée pour charger l’explication de la sortie de l’expérience.

In [None]:
%%writefile $experiment_folder/diabetes_training.py
# Import libraries
import pandas as pd
import numpy as np
import joblib
import os
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import roc_auc_score
from sklearn.metrics import roc_curve

# Import Azure ML run library
from azureml.core.run import Run

# Import libraries for model explanation
from azureml.interpret import ExplanationClient
from interpret.ext.blackbox import TabularExplainer

# Get the experiment run context
run = Run.get_context()

# load the diabetes dataset
print("Loading Data...")
data = pd.read_csv('diabetes.csv')

features = ['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness','SerumInsulin','BMI','DiabetesPedigree','Age']
labels = ['not-diabetic', 'diabetic']

# Separate features and labels
X, y = data[features].values, data['Diabetic'].values

# Split data into training set and test set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=0)

# Train a decision tree model
print('Training a decision tree model')
model = DecisionTreeClassifier().fit(X_train, y_train)

# calculate accuracy
y_hat = model.predict(X_test)
acc = np.average(y_hat == y_test)
run.log('Accuracy', np.float(acc))

# calculate AUC
y_scores = model.predict_proba(X_test)
auc = roc_auc_score(y_test,y_scores[:,1])
run.log('AUC', np.float(auc))

os.makedirs('outputs', exist_ok=True)
# note file saved in the outputs folder is automatically uploaded into experiment record
joblib.dump(value=model, filename='outputs/diabetes.pkl')

# Get explanation
explainer = TabularExplainer(model, X_train, features=features, classes=labels)
explanation = explainer.explain_global(X_test)

# Get an Explanation Client and upload the explanation
explain_client = ExplanationClient.from_run(run)
explain_client.upload_model_explanation(explanation, comment='Tabular Explanation')

# Complete the run
run.complete()

L’expérience nécessitant un environnement Python dans lequel exécuter le script, nous allons donc définir une spécification Conda pour celui-ci. Notez que la bibliothèque **azureml-interpret** étant incluse dans l’environnement d’apprentissage, le script peut créer un **TabularExplainer** et utiliser la classe **ExplainerClient**.

In [None]:
%%writefile $experiment_folder/interpret_env.yml
name: batch_environment
dependencies:
- python=3.6.2
- scikit-learn
- pandas
- pip
- pip:
  - azureml-defaults
  - azureml-interpret

Vous pouvez maintenant exécuter l’expérience.

In [None]:
from azureml.core import Experiment, ScriptRunConfig, Environment
from azureml.core.runconfig import DockerConfiguration
from azureml.widgets import RunDetails


# Create a Python environment for the experiment
explain_env = Environment.from_conda_specification("explain_env", experiment_folder + "/interpret_env.yml")

# Create a script config
script_config = ScriptRunConfig(source_directory=experiment_folder,
                      script='diabetes_training.py',
                      environment=explain_env,
                      docker_runtime_config=DockerConfiguration(use_docker=True)) 

# submit the experiment
experiment_name = 'mslearn-diabetes-explain'
experiment = Experiment(workspace=ws, name=experiment_name)
run = experiment.submit(config=script_config)
RunDetails(run).show()
run.wait_for_completion()

## Récupérer les valeurs d’importance d’une caractéristique

Une fois l’expérience terminée, vous pouvez utiliser la classe **ExplanationClient** pour récupérer l’importance d’une caractéristique à partir de l’explication inscrite pour l’exécution.

In [None]:
from azureml.interpret import ExplanationClient

# Get the feature explanations
client = ExplanationClient.from_run(run)
engineered_explanations = client.download_model_explanation()
feature_importances = engineered_explanations.get_feature_importance_dict()

# Overall feature importance
print('Feature\tImportance')
for key, value in feature_importances.items():
    print(key, '\t', value)

## Afficher l’explication du modèle dans Azure Machine Learning studio

Vous pouvez également cliquer sur le lien **Afficher les détails de l’exécution** dans le widget Détails de l’exécution pour voir l’exécution dans Azure Machine Learning studio et afficher l’onglet **Explications**. Ensuite :

1. Sélectionnez l’ID d’explication de votre explicateur tabulaire.
2. Affichez le graphique **Importance d’une caractéristique agrégée**, qui affiche l’importance d’une caractéristique globale.
3. Affichez le graphique **Importance d’une caractéristique individuelle**, qui affiche chaque point de données à partir des données de test.
4. Sélectionnez un point individuel pour afficher l’importance d’une caractéristique locale pour la prédiction individuelle pour le point de données sélectionné.
5. Utilisez le bouton **Nouvelle cohorte** pour définir un sous-ensemble des données avec les paramètres suivants :
    - **Nom de la cohorte du jeu de données** : sous 25.
    - **Sélectionner un filtre** : Jeu de données
        - Âge inférieur à 25 (veillez à ajouter ce filtre avant d’enregistrer la nouvelle cohorte).
6. Créez une deuxième nouvelle cohorte nommée **25 et plus** avec un filtre sur Âge supérieur ou égal à 25.
6. Examinez la visualisation **Importance d’une caractéristique agrégée** et comparez l’importance d’une caractéristique relative pour les deux cohortes que vous avez définies. La possibilité de comparer des cohortes permet de voir comment les caractéristiques influencent les prédictions différemment pour plusieurs sous-ensembles de la population de données.



**Informations supplémentaires** : pour plus d’informations sur l’utilisation d’explicateurs dans Azure ML, consultez la [documentation](https://docs.microsoft.com/azure/machine-learning/how-to-machine-learning-interpretability). 