# Détecter et atténuer une partialité dans les modèles

Des modèles Machine Learning peuvent incorporer un biais involontaire, ce qui peut conduire à des problèmes d’*impartialité*. Par exemple, un modèle prédisant la probabilité d’un diabète pourrait bien fonctionner pour certains groupes d’âge, mais pas pour d’autres, avec pour effet de soumettre certains patients à des tests superflus, ou de les priver de tests susceptibles de confirmer un diagnostic de diabète.

Dans ce notebook, vous allez utiliser le package **Fairlearn** pour analyser un modèle et explorer la disparité des performances de prédiction pour différents sous-ensembles de patients en fonction de l’âge.

> **Remarque** : l’intégration avec le package Fairlearn est actuellement en préversion. Il se peut que vous rencontriez des erreurs inattendues.

## Important - Considérations relatives à l’impartialité

> Ce notebook est conçu comme un exercice pratique pour vous aider à explorer le package Fairlearn et son intégration avec Azure Machine Learning. Cependant, il existe un grand nombre de considérations en matière d’impartialité qu’une organisation ou une équipe de science des données doivent aborder avant d’utiliser les outils. L’impartialité est un défi *socio-technique* complexe qui dépasse la simple exécution d’un outil pour analyser des modèles.
>
> Microsoft Research a contribué au développement d’une [liste de contrôle de l’impartialité](https://www.microsoft.com/en-us/research/publication/co-designing-checklists-to-understand-organizational-challenges-and-opportunities-around-fairness-in-ai/) qui offre un excellent point de départ pour les discussions importantes qui doivent avoir lieu avant d’écrire une seule ligne de code.

## Installer les kits de développement logiciel (SDK) requis

Pour utiliser le package Fairlearn avec Azure Machine Learning, vous avez besoin des packages Python Azure Machine Learning et Fairlearn. Exécutez donc la cellule suivante pour vérifier que le package **azureml-contrib-fairness** est installé. 

In [None]:
pip show azureml-contrib-fairness

Vous aurez également besoin du package **fairlearn** proprement dit et du package **raiwidgets** (que Fairlearn utilise pour visualiser des tableaux de bord). Exécutez la cellule suivante pour les installer.

In [None]:
pip install --upgrade fairlearn==0.7.0 raiwidgets

## Effectuer l’apprentissage d’un modèle

Vous allez commencer par effectuer l’apprentissage d’un modèle de classification pour prédire la probabilité de diabète. En plus de fractionner les données en jeux de caractéristiques et d’étiquettes pour l’apprentissage et les tests, vous allez extraire des caractéristiques *sensibles* utilisées pour définir des sous-populations de données dont vous souhaitez comparer l’impartialité. Dans ce cas, vous allez utiliser la colonne **Age** pour définir deux catégories de patients : les plus de 50 ans et les moins de 51 ans.

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier

# load the diabetes dataset
print("Loading Data...")
data = pd.read_csv('data/diabetes.csv')

# Separate features and labels
features = ['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness','SerumInsulin','BMI','DiabetesPedigree','Age']
X, y = data[features].values, data['Diabetic'].values

# Get sensitive features
S = data[['Age']].astype(int)
# Change value to represent age groups
S['Age'] = np.where(S.Age > 50, 'Over 50', '50 or younger')

# Split data into training set and test set
X_train, X_test, y_train, y_test, S_train, S_test = train_test_split(X, y, S, test_size=0.20, random_state=0, stratify=y)

# Train a classification model
print("Training model...")
diabetes_model = DecisionTreeClassifier().fit(X_train, y_train)

print("Model trained.")

Maintenant que vous avez effectué l’apprentissage un modèle, vous pouvez utiliser le package Fairlearn afin de comparer le comportement du modèle pour différentes valeurs de caractéristiques sensibles. Dans ce cas, vous allez :

- Utiliser la fonction fairlearn **selection_rate** afin de retourner le taux de sélection (pourcentage de prédictions positives) pour la population globale.
- Utiliser les fonctions de métriques **scikit-learn** pour calculer les métriques d’exactitude globale, de rappel et de précision.
- Utiliser une **MetricFrame** pour calculer le taux de sélection, l’exactitude, le rappel et la précision pour chaque groupe d’âge dans la caractéristique sensible **Age**. Notez qu’une combinaison de fonctions de métriques **fairlearn** et **scikit-learn** est utilisée pour calculer les valeurs de performance.

In [None]:
from fairlearn.metrics import selection_rate, MetricFrame
from sklearn.metrics import accuracy_score, recall_score, precision_score

# Get predictions for the witheld test data
y_hat = diabetes_model.predict(X_test)

# Get overall metrics
print("Overall Metrics:")
# Get selection rate from fairlearn
overall_selection_rate = selection_rate(y_test, y_hat) # Get selection rate from fairlearn
print("\tSelection Rate:", overall_selection_rate)
# Get standard metrics from scikit-learn
overall_accuracy = accuracy_score(y_test, y_hat)
print("\tAccuracy:", overall_accuracy)
overall_recall = recall_score(y_test, y_hat)
print("\tRecall:", overall_recall)
overall_precision = precision_score(y_test, y_hat)
print("\tPrecision:", overall_precision)

# Get metrics by sensitive group from fairlearn
print('\nMetrics by Group:')
metrics = {'selection_rate': selection_rate,
           'accuracy': accuracy_score,
           'recall': recall_score,
           'precision': precision_score}

group_metrics = MetricFrame(metrics=metrics,
                             y_true=y_test,
                             y_pred=y_hat,
                             sensitive_features=S_test['Age'])

print(group_metrics.by_group)

Ces métriques devraient vous permettre de discerner qu’une plus grande proportion des patients plus âgés sont prédits comme étant diabétiques. La *précision* devrait être plus ou moins égale pour les deux groupes, mais un examen plus approfondi des métriques *précision* et *rappel* révèle une certaine disparité dans la qualité de prédiction du modèle pour chaque groupe d’âge.

Dans ce scénario, examinez la métrique *rappel*. Cette métrique indique la proportion de cas positifs correctement identifiés par le modèle. En d’autres termes, de tous les patients réellement diabétiques, combien le modèle en a-t-il trouvé ? Le modèle est plus performant pour les patients âgés que pour les patients jeunes.

Il est souvent plus facile de comparer les métriques visuellement. Pour ce faire, vous allez utiliser le tableau de bord d’impartialité Fairlearn :

1. Exécutez la cellule ci-dessous pour générer un tableau de bord à partir du modèle que vous avez créé précédemment.
2. Une fois le widget affiché, utilisez le lien **Prise en main** pour commencer à configurer votre visualisation.
3. Sélectionnez les caractéristiques sensibles que vous souhaitez comparer (en l’occurrence, il n’y en a qu’une : **Age**).
4. Sélectionnez la métrique de performance du modèle que vous souhaitez comparer (en l’occurrence, comme il s’agit d’un modèle de classification binaire, les options sont *Exactitude*, *Exactitude équilibrée*, *Précision* et *Rappel*). Commencez par **Rappel**.
5. Sélectionnez le type de comparaison d’impartialité que vous souhaitez afficher. Commencez par **Différence de parité démographique**.
6. Affichez les graphiques du tableau de bord :
    - **Taux de sélection** : comparaison du nombre de cas positifs par sous-population.
    - **Taux de faux positifs et de faux négatifs** : comparaison de la métrique de performance sélectionnée est comparée pour les sous-populations, à savoir *sous-prédiction* (faux négatifs) et *sur-prédiction* (faux positifs).
7. Modifiez la configuration pour comparer les prédictions en fonction de différentes métriques de performance et d’impartialité.

In [None]:
from raiwidgets import FairnessDashboard

# View this model in Fairlearn's fairness dashboard, and see the disparities which appear:
FairnessDashboard(sensitive_features=S_test,
                   y_true=y_test,
                   y_pred={"diabetes_model": diabetes_model.predict(X_test)})

Les résultats indiquent un taux de sélection sensiblement plus élevé pour les patients de plus de 50 ans que pour les patients plus jeunes. Toutefois, en réalité, l’âge étant un véritable vecteur de diabète, vous pouvez vous attendre à davantage de cas positifs chez les patients plus âgés.

Si nous basons la performance du modèle sur l’*exactitude* (autrement dit, le pourcentage de bonnes prédictions du modèle), il semble fonctionner de manière plus ou moins égale pour les deux sous-populations. Toutefois, selon les métriques de *précision* et de *rappel*, le modèle a tendance à mieux fonctionner pour les patients âgés de plus de 50 ans.

Voyons ce qui se passe si nous excluons la caractéristique **Age** lors de l’apprentissage du modèle.

In [None]:
# Separate features and labels
ageless = features.copy()
ageless.remove('Age')
X2, y2 = data[ageless].values, data['Diabetic'].values

# Split data into training set and test set
X_train2, X_test2, y_train2, y_test2, S_train2, S_test2 = train_test_split(X2, y2, S, test_size=0.20, random_state=0, stratify=y2)

# Train a classification model
print("Training model...")
ageless_model = DecisionTreeClassifier().fit(X_train2, y_train2)
print("Model trained.")

# View this model in Fairlearn's fairness dashboard, and see the disparities which appear:
FairnessDashboard(sensitive_features=S_test2,
                   y_true=y_test2,
                   y_pred={"ageless_diabetes_model": ageless_model.predict(X_test2)})

Explorez le modèle dans le tableau de bord.

Lorsque vous examinez la métrique *rappel*, notez que la disparité a diminué, mais que le rappel global a également diminué car le modèle sous-prédit désormais de manière significative les cas positifs pour les patients plus âgés. Même si la caractéristique **Age** n’a pas été utilisée dans l’apprentissage, le modèle présente toujours une certaine disparité dans la qualité de ses prédictions pour les patients plus âgés et plus jeunes.

Dans ce scénario, la simple suppression de la caractéristique **Age** réduit légèrement la disparité dans la métrique de *rappel*, mais l’augmente dans les métriques de *précision* et d’*exactitude*. Cela souligne l’une des principales difficultés de l’application de l’impartialité aux modèles d’apprentissage automatique. Vous devez comprendre clairement ce que signifie l’« impartialité » dans un contexte particulier, et l’optimiser en conséquence.

## Inscrire le modèle et charger les données du tableau de bord dans votre espace de travail

Vous avez effectué l’apprentissage du modèle et examiné le tableau de bord localement dans ce notebook. Toutefois, il pourrait être utile d’inscrire le modèle dans votre espace de travail Azure Machine Learning, et de créer un essai pour enregistrer les données du tableau de bord afin de pouvoir suivre et partager votre analyse d’impartialité.

Commençons par inscrire le modèle d’origine (qui incluait la caractéristique **Age**).

> **Remarque** : si vous n’avez pas encore établi de session authentifiée avec votre abonnement Azure, vous serez invité à vous authentifier en cliquant sur un lien, en saisissant un code d’authentification et en vous connectant à Azure.

In [None]:
from azureml.core import Workspace, Experiment, Model
import joblib
import os

# Load the Azure ML workspace from the saved config file
ws = Workspace.from_config()
print('Ready to work with', ws.name)

# Save the trained model
model_file = 'diabetes_model.pkl'
joblib.dump(value=diabetes_model, filename=model_file)

# Register the model
print('Registering model...')
registered_model = Model.register(model_path=model_file,
                                  model_name='diabetes_classifier',
                                  workspace=ws)
model_id= registered_model.id


print('Model registered.', model_id)

Vous pouvez maintenant utiliser le package FairLearn pour créer des jeux de métriques de groupe de classification binaire pour un ou plusieurs modèles, et utiliser un essai Azure Machine Learning pour charger les métriques.

> ** Remarque ** : cette opération peut prendre un certain temps et entraîner l’affichage de messages d’avertissement (que vous pouvez ignorer). Une fois l’essai terminé, les données du tableau de bord seront téléchargées et affichées pour permettre de vérifier que leur chargement a abouti.

In [None]:
from fairlearn.metrics._group_metric_set import _create_group_metric_set
from azureml.contrib.fairness import upload_dashboard_dictionary, download_dashboard_by_upload_id

#  Create a dictionary of model(s) you want to assess for fairness 
sf = { 'Age': S_test.Age}
ys_pred = { model_id:diabetes_model.predict(X_test) }
dash_dict = _create_group_metric_set(y_true=y_test,
                                    predictions=ys_pred,
                                    sensitive_features=sf,
                                    prediction_type='binary_classification')

exp = Experiment(ws, 'mslearn-diabetes-fairness')
print(exp)

run = exp.start_logging()

# Upload the dashboard to Azure Machine Learning
try:
    dashboard_title = "Fairness insights of Diabetes Classifier"
    upload_id = upload_dashboard_dictionary(run,
                                            dash_dict,
                                            dashboard_name=dashboard_title)
    print("\nUploaded to id: {0}\n".format(upload_id))

    # To test the dashboard, you can download it
    downloaded_dict = download_dashboard_by_upload_id(run, upload_id)
    print(downloaded_dict)
finally:
    run.complete()

Le code précédent téléchargeait les métriques générées dans l’essai juste pour confirmer qu’elles avaient abouti. Le véritable avantage du chargement des métriques dans un essai est qu’il vous permet d’afficher le tableau de bord FairLearn dans Azure Machine Learning studio.

Exécutez la cellule ci-dessous pour voir les détails de l’essai, puis cliquez sur le lien **Afficher les détails de l’exécution** dans le widget pour voir l’exécution dans Azure Machine Learning studio. Ensuite, affichez l’onglet **Impartialité** de l’exécution de l’essai afin de voir sur le tableau de bord l’ID d’impartialité affecté aux métriques que vous avez chargées, qui se comporte de la même façon que le widget que vous avez affiché précédemment dans ce notebook.

In [None]:
from azureml.widgets import RunDetails

RunDetails(run).show()

Vous pouvez également trouver le tableau de bord d’impartialité en sélectionnant un modèle dans la page **Modèles** d’Azure Machine Learning studio et en examinant son onglet **Impartialité**. Cela permet à votre organisation de conserver un journal d’analyse d’impartialité pour les modèles dont vous effectuez l’apprentissage et que vous inscrivez.

## Atténuer la partialité dans le modèle

Maintenant que vous avez analysé le modèle en lien avec l’impartialité, vous pouvez utiliser l’une des techniques d’*atténuation* prises en charge par le package FairLearn afin de trouver un modèle qui équilibre les performances prédictives et l’impartialité.

Dans cet exercice, vous allez utiliser la caractéristique **GridSearch**, qui effectue l’apprentissage de plusieurs modèles pour tenter de réduire la disparité des performances prédictives pour les caractéristiques sensibles dans le jeu de données (en l’occurrence, les groupes d’âge). Vous allez optimiser les modèles en appliquant la contrainte de parité **EqualizedOdds**, qui veille à ce que les modèles présentant des taux de vrais et faux positifs similaires pour chaque regroupement de caractéristiques sensibles. 

> *Cela peut prendre un certain temps*

In [None]:
from fairlearn.reductions import GridSearch, EqualizedOdds
import joblib
import os

print('Finding mitigated models...')

# Train multiple models
sweep = GridSearch(DecisionTreeClassifier(),
                   constraints=EqualizedOdds(),
                   grid_size=20)

sweep.fit(X_train, y_train, sensitive_features=S_train.Age)
models = sweep.predictors_

# Save the models and get predictions from them (plus the original unmitigated one for comparison)
model_dir = 'mitigated_models'
os.makedirs(model_dir, exist_ok=True)
model_name = 'diabetes_unmitigated'
print(model_name)
joblib.dump(value=diabetes_model, filename=os.path.join(model_dir, '{0}.pkl'.format(model_name)))
predictions = {model_name: diabetes_model.predict(X_test)}
i = 0
for model in models:
    i += 1
    model_name = 'diabetes_mitigated_{0}'.format(i)
    print(model_name)
    joblib.dump(value=model, filename=os.path.join(model_dir, '{0}.pkl'.format(model_name)))
    predictions[model_name] = model.predict(X_test)


Vous pouvez maintenant utiliser le tableau de bord FairLearn pour comparer les modèles atténués :

Exécutez la cellule suivante, puis utilisez l’Assistant pour visualiser la caractéristique **Age** par **Rappel**.

In [None]:
FairnessDashboard(sensitive_features=S_test,
                   y_true=y_test,
                   y_pred=predictions)

Les modèles sont affichés sur un nuage de points. Vous pouvez comparer les modèles en mesurant la disparité des prédictions (en d’autres termes, le taux de sélection) ou la disparité de la métrique de performance sélectionnée (en l’occurrence, *rappel*). Dans ce scénario, nous nous attendons à une disparité des taux de sélection (car nous savons que l’âge *est* un facteur de diabète, avec davantage de cas positifs dans le groupe plus âgé). Nous nous intéressons à la disparité des performances prédictives. Sélectionnez donc l’option pour mesurer la **Disparité de rappel**.

Le graphique montre des clusters de modèles avec la métrique globale *rappel* sur l’axe X, et la disparité de rappel sur l’axe Y. Par conséquent, le modèle idéal (avec rappel élevé et faible disparité) se trouve dans l’angle inférieur droit du tracé. Vous pouvez choisir le bon équilibre entre performances prédictives et impartialité pour vos besoins particuliers, et sélectionner un modèle approprié pour afficher ses détails.

Il est important de souligner que l’application d’une atténuation d’impartialité à un modèle est un compromis entre les performances prédictives globales et la disparité parmi les groupes de caractéristiques sensibles. En général, vous devez sacrifier un peu des performances prédictives globales pour vous assurer que le modèle prédise de façon impartiale pour tous les segments de la population.

> **Remarque** : l’affichage de la métrique * précision* peut entraîner l’affichage d’un avertissement indiquant que la précision est définie sur 0,0 à défaut d’échantillon prédit. Vous pouvez l’ignorer.

## Charger les métriques du tableau de bord d’atténuation sur Azure Machine Learning

Comme précédemment, il se peut que vous vouliez conserver une trace de votre expérimentation d’atténuation. Pour ce faire, vous pouvez :

1. Inscrire les modèles trouvés par le processus GridSearch.
2. Calculer les métriques de performances et de disparité pour les modèles.
3. Charger les métriques dans un essai Azure Machine Learning.

In [None]:
# Register the models
registered_model_predictions = dict()
for model_name, prediction_data in predictions.items():
    model_file = os.path.join(model_dir, model_name + ".pkl")
    registered_model = Model.register(model_path=model_file,
                                      model_name=model_name,
                                      workspace=ws)
    registered_model_predictions[registered_model.id] = prediction_data

#  Create a group metric set for binary classification based on the Age feature for all of the models
sf = { 'Age': S_test.Age}
dash_dict = _create_group_metric_set(y_true=y_test,
                                     predictions=registered_model_predictions,
                                     sensitive_features=sf,
                                     prediction_type='binary_classification')

exp = Experiment(ws, "mslearn-diabetes-fairness")
print(exp)

run = exp.start_logging()
RunDetails(run).show()

# Upload the dashboard to Azure Machine Learning
try:
    dashboard_title = "Fairness Comparison of Diabetes Models"
    upload_id = upload_dashboard_dictionary(run,
                                            dash_dict,
                                            dashboard_name=dashboard_title)
    print("\nUploaded to id: {0}\n".format(upload_id))
finally:
    run.complete()

> **Remarque** : il se peut qu’un avertissement indiquant que la précision est définie sur 0,0 à défaut d’échantillon prédit. Vous pouvez l’ignorer.


Une fois l’essai terminé, cliquez sur le lien **Afficher les détails de l’exécution** dans le widget pour voir l’exécution dans Azure Machine Learning studio (il se peut que vous deviez faire défiler au-delà la sortie initiale pour voir le widget), ainsi que le tableau de bord FairLearn sous l’onglet **Impartialité**.