<a href="https://colab.research.google.com/github/Pantopelagienne/TP_Note_XAI/blob/main/TP_XAI.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#  üß† Comprendre son mod√®le de Machine Learning gr√¢ce √† l'Explicabilit√© ü§ñ

[Google Form](https://docs.google.com/forms/d/e/1FAIpQLSeE30hbSmbQO8vjiT6UJdk9hAR6xOTpDks71E6BBre1dea0AA/viewform?usp=sf_link)


# üì• Imports

In [None]:
# Installer les packages requis
!pip install pycaret explainerdashboard pycaret[analysis] --upgrade jupyter-dash shap lime

In [None]:
# Importer les librairies n√©cessaires
import pandas as pd
from pycaret.classification import *
from explainerdashboard import ClassifierExplainer, ExplainerDashboard
import shap
import lime.lime_tabular
from sklearn.preprocessing import LabelEncoder
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
import numpy as np
import matplotlib.pyplot as plt
from tensorflow.keras.applications import VGG16
from tensorflow.keras.applications.vgg16 import preprocess_input, decode_predictions
from tensorflow.keras.preprocessing import image
from lime import lime_image
from skimage.segmentation import mark_boundaries

# 1- Utilisation d'un Explainer Dashboard üìä

**Objectif** : Dans cette premi√®re partie, vous apprendrez √† cr√©er  et analyser un tableau de bord interactif avec la librairie ExplainerDashboard qui vous aidera √† visualiser et comprendre les performances et les pr√©dictions du mod√®le.

Google Form : Page 2 Partie SHAP, Page 2 Partie Contrefactuelles

## Chargement des donn√©es

Caract√©ristiques du dataset :

*   Age
*   Sexe
* Job : Niveau de comp√©tence et type de r√©sidence (0 - unskilled and non-resident, 1 - unskilled and resident, 2 - skilled, 3 - highly skilled)
* Housing : Type de logement (own, rent, or free)
* Saving accounts : Niveau des comptes d'√©pargne (little, moderate, quite rich, rich)
* Checking account : Montant des comptes courant
* Credit amount : Montant du cr√©dit
* Duration : Dur√©e du cr√©dit en mois
* Purpose : Objet du cr√©dit (car, furniture/equipment, radio/TV, domestic appliances, repairs, education, business, vacation/others)

In [None]:
# Charger le dataset
dataset = pd.read_csv("/path_to_your_file", sep=",")
dataset.drop(columns=dataset.columns[0], axis=1, inplace=True)

In [None]:
# D√©finir la variable cible
target = "Risk"

## Entra√Ænement du mod√®le

In [None]:
# Setup l'environnement PyCaret
exp1 = setup(dataset, target=target, session_id=123)

In [None]:
# Comparer les mod√®les
best_model = compare_models()

In [None]:
# Entra√Æner le meilleur mod√®le
model = create_model(best_model)

In [None]:
# Finaliser le mod√®le
final_model = finalize_model(model)

## Cr√©ation de l'Explainer Dashboard

In [None]:
# Remplir les valeurs manquantes pour les variables cat√©gorielles
categorical_columns = ["Sex", "Housing", "Saving accounts", "Checking account", "Purpose"]
dataset[categorical_columns] = dataset[categorical_columns].fillna("missing")

In [None]:
X = dataset.drop(columns=['Risk'])
y = get_config("y_transformed")

In [None]:
# Cr√©er un explainer pour le mod√®le
explainer = ClassifierExplainer(final_model, X, y, labels=['bad','good'])

In [None]:
# Cr√©er le dashboard
dashboard = ExplainerDashboard(explainer,
  importances=True,
  model_summary=False,
  contributions=True,
  whatif=True,
  shap_dependence=False,
  shap_interaction=False,
  decision_trees=False,
  title="Credit Risk Model Explainer",
  description="This dashboard provides insights into the credit risk model using SHAP.")

In [None]:
# Lancez le dashboard
dashboard.run(port=8050)

# 2- Comparaison de SHAP et LIME ‚öñÔ∏è

**Objectif** : Cette partie vous permettra de comparer deux m√©thodes d'explicabilit√©, SHAP et LIME, en les appliquant √† un dataset de classification bien connu, le dataset Iris.

Google Form : Page 3

In [None]:
# Charger le dataset Iris
iris = load_iris()
X = pd.DataFrame(iris.data, columns=iris.feature_names)
y = iris.target

Mettez en place un nouvel environnement PyCaret, entra√Ænez un random forest (pour pouvoir calculer TreeShap par la suite)

In [None]:
#

Initialisez un explainer LIME et un explainer SHAP, s√©lectionnez une instance du dataset en particulier puis comparez les r√©sultats (√† l'aide de bar plots par exemple)

In [None]:
#

# 3- üçã Expliquer les pr√©dictions d'un mod√®le avec LIME sur des images üñºÔ∏è

**Objectif** : Dans cette section, vous allez utiliser LIME pour expliquer les pr√©dictions d'un mod√®le de classification d'images pr√©-entra√Æn√©, VGG16. Vous apprendrez √† identifier et interpr√©ter les r√©gions de l'image qui influencent le plus les pr√©dictions du mod√®le, vous permettant ainsi de mieux comprendre comment et pourquoi le mod√®le prend certaines d√©cisions.

Google Form : Page 4

In [None]:
# Charger le mod√®le pr√©-entra√Æn√© VGG16
model = VGG16(weights='imagenet')

In [None]:
# Fonction pour charger et pr√©traiter l'image
def load_image(img_path):
    img = image.load_img(img_path, target_size=(224, 224))
    img = image.img_to_array(img)
    img = np.expand_dims(img, axis=0)
    img = preprocess_input(img)
    return img

Choisissez une image √† √©tiqueter

In [None]:
# Chemin de l'image √† √©tiquetter
img_path = "/path_to_your_file"

In [None]:
# Charger et pr√©traiter l'image
img = load_image(img_path)

In [None]:
# Pr√©dire l'√©tiquette de l'image
preds = model.predict(img)
print('Predicted:', decode_predictions(preds, top=3)[0])

In [None]:
# Fonction de pr√©diction pour LIME
def predict(images):
    images = preprocess_input(images)
    return model.predict(images)

In [None]:
# Initialiser l'explainer de LIME
explainer = lime_image.LimeImageExplainer()

In [None]:
# Expliquer la pr√©diction de l'image
explanation = explainer.explain_instance(img[0].astype('double'),
                                         predict,
                                         top_labels=40,
                                         hide_color=0,
                                         num_samples=1000)

In [None]:
# Obtenir le superpixel et le masque pour l'explication
temp, mask = explanation.get_image_and_mask(explanation.top_labels[0],
                                            posit ive_only=True,
                                            num_features=5,
                                            hide_rest=False)

In [None]:
# Afficher les superpixels importants
plt.figure(figsize=(8, 8))
plt.subplot(1, 2, 1)
plt.imshow(mark_boundaries(temp / 255.0, mask))
plt.title("Superpixels importants")

# 4- Clusters d'explications üóÇÔ∏è

**Objectif** : Dans cette section, vous allez explorer comment les valeurs SHAP peuvent √™tre utilis√©es pour cr√©er des clusters d'explications.

R√©f√©rences : [How to make the most of local explanations: effective
clustering based on influences](https://hal.science/hal-04189455/document)

Utilisez un algorithme de clustering (ex : K-means) sur les explications SHAP ou LIME d'un mod√®le. Vous pouvez r√©utiliser celles calcul√©es dans la partie 2. Libre √† vous de choisir un nouveau dataset et d'entra√Æner un nouveau mod√®le (sur un probl√®me de classification)

In [None]:
#

Comparez ensuite les r√©sultats obtenus avec les classifications des points d'origine

In [None]:
#

# ü¶Ü