# TP Explicabilité - Importance des variables

**Auteur:** Sandie Cabon  
**Date:** 2 février 2026

Ce notebook permet d'analyser l'importance des variables dans le modèle Random Forest.

## Import des bibliothèques

In [None]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from helping_functions_et import infer_column_types
import joblib
from sklearn.inspection import permutation_importance

## Configuration (NE PAS MODIFIER)

In [None]:
print("############### CHARGEMENT DES DONNÉES #####################")

# close older figures
plt.close("all")

# load heart failure dataset
dataset = pd.read_csv("heart_failure_dataset_test.csv")

# apply good type to dataframe (custom function)
dataset = infer_column_types(dataset)

# separate feat and target values
dataset_feat = dataset.drop("DEATH_EVENT", axis=1)
dataset_target = dataset["DEATH_EVENT"]
feat_names = list(dataset_feat.columns)

# load the pipeline (composed by a preprocessor and a model)
loaded_RF = joblib.load('death_RF_predictor.pkl')

preprocessor = loaded_RF.named_steps['preprocessor']
model = loaded_RF.named_steps['model']

# settings for reproducibility
random_state = 12
np.random.seed(12)

# metric of interest
scorer = 'balanced_accuracy'

## III. Importance des variables

### Choix de la méthode

Nommer la methode pour executer la bonne partie du code : "RF_importance", "permutation" or "both"

In [None]:
print("############ III. IMPORTANCE DES VARIABLES ############")

# Nommer la methode pour executer la bonne partie du code : "RF_importance", "permutation" or "both"
method = "RF_importance"

### Feature importances données par le Random Forest

In [None]:
if method == "RF_importance" or method == "both":
    print("# feature importances données par le random forest")
    # Affichage des feature_importances
    # aide : utiliser l'attribut feature_importances_ de l'objet model
    #feat_importances = ...
    feat_importances = []
    
    # Associer les noms des caractéristiques à leurs importances
    feature_importances_with_names = list(zip(feat_names, feat_importances))
    
    # Les ordonner dans le sens descendant en utilisant la deuxième valeur du tuple (l'importance)
    # aider : compléter la fonction sorted()
    # feature_importances_ordered = sorted(..., key=lambda x: x[1], reverse=...)
    feature_importances_ordered = []
    
    # Afficher l'importance des caractéristiques dans un barplot
    plt.figure(figsize=(12, 4))
    plt.bar(range(len(feature_importances_ordered)),
            [imp[1] for imp in feature_importances_ordered],
            tick_label=[imp[0] for imp in feature_importances_ordered])
    
    plt.xlabel('Feature')
    plt.xticks(rotation=45)
    plt.ylabel('Importance')
    plt.title('Feature Importance given by Random Forest')
    plt.tight_layout()
    plt.show()

### Feature importances données par la méthode de la permutation

In [None]:
if method == "permutation" or method == "both":
    print("# feature importances données par la méthode de la permutation")
    
    # Effectuer le prétraitement manuellement sur les données de test
    feat_scaled = preprocessor.transform(dataset_feat)
    
    # Réaliser la permutation
    # aide : compléter la fonction permutation_importance
    result = permutation_importance(..., 
                                    ..., ...,
                                    n_repeats=50, random_state=random_state,
                                    scoring=scorer,
                                    n_jobs=2)
    
    
    # Associer les noms des caractéristiques à leurs importances
    feature_importances_with_names = list(zip(feat_names, result.importances_mean))
    
    # Les ordonner dans le sens descendant en utilisant la deuxième valeur du tuple (l'importance)
    # aider : compléter la fonction sorted()
    #feature_importances_ordered = sorted(..., key=lambda x: x[1], reverse=...)
    feature_importances_ordered = []
    
    # Afficher l'importance des caractéristiques dans un barplot
    plt.figure(figsize=(12, 4))
    plt.bar(range(len(feature_importances_ordered)),
            [imp[1] for imp in feature_importances_ordered],
            tick_label=[imp[0] for imp in feature_importances_ordered])
    plt.xlabel('Feature')
    plt.xticks(rotation=45)
    plt.ylabel('Importance')
    plt.title('Feature Importance given by Permutation')
    plt.tight_layout()
    plt.show()