
1. Définir le problème
 

2. Récupérer les données
 

3. Analyser et nettoyer les données
  

4. **Préparer les données**
  

5. Evaluer plusieurs modèles
  

6. Réglage fin des modèles
 

7. Surveiller son modèle



# 📌 4. Préparation des données pour les algorithmes d'apprentissage  

## 🚀 Objectif
Avant d'entraîner nos modèles de Machine Learning, nous devons **préparer les données** pour garantir de **bonnes performances** et éviter les biais.

## 🔍 Étapes du processus
1. **Import des données**  
2. **Séparation des données** (train/test)  
3. **Ré-équilibrage des classes**  
4. **Calibrage des variables** (normalisation, standardisation)  
5. **Sélection des variables** (réduction de dimension)


<img src="https://cdn.prod.website-files.com/6064b31ff49a2d31e0493af1/668517f547fb76e5a91026bd_AD_4nXcwTG4Tw3E2nZxeQud4AA2MU6q2KLoeTSLdjDT5lTaNKS681rs4O4_0gxtXt0DhRdvOSAfHmL6UK1q0AubR5NAZsEhT-MsIOf5bohGePloG-k8pnLcHuVauADJyLJRL3t14b1DaWceY5sb-q2joEJqBlZ4S.png" alt="drawing" width="500"/>

## 🔹 4.1. Importation des bibliothèques nécessaires

In [None]:
# Importation des bibliothèques nécessaires

# Gestion des avertissements
import warnings  # Ignore certains avertissements inutiles lors de l'exécution du code

# Manipulation et analyse de données
import pandas as pd  # Manipulation de tableaux de données (équivalent de SQL ou Excel en Python)
import numpy as np  # Calculs scientifiques et manipulation de matrices
import math  # Fonctions mathématiques avancées

# Visualisation des données
import matplotlib.pyplot as plt  # Création de graphiques et visualisations
import seaborn as sns  # Améliore l'esthétique des graphiques Matplotlib

# Scikit-learn : bibliothèque de Machine Learning

## Gestion des ensembles d'entraînement et de test
from sklearn.model_selection import train_test_split  # Sépare les données en ensemble d'entraînement et de test
from sklearn.model_selection import GridSearchCV  # Optimisation des hyperparamètres via une recherche sur grille
from sklearn.model_selection import cross_val_score  # Évaluation du modèle via validation croisée
from sklearn.model_selection import RepeatedStratifiedKFold, StratifiedKFold  
# Divise les données en sous-groupes pour validation croisée tout en respectant la répartition des classes

## Évaluation des modèles
from sklearn.metrics import confusion_matrix  # Matrice de confusion pour analyser les erreurs du modèle
from sklearn.metrics import balanced_accuracy_score  # Score d'exactitude pondéré pour données déséquilibrées
from sklearn.metrics import roc_curve  # Courbe ROC pour évaluer les performances des modèles binaires
from sklearn.metrics import average_precision_score  # Moyenne de la précision pour évaluer un classifieur
from sklearn.metrics import make_scorer  # Création de métriques personnalisées
from sklearn.metrics import roc_auc_score  # Calcul de l'aire sous la courbe ROC (AUC)
from sklearn.metrics import precision_recall_curve  # Courbe précision-rappel pour l'analyse des performances

## Pipelines et prétraitement des données
from sklearn.pipeline import Pipeline  # Automatisation du processus de transformation et d'entraînement des modèles
from sklearn.preprocessing import StandardScaler, MinMaxScaler  
# StandardScaler : centre et réduit les données (moyenne=0, écart-type=1)
# MinMaxScaler : met les données à l’échelle entre 0 et 1

## Sélection des variables
from sklearn.feature_selection import SelectKBest, mutual_info_classif, RFECV  
# SelectKBest : sélectionne les k meilleures variables en fonction d'un critère
# mutual_info_classif : sélectionne les variables selon l'information mutuelle avec la cible
# RFECV : élimination récursive des variables avec validation croisée

## Réduction de dimension
from sklearn.decomposition import PCA  # Analyse en Composantes Principales (PCA) pour réduire le nombre de variables

## Algorithmes de Machine Learning
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier, AdaBoostClassifier  
# RandomForestClassifier : ensemble d'arbres de décision pour classification
# GradientBoostingClassifier : algorithme ensembliste qui améliore les prédictions par itération
# AdaBoostClassifier : méthode de boosting qui pondère les erreurs des prédictions précédentes

from sklearn.svm import SVC  # Machine à Vecteurs de Support (SVM) pour classification
from sklearn.linear_model import LogisticRegression  # Régression logistique pour classification binaire
from sklearn.neighbors import KNeighborsClassifier  # Classifieur basé sur la distance aux k plus proches voisins
from sklearn.naive_bayes import GaussianNB  # Classifieur basé sur le théorème de Bayes (version gaussienne)
from sklearn.neural_network import MLPClassifier  # Réseau de neurones de type perceptron multicouche
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis # Analyse discriminante quadratique
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis # Analyse discriminante linéaire

## Gestion du déséquilibre des classes
from imblearn.under_sampling import RandomUnderSampler  # Sous-échantillonnage aléatoire pour équilibrer les classes

# Widgets interactifs pour Jupyter Notebook / JupyterLab
import ipywidgets as widgets  # Création d'interfaces interactives dans un Notebook
from IPython.display import display  # Affichage interactif des widgets et des sorties




## 🔹 4.2. Import des données

Nous utilisons le fichier **`DataSet_RegionPelvienne_Class.csv`** contenant notre jeu de données après nettoyage.

In [None]:
# Chargement du fichier CSV
df = pd.read_csv("/content/DataSet_RegionPelvienne_Class.csv", sep=",", header=0)

# Suppression de la colonne d'index inutile
df = df.drop(columns=["Unnamed: 0"])

# Affichage des 5 premières lignes pour vérification
df.head()

## 🔹 4.3. Séparation des données

Nous devons diviser nos données en **jeu d'entraînement** et **jeu de test** :
- **70-80% pour l'entraînement**
- **20-30% pour le test** 
- **Stratification** pour conserver la répartition des classes  
- **Fixation de la graine aléatoire** pour garantir la reproductibilité 




<img src="https://www.researchgate.net/publication/325870973/figure/fig6/AS:639531594285060@1529487622235/Train-Test-Data-Split.png" alt="drawing" width="500"/>


<font size="8"> ⚠️ </font> <font size="5"> <span style="color:#f0290e">**jeu de test** : </span> </font>
* **Jamais** utilisé pendant l'apprentissage, uniquement utilisé pour évaluer les performances du modèle **final**.
* **Représentatif** des données de la vie réelle (notamment : répartition des données)
* Il va servir à calculer l'**erreur de généralisation** : la capacité de notre modèle à faire des prédictions correctes à partir de données inconnues.
* On choisit au hasard **entre 20 et 30%** des éléments du jeu de données.
* Il faut faire attention à bien **fixer la graine aléatoire** lors de la division des données pour ne pas générer un jeu de test différent à chaque execution de la cellule ! Sinon au fur et à mesure l'ensemble du jeu de données aura été utilisé pour l'apprentissage et l'évaluation de la généralisation sera biaisée alors que c'est ce qu'on cherche justement à éviter.

In [None]:
# Séparation de la variable cible et des variables explicatives
y = pd.DataFrame( df['Echec'])
z = df.drop('Echec', axis = 1)

# Séparation en train/test
X_train, X_test, Y_train, Y_test = train_test_split(z,y, test_size = 0.3,stratify=y, random_state=2025)

# Réinitialisation des index des lignes dans chaque jeu
X_train = X_train.reset_index(drop=True) 
Y_train = Y_train.reset_index(drop=True)
X_test = X_test.reset_index(drop=True)
Y_test = Y_test.reset_index(drop=True)

# Vérification de la répartition des classes
print("Répartition des classes dans le set d'entraînement :")
print(Y_train.value_counts(normalize=True))

print("\nRépartition des classes dans le set de test :")
print(Y_test.value_counts(normalize=True))

## 🔹 4.4. Ré-équilibrage des classes  

<img src="https://www.lexplicite.fr/wp-content/uploads/2016/03/balance.jpg" alt="drawing" width="400"/>

Notre jeu de données présente un **déséquilibre** :  
- **90% de réussite**  
- **10% d’échec**  

### ⚠️ Pourquoi est-ce un problème ?  
En classification, un **déséquilibre de classes** peut poser un problème majeur :  
Les algorithmes ont tendance à **favoriser la classe majoritaire**, car elle est **statistiquement plus présente** dans les données d’entraînement.  
Cela peut être problématique si la **classe minoritaire est celle qui nous intéresse le plus**, comme ici avec la classe "échec" que nous souhaitons prédire. 


Si un algorithme est entraîné sur un dataset où **90% des observations appartiennent à la classe majoritaire**, il pourrait atteindre **90% de précision** simplement en **prédisant toujours la classe majoritaire**, **sans jamais détecter la classe minoritaire** !  
➡ **Cela fausse complètement l’apprentissage et les performances du modèle.**  

### 🔥 Solutions pour gérer le déséquilibre des classes  


| Méthode               | Fonction Scikit-learn | Principe | Inconvénients |
|-----------------------|----------------------|-----------|--------------|
| **Sur-échantillonnage de la classe minoritaire** | `SMOTE()` | Augmente la classe minoritaire artificiellement| Exemples artificiels parfois peu réalistes |
| **Sous-échantillonnage de la classe majoritaire** | `RandomUnderSampler()` | Diminue la classe majoritaire en supprimant des exemples| Risque de perte d'information |
| **Combinaison du sur-échantillonnage et du sous-échantillonnage** | `SMOTEENN()` | Génère des exemples artificiels de la classe minoritaire et supprime des exemples de la classe majoritaire | Complexité accrue |
| **Apprentissage sensible au coût** | `class_weight='balanced'` | Ajuste l'importance des classes dans l’algorithme d’apprentissage en pondérant la classe minoritaire, sans modifier les données. | Dépend de l'algorithme |



Il n’existe **pas de solution unique**, tout dépend des données que nous voulons traiter.   
👉 Il faut tester plusieurs approches et comparer les performances. 




<img src="https://media.springernature.com/lw685/springer-static/image/art%3A10.1007%2Fs10115-022-01772-8/MediaObjects/10115_2022_1772_Fig1_HTML.png" alt="drawing" width="500"/>

In [None]:
# Application du sous-échantillonnage de la classe majoritaire
# Il est possible de moduler le sous-échantillonnage pour seulement réduire le déséquilibre sans pour autant l'annuler complètement en modifiant le paramètre "sampling_strategy"
# Ici on ne supprime pas totalement le déséquilibre pour ne pas supprimer trop d'information
rus = RandomUnderSampler(sampling_strategy={
        0: len(Y_train[Y_train.Echec==1])*2,
        1: len(Y_train[Y_train.Echec==1])
    }, random_state=2025)

X_train_res, Y_train_res = rus.fit_resample(X_train, Y_train)

# Transformation des données en DataFrame pour simplifier la manipulation
X_train_res = pd.DataFrame(X_train_res, columns = z.columns)


# Vérification après ré-équilibrage
print(Y_train_res.value_counts(normalize=True))

<font size="5"> **⚠️ Attention** </font>    
On ne rééchantillonne que les données d'entrainement pour aider le modèle à apprendre à prédire la classe minoritaire.   
**Les données test ne sont pas rééchantillonnées**, elles doivent rester représentatives de la répartition des données dans le monde réel. 

## 🔹 4.5. Calibrage des variables  


<img src="https://cdn-blog.scalablepath.com/uploads/2023/09/data-preprocessing-techiniques-data-transformation-1-edited.png" alt="drawing" width="700"/>

Beaucoup d'algorithmes fonctionnent mieux lorsque les variables sont sur **la même échelle**.  

<font size="4"> **🔩 Deux méthodes courantes de calibrage** </font>
1. **Min-Max Scaling** : Met les valeurs entre 0 et 1 (sensible aux outliers), utile pour les réseaux de neurones notamment.   
     scikit : `MinMaxScaler()`
3. **Standardisation (Z-score)** : Centre les valeurs autour de 0 avec un écart-type de 1 (plus robuste).   
     scikit : `StandardScaler()`

<font size="5">⚠️</font> **IMPORTANT** :  
Les paramètres de transformation doivent être **calculés uniquement sur les données d'entraînement** et **appliqués aux données test**.  
❌ **Ne jamais faire `fit()` ou `fit_transform()` sur les données test !**  

<font size="4"> **🗄️ Encodage des variables catégorielles** </font> 


<img src="https://miro.medium.com/v2/resize:fit:1400/1*oU6w-wS25ySA4liGSESOHA.png" alt="drawing" width="500"/>

Une étape de transformation supplémentaire est parfois appliquée : l'**encodage des variables catégorielles**      
Si la base de données contient des **variables catégorielles**, elles doivent être converties en **valeurs numériques** :  

✔ **Variables ordinales** (avec un ordre) : on attribue une valeur respectant l'ordre.   
 Ex: `'Low' = 1`, `'Medium' = 2`, `'High' = 3`  

✔ **Variables nominales** (sans ordre) :  on crée n variables binaires qui décrivent chacune une des n catégories de la variable d'origine. Par exemple si on a une variable "Localisation tumorale" qui décrit la localisation du cancer en catégories "Prostate" "Uterus" "Sein" "Poumon", on créera 4 variables binaires nommées "Prostate, "Uterus", "Sein", "Poumon"; La variable "Prostate" sera égale à 1 si la ligne concernée de la base de données est issue de cette localisation et 0 sinon. Idem pour les 3 autres localisations.   
  `One-Hot Encoding()` de scikit permet de le faire automatiquement. 

<img src="https://miro.medium.com/v2/resize:fit:1400/1*x_DYdNVsPiRoDpSoRGJo3Q.png" alt="drawing" width="500"/>

<font size="4"> **🛠️ Power Transformer Scaler** </font>  


Certains algortihmes fonctionnent mieux avec des données distribuées normalement (régression logistique, analyse discriminante linéaire, KNN, SVM). 

📌 **Transformation** : Applique une transformation logarithmique pour **rendre les données plus normales** et réduire l'effet des valeurs extrêmes.  

📌 **Utile pour** : Données **très asymétriques** ou avec une **distribution exponentielle**.  

📌 **Deux méthodes disponibles** :  
- **Box-Cox** : Fonctionne uniquement sur des données **strictement positives** (scikit : `PowerTransformer(method='box-cox')`).  
- **Yeo-Johnson** : Peut être appliqué aux données **positives et négatives** (scikit : `PowerTransformer(method='yeo-johnson')`).  

➡️ Pour notre exemple, pour simplifier, on applique simplement une standardisation
* Pour chaque variable : on soustrait la valeur moyenne et on divise par l'écart-type.
* Les valeurs recalibrées auront une moyenne nulle et un écart-type égal à 1.
* Les valeurs ne sont pas limitées à un intervalle (peut poser problème pour les réseaux de neurones qui attendent souvent des valeurs entre 0 et 1) mais  le résultat est beaucoup moins sensible aux valeurs aberrantes qui peuvent écraser les autres valeurs dans une transformation min-max.


In [69]:
# Standardisation
scaler_std = StandardScaler()

# Normalisation calculée et appliquée sur les données d'entrainement ré-échantillonnées
X_train_res_std = scaler_std.fit_transform(X_train_res) 

# La normalisation est ensuite appliquée sur les données test avec la moyenne et l'écart type calculés sur les données d'entrainement : 
# les données test ne sont pas ré-échantillonnées (données vie réelle) mais on les appelle quand même "_res" car elles sont normalisées par rapport aux données d'entrainement rééchantillonnées
X_test_res_std = scaler_std.transform(X_test)

# Conversion en DataFrame
X_train_res_std = pd.DataFrame(X_train_res_std, columns=z.columns)
X_test_res_std = pd.DataFrame(X_test_res_std, columns=z.columns)

# Vérification
X_train_res_std.describe()

Unnamed: 0,MUperGy,MUmax,MUstd,MUiqr,AAV,AAVmin,AAVmax,AAVstd,AAViqr,LSV,...,EMstd,EMiqr,MIt02,BI,BImin,BImax,BIstd,BIiqr,BM,BAmin
count,309.0,309.0,309.0,309.0,309.0,309.0,309.0,309.0,309.0,309.0,...,309.0,309.0,309.0,309.0,309.0,309.0,309.0,309.0,309.0,309.0
mean,2.184517e-16,-9.341682e-17,-2.012055e-16,-7.18591e-17,-2.299491e-16,-4.5989820000000004e-17,-3.79416e-16,2.012055e-16,1.149746e-16,2.230506e-15,...,-2.2994910000000002e-17,-1.609644e-16,-5.173855e-16,2.069542e-16,-3.104313e-16,-5.403804e-16,1.89708e-16,-2.471953e-16,2.2994910000000002e-17,1.839593e-16
std,1.001622,1.001622,1.001622,1.001622,1.001622,1.001622,1.001622,1.001622,1.001622,1.001622,...,1.001622,1.001622,1.001622,1.001622,1.001622,1.001622,1.001622,1.001622,1.001622,1.001622
min,-2.896033,-0.9007779,-0.9811186,-0.9062054,-2.60513,-2.493933,-2.793264,-1.962361,-1.69218,-4.227638,...,-1.911521,-1.704696,-1.926156,-1.82053,-1.40466,-1.739618,-1.504247,-0.9955593,-3.974558,-1.307684
25%,-0.6506351,-0.6155379,-0.6331584,-0.5665571,-0.6611972,-0.7262604,-0.7476646,-0.7570348,-0.736015,-0.6834335,...,-0.6476983,-0.7664314,-0.8200404,-0.7337534,-0.7380765,-0.7256489,-0.5434622,-0.4022145,-0.6025596,-0.7269936
50%,0.07134193,-0.3821247,-0.2785735,-0.3094307,-0.06571037,-0.02463948,-0.1159644,-0.1363163,-0.1433386,0.03916958,...,-0.1278547,-0.09413357,-0.2739382,-0.1822219,-0.2392618,-0.1539228,-0.1162767,-0.1437413,0.09192296,-0.3605251
75%,0.5796381,0.3062359,0.2554142,0.2034369,0.6207645,0.7013813,0.7314117,0.576875,0.5041835,0.845579,...,0.5827173,0.5194356,0.9164259,0.6362857,0.4952234,0.5328081,0.3446315,0.2370264,0.6933081,0.4835256
max,4.31945,7.589229,6.807123,8.24659,4.069621,3.534019,3.115412,3.270229,3.694464,1.579712,...,3.423632,4.498983,2.092184,3.545508,4.73412,6.077694,12.06693,14.82802,2.598517,3.394155


<font size = 5>🔍</font> On peut vérifier rapidement ci-dessus que les moyennes des variables sont autour de zéro et les écart-types autour de 1

<div class="alert alert-block alert-info">
<b>Application </b> Impact de la standardisation sur les performances de divers algorithmes </div> 

In [78]:
# Définition des modèles disponibles
models = {
    "Support Vector Machine (SVC)": SVC(gamma='auto', probability=True, random_state=2025),
    "K plus proches voisins (KNN)": KNeighborsClassifier(n_neighbors=8),
    "Forêt Aléatoire (RF)": RandomForestClassifier(random_state=2025),
    "Régression Logistique (LR)": LogisticRegression(solver='saga', max_iter=10000),
    "Réseau de Neurones (MLP)": MLPClassifier(max_iter=400, random_state=2025)
}

# Création d'un menu déroulant pour choisir l'algorithme
model_selector = widgets.Dropdown(
    options=list(models.keys()),
    value="Réseau de Neurones (MLP)",
    description="Modèle :",
    style={'description_width': 'initial'}
)

# Bouton pour exécuter l'analyse
run_button = widgets.Button(description="Lancer l'analyse", button_style='success')

# Zone d'affichage des résultats
output = widgets.Output()

# Fonction d'exécution du test
def run_evaluation(change):
    with output:
        output.clear_output()  # Nettoyer la sortie précédente
        print("Exécution en cours...")
        
        model = models[model_selector.value]  # Sélection du modèle choisi
        Y = Y_train_res  # Données cibles

        # Évaluation sans normalisation
        X = X_train_res
        X_test_temp = X_test
        clf = model.fit(X, Y.Echec)
        y_scores_non_norm = model.predict_proba(X_test_temp)[:, 1]
        fpr_non_norm, tpr_non_norm, _ = roc_curve(Y_test.Echec, y_scores_non_norm)
        auroc_non_norm = np.round(roc_auc_score(Y_test.Echec, y_scores_non_norm), 2)

        # Évaluation avec normalisation
        X = X_train_res_std
        X_test_temp = X_test_res_std
        clf = model.fit(X, Y.Echec)
        y_scores_norm = model.predict_proba(X_test_temp)[:, 1]
        fpr_norm, tpr_norm, _ = roc_curve(Y_test.Echec, y_scores_norm)
        auroc_norm = np.round(roc_auc_score(Y_test.Echec, y_scores_norm), 2)

        # Affichage des résultats
        print(f"📌 Modèle sélectionné : {model_selector.value}")
        print(f"🔹 AUROC avec données non normalisées : {auroc_non_norm}")
        print(f"🔹 AUROC avec données normalisées : {auroc_norm}")

        # Tracé des courbes ROC
        plt.figure(figsize=(8, 6))
        plt.plot(fpr_non_norm, tpr_non_norm, linestyle='--', label=f'Variables non standardisées (AUROC={auroc_non_norm})', color='blue')
        plt.plot(fpr_norm, tpr_norm, linestyle='-', label=f'Variables standardisées (AUROC={auroc_norm})', color='red')
        plt.plot([0, 1], [0, 1], linestyle='dotted', color='black', label="Random Guess")
        plt.xlabel("Taux de faux positifs (FPR)")
        plt.ylabel("Taux de vrais positifs (TPR)")
        plt.title(f"Courbes ROC pour {model_selector.value}")
        plt.legend()
        plt.grid(True)
        plt.show()

# Lier la fonction au bouton
run_button.on_click(run_evaluation)

# Affichage des widgets
display(model_selector, run_button, output)


Dropdown(description='Modèle :', index=4, options=('Support Vector Machine (SVC)', 'K plus proches voisins (KN…

Button(button_style='success', description="Lancer l'analyse", style=ButtonStyle())

Output()

<font size = 5>ℹ️</font>   
Les algorithmes basés sur des **arbres de décisions** (comme la forêt aléatoire ou le gradient boosting) ne sont pas sensibles à la standardisation des données car ils utilisent des règles de décisions basés sur des seuils et non sur des mesures de distance. La multiplication ou la division par une constante n'affecte pas les seuils car les relations d'ordre entre les valeurs restent les mêmes. 

## 🔹4.6. Sélection des variables  

<img src="https://www.appliedaicourse.com/blog/wp-content/uploads/2024/09/feature-selection-in-machine-learning-scaled.jpg" alt="drawing" width="600"/>

<font size="4"> 🚀 **Objectif** : **réduire le nombre de variables** utilisées par un modèle </font>

<font size="4"> 🔍 <span style="color:#1114b5">**Pourquoi est-ce utile ?**  </span> </font>

✔ **Amélioration des performances**  
➡ Moins de bruit = modèle plus précis et moins sujet au sur-ajustement (*overfitting*).  

✔ **Réduction du temps de calcul**  
➡ Moins de variables = **entraînement plus rapide** et modèles plus efficaces.  

✔ **Meilleure interprétabilité**  
➡ Facilite l’analyse et la compréhension des résultats.  

✔ **Élimination des variables inutiles ou redondantes**  
➡ Certaines variables n’apportent **aucune information** ou sont **fortement corrélées**.  


Nous allons tester **quatre approches** :  
1. Information mutuelle  
2. Élimination récursive des variables (RFE)
3. Analyse des composantes principales (PCA)  


### ⛓️ Information mutuelle

Fonction scikit :  `SelectKBest(score_func=mutual_info_classif)`

L'**information mutuelle** est un indicateur permettant de mesurer **l’influence d’une variable explicative sur une variable cible**.  
Elle provient de la **théorie de l'information** et quantifie **l’information partagée** entre deux variables.

<font size="5"> **🔍 Principe** </font>    


L’information mutuelle évalue **dans quelle mesure connaître une variable réduit l’incertitude sur une autre** :  

- **Valeur élevée** → La variable explicative contient beaucoup d’informations sur la cible (**forte dépendance**).  
- **Valeur faible** → La variable explicative apporte peu d’informations sur la cible.  
- **Valeur nulle** → Les deux variables sont totalement indépendantes.  

✔ **Détecte les relations non linéaires** entre les variables  
✔ Fonctionne pour **variables continues et binaires**  



In [None]:
# Sélection des meilleures variables explicatives en fonction de l'information mutuelle
# `k='all'` signifie que toutes les variables sont évaluées
fs = SelectKBest(score_func=mutual_info_classif, k='all') # fs pour "feature selection"

# Ajustement de la méthode sur les données d'entraînement
fs.fit(X_train_res_std, Y_train_res.Echec)

# Transformation des données d'entraînement et de test en ne conservant que les scores des variables sélectionnées (toutes si on a choisi k=all précédemment)
X_train_fs = fs.transform(X_train_res_std)
X_test_fs = fs.transform(X_test_res_std)


# Visualisation des scores des variables sous forme de diagramme en barres
plt.figure(figsize=(10, 5))  # Ajustement de la taille du graphique
plt.bar(range(len(fs.scores_)), fs.scores_)  # Affichage des scores sous forme de barres
plt.xticks(range(len(fs.scores_)), z.columns, rotation=90)  # Rotation des étiquettes pour une meilleure lisibilité
plt.title("Scores d'importance des variables (Information Mutuelle)")
plt.xlabel("Variables")
plt.ylabel("Score d'importance")
plt.grid(axis='y', linestyle='--', alpha=0.7)  # Ajout d'une grille pour une meilleure lisibilité
plt.show()

<font size="5"> **🎯 Comment choisir k, le nombre optimal de variables à sélectionner ?** </font>  

Le paramètre **k** dans `SelectKBest()` détermine le nombre de variables explicatives à conserver.  
Un bon choix de **k** est crucial pour optimiser la **précision du modèle** et son **efficacité**.  

---

➡ <span style="color:#1114b5">**Pourquoi est-il important de bien choisir k ?**</span>


✔ **Trop de variables** ➝ Bruit inutile, complexité accrue, risque de sur-ajustement (*overfitting*).  
✔ **Trop peu de variables** ➝ Perte d’informations utiles, modèle sous-performant (*underfitting*).  
👉 **L'objectif est de trouver un équilibre** entre richesse de l’information et simplicité du modèle.


 **Solution : Évaluer les performances du modèle en fonction de k.**  

---

➡ <span style="color:#1114b5">**Utilisation de la **Cross-Validation** pour choisir k** </span> 

La **Cross-Validation (CV)** permet de tester les performances d’un modèle tout en évitant le biais d’un seul échantillon d’évaluation.  

Principe de la Cross-Validation : 
1. On divise les **données d'entraînement** en **k sous-ensembles** (*folds*).  
2. On entraîne le modèle sur **k-1 folds** et on teste sur le fold restant.  
3. On répète le processus jusqu'à ce que chaque fold ait servi à l'évaluation.  
4. Les performances sont **moyennées** pour obtenir une estimation fiable.  

**Avantages**  
✔ Permet d'évaluer **objectivement** les performances pour différents nombres de variables, **sans utiliser le jeu de test**.  
✔ **Réduit l’influence du hasard**, contrairement à une simple division entraînement/test.  

<img src="https://scikit-learn.org/stable/_images/grid_search_cross_validation.png" alt="drawing" width="600"/>


---

➡ <span style="color:#1114b5"> **Recherche du meilleur k avec Grid Search**  </span>

Plutôt que de tester manuellement différentes valeurs de **k**, on peut automatiser le processus avec une **recherche sur grille** (*Grid Search*).  

**Processus**  
- On **teste plusieurs valeurs de k** (ex: de 5 à 50 variables).  
- Pour chaque valeur de **k**, on applique une **Cross-Validation** pour évaluer les performances du modèle.  
- On sélectionne le **k optimal**, celui qui maximise la performance sans sur-ajustement.  

---


> <font size="4">💡 <span style="color:#e66612"> **Précision technique : Utilisation des Pipelines**  </span> </font>
> 
> Un `Pipeline` dans scikit-learn permet d’enchaîner plusieurs étapes du **prétraitement des données** et de **l’entraînement du modèle** en une seule structure.  
> 
> **📌 Avantages :**  
> - ✅ **Automatisation** : Enchaîne les transformations (ex: sélection de variables, normalisation, entraînement).  
> - ✅ **Réduction des erreurs** : Évite la fuite de données en appliquant chaque transformation de manière cohérente.   
> 🔗 [Documentation scikit - Pipeline](https://scikit-learn.org/stable/modules/compose.html#pipelinehttps://scikit-learn.org/stable/modules/compose.html#pipeline)

In [None]:
%%time  
# Mesure du temps d'exécution de la cellule 

###### 1. Définition de la cross-validation : 3 folds, répétés 3 fois, avec stratification
# - Stratification : Assure que la répartition des classes est respectée dans chaque fold.
# - Répétition : Répète 3 fois la validation croisée avec des divisions différentes des données.
# - Objectif : Réduire la variance des estimations et améliorer la robustesse du modèle.
cv = RepeatedStratifiedKFold(n_splits=3, n_repeats=3, random_state=2025)

###### 2. Définition du modèle de Machine Learning
# On choisit une régression logistique comme modèle de base.
model = LogisticRegression(solver='lbfgs')

###### 3. Sélection des variables avec une méthode de filtrage
# - Information Mutuelle (mutual_info_classif)
fs = SelectKBest(score_func=mutual_info_classif)

###### 4. Construction du pipeline
# - Le pipeline permet d'automatiser la sélection des variables avant l'entraînement du modèle.
pipeline = Pipeline(steps=[('selection', fs), ('lr', model)])

###### 5. Définition de la grille de recherche pour la sélection des variables
# - On teste k entre 1 et le nombre total de variables disponibles.
grille = dict()
grille['selection__k'] = [i + 1 for i in range(X_train_res_std.shape[1])]

###### 6. Recherche du meilleur k via une validation croisée et Grid Search
# - Utilisation de l'aire sous la courbe ROC (AUC) comme métrique d'évaluation.
# - La recherche est parallélisée (`n_jobs=-1` signifie que tous les processeurs sont utilisés).
recherche = GridSearchCV(pipeline, grille, scoring='roc_auc', n_jobs=-1, cv=cv)

###### 7. Exécution de la recherche sur grille
# - Le modèle est entraîné pour chaque valeur de k et évalué via la validation croisée.
recherche.fit(X_train_res_std, Y_train_res.Echec)

###### 8. Extraction des résultats
meilleur_k = recherche.best_params_['selection__k']  # k optimal sélectionné
meilleur_auc = recherche.best_score_  # Meilleur AUROC obtenu

best_fs = SelectKBest(score_func=mutual_info_classif, k=meilleur_k)
best_fs.fit(X_train_res_std, Y_train_res.Echec)
selected_vars = list(X_train_res_std.columns[best_fs.get_support()])

###### 9. Affichage des meilleurs résultats trouvés
print('Meilleur AUROC : %.1f' % meilleur_auc)
print('Meilleurs paramètres :', meilleur_k)
print(f"Variables sélectionnées : {selected_vars}")

###### 10. Visualisation des résultats de la recherche
# - On récupère les scores moyens et leur écart-type pour chaque valeur de k testée.
resultats = recherche.cv_results_
moyennes = resultats['mean_test_score']
variances = resultats['std_test_score']

### Tracé du score AUROC en fonction du nombre de variables sélectionnées (k)
plt.figure(figsize=(10, 5))
plt.errorbar(grille['selection__k'], moyennes, yerr=variances, fmt='-o', capsize=5, label="AUROC moyen")

# Mise en évidence du k sélectionné
plt.axvline(meilleur_k, color='red', linestyle='--', linewidth=1.5, label=f'k optimal = {meilleur_k}')
plt.scatter(meilleur_k, meilleur_auc, color='red', s=100, edgecolors='black', label="Meilleur score")

# Mise en forme du graphique
plt.title("Sélection du nombre optimal de variables (k) via Grid Search")
plt.xlabel('Nombre de variables sélectionnées (k)')
plt.ylabel('AUROC')
plt.legend()
plt.grid(True, linestyle='--', alpha=0.7)
plt.show()

<div class="alert alert-block alert-info">
<b>Application </b> On peut répéter la sélection pour différents type d'algortihmes ML et métriques de performance : </div> 

In [None]:
#Si problème dans Colab
#from google.colab import output
#output.enable_custom_widget_manager()

# Définition des modèles disponibles
model_options = {
    "Régression Logistique": LogisticRegression(solver='lbfgs'),
    "Forêt Aléatoire": RandomForestClassifier(),
    "Gradient Boosting": GradientBoostingClassifier(),
    "SVM": SVC(probability=True),
    "K-Nearest Neighbors": KNeighborsClassifier()
}

# Définition des métriques disponibles
metrics_options = {
    "AUC-ROC": "roc_auc",
    "Accuracy": "accuracy",
    "F1 Score": "f1_weighted",
    "Précision": "precision",
    "Rappel": "recall"
}

# Création des widgets interactifs pour le modèle et la métrique
algo_selector = widgets.Dropdown(
    options=model_options.keys(),
    value="Régression Logistique",
    description="Modèle :"
)

metric_selector = widgets.Dropdown(
    options=metrics_options.keys(),
    value="AUC-ROC",
    description="Métrique :"
)

# Bouton pour exécuter le calcul
run_button = widgets.Button(
    description="Lancer le calcul",
    button_style='success',
    tooltip="Cliquez pour exécuter la recherche du k optimal"
)

# Zone de sortie pour afficher les résultats
output = widgets.Output()

def run_grid_search(b):
    """ Fonction exécutée lorsqu'on clique sur le bouton """
    
    with output:
        output.clear_output()
        print("Exécution en cours...")

        # Sélection du modèle et de la métrique
        model_name = algo_selector.value
        metric_name = metric_selector.value

        model = model_options[model_name]
        metric = metrics_options[metric_name]

        # Validation croisée fixée à 3 folds et 3 répétitions
        cv = RepeatedStratifiedKFold(n_splits=3, n_repeats=3, random_state=2025)

        # Sélection des variables avec Information Mutuelle
        fs = SelectKBest(score_func=mutual_info_classif)

        # Création du pipeline (sélection des variables + modèle)
        pipeline = Pipeline(steps=[('selection', fs), ('model', model)])

        # Définition de la grille de recherche pour k
        grille = {'selection__k': [i + 1 for i in range(X_train_res_std.shape[1])]}

        # Recherche du meilleur k via Grid Search
        recherche = GridSearchCV(pipeline, grille, scoring=metric, n_jobs=-1, cv=cv)
        recherche.fit(X_train_res_std, Y_train_res.Echec)

        # Extraction des résultats
        meilleur_k = recherche.best_params_['selection__k']
        meilleur_score = recherche.best_score_

        # Récupération des indices des variables sélectionnées
        best_fs = SelectKBest(score_func=mutual_info_classif, k=meilleur_k)
        best_fs.fit(X_train_res_std, Y_train_res.Echec)
        selected_vars = list(X_train_res_std.columns[best_fs.get_support()])

        # Affichage des résultats
        print(f"\nMeilleur {metric_name} : {meilleur_score:.3f}")
        print(f"Meilleur nombre de variables sélectionnées (k) : {meilleur_k}")
        print(f"Variables sélectionnées : {selected_vars}")
        
        # Récupération des scores pour chaque valeur de k testée
        resultats = recherche.cv_results_
        moyennes = resultats['mean_test_score']
        variances = resultats['std_test_score']

        # Affichage graphique des résultats
        plt.figure(figsize=(10, 5))
        plt.errorbar(grille['selection__k'], moyennes, yerr=variances, fmt='-o', capsize=5, label=f"{metric_name} moyen")
        
        # Mise en évidence du k sélectionné
        plt.axvline(meilleur_k, color='red', linestyle='--', linewidth=1.5, label=f'k optimal = {meilleur_k}')
        plt.scatter(meilleur_k, meilleur_score, color='red', s=100, edgecolors='black', label="Meilleur score")

        # Mise en forme du graphique
        plt.title(f"Impact de {model_name} sur la sélection de k ({metric_name})")
        plt.xlabel("Nombre de variables sélectionnées (k)")
        plt.ylabel(metric_name)
        plt.legend()
        plt.grid(True, linestyle='--', alpha=0.7)
        plt.show()

# Associer la fonction au bouton
run_button.on_click(run_grid_search)

# Affichage de l'interface
display(algo_selector, metric_selector, run_button, output)




### 🔁 Méthode de sélection récursive (RFE)
📌 **Utilisée pour sélectionner un sous-ensemble optimal de variables**  



<img src="https://www.blog.trainindata.com/wp-content/uploads/2022/08/rfesklearn.png" alt="drawing" width="600"/>

L'**Elimination Récursive des Variables (RFE)** est une technique de **sélection de variables** qui fonctionne de manière itérative pour identifier les variables les plus pertinentes.

<font size="5"> **🔍 Principe** </font> 
1. **Entraînement du modèle** avec toutes les variables.
2. **Évaluation de l'importance** des variables (ex: coefficients d'une régression ou importance des features d'un arbre).
3. **Suppression** de la variable la moins importante.
4. **Répétition du processus** jusqu'à atteindre un nombre défini de variables.
5. **Conservation des variables les plus significatives**.

✔ Adapté aux **modèles linéaires** et **arbres de décision**  
✔ Peut être combiné avec une **validation croisée (RFECV)** pour déterminer automatiquement le nombre optimal de variables  
✔ Permet de **réduire le sur-ajustement** en limitant le nombre de variables inutiles  

🔗 **Scikit-learn :** `sklearn.feature_selection.RFE` et `RFECV` pour la version avec validation croisée.

In [None]:
%%time 
# Mesure du temps d'exécution de la cellule (utile pour évaluer les performances du code)

# Création d'un pipeline pour normaliser les données et entraîner le modèle
# - Normalisation avec StandardScaler (moyenne = 0, écart-type = 1)
# - Modèle utilisé : Régression Logistique
pipeline = Pipeline([
    ('scale', StandardScaler()),  
    ('clf', LogisticRegression(solver='lbfgs'))  
])

# Définition de la validation croisée
# - 3 folds (découpage des données en 3 groupes)
# - Répété 3 fois pour améliorer la robustesse de la sélection de variables
kfold = RepeatedStratifiedKFold(n_splits=3, n_repeats=3, random_state=2025)

# Définition du processus d'élimination récursive des variables (RFE avec CV)
rfecv_LR = RFECV(
    estimator=pipeline,  
    step=1,  # Suppression de 1 variable à chaque itération
    cv=kfold,  
    scoring='roc_auc',  # Utilisation de l'AUC-ROC comme métrique d'évaluation
    min_features_to_select=1,  # Nombre minimal de variables à conserver
    importance_getter="named_steps.clf.coef_"  
)

# Entraînement du processus RFE avec CV sur les données non standardisés (car la standardisation est intégrée dans le pipeline)
rfecv_LR.fit(X_train_res, Y_train_res.Echec)

# Extraction des résultats de la sélection de variables
mask = rfecv_LR.support_  # Masque booléen des variables sélectionnées
X_train_rfe = X_train_res.loc[:, mask]  # Sélection des variables dans X_train
X_test_rfe = X_test.loc[:, mask]  # Sélection des variables dans X_test

# Affichage des résultats
print("Nombre de variables sélectionnées par le processus RFE :", rfecv_LR.n_features_)
print("Variables sélectionnées :", list(X_train_rfe.columns))

# Récupération des scores de la validation croisée pour chaque sous-ensemble de variables
x = range(1, len(mask) + 1)  # Nombre total de variables testées
y = rfecv_LR.cv_results_['mean_test_score']  # Score moyen AUC-ROC pour chaque k
error = rfecv_LR.cv_results_['std_test_score']  # Écart-type des scores

# Affichage des résultats sous forme de graphique
plt.figure(figsize=(8,5))
plt.plot(x, y, marker='o', linestyle='-')
plt.fill_between(x, y-error, y+error, alpha=0.2)  # Ajout d'une bande d'erreur
plt.axvline(rfecv_LR.n_features_, color='red', linestyle='--', linewidth=1.5, label=f'k optimal = {rfecv_LR.n_features_}')  
plt.xlabel("Nombre de variables sélectionnées")
plt.ylabel("AUROC sur la CV")
plt.title("Sélection RFE basée sur la Régression Logistique")
plt.ylim(0.5, 1.0)
plt.legend()
plt.grid(True)
plt.show()


<font size="8"> ⚠️ </font>
><span style="color:#1114b5"> **Standardisation et cross-validation** </span>  
Dans ce code, **nous n'utilisons pas le jeu d'entrainement préalablement standardisé** dans la CV qui sert pour ajuster `RFECV`.  
En effet, la standardisation est **intégrée dans le pipeline**, ce qui permet de garantir une séparation stricte entre les données d'entraînement et les données de validation.
>
> <span style="color:#1114b5"> **Pourquoi est-ce important ?**   </span>   
Lors de la **validation croisée**, les données d'entraînement et de validation changent à chaque itération.  
Si nous standardisions l'ensemble des données avant la validation croisée, la moyenne et l'écart-type utilisés pour la transformation incluraient des informations provenant des folds de validation.  
Cela entraînerait une **fuite de données**, biaisant ainsi l'évaluation du modèle.
>
> <span style="color:#1114b5"> **Avantage de l'intégration dans le pipeline**   </span>   
En intégrant `StandardScaler()` dans le pipeline, chaque fold de validation est **normalisé uniquement** avec les statistiques (moyenne et écart-type) calculées sur les folds d'entraînement de l'itération correspondante.  
Cela garantit une **indépendance stricte** entre les folds d'entraînement et les folds de validation, assurant une évaluation plus réaliste des performances du modèle.



<div class="alert alert-block alert-info">
<b>Application </b> On peut répéter la sélection pour différents type d'algortihmes et différentes métriques de performance : </div> 

In [None]:
# Liste des algorithmes disponibles
algorithms = {
    "Régression Logistique": LogisticRegression(solver='lbfgs'),
    "Forêt Aléatoire": RandomForestClassifier(),
    "SVM": SVC(kernel="linear", probability=True),
    "Gradient Boosting": GradientBoostingClassifier(),
    "AdaBoost": AdaBoostClassifier()
}

# Liste des métriques de scoring disponibles
scoring_metrics = {
    "AUC-ROC": "roc_auc",
    "Accuracy": "accuracy",
    "F1-Score": "f1_weighted",
    "Précision": "precision",
    "Recall": "recall"
}

# Widgets interactifs
algo_selector = widgets.Dropdown(
    options=algorithms.keys(),
    value="Régression Logistique",
    description="Algorithme:"
)

metric_selector = widgets.Dropdown(
    options=scoring_metrics.keys(),
    value="AUC-ROC",
    description="Métrique:"
)

run_button = widgets.Button(description="Lancer le calcul", button_style='success')

output = widgets.Output()

# Fonction exécutée au clic du bouton
def run_rfecv(_):
    with output:
        output.clear_output(wait=True)
        print("Exécution en cours...")

        # Sélection de l'algorithme et de la métrique en fonction des choix utilisateur
        selected_algo = algorithms[algo_selector.value]
        selected_metric = scoring_metrics[metric_selector.value]

        # Création du pipeline avec normalisation et modèle sélectionné
        pipeline = Pipeline([
            ('scale', StandardScaler()),  
            ('clf', selected_algo)
        ])

        # Paramétrage de la validation croisée (3 folds, 3 répétitions)
        kfold = RepeatedStratifiedKFold(n_splits=3, n_repeats=3, random_state=2025)

        # Processus de sélection des variables (RFE avec validation croisée)
        rfecv = RFECV(
            estimator=pipeline,  
            step=1,  
            cv=kfold,  
            scoring=selected_metric,  
            min_features_to_select=1,  
            importance_getter="named_steps.clf.coef_" if isinstance(selected_algo, LogisticRegression) or isinstance(selected_algo, SVC) else "named_steps.clf.feature_importances_"  
        )

        # Entraînement du processus RFE avec CV sur les données (les données ne sont pas standardisées avant car le pipeline s'en charge)
        rfecv.fit(X_train_res, Y_train_res.Echec)

        # Récupération des variables sélectionnées
        mask = rfecv.support_
        X_train_rfe = X_train_res.loc[:, mask]
        X_test_rfe = X_test.loc[:, mask]

        print("Nombre de variables sélectionnées :", rfecv.n_features_)
        print("Variables sélectionnées :", list(X_train_rfe.columns))

        # Récupération des scores de la validation croisée pour chaque sous-ensemble de variables
        x = range(1, len(mask) + 1)  
        y = rfecv.cv_results_['mean_test_score']  
        error = rfecv.cv_results_['std_test_score']

        # Affichage du graphique
        plt.figure(figsize=(8,5))
        plt.plot(x, y, marker='o', linestyle='-')
        plt.fill_between(x, y-error, y+error, alpha=0.2)
        plt.axvline(rfecv.n_features_, color='red', linestyle='--', linewidth=1.5, label=f'k optimal = {rfecv.n_features_}')  
        plt.xlabel("Nombre de variables sélectionnées")
        plt.ylabel(selected_metric)
        plt.title(f"Sélection RFE basée sur {algo_selector.value}")
        plt.ylim(0.3, 1.0)
        plt.legend()
        plt.grid(True)
        plt.show()
        
        # Effacer le message d'exécution en cours
        clear_output(wait=True)

# Associer l'action au clic du bouton
run_button.on_click(run_rfecv)

# Affichage des widgets interactifs
display(algo_selector, metric_selector, run_button, output)


### 📉 Méthode de réduction de dimension (PCA)

- La PCA (Principal Composant Analysis) permet de **transformer** ces variables en un **nouveau jeu de variables non corrélées** appelées **composantes principales**.
- Elle permet de **réduire la dimension** des données tout en gardant **l’essentiel de la variabilité**.

<font size="5"> **🔍 Principe** </font>    


Objectif : projeter le jeu d'entrainement sur un hyperplan de plus faible dimension en selectionnant l'hyperplan qui conserve le plus possible la variance des doonées pour perdre le moins d'information.  
1. **Normalisation des données**  
   - Les variables doivent être **mises à l’échelle** pour éviter qu’une variable avec une grande amplitude ne domine les autres.

2. **Calcul des Composantes Principales**  
   - L’ACP trouve **les axes** qui maximisent la variance des données.
   - Ces axes sont des **combinaisons linéaires** des variables initiales.

3. **Sélection des Composantes les Plus Importantes**  
   - On **classe les composantes** selon leur **variance expliquée**.
   - On choisit généralement **les premières composantes** qui expliquent **80-90%** de la variance totale.

4. **Projection des Données**  
   - Les données d’origine sont projetées dans cet espace de dimensions réduites, ce qui diminue la complexité et le risque de sur-apprentissage.


🔹 PCA est particulièrement utile lorsque les variables sont fortement corrélées. Cependant, il **modifie l’interprétabilité des données**, car les nouvelles variables (composantes principales) ne correspondent plus directement aux variables initiales.


<img src="https://iq.opengenus.org/content/images/2020/03/pca_classic.png" alt="drawing" width="400"/>

<img src="https://www.simplilearn.com/ice9/free_resources_article_thumb/Variance%26Residuals.PNG" alt="drawing" width="600"/>

In [79]:
# Initialisation de PCA sans restriction sur le nombre de composantes
pca = PCA(random_state=2025)

# Ajustement du PCA sur les données d'entraînement normalisées et transformation des données
X_pca = pca.fit_transform(X_train_res_std)

# Affichage de la variance expliquée par chaque composante principale
pca.explained_variance_ratio_


array([2.72496350e-01, 1.62944354e-01, 1.00551844e-01, 7.35289089e-02,
       6.07122832e-02, 4.79127121e-02, 3.66812537e-02, 3.07149604e-02,
       2.98601749e-02, 2.24504795e-02, 1.97161301e-02, 1.74513932e-02,
       1.52418233e-02, 1.17618032e-02, 1.05531492e-02, 9.42790918e-03,
       8.58002173e-03, 7.58326300e-03, 6.25337834e-03, 5.53209016e-03,
       5.31663168e-03, 4.93437017e-03, 4.41659245e-03, 3.55379458e-03,
       3.07282242e-03, 2.81079833e-03, 2.45445628e-03, 2.29017473e-03,
       2.14215925e-03, 1.82675253e-03, 1.69753764e-03, 1.64038487e-03,
       1.42494887e-03, 1.34252831e-03, 1.16858427e-03, 9.79862349e-04,
       9.13155565e-04, 8.11817676e-04, 7.60365859e-04, 6.94327942e-04,
       6.59774132e-04, 5.72546193e-04, 5.34346837e-04, 4.80191441e-04,
       4.44518223e-04, 4.09628560e-04, 3.78090308e-04, 3.26589904e-04,
       2.88053491e-04, 2.67265901e-04, 2.33609522e-04, 2.15578167e-04,
       1.91876831e-04, 1.52705424e-04, 1.26168605e-04, 1.18798636e-04,
      

<font size="5"> **📌 Interprétation des résultats** </font>   



La variable **`explained_variance_ratio_`** indique **la proportion de variance capturée** par chaque composante principale.

Par exemple :
- **27%** de la variance est expliquée par la 1ʳᵉ composante.
- **16%** par la 2ᵉ composante.
- Moins de **3%** pour la 11ᵉ composante → elle apporte peu d'information.

💡 Pour choisir le **nombre optimal de dimensions**, il faut s'assurer que les composantes retenues expliquent une grande partie de la variance.


In [None]:
# Calcul de la somme cumulée des contributions des composantes
cumsum = np.cumsum(pca.explained_variance_ratio_)

# Détermination du nombre de dimensions nécessaires pour conserver au moins 95% de la variance totale
d = np.argmax(cumsum >= 0.95) + 1  #argmax donne l'indice du tableau de la somme cumulée où elle devient supérieure ou égale à 0.95. On ajoute 1 car les indices débutent à 0. 

print("Nombre optimal de dimensions à conserver :", d)


**Explication de la sélection du nombre de dimensions**   
- La somme cumulée **permet d'identifier combien de dimensions** sont nécessaires pour capturer **95% de l'information**.
- Ici, `d` correspond au **nombre minimal de dimensions** à conserver pour ne pas perdre trop d'information.


<font size="5"> **📌 Transformation des données** </font>   


- En fixant **`n_components=0.95`**, PCA sélectionne **automatiquement** le nombre optimal de dimensions pour expliquer **95% de la variance**.
- On applique cette transformation aux données, ce qui réduit leur dimension sans trop perdre d’information.


In [None]:
# Réduction de dimension avec PCA en gardant 95% de la variance
pca = PCA(n_components=0.95)
X_reduit = pca.fit_transform(X_train_res_std)

# Affichage de la nouvelle dimension des données
X_reduit.shape


In [None]:
# Affichage de la courbe de variance expliquée en fonction du nombre de dimensions
plt.figure(figsize=(6,4))
plt.plot(cumsum, linewidth=3, label="Variance expliquée cumulée")
plt.axvline(d, color='red', linestyle='--', linewidth=1.5, label=f'{d} dimensions retenues')
plt.axhline(0.95, color='black', linestyle='--', linewidth=1.2, label="Seuil 95%")
plt.xlabel("Nombre de dimensions")
plt.ylabel("Variance expliquée")
plt.title("Évolution de la variance expliquée en fonction des dimensions")
plt.legend()
plt.grid(True)
plt.show()


<font size="5"> **📌 Visualisation de la variance expliquée** </font>   


Ce graphique permet de visualiser :
- La **courbe de variance expliquée cumulée**.
- La **valeur seuil des 95%** de variance retenue.
- Le **point où la réduction de dimension est optimale** (ligne rouge).

💡 **Épaule sur la courbe** : indique un point à partir duquel ajouter plus de dimensions apporte peu de bénéfices.


**🚀 Remarque importante**   
L'inconvénient de PCA est que les nouvelles variables obtenues (composantes principales) **ne correspondent plus directement aux variables initiales**.  
Ainsi, pour faire des **prédictions sur de nouvelles données**, il faut :
1. **Appliquer PCA** sur la totalité des variables initiales.
2. **Transformer les nouvelles données** avec les mêmes paramètres que ceux appris sur l'entraînement.
3. **Réaliser la prédiction** avec les données transformées.

💡 Dans certains cas, **la transformation PCA peut être coûteuse en calcul**, notamment si elle doit être appliquée en temps réel.


<div class="alert alert-block alert-info">
<b>Application </b> Evaluer les performances de différents algo pour différents dimensions définies par PCA et selon différents scores </div> 

In [None]:
warnings.simplefilter(action='ignore', category=UserWarning)  # Ignore les UserWarnings
warnings.simplefilter(action='ignore', category=RuntimeWarning)  # Ignore les RuntimeWarnings


### Définition des options interactives pour l'utilisateur

# Sélection de l'algorithme
algo_options = {
    "Régression Logistique": LogisticRegression(solver='lbfgs'),
    "Random Forest": RandomForestClassifier(),
    "Gradient Boosting": GradientBoostingClassifier(),
    "SVM Linéaire": SVC(kernel="linear"),
    "Analyse Discriminante Quadratique": QuadraticDiscriminantAnalysis(), 
    "Naive Bayes": GaussianNB(),
    "AdaBoost": AdaBoostClassifier(),
    "K-Nearest Neighbors": KNeighborsClassifier(),
    "Multi-Layer Perceptron": MLPClassifier()
}
algo_selector = widgets.Dropdown(options=algo_options, description="Algorithme:")

# Sélection de la métrique d'évaluation
metric_options = {
    "ROC AUC": 'roc_auc',
    "Balanced Accuracy": 'balanced_accuracy',
    "F1 Weighted": 'f1_weighted',
    "Accuracy": 'accuracy',
    "Precision": 'precision',
    "Recall": 'recall'
}
metric_selector = widgets.Dropdown(options=metric_options, description="Métrique:")

# Bouton pour lancer l'exécution
run_button = widgets.Button(description="Lancer le calcul", button_style='success')
output = widgets.Output()


### Fonction pour exécuter l'évaluation en fonction des choix de l'utilisateur

def execute_evaluation(b):
    with output:
        output.clear_output()
        print("Exécution en cours ...")

        # Définition de la validation croisée stratifiée
        cv = RepeatedStratifiedKFold(n_splits=3, n_repeats=5, random_state=2025)

        # Définition du pipeline avec PCA et l'algorithme sélectionné
        pipeline = Pipeline(steps=[('selection', PCA()), ('model', algo_selector.value)])

        # Définition de la grille de recherche pour la sélection du nombre de dimensions avec PCA
        grille = {'selection__n_components': [i+1 for i in range(1, X_train_res_std.shape[1]+1)]}

        # Définition de la recherche sur grille avec la métrique sélectionnée
        recherche = GridSearchCV(pipeline, grille, scoring=metric_selector.value, n_jobs=-1, cv=cv)
        recherche.fit(X_train_res_std, Y_train_res.Echec)

        # Résumé des résultats
        print(f"Meilleur score ({metric_selector.label}) : {recherche.best_score_:.3f}")
        print(f"Meilleur nombre de dimensions sélectionnées : {recherche.best_params_['selection__n_components']}")

        # Récupération des résultats détaillés
        resultats = recherche.cv_results_
        moyennes = resultats['mean_test_score']
        variances = resultats['std_test_score']
        n_components = grille['selection__n_components']

        # Affichage du graphe des performances
        plt.figure(figsize=(8, 5))
        plt.errorbar(n_components, moyennes, yerr=variances, fmt='-o', capsize=5)
        plt.axvline(recherche.best_params_['selection__n_components'], color='red', linestyle='--', label="Best n_components")
        plt.xlabel("Nombre de dimensions sélectionnées (PCA)")
        plt.ylabel(f"Score {metric_selector.label}")
        plt.title(f"Performance en fonction du nombre de dimensions ({metric_selector.label})")
        plt.legend()
        plt.grid(True)
        plt.show()

# Liaison du bouton à la fonction d'exécution
run_button.on_click(execute_evaluation)

### Affichage des widgets interactifs
display(algo_selector, metric_selector, run_button, output)


### 🚧 Résumé des méthodes de sélection de variables 

La sélection de variables est une étape essentielle en **Machine Learning** pour améliorer la **précision** des modèles, réduire la **complexité** et éviter le **sur-ajustement**. Différentes approches existent, chacune ayant ses **avantages** et **inconvénients** en fonction du type de données.



| **Méthode** | **Avantages** | **Inconvénients** | **Adapté à quel type de données ?** |
|------------|--------------|-----------------|-----------------------------|
| **Information Mutuelle** | ✅ Captures des **relations non linéaires**<br>✅ Fonctionne avec **variables continues et catégorielles** | ❌ Ne tient pas compte des **interactions entre variables**<br>❌ Moins efficace sur de **grands ensembles de données** | 🔹 Données hétérogènes (mixtes)<br>🔹 Lorsque la relation entre les variables explicatives et la cible peut être **non linéaire** |
| **RFE (Recursive Feature Elimination)** | ✅ Sélection optimisée via un **modèle sous-jacent**<br>✅ Garde les **variables les plus importantes** pour le modèle | ❌ **Long à exécuter** si beaucoup de variables<br>❌ Dépend du **modèle choisi** | 🔹 Convient aux modèles **linéaires et non linéaires**<br>🔹 Utile si on veut **garder un sous-ensemble optimal** |
| **PCA (Analyse en Composantes Principales)** | ✅ Réduit la **multicolinéarité**<br>✅ Diminue la **dimension** de l'espace des variables tout en préservant l'information | ❌ **Perte d'interprétabilité** des variables<br>❌ Ne fonctionne que sur **variables continues** | 🔹 Quand on a **beaucoup de variables corrélées**<br>🔹 Si l'objectif est **réduction de dimension et non interprétation** |



<font size="4"> 📌 **Autres méthodes de sélection de variables :**   </font>  


En plus de **l'Information Mutuelle, RFE et PCA**, il existe d'autres techniques : 🔗 [Documentation Scikit - Feature selection](https://scikit-learn.org/stable/modules/feature_selection.html#feature-selection)   

<font size="3"> 1️⃣ <span style="color:#0a51ab"> **Méthodes de sélection univariées** :</span>   </font>   
   - **ANOVA** (ANalysis of VAriance) : Sélectionne les variables les plus corrélées avec la cible (utile pour variables continues et cibles catégoriques).
        - 🔹 Scikit : `sklearn.feature_selection.SelectKBest(score_func=f_classif)`   
   - **Chi²** : Test d'indépendance pour variables **catégoriques**.
        - 🔹 Scikit : `sklearn.feature_selection.SelectKBest(score_func=chi2)`
           
<font size="3">2️⃣ <span style="color:#0a51ab">**Méthodes basées sur l'importance des variables** :</span>   </font>   
   - **Forêt Aléatoire** : Sélectionne les variables ayant le plus d'impact sur les décisions du modèle.
        - 🔹 Scikit-learn : `sklearn.ensemble.RandomForestClassifier().feature_importances_`
    
<font size="3">3️⃣ <span style="color:#0a51ab">**Méthodes basées sur la régularisation** :</span>   </font>   
   - **Lasso (L1 Regularization)** : Supprime automatiquement les variables peu importantes dans une **régression linéaire/logistique**.    
      - 🔹 Scikit : `SelectFromModel(LogisticRegression(penalty='l1', solver='liblinear'), prefit=True)`


Le plus souvent il faut tester **plusieurs approches** et évaluer leurs performances via une **cross-validation** :   
- **Les données réelles sont souvent complexes**, avec des relations linéaires et non linéaires.
- **Le type d’algorithme utilisé influence la sélection des variables.**
- **Le volume des données et leur qualité influencent la pertinence des méthodes.**

🔹 **Objectif** : Trouver **le bon équilibre** entre **performance du modèle**, **réduction de la complexité** et **interprétabilité** des résultats. 🚀
