
1. D√©finir le probl√®me
 

2. R√©cup√©rer les donn√©es
 

3. Analyser et nettoyer les donn√©es
  

4. **Pr√©parer les donn√©es**
  

5. Evaluer plusieurs mod√®les
  

6. R√©glage fin des mod√®les
 

7. Surveiller son mod√®le



# üìå 4. Pr√©paration des donn√©es pour les algorithmes d'apprentissage  

## üöÄ Objectif
Avant d'entra√Æner nos mod√®les de Machine Learning, nous devons **pr√©parer les donn√©es** pour garantir de **bonnes performances** et √©viter les biais.

## üîç √âtapes du processus
1. **Import des donn√©es**  
2. **S√©paration des donn√©es** (train/test)  
3. **R√©-√©quilibrage des classes**  
4. **Calibrage des variables** (normalisation, standardisation)  
5. **S√©lection des variables** (r√©duction de dimension)


<img src="https://cdn.prod.website-files.com/6064b31ff49a2d31e0493af1/668517f547fb76e5a91026bd_AD_4nXcwTG4Tw3E2nZxeQud4AA2MU6q2KLoeTSLdjDT5lTaNKS681rs4O4_0gxtXt0DhRdvOSAfHmL6UK1q0AubR5NAZsEhT-MsIOf5bohGePloG-k8pnLcHuVauADJyLJRL3t14b1DaWceY5sb-q2joEJqBlZ4S.png" alt="drawing" width="500"/>

## üîπ 4.1. Importation des biblioth√®ques n√©cessaires

In [None]:
# Importation des biblioth√®ques n√©cessaires

# Gestion des avertissements
import warnings  # Ignore certains avertissements inutiles lors de l'ex√©cution du code

# Manipulation et analyse de donn√©es
import pandas as pd  # Manipulation de tableaux de donn√©es (√©quivalent de SQL ou Excel en Python)
import numpy as np  # Calculs scientifiques et manipulation de matrices
import math  # Fonctions math√©matiques avanc√©es

# Visualisation des donn√©es
import matplotlib.pyplot as plt  # Cr√©ation de graphiques et visualisations
import seaborn as sns  # Am√©liore l'esth√©tique des graphiques Matplotlib

# Scikit-learn : biblioth√®que de Machine Learning

## Gestion des ensembles d'entra√Ænement et de test
from sklearn.model_selection import train_test_split  # S√©pare les donn√©es en ensemble d'entra√Ænement et de test
from sklearn.model_selection import GridSearchCV  # Optimisation des hyperparam√®tres via une recherche sur grille
from sklearn.model_selection import cross_val_score  # √âvaluation du mod√®le via validation crois√©e
from sklearn.model_selection import RepeatedStratifiedKFold, StratifiedKFold  
# Divise les donn√©es en sous-groupes pour validation crois√©e tout en respectant la r√©partition des classes

## √âvaluation des mod√®les
from sklearn.metrics import confusion_matrix  # Matrice de confusion pour analyser les erreurs du mod√®le
from sklearn.metrics import balanced_accuracy_score  # Score d'exactitude pond√©r√© pour donn√©es d√©s√©quilibr√©es
from sklearn.metrics import roc_curve  # Courbe ROC pour √©valuer les performances des mod√®les binaires
from sklearn.metrics import average_precision_score  # Moyenne de la pr√©cision pour √©valuer un classifieur
from sklearn.metrics import make_scorer  # Cr√©ation de m√©triques personnalis√©es
from sklearn.metrics import roc_auc_score  # Calcul de l'aire sous la courbe ROC (AUC)
from sklearn.metrics import precision_recall_curve  # Courbe pr√©cision-rappel pour l'analyse des performances

## Pipelines et pr√©traitement des donn√©es
from sklearn.pipeline import Pipeline  # Automatisation du processus de transformation et d'entra√Ænement des mod√®les
from sklearn.preprocessing import StandardScaler, MinMaxScaler  
# StandardScaler : centre et r√©duit les donn√©es (moyenne=0, √©cart-type=1)
# MinMaxScaler : met les donn√©es √† l‚Äô√©chelle entre 0 et 1

## S√©lection des variables
from sklearn.feature_selection import SelectKBest, mutual_info_classif, RFECV  
# SelectKBest : s√©lectionne les k meilleures variables en fonction d'un crit√®re
# mutual_info_classif : s√©lectionne les variables selon l'information mutuelle avec la cible
# RFECV : √©limination r√©cursive des variables avec validation crois√©e

## R√©duction de dimension
from sklearn.decomposition import PCA  # Analyse en Composantes Principales (PCA) pour r√©duire le nombre de variables

## Algorithmes de Machine Learning
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier, AdaBoostClassifier  
# RandomForestClassifier : ensemble d'arbres de d√©cision pour classification
# GradientBoostingClassifier : algorithme ensembliste qui am√©liore les pr√©dictions par it√©ration
# AdaBoostClassifier : m√©thode de boosting qui pond√®re les erreurs des pr√©dictions pr√©c√©dentes

from sklearn.svm import SVC  # Machine √† Vecteurs de Support (SVM) pour classification
from sklearn.linear_model import LogisticRegression  # R√©gression logistique pour classification binaire
from sklearn.neighbors import KNeighborsClassifier  # Classifieur bas√© sur la distance aux k plus proches voisins
from sklearn.naive_bayes import GaussianNB  # Classifieur bas√© sur le th√©or√®me de Bayes (version gaussienne)
from sklearn.neural_network import MLPClassifier  # R√©seau de neurones de type perceptron multicouche
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis # Analyse discriminante quadratique
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis # Analyse discriminante lin√©aire

## Gestion du d√©s√©quilibre des classes
from imblearn.under_sampling import RandomUnderSampler  # Sous-√©chantillonnage al√©atoire pour √©quilibrer les classes

# Widgets interactifs pour Jupyter Notebook / JupyterLab
import ipywidgets as widgets  # Cr√©ation d'interfaces interactives dans un Notebook
from IPython.display import display  # Affichage interactif des widgets et des sorties




## üîπ 4.2. Import des donn√©es

Nous utilisons le fichier **`DataSet_RegionPelvienne_Class.csv`** contenant notre jeu de donn√©es apr√®s nettoyage.

In [None]:
# Chargement du fichier CSV
df = pd.read_csv("/content/DataSet_RegionPelvienne_Class.csv", sep=",", header=0)

# Suppression de la colonne d'index inutile
df = df.drop(columns=["Unnamed: 0"])

# Affichage des 5 premi√®res lignes pour v√©rification
df.head()

## üîπ 4.3. S√©paration des donn√©es

Nous devons diviser nos donn√©es en **jeu d'entra√Ænement** et **jeu de test** :
- **70-80% pour l'entra√Ænement**
- **20-30% pour le test** 
- **Stratification** pour conserver la r√©partition des classes  
- **Fixation de la graine al√©atoire** pour garantir la reproductibilit√© 




<img src="https://www.researchgate.net/publication/325870973/figure/fig6/AS:639531594285060@1529487622235/Train-Test-Data-Split.png" alt="drawing" width="500"/>


<font size="8"> ‚ö†Ô∏è </font> <font size="5"> <span style="color:#f0290e">**jeu de test** : </span> </font>
* **Jamais** utilis√© pendant l'apprentissage, uniquement utilis√© pour √©valuer les performances du mod√®le **final**.
* **Repr√©sentatif** des donn√©es de la vie r√©elle (notamment : r√©partition des donn√©es)
* Il va servir √† calculer l'**erreur de g√©n√©ralisation** : la capacit√© de notre mod√®le √† faire des pr√©dictions correctes √† partir de donn√©es inconnues.
* On choisit au hasard **entre 20 et 30%** des √©l√©ments du jeu de donn√©es.
* Il faut faire attention √† bien **fixer la graine al√©atoire** lors de la division des donn√©es pour ne pas g√©n√©rer un jeu de test diff√©rent √† chaque execution de la cellule ! Sinon au fur et √† mesure l'ensemble du jeu de donn√©es aura √©t√© utilis√© pour l'apprentissage et l'√©valuation de la g√©n√©ralisation sera biais√©e alors que c'est ce qu'on cherche justement √† √©viter.

In [None]:
# S√©paration de la variable cible et des variables explicatives
y = pd.DataFrame( df['Echec'])
z = df.drop('Echec', axis = 1)

# S√©paration en train/test
X_train, X_test, Y_train, Y_test = train_test_split(z,y, test_size = 0.3,stratify=y, random_state=2025)

# R√©initialisation des index des lignes dans chaque jeu
X_train = X_train.reset_index(drop=True) 
Y_train = Y_train.reset_index(drop=True)
X_test = X_test.reset_index(drop=True)
Y_test = Y_test.reset_index(drop=True)

# V√©rification de la r√©partition des classes
print("R√©partition des classes dans le set d'entra√Ænement :")
print(Y_train.value_counts(normalize=True))

print("\nR√©partition des classes dans le set de test :")
print(Y_test.value_counts(normalize=True))

## üîπ 4.4. R√©-√©quilibrage des classes  

<img src="https://www.lexplicite.fr/wp-content/uploads/2016/03/balance.jpg" alt="drawing" width="400"/>

Notre jeu de donn√©es pr√©sente un **d√©s√©quilibre** :  
- **90% de r√©ussite**  
- **10% d‚Äô√©chec**  

### ‚ö†Ô∏è Pourquoi est-ce un probl√®me ?  
En classification, un **d√©s√©quilibre de classes** peut poser un probl√®me majeur :  
Les algorithmes ont tendance √† **favoriser la classe majoritaire**, car elle est **statistiquement plus pr√©sente** dans les donn√©es d‚Äôentra√Ænement.  
Cela peut √™tre probl√©matique si la **classe minoritaire est celle qui nous int√©resse le plus**, comme ici avec la classe "√©chec" que nous souhaitons pr√©dire. 


Si un algorithme est entra√Æn√© sur un dataset o√π **90% des observations appartiennent √† la classe majoritaire**, il pourrait atteindre **90% de pr√©cision** simplement en **pr√©disant toujours la classe majoritaire**, **sans jamais d√©tecter la classe minoritaire** !  
‚û° **Cela fausse compl√®tement l‚Äôapprentissage et les performances du mod√®le.**  

### üî• Solutions pour g√©rer le d√©s√©quilibre des classes  


| M√©thode               | Fonction Scikit-learn | Principe | Inconv√©nients |
|-----------------------|----------------------|-----------|--------------|
| **Sur-√©chantillonnage de la classe minoritaire** | `SMOTE()` | Augmente la classe minoritaire artificiellement| Exemples artificiels parfois peu r√©alistes |
| **Sous-√©chantillonnage de la classe majoritaire** | `RandomUnderSampler()` | Diminue la classe majoritaire en supprimant des exemples| Risque de perte d'information |
| **Combinaison du sur-√©chantillonnage et du sous-√©chantillonnage** | `SMOTEENN()` | G√©n√®re des exemples artificiels de la classe minoritaire et supprime des exemples de la classe majoritaire | Complexit√© accrue |
| **Apprentissage sensible au co√ªt** | `class_weight='balanced'` | Ajuste l'importance des classes dans l‚Äôalgorithme d‚Äôapprentissage en pond√©rant la classe minoritaire, sans modifier les donn√©es. | D√©pend de l'algorithme |



Il n‚Äôexiste **pas de solution unique**, tout d√©pend des donn√©es que nous voulons traiter.   
üëâ Il faut tester plusieurs approches et comparer les performances. 




<img src="https://media.springernature.com/lw685/springer-static/image/art%3A10.1007%2Fs10115-022-01772-8/MediaObjects/10115_2022_1772_Fig1_HTML.png" alt="drawing" width="500"/>

In [None]:
# Application du sous-√©chantillonnage de la classe majoritaire
# Il est possible de moduler le sous-√©chantillonnage pour seulement r√©duire le d√©s√©quilibre sans pour autant l'annuler compl√®tement en modifiant le param√®tre "sampling_strategy"
# Ici on ne supprime pas totalement le d√©s√©quilibre pour ne pas supprimer trop d'information
rus = RandomUnderSampler(sampling_strategy={
        0: len(Y_train[Y_train.Echec==1])*2,
        1: len(Y_train[Y_train.Echec==1])
    }, random_state=2025)

X_train_res, Y_train_res = rus.fit_resample(X_train, Y_train)

# Transformation des donn√©es en DataFrame pour simplifier la manipulation
X_train_res = pd.DataFrame(X_train_res, columns = z.columns)


# V√©rification apr√®s r√©-√©quilibrage
print(Y_train_res.value_counts(normalize=True))

<font size="5"> **‚ö†Ô∏è Attention** </font>    
On ne r√©√©chantillonne que les donn√©es d'entrainement pour aider le mod√®le √† apprendre √† pr√©dire la classe minoritaire.   
**Les donn√©es test ne sont pas r√©√©chantillonn√©es**, elles doivent rester repr√©sentatives de la r√©partition des donn√©es dans le monde r√©el. 

## üîπ 4.5. Calibrage des variables  


<img src="https://cdn-blog.scalablepath.com/uploads/2023/09/data-preprocessing-techiniques-data-transformation-1-edited.png" alt="drawing" width="700"/>

Beaucoup d'algorithmes fonctionnent mieux lorsque les variables sont sur **la m√™me √©chelle**.  

<font size="4"> **üî© Deux m√©thodes courantes de calibrage** </font>
1. **Min-Max Scaling** : Met les valeurs entre 0 et 1 (sensible aux outliers), utile pour les r√©seaux de neurones notamment.   
     scikit : `MinMaxScaler()`
3. **Standardisation (Z-score)** : Centre les valeurs autour de 0 avec un √©cart-type de 1 (plus robuste).   
     scikit : `StandardScaler()`

<font size="5">‚ö†Ô∏è</font> **IMPORTANT** :  
Les param√®tres de transformation doivent √™tre **calcul√©s uniquement sur les donn√©es d'entra√Ænement** et **appliqu√©s aux donn√©es test**.  
‚ùå **Ne jamais faire `fit()` ou `fit_transform()` sur les donn√©es test !**  

<font size="4"> **üóÑÔ∏è Encodage des variables cat√©gorielles** </font> 


<img src="https://miro.medium.com/v2/resize:fit:1400/1*oU6w-wS25ySA4liGSESOHA.png" alt="drawing" width="500"/>

Une √©tape de transformation suppl√©mentaire est parfois appliqu√©e : l'**encodage des variables cat√©gorielles**      
Si la base de donn√©es contient des **variables cat√©gorielles**, elles doivent √™tre converties en **valeurs num√©riques** :  

‚úî **Variables ordinales** (avec un ordre) : on attribue une valeur respectant l'ordre.   
 Ex: `'Low' = 1`, `'Medium' = 2`, `'High' = 3`  

‚úî **Variables nominales** (sans ordre) :  on cr√©e n variables binaires qui d√©crivent chacune une des n cat√©gories de la variable d'origine. Par exemple si on a une variable "Localisation tumorale" qui d√©crit la localisation du cancer en cat√©gories "Prostate" "Uterus" "Sein" "Poumon", on cr√©era 4 variables binaires nomm√©es "Prostate, "Uterus", "Sein", "Poumon"; La variable "Prostate" sera √©gale √† 1 si la ligne concern√©e de la base de donn√©es est issue de cette localisation et 0 sinon. Idem pour les 3 autres localisations.   
  `One-Hot Encoding()` de scikit permet de le faire automatiquement. 

<img src="https://miro.medium.com/v2/resize:fit:1400/1*x_DYdNVsPiRoDpSoRGJo3Q.png" alt="drawing" width="500"/>

<font size="4"> **üõ†Ô∏è Power Transformer Scaler** </font>  


Certains algortihmes fonctionnent mieux avec des donn√©es distribu√©es normalement (r√©gression logistique, analyse discriminante lin√©aire, KNN, SVM). 

üìå **Transformation** : Applique une transformation logarithmique pour **rendre les donn√©es plus normales** et r√©duire l'effet des valeurs extr√™mes.  

üìå **Utile pour** : Donn√©es **tr√®s asym√©triques** ou avec une **distribution exponentielle**.  

üìå **Deux m√©thodes disponibles** :  
- **Box-Cox** : Fonctionne uniquement sur des donn√©es **strictement positives** (scikit : `PowerTransformer(method='box-cox')`).  
- **Yeo-Johnson** : Peut √™tre appliqu√© aux donn√©es **positives et n√©gatives** (scikit : `PowerTransformer(method='yeo-johnson')`).  

‚û°Ô∏è Pour notre exemple, pour simplifier, on applique simplement une standardisation
* Pour chaque variable : on soustrait la valeur moyenne et on divise par l'√©cart-type.
* Les valeurs recalibr√©es auront une moyenne nulle et un √©cart-type √©gal √† 1.
* Les valeurs ne sont pas limit√©es √† un intervalle (peut poser probl√®me pour les r√©seaux de neurones qui attendent souvent des valeurs entre 0 et 1) mais  le r√©sultat est beaucoup moins sensible aux valeurs aberrantes qui peuvent √©craser les autres valeurs dans une transformation min-max.


In [69]:
# Standardisation
scaler_std = StandardScaler()

# Normalisation calcul√©e et appliqu√©e sur les donn√©es d'entrainement r√©-√©chantillonn√©es
X_train_res_std = scaler_std.fit_transform(X_train_res) 

# La normalisation est ensuite appliqu√©e sur les donn√©es test avec la moyenne et l'√©cart type calcul√©s sur les donn√©es d'entrainement : 
# les donn√©es test ne sont pas r√©-√©chantillonn√©es (donn√©es vie r√©elle) mais on les appelle quand m√™me "_res" car elles sont normalis√©es par rapport aux donn√©es d'entrainement r√©√©chantillonn√©es
X_test_res_std = scaler_std.transform(X_test)

# Conversion en DataFrame
X_train_res_std = pd.DataFrame(X_train_res_std, columns=z.columns)
X_test_res_std = pd.DataFrame(X_test_res_std, columns=z.columns)

# V√©rification
X_train_res_std.describe()

Unnamed: 0,MUperGy,MUmax,MUstd,MUiqr,AAV,AAVmin,AAVmax,AAVstd,AAViqr,LSV,...,EMstd,EMiqr,MIt02,BI,BImin,BImax,BIstd,BIiqr,BM,BAmin
count,309.0,309.0,309.0,309.0,309.0,309.0,309.0,309.0,309.0,309.0,...,309.0,309.0,309.0,309.0,309.0,309.0,309.0,309.0,309.0,309.0
mean,2.184517e-16,-9.341682e-17,-2.012055e-16,-7.18591e-17,-2.299491e-16,-4.5989820000000004e-17,-3.79416e-16,2.012055e-16,1.149746e-16,2.230506e-15,...,-2.2994910000000002e-17,-1.609644e-16,-5.173855e-16,2.069542e-16,-3.104313e-16,-5.403804e-16,1.89708e-16,-2.471953e-16,2.2994910000000002e-17,1.839593e-16
std,1.001622,1.001622,1.001622,1.001622,1.001622,1.001622,1.001622,1.001622,1.001622,1.001622,...,1.001622,1.001622,1.001622,1.001622,1.001622,1.001622,1.001622,1.001622,1.001622,1.001622
min,-2.896033,-0.9007779,-0.9811186,-0.9062054,-2.60513,-2.493933,-2.793264,-1.962361,-1.69218,-4.227638,...,-1.911521,-1.704696,-1.926156,-1.82053,-1.40466,-1.739618,-1.504247,-0.9955593,-3.974558,-1.307684
25%,-0.6506351,-0.6155379,-0.6331584,-0.5665571,-0.6611972,-0.7262604,-0.7476646,-0.7570348,-0.736015,-0.6834335,...,-0.6476983,-0.7664314,-0.8200404,-0.7337534,-0.7380765,-0.7256489,-0.5434622,-0.4022145,-0.6025596,-0.7269936
50%,0.07134193,-0.3821247,-0.2785735,-0.3094307,-0.06571037,-0.02463948,-0.1159644,-0.1363163,-0.1433386,0.03916958,...,-0.1278547,-0.09413357,-0.2739382,-0.1822219,-0.2392618,-0.1539228,-0.1162767,-0.1437413,0.09192296,-0.3605251
75%,0.5796381,0.3062359,0.2554142,0.2034369,0.6207645,0.7013813,0.7314117,0.576875,0.5041835,0.845579,...,0.5827173,0.5194356,0.9164259,0.6362857,0.4952234,0.5328081,0.3446315,0.2370264,0.6933081,0.4835256
max,4.31945,7.589229,6.807123,8.24659,4.069621,3.534019,3.115412,3.270229,3.694464,1.579712,...,3.423632,4.498983,2.092184,3.545508,4.73412,6.077694,12.06693,14.82802,2.598517,3.394155


<font size = 5>üîç</font> On peut v√©rifier rapidement ci-dessus que les moyennes des variables sont autour de z√©ro et les √©cart-types autour de 1

<div class="alert alert-block alert-info">
<b>Application </b> Impact de la standardisation sur les performances de divers algorithmes </div> 

In [78]:
# D√©finition des mod√®les disponibles
models = {
    "Support Vector Machine (SVC)": SVC(gamma='auto', probability=True, random_state=2025),
    "K plus proches voisins (KNN)": KNeighborsClassifier(n_neighbors=8),
    "For√™t Al√©atoire (RF)": RandomForestClassifier(random_state=2025),
    "R√©gression Logistique (LR)": LogisticRegression(solver='saga', max_iter=10000),
    "R√©seau de Neurones (MLP)": MLPClassifier(max_iter=400, random_state=2025)
}

# Cr√©ation d'un menu d√©roulant pour choisir l'algorithme
model_selector = widgets.Dropdown(
    options=list(models.keys()),
    value="R√©seau de Neurones (MLP)",
    description="Mod√®le :",
    style={'description_width': 'initial'}
)

# Bouton pour ex√©cuter l'analyse
run_button = widgets.Button(description="Lancer l'analyse", button_style='success')

# Zone d'affichage des r√©sultats
output = widgets.Output()

# Fonction d'ex√©cution du test
def run_evaluation(change):
    with output:
        output.clear_output()  # Nettoyer la sortie pr√©c√©dente
        print("Ex√©cution en cours...")
        
        model = models[model_selector.value]  # S√©lection du mod√®le choisi
        Y = Y_train_res  # Donn√©es cibles

        # √âvaluation sans normalisation
        X = X_train_res
        X_test_temp = X_test
        clf = model.fit(X, Y.Echec)
        y_scores_non_norm = model.predict_proba(X_test_temp)[:, 1]
        fpr_non_norm, tpr_non_norm, _ = roc_curve(Y_test.Echec, y_scores_non_norm)
        auroc_non_norm = np.round(roc_auc_score(Y_test.Echec, y_scores_non_norm), 2)

        # √âvaluation avec normalisation
        X = X_train_res_std
        X_test_temp = X_test_res_std
        clf = model.fit(X, Y.Echec)
        y_scores_norm = model.predict_proba(X_test_temp)[:, 1]
        fpr_norm, tpr_norm, _ = roc_curve(Y_test.Echec, y_scores_norm)
        auroc_norm = np.round(roc_auc_score(Y_test.Echec, y_scores_norm), 2)

        # Affichage des r√©sultats
        print(f"üìå Mod√®le s√©lectionn√© : {model_selector.value}")
        print(f"üîπ AUROC avec donn√©es non normalis√©es : {auroc_non_norm}")
        print(f"üîπ AUROC avec donn√©es normalis√©es : {auroc_norm}")

        # Trac√© des courbes ROC
        plt.figure(figsize=(8, 6))
        plt.plot(fpr_non_norm, tpr_non_norm, linestyle='--', label=f'Variables non standardis√©es (AUROC={auroc_non_norm})', color='blue')
        plt.plot(fpr_norm, tpr_norm, linestyle='-', label=f'Variables standardis√©es (AUROC={auroc_norm})', color='red')
        plt.plot([0, 1], [0, 1], linestyle='dotted', color='black', label="Random Guess")
        plt.xlabel("Taux de faux positifs (FPR)")
        plt.ylabel("Taux de vrais positifs (TPR)")
        plt.title(f"Courbes ROC pour {model_selector.value}")
        plt.legend()
        plt.grid(True)
        plt.show()

# Lier la fonction au bouton
run_button.on_click(run_evaluation)

# Affichage des widgets
display(model_selector, run_button, output)


Dropdown(description='Mod√®le :', index=4, options=('Support Vector Machine (SVC)', 'K plus proches voisins (KN‚Ä¶

Button(button_style='success', description="Lancer l'analyse", style=ButtonStyle())

Output()

<font size = 5>‚ÑπÔ∏è</font>   
Les algorithmes bas√©s sur des **arbres de d√©cisions** (comme la for√™t al√©atoire ou le gradient boosting) ne sont pas sensibles √† la standardisation des donn√©es car ils utilisent des r√®gles de d√©cisions bas√©s sur des seuils et non sur des mesures de distance. La multiplication ou la division par une constante n'affecte pas les seuils car les relations d'ordre entre les valeurs restent les m√™mes. 

## üîπ4.6. S√©lection des variables  

<img src="https://www.appliedaicourse.com/blog/wp-content/uploads/2024/09/feature-selection-in-machine-learning-scaled.jpg" alt="drawing" width="600"/>

<font size="4"> üöÄ **Objectif** : **r√©duire le nombre de variables** utilis√©es par un mod√®le </font>

<font size="4"> üîç <span style="color:#1114b5">**Pourquoi est-ce utile ?**  </span> </font>

‚úî **Am√©lioration des performances**  
‚û° Moins de bruit = mod√®le plus pr√©cis et moins sujet au sur-ajustement (*overfitting*).  

‚úî **R√©duction du temps de calcul**  
‚û° Moins de variables = **entra√Ænement plus rapide** et mod√®les plus efficaces.  

‚úî **Meilleure interpr√©tabilit√©**  
‚û° Facilite l‚Äôanalyse et la compr√©hension des r√©sultats.  

‚úî **√âlimination des variables inutiles ou redondantes**  
‚û° Certaines variables n‚Äôapportent **aucune information** ou sont **fortement corr√©l√©es**.  


Nous allons tester **quatre approches** :  
1. Information mutuelle  
2. √âlimination r√©cursive des variables (RFE)
3. Analyse des composantes principales (PCA)  


### ‚õìÔ∏è Information mutuelle

Fonction scikit :  `SelectKBest(score_func=mutual_info_classif)`

L'**information mutuelle** est un indicateur permettant de mesurer **l‚Äôinfluence d‚Äôune variable explicative sur une variable cible**.  
Elle provient de la **th√©orie de l'information** et quantifie **l‚Äôinformation partag√©e** entre deux variables.

<font size="5"> **üîç Principe** </font>    


L‚Äôinformation mutuelle √©value **dans quelle mesure conna√Ætre une variable r√©duit l‚Äôincertitude sur une autre** :  

- **Valeur √©lev√©e** ‚Üí La variable explicative contient beaucoup d‚Äôinformations sur la cible (**forte d√©pendance**).  
- **Valeur faible** ‚Üí La variable explicative apporte peu d‚Äôinformations sur la cible.  
- **Valeur nulle** ‚Üí Les deux variables sont totalement ind√©pendantes.  

‚úî **D√©tecte les relations non lin√©aires** entre les variables  
‚úî Fonctionne pour **variables continues et binaires**  



In [None]:
# S√©lection des meilleures variables explicatives en fonction de l'information mutuelle
# `k='all'` signifie que toutes les variables sont √©valu√©es
fs = SelectKBest(score_func=mutual_info_classif, k='all') # fs pour "feature selection"

# Ajustement de la m√©thode sur les donn√©es d'entra√Ænement
fs.fit(X_train_res_std, Y_train_res.Echec)

# Transformation des donn√©es d'entra√Ænement et de test en ne conservant que les scores des variables s√©lectionn√©es (toutes si on a choisi k=all pr√©c√©demment)
X_train_fs = fs.transform(X_train_res_std)
X_test_fs = fs.transform(X_test_res_std)


# Visualisation des scores des variables sous forme de diagramme en barres
plt.figure(figsize=(10, 5))  # Ajustement de la taille du graphique
plt.bar(range(len(fs.scores_)), fs.scores_)  # Affichage des scores sous forme de barres
plt.xticks(range(len(fs.scores_)), z.columns, rotation=90)  # Rotation des √©tiquettes pour une meilleure lisibilit√©
plt.title("Scores d'importance des variables (Information Mutuelle)")
plt.xlabel("Variables")
plt.ylabel("Score d'importance")
plt.grid(axis='y', linestyle='--', alpha=0.7)  # Ajout d'une grille pour une meilleure lisibilit√©
plt.show()

<font size="5"> **üéØ Comment choisir k, le nombre optimal de variables √† s√©lectionner ?** </font>  

Le param√®tre **k** dans `SelectKBest()` d√©termine le nombre de variables explicatives √† conserver.  
Un bon choix de **k** est crucial pour optimiser la **pr√©cision du mod√®le** et son **efficacit√©**.  

---

‚û° <span style="color:#1114b5">**Pourquoi est-il important de bien choisir k ?**</span>


‚úî **Trop de variables** ‚ûù Bruit inutile, complexit√© accrue, risque de sur-ajustement (*overfitting*).  
‚úî **Trop peu de variables** ‚ûù Perte d‚Äôinformations utiles, mod√®le sous-performant (*underfitting*).  
üëâ **L'objectif est de trouver un √©quilibre** entre richesse de l‚Äôinformation et simplicit√© du mod√®le.


 **Solution : √âvaluer les performances du mod√®le en fonction de k.**  

---

‚û° <span style="color:#1114b5">**Utilisation de la **Cross-Validation** pour choisir k** </span> 

La **Cross-Validation (CV)** permet de tester les performances d‚Äôun mod√®le tout en √©vitant le biais d‚Äôun seul √©chantillon d‚Äô√©valuation.  

Principe de la Cross-Validation : 
1. On divise les **donn√©es d'entra√Ænement** en **k sous-ensembles** (*folds*).  
2. On entra√Æne le mod√®le sur **k-1 folds** et on teste sur le fold restant.  
3. On r√©p√®te le processus jusqu'√† ce que chaque fold ait servi √† l'√©valuation.  
4. Les performances sont **moyenn√©es** pour obtenir une estimation fiable.  

**Avantages**  
‚úî Permet d'√©valuer **objectivement** les performances pour diff√©rents nombres de variables, **sans utiliser le jeu de test**.  
‚úî **R√©duit l‚Äôinfluence du hasard**, contrairement √† une simple division entra√Ænement/test.  

<img src="https://scikit-learn.org/stable/_images/grid_search_cross_validation.png" alt="drawing" width="600"/>


---

‚û° <span style="color:#1114b5"> **Recherche du meilleur k avec Grid Search**  </span>

Plut√¥t que de tester manuellement diff√©rentes valeurs de **k**, on peut automatiser le processus avec une **recherche sur grille** (*Grid Search*).  

**Processus**  
- On **teste plusieurs valeurs de k** (ex: de 5 √† 50 variables).  
- Pour chaque valeur de **k**, on applique une **Cross-Validation** pour √©valuer les performances du mod√®le.  
- On s√©lectionne le **k optimal**, celui qui maximise la performance sans sur-ajustement.  

---


> <font size="4">üí° <span style="color:#e66612"> **Pr√©cision technique : Utilisation des Pipelines**  </span> </font>
> 
> Un `Pipeline` dans scikit-learn permet d‚Äôencha√Æner plusieurs √©tapes du **pr√©traitement des donn√©es** et de **l‚Äôentra√Ænement du mod√®le** en une seule structure.  
> 
> **üìå Avantages :**  
> - ‚úÖ **Automatisation** : Encha√Æne les transformations (ex: s√©lection de variables, normalisation, entra√Ænement).  
> - ‚úÖ **R√©duction des erreurs** : √âvite la fuite de donn√©es en appliquant chaque transformation de mani√®re coh√©rente.   
> üîó [Documentation scikit - Pipeline](https://scikit-learn.org/stable/modules/compose.html#pipelinehttps://scikit-learn.org/stable/modules/compose.html#pipeline)

In [None]:
%%time  
# Mesure du temps d'ex√©cution de la cellule 

###### 1. D√©finition de la cross-validation : 3 folds, r√©p√©t√©s 3 fois, avec stratification
# - Stratification : Assure que la r√©partition des classes est respect√©e dans chaque fold.
# - R√©p√©tition : R√©p√®te 3 fois la validation crois√©e avec des divisions diff√©rentes des donn√©es.
# - Objectif : R√©duire la variance des estimations et am√©liorer la robustesse du mod√®le.
cv = RepeatedStratifiedKFold(n_splits=3, n_repeats=3, random_state=2025)

###### 2. D√©finition du mod√®le de Machine Learning
# On choisit une r√©gression logistique comme mod√®le de base.
model = LogisticRegression(solver='lbfgs')

###### 3. S√©lection des variables avec une m√©thode de filtrage
# - Information Mutuelle (mutual_info_classif)
fs = SelectKBest(score_func=mutual_info_classif)

###### 4. Construction du pipeline
# - Le pipeline permet d'automatiser la s√©lection des variables avant l'entra√Ænement du mod√®le.
pipeline = Pipeline(steps=[('selection', fs), ('lr', model)])

###### 5. D√©finition de la grille de recherche pour la s√©lection des variables
# - On teste k entre 1 et le nombre total de variables disponibles.
grille = dict()
grille['selection__k'] = [i + 1 for i in range(X_train_res_std.shape[1])]

###### 6. Recherche du meilleur k via une validation crois√©e et Grid Search
# - Utilisation de l'aire sous la courbe ROC (AUC) comme m√©trique d'√©valuation.
# - La recherche est parall√©lis√©e (`n_jobs=-1` signifie que tous les processeurs sont utilis√©s).
recherche = GridSearchCV(pipeline, grille, scoring='roc_auc', n_jobs=-1, cv=cv)

###### 7. Ex√©cution de la recherche sur grille
# - Le mod√®le est entra√Æn√© pour chaque valeur de k et √©valu√© via la validation crois√©e.
recherche.fit(X_train_res_std, Y_train_res.Echec)

###### 8. Extraction des r√©sultats
meilleur_k = recherche.best_params_['selection__k']  # k optimal s√©lectionn√©
meilleur_auc = recherche.best_score_  # Meilleur AUROC obtenu

best_fs = SelectKBest(score_func=mutual_info_classif, k=meilleur_k)
best_fs.fit(X_train_res_std, Y_train_res.Echec)
selected_vars = list(X_train_res_std.columns[best_fs.get_support()])

###### 9. Affichage des meilleurs r√©sultats trouv√©s
print('Meilleur AUROC : %.1f' % meilleur_auc)
print('Meilleurs param√®tres :', meilleur_k)
print(f"Variables s√©lectionn√©es : {selected_vars}")

###### 10. Visualisation des r√©sultats de la recherche
# - On r√©cup√®re les scores moyens et leur √©cart-type pour chaque valeur de k test√©e.
resultats = recherche.cv_results_
moyennes = resultats['mean_test_score']
variances = resultats['std_test_score']

### Trac√© du score AUROC en fonction du nombre de variables s√©lectionn√©es (k)
plt.figure(figsize=(10, 5))
plt.errorbar(grille['selection__k'], moyennes, yerr=variances, fmt='-o', capsize=5, label="AUROC moyen")

# Mise en √©vidence du k s√©lectionn√©
plt.axvline(meilleur_k, color='red', linestyle='--', linewidth=1.5, label=f'k optimal = {meilleur_k}')
plt.scatter(meilleur_k, meilleur_auc, color='red', s=100, edgecolors='black', label="Meilleur score")

# Mise en forme du graphique
plt.title("S√©lection du nombre optimal de variables (k) via Grid Search")
plt.xlabel('Nombre de variables s√©lectionn√©es (k)')
plt.ylabel('AUROC')
plt.legend()
plt.grid(True, linestyle='--', alpha=0.7)
plt.show()

<div class="alert alert-block alert-info">
<b>Application </b> On peut r√©p√©ter la s√©lection pour diff√©rents type d'algortihmes ML et m√©triques de performance : </div> 

In [None]:
#Si probl√®me dans Colab
#from google.colab import output
#output.enable_custom_widget_manager()

# D√©finition des mod√®les disponibles
model_options = {
    "R√©gression Logistique": LogisticRegression(solver='lbfgs'),
    "For√™t Al√©atoire": RandomForestClassifier(),
    "Gradient Boosting": GradientBoostingClassifier(),
    "SVM": SVC(probability=True),
    "K-Nearest Neighbors": KNeighborsClassifier()
}

# D√©finition des m√©triques disponibles
metrics_options = {
    "AUC-ROC": "roc_auc",
    "Accuracy": "accuracy",
    "F1 Score": "f1_weighted",
    "Pr√©cision": "precision",
    "Rappel": "recall"
}

# Cr√©ation des widgets interactifs pour le mod√®le et la m√©trique
algo_selector = widgets.Dropdown(
    options=model_options.keys(),
    value="R√©gression Logistique",
    description="Mod√®le :"
)

metric_selector = widgets.Dropdown(
    options=metrics_options.keys(),
    value="AUC-ROC",
    description="M√©trique :"
)

# Bouton pour ex√©cuter le calcul
run_button = widgets.Button(
    description="Lancer le calcul",
    button_style='success',
    tooltip="Cliquez pour ex√©cuter la recherche du k optimal"
)

# Zone de sortie pour afficher les r√©sultats
output = widgets.Output()

def run_grid_search(b):
    """ Fonction ex√©cut√©e lorsqu'on clique sur le bouton """
    
    with output:
        output.clear_output()
        print("Ex√©cution en cours...")

        # S√©lection du mod√®le et de la m√©trique
        model_name = algo_selector.value
        metric_name = metric_selector.value

        model = model_options[model_name]
        metric = metrics_options[metric_name]

        # Validation crois√©e fix√©e √† 3 folds et 3 r√©p√©titions
        cv = RepeatedStratifiedKFold(n_splits=3, n_repeats=3, random_state=2025)

        # S√©lection des variables avec Information Mutuelle
        fs = SelectKBest(score_func=mutual_info_classif)

        # Cr√©ation du pipeline (s√©lection des variables + mod√®le)
        pipeline = Pipeline(steps=[('selection', fs), ('model', model)])

        # D√©finition de la grille de recherche pour k
        grille = {'selection__k': [i + 1 for i in range(X_train_res_std.shape[1])]}

        # Recherche du meilleur k via Grid Search
        recherche = GridSearchCV(pipeline, grille, scoring=metric, n_jobs=-1, cv=cv)
        recherche.fit(X_train_res_std, Y_train_res.Echec)

        # Extraction des r√©sultats
        meilleur_k = recherche.best_params_['selection__k']
        meilleur_score = recherche.best_score_

        # R√©cup√©ration des indices des variables s√©lectionn√©es
        best_fs = SelectKBest(score_func=mutual_info_classif, k=meilleur_k)
        best_fs.fit(X_train_res_std, Y_train_res.Echec)
        selected_vars = list(X_train_res_std.columns[best_fs.get_support()])

        # Affichage des r√©sultats
        print(f"\nMeilleur {metric_name} : {meilleur_score:.3f}")
        print(f"Meilleur nombre de variables s√©lectionn√©es (k) : {meilleur_k}")
        print(f"Variables s√©lectionn√©es : {selected_vars}")
        
        # R√©cup√©ration des scores pour chaque valeur de k test√©e
        resultats = recherche.cv_results_
        moyennes = resultats['mean_test_score']
        variances = resultats['std_test_score']

        # Affichage graphique des r√©sultats
        plt.figure(figsize=(10, 5))
        plt.errorbar(grille['selection__k'], moyennes, yerr=variances, fmt='-o', capsize=5, label=f"{metric_name} moyen")
        
        # Mise en √©vidence du k s√©lectionn√©
        plt.axvline(meilleur_k, color='red', linestyle='--', linewidth=1.5, label=f'k optimal = {meilleur_k}')
        plt.scatter(meilleur_k, meilleur_score, color='red', s=100, edgecolors='black', label="Meilleur score")

        # Mise en forme du graphique
        plt.title(f"Impact de {model_name} sur la s√©lection de k ({metric_name})")
        plt.xlabel("Nombre de variables s√©lectionn√©es (k)")
        plt.ylabel(metric_name)
        plt.legend()
        plt.grid(True, linestyle='--', alpha=0.7)
        plt.show()

# Associer la fonction au bouton
run_button.on_click(run_grid_search)

# Affichage de l'interface
display(algo_selector, metric_selector, run_button, output)




### üîÅ M√©thode de s√©lection r√©cursive (RFE)
üìå **Utilis√©e pour s√©lectionner un sous-ensemble optimal de variables**  



<img src="https://www.blog.trainindata.com/wp-content/uploads/2022/08/rfesklearn.png" alt="drawing" width="600"/>

L'**Elimination R√©cursive des Variables (RFE)** est une technique de **s√©lection de variables** qui fonctionne de mani√®re it√©rative pour identifier les variables les plus pertinentes.

<font size="5"> **üîç Principe** </font> 
1. **Entra√Ænement du mod√®le** avec toutes les variables.
2. **√âvaluation de l'importance** des variables (ex: coefficients d'une r√©gression ou importance des features d'un arbre).
3. **Suppression** de la variable la moins importante.
4. **R√©p√©tition du processus** jusqu'√† atteindre un nombre d√©fini de variables.
5. **Conservation des variables les plus significatives**.

‚úî Adapt√© aux **mod√®les lin√©aires** et **arbres de d√©cision**  
‚úî Peut √™tre combin√© avec une **validation crois√©e (RFECV)** pour d√©terminer automatiquement le nombre optimal de variables  
‚úî Permet de **r√©duire le sur-ajustement** en limitant le nombre de variables inutiles  

üîó **Scikit-learn :** `sklearn.feature_selection.RFE` et `RFECV` pour la version avec validation crois√©e.

In [None]:
%%time 
# Mesure du temps d'ex√©cution de la cellule (utile pour √©valuer les performances du code)

# Cr√©ation d'un pipeline pour normaliser les donn√©es et entra√Æner le mod√®le
# - Normalisation avec StandardScaler (moyenne = 0, √©cart-type = 1)
# - Mod√®le utilis√© : R√©gression Logistique
pipeline = Pipeline([
    ('scale', StandardScaler()),  
    ('clf', LogisticRegression(solver='lbfgs'))  
])

# D√©finition de la validation crois√©e
# - 3 folds (d√©coupage des donn√©es en 3 groupes)
# - R√©p√©t√© 3 fois pour am√©liorer la robustesse de la s√©lection de variables
kfold = RepeatedStratifiedKFold(n_splits=3, n_repeats=3, random_state=2025)

# D√©finition du processus d'√©limination r√©cursive des variables (RFE avec CV)
rfecv_LR = RFECV(
    estimator=pipeline,  
    step=1,  # Suppression de 1 variable √† chaque it√©ration
    cv=kfold,  
    scoring='roc_auc',  # Utilisation de l'AUC-ROC comme m√©trique d'√©valuation
    min_features_to_select=1,  # Nombre minimal de variables √† conserver
    importance_getter="named_steps.clf.coef_"  
)

# Entra√Ænement du processus RFE avec CV sur les donn√©es non standardis√©s (car la standardisation est int√©gr√©e dans le pipeline)
rfecv_LR.fit(X_train_res, Y_train_res.Echec)

# Extraction des r√©sultats de la s√©lection de variables
mask = rfecv_LR.support_  # Masque bool√©en des variables s√©lectionn√©es
X_train_rfe = X_train_res.loc[:, mask]  # S√©lection des variables dans X_train
X_test_rfe = X_test.loc[:, mask]  # S√©lection des variables dans X_test

# Affichage des r√©sultats
print("Nombre de variables s√©lectionn√©es par le processus RFE :", rfecv_LR.n_features_)
print("Variables s√©lectionn√©es :", list(X_train_rfe.columns))

# R√©cup√©ration des scores de la validation crois√©e pour chaque sous-ensemble de variables
x = range(1, len(mask) + 1)  # Nombre total de variables test√©es
y = rfecv_LR.cv_results_['mean_test_score']  # Score moyen AUC-ROC pour chaque k
error = rfecv_LR.cv_results_['std_test_score']  # √âcart-type des scores

# Affichage des r√©sultats sous forme de graphique
plt.figure(figsize=(8,5))
plt.plot(x, y, marker='o', linestyle='-')
plt.fill_between(x, y-error, y+error, alpha=0.2)  # Ajout d'une bande d'erreur
plt.axvline(rfecv_LR.n_features_, color='red', linestyle='--', linewidth=1.5, label=f'k optimal = {rfecv_LR.n_features_}')  
plt.xlabel("Nombre de variables s√©lectionn√©es")
plt.ylabel("AUROC sur la CV")
plt.title("S√©lection RFE bas√©e sur la R√©gression Logistique")
plt.ylim(0.5, 1.0)
plt.legend()
plt.grid(True)
plt.show()


<font size="8"> ‚ö†Ô∏è </font>
><span style="color:#1114b5"> **Standardisation et cross-validation** </span>  
Dans ce code, **nous n'utilisons pas le jeu d'entrainement pr√©alablement standardis√©** dans la CV qui sert pour ajuster `RFECV`.  
En effet, la standardisation est **int√©gr√©e dans le pipeline**, ce qui permet de garantir une s√©paration stricte entre les donn√©es d'entra√Ænement et les donn√©es de validation.
>
> <span style="color:#1114b5"> **Pourquoi est-ce important ?**   </span>   
Lors de la **validation crois√©e**, les donn√©es d'entra√Ænement et de validation changent √† chaque it√©ration.  
Si nous standardisions l'ensemble des donn√©es avant la validation crois√©e, la moyenne et l'√©cart-type utilis√©s pour la transformation incluraient des informations provenant des folds de validation.  
Cela entra√Ænerait une **fuite de donn√©es**, biaisant ainsi l'√©valuation du mod√®le.
>
> <span style="color:#1114b5"> **Avantage de l'int√©gration dans le pipeline**   </span>   
En int√©grant `StandardScaler()` dans le pipeline, chaque fold de validation est **normalis√© uniquement** avec les statistiques (moyenne et √©cart-type) calcul√©es sur les folds d'entra√Ænement de l'it√©ration correspondante.  
Cela garantit une **ind√©pendance stricte** entre les folds d'entra√Ænement et les folds de validation, assurant une √©valuation plus r√©aliste des performances du mod√®le.



<div class="alert alert-block alert-info">
<b>Application </b> On peut r√©p√©ter la s√©lection pour diff√©rents type d'algortihmes et diff√©rentes m√©triques de performance : </div> 

In [None]:
# Liste des algorithmes disponibles
algorithms = {
    "R√©gression Logistique": LogisticRegression(solver='lbfgs'),
    "For√™t Al√©atoire": RandomForestClassifier(),
    "SVM": SVC(kernel="linear", probability=True),
    "Gradient Boosting": GradientBoostingClassifier(),
    "AdaBoost": AdaBoostClassifier()
}

# Liste des m√©triques de scoring disponibles
scoring_metrics = {
    "AUC-ROC": "roc_auc",
    "Accuracy": "accuracy",
    "F1-Score": "f1_weighted",
    "Pr√©cision": "precision",
    "Recall": "recall"
}

# Widgets interactifs
algo_selector = widgets.Dropdown(
    options=algorithms.keys(),
    value="R√©gression Logistique",
    description="Algorithme:"
)

metric_selector = widgets.Dropdown(
    options=scoring_metrics.keys(),
    value="AUC-ROC",
    description="M√©trique:"
)

run_button = widgets.Button(description="Lancer le calcul", button_style='success')

output = widgets.Output()

# Fonction ex√©cut√©e au clic du bouton
def run_rfecv(_):
    with output:
        output.clear_output(wait=True)
        print("Ex√©cution en cours...")

        # S√©lection de l'algorithme et de la m√©trique en fonction des choix utilisateur
        selected_algo = algorithms[algo_selector.value]
        selected_metric = scoring_metrics[metric_selector.value]

        # Cr√©ation du pipeline avec normalisation et mod√®le s√©lectionn√©
        pipeline = Pipeline([
            ('scale', StandardScaler()),  
            ('clf', selected_algo)
        ])

        # Param√©trage de la validation crois√©e (3 folds, 3 r√©p√©titions)
        kfold = RepeatedStratifiedKFold(n_splits=3, n_repeats=3, random_state=2025)

        # Processus de s√©lection des variables (RFE avec validation crois√©e)
        rfecv = RFECV(
            estimator=pipeline,  
            step=1,  
            cv=kfold,  
            scoring=selected_metric,  
            min_features_to_select=1,  
            importance_getter="named_steps.clf.coef_" if isinstance(selected_algo, LogisticRegression) or isinstance(selected_algo, SVC) else "named_steps.clf.feature_importances_"  
        )

        # Entra√Ænement du processus RFE avec CV sur les donn√©es (les donn√©es ne sont pas standardis√©es avant car le pipeline s'en charge)
        rfecv.fit(X_train_res, Y_train_res.Echec)

        # R√©cup√©ration des variables s√©lectionn√©es
        mask = rfecv.support_
        X_train_rfe = X_train_res.loc[:, mask]
        X_test_rfe = X_test.loc[:, mask]

        print("Nombre de variables s√©lectionn√©es :", rfecv.n_features_)
        print("Variables s√©lectionn√©es :", list(X_train_rfe.columns))

        # R√©cup√©ration des scores de la validation crois√©e pour chaque sous-ensemble de variables
        x = range(1, len(mask) + 1)  
        y = rfecv.cv_results_['mean_test_score']  
        error = rfecv.cv_results_['std_test_score']

        # Affichage du graphique
        plt.figure(figsize=(8,5))
        plt.plot(x, y, marker='o', linestyle='-')
        plt.fill_between(x, y-error, y+error, alpha=0.2)
        plt.axvline(rfecv.n_features_, color='red', linestyle='--', linewidth=1.5, label=f'k optimal = {rfecv.n_features_}')  
        plt.xlabel("Nombre de variables s√©lectionn√©es")
        plt.ylabel(selected_metric)
        plt.title(f"S√©lection RFE bas√©e sur {algo_selector.value}")
        plt.ylim(0.3, 1.0)
        plt.legend()
        plt.grid(True)
        plt.show()
        
        # Effacer le message d'ex√©cution en cours
        clear_output(wait=True)

# Associer l'action au clic du bouton
run_button.on_click(run_rfecv)

# Affichage des widgets interactifs
display(algo_selector, metric_selector, run_button, output)


### üìâ M√©thode de r√©duction de dimension (PCA)

- La PCA (Principal Composant Analysis) permet de **transformer** ces variables en un **nouveau jeu de variables non corr√©l√©es** appel√©es **composantes principales**.
- Elle permet de **r√©duire la dimension** des donn√©es tout en gardant **l‚Äôessentiel de la variabilit√©**.

<font size="5"> **üîç Principe** </font>    


Objectif : projeter le jeu d'entrainement sur un hyperplan de plus faible dimension en selectionnant l'hyperplan qui conserve le plus possible la variance des doon√©es pour perdre le moins d'information.  
1. **Normalisation des donn√©es**  
   - Les variables doivent √™tre **mises √† l‚Äô√©chelle** pour √©viter qu‚Äôune variable avec une grande amplitude ne domine les autres.

2. **Calcul des Composantes Principales**  
   - L‚ÄôACP trouve **les axes** qui maximisent la variance des donn√©es.
   - Ces axes sont des **combinaisons lin√©aires** des variables initiales.

3. **S√©lection des Composantes les Plus Importantes**  
   - On **classe les composantes** selon leur **variance expliqu√©e**.
   - On choisit g√©n√©ralement **les premi√®res composantes** qui expliquent **80-90%** de la variance totale.

4. **Projection des Donn√©es**  
   - Les donn√©es d‚Äôorigine sont projet√©es dans cet espace de dimensions r√©duites, ce qui diminue la complexit√© et le risque de sur-apprentissage.


üîπ PCA est particuli√®rement utile lorsque les variables sont fortement corr√©l√©es. Cependant, il **modifie l‚Äôinterpr√©tabilit√© des donn√©es**, car les nouvelles variables (composantes principales) ne correspondent plus directement aux variables initiales.


<img src="https://iq.opengenus.org/content/images/2020/03/pca_classic.png" alt="drawing" width="400"/>

<img src="https://www.simplilearn.com/ice9/free_resources_article_thumb/Variance%26Residuals.PNG" alt="drawing" width="600"/>

In [79]:
# Initialisation de PCA sans restriction sur le nombre de composantes
pca = PCA(random_state=2025)

# Ajustement du PCA sur les donn√©es d'entra√Ænement normalis√©es et transformation des donn√©es
X_pca = pca.fit_transform(X_train_res_std)

# Affichage de la variance expliqu√©e par chaque composante principale
pca.explained_variance_ratio_


array([2.72496350e-01, 1.62944354e-01, 1.00551844e-01, 7.35289089e-02,
       6.07122832e-02, 4.79127121e-02, 3.66812537e-02, 3.07149604e-02,
       2.98601749e-02, 2.24504795e-02, 1.97161301e-02, 1.74513932e-02,
       1.52418233e-02, 1.17618032e-02, 1.05531492e-02, 9.42790918e-03,
       8.58002173e-03, 7.58326300e-03, 6.25337834e-03, 5.53209016e-03,
       5.31663168e-03, 4.93437017e-03, 4.41659245e-03, 3.55379458e-03,
       3.07282242e-03, 2.81079833e-03, 2.45445628e-03, 2.29017473e-03,
       2.14215925e-03, 1.82675253e-03, 1.69753764e-03, 1.64038487e-03,
       1.42494887e-03, 1.34252831e-03, 1.16858427e-03, 9.79862349e-04,
       9.13155565e-04, 8.11817676e-04, 7.60365859e-04, 6.94327942e-04,
       6.59774132e-04, 5.72546193e-04, 5.34346837e-04, 4.80191441e-04,
       4.44518223e-04, 4.09628560e-04, 3.78090308e-04, 3.26589904e-04,
       2.88053491e-04, 2.67265901e-04, 2.33609522e-04, 2.15578167e-04,
       1.91876831e-04, 1.52705424e-04, 1.26168605e-04, 1.18798636e-04,
      

<font size="5"> **üìå Interpr√©tation des r√©sultats** </font>   



La variable **`explained_variance_ratio_`** indique **la proportion de variance captur√©e** par chaque composante principale.

Par exemple :
- **27%** de la variance est expliqu√©e par la 1 ≥·µâ composante.
- **16%** par la 2·µâ composante.
- Moins de **3%** pour la 11·µâ composante ‚Üí elle apporte peu d'information.

üí° Pour choisir le **nombre optimal de dimensions**, il faut s'assurer que les composantes retenues expliquent une grande partie de la variance.


In [None]:
# Calcul de la somme cumul√©e des contributions des composantes
cumsum = np.cumsum(pca.explained_variance_ratio_)

# D√©termination du nombre de dimensions n√©cessaires pour conserver au moins 95% de la variance totale
d = np.argmax(cumsum >= 0.95) + 1  #argmax donne l'indice du tableau de la somme cumul√©e o√π elle devient sup√©rieure ou √©gale √† 0.95. On ajoute 1 car les indices d√©butent √† 0. 

print("Nombre optimal de dimensions √† conserver :", d)


**Explication de la s√©lection du nombre de dimensions**   
- La somme cumul√©e **permet d'identifier combien de dimensions** sont n√©cessaires pour capturer **95% de l'information**.
- Ici, `d` correspond au **nombre minimal de dimensions** √† conserver pour ne pas perdre trop d'information.


<font size="5"> **üìå Transformation des donn√©es** </font>   


- En fixant **`n_components=0.95`**, PCA s√©lectionne **automatiquement** le nombre optimal de dimensions pour expliquer **95% de la variance**.
- On applique cette transformation aux donn√©es, ce qui r√©duit leur dimension sans trop perdre d‚Äôinformation.


In [None]:
# R√©duction de dimension avec PCA en gardant 95% de la variance
pca = PCA(n_components=0.95)
X_reduit = pca.fit_transform(X_train_res_std)

# Affichage de la nouvelle dimension des donn√©es
X_reduit.shape


In [None]:
# Affichage de la courbe de variance expliqu√©e en fonction du nombre de dimensions
plt.figure(figsize=(6,4))
plt.plot(cumsum, linewidth=3, label="Variance expliqu√©e cumul√©e")
plt.axvline(d, color='red', linestyle='--', linewidth=1.5, label=f'{d} dimensions retenues')
plt.axhline(0.95, color='black', linestyle='--', linewidth=1.2, label="Seuil 95%")
plt.xlabel("Nombre de dimensions")
plt.ylabel("Variance expliqu√©e")
plt.title("√âvolution de la variance expliqu√©e en fonction des dimensions")
plt.legend()
plt.grid(True)
plt.show()


<font size="5"> **üìå Visualisation de la variance expliqu√©e** </font>   


Ce graphique permet de visualiser :
- La **courbe de variance expliqu√©e cumul√©e**.
- La **valeur seuil des 95%** de variance retenue.
- Le **point o√π la r√©duction de dimension est optimale** (ligne rouge).

üí° **√âpaule sur la courbe** : indique un point √† partir duquel ajouter plus de dimensions apporte peu de b√©n√©fices.


**üöÄ Remarque importante**   
L'inconv√©nient de PCA est que les nouvelles variables obtenues (composantes principales) **ne correspondent plus directement aux variables initiales**.  
Ainsi, pour faire des **pr√©dictions sur de nouvelles donn√©es**, il faut :
1. **Appliquer PCA** sur la totalit√© des variables initiales.
2. **Transformer les nouvelles donn√©es** avec les m√™mes param√®tres que ceux appris sur l'entra√Ænement.
3. **R√©aliser la pr√©diction** avec les donn√©es transform√©es.

üí° Dans certains cas, **la transformation PCA peut √™tre co√ªteuse en calcul**, notamment si elle doit √™tre appliqu√©e en temps r√©el.


<div class="alert alert-block alert-info">
<b>Application </b> Evaluer les performances de diff√©rents algo pour diff√©rents dimensions d√©finies par PCA et selon diff√©rents scores </div> 

In [None]:
warnings.simplefilter(action='ignore', category=UserWarning)  # Ignore les UserWarnings
warnings.simplefilter(action='ignore', category=RuntimeWarning)  # Ignore les RuntimeWarnings


### D√©finition des options interactives pour l'utilisateur

# S√©lection de l'algorithme
algo_options = {
    "R√©gression Logistique": LogisticRegression(solver='lbfgs'),
    "Random Forest": RandomForestClassifier(),
    "Gradient Boosting": GradientBoostingClassifier(),
    "SVM Lin√©aire": SVC(kernel="linear"),
    "Analyse Discriminante Quadratique": QuadraticDiscriminantAnalysis(), 
    "Naive Bayes": GaussianNB(),
    "AdaBoost": AdaBoostClassifier(),
    "K-Nearest Neighbors": KNeighborsClassifier(),
    "Multi-Layer Perceptron": MLPClassifier()
}
algo_selector = widgets.Dropdown(options=algo_options, description="Algorithme:")

# S√©lection de la m√©trique d'√©valuation
metric_options = {
    "ROC AUC": 'roc_auc',
    "Balanced Accuracy": 'balanced_accuracy',
    "F1 Weighted": 'f1_weighted',
    "Accuracy": 'accuracy',
    "Precision": 'precision',
    "Recall": 'recall'
}
metric_selector = widgets.Dropdown(options=metric_options, description="M√©trique:")

# Bouton pour lancer l'ex√©cution
run_button = widgets.Button(description="Lancer le calcul", button_style='success')
output = widgets.Output()


### Fonction pour ex√©cuter l'√©valuation en fonction des choix de l'utilisateur

def execute_evaluation(b):
    with output:
        output.clear_output()
        print("Ex√©cution en cours ...")

        # D√©finition de la validation crois√©e stratifi√©e
        cv = RepeatedStratifiedKFold(n_splits=3, n_repeats=5, random_state=2025)

        # D√©finition du pipeline avec PCA et l'algorithme s√©lectionn√©
        pipeline = Pipeline(steps=[('selection', PCA()), ('model', algo_selector.value)])

        # D√©finition de la grille de recherche pour la s√©lection du nombre de dimensions avec PCA
        grille = {'selection__n_components': [i+1 for i in range(1, X_train_res_std.shape[1]+1)]}

        # D√©finition de la recherche sur grille avec la m√©trique s√©lectionn√©e
        recherche = GridSearchCV(pipeline, grille, scoring=metric_selector.value, n_jobs=-1, cv=cv)
        recherche.fit(X_train_res_std, Y_train_res.Echec)

        # R√©sum√© des r√©sultats
        print(f"Meilleur score ({metric_selector.label}) : {recherche.best_score_:.3f}")
        print(f"Meilleur nombre de dimensions s√©lectionn√©es : {recherche.best_params_['selection__n_components']}")

        # R√©cup√©ration des r√©sultats d√©taill√©s
        resultats = recherche.cv_results_
        moyennes = resultats['mean_test_score']
        variances = resultats['std_test_score']
        n_components = grille['selection__n_components']

        # Affichage du graphe des performances
        plt.figure(figsize=(8, 5))
        plt.errorbar(n_components, moyennes, yerr=variances, fmt='-o', capsize=5)
        plt.axvline(recherche.best_params_['selection__n_components'], color='red', linestyle='--', label="Best n_components")
        plt.xlabel("Nombre de dimensions s√©lectionn√©es (PCA)")
        plt.ylabel(f"Score {metric_selector.label}")
        plt.title(f"Performance en fonction du nombre de dimensions ({metric_selector.label})")
        plt.legend()
        plt.grid(True)
        plt.show()

# Liaison du bouton √† la fonction d'ex√©cution
run_button.on_click(execute_evaluation)

### Affichage des widgets interactifs
display(algo_selector, metric_selector, run_button, output)


### üöß R√©sum√© des m√©thodes de s√©lection de variables 

La s√©lection de variables est une √©tape essentielle en **Machine Learning** pour am√©liorer la **pr√©cision** des mod√®les, r√©duire la **complexit√©** et √©viter le **sur-ajustement**. Diff√©rentes approches existent, chacune ayant ses **avantages** et **inconv√©nients** en fonction du type de donn√©es.



| **M√©thode** | **Avantages** | **Inconv√©nients** | **Adapt√© √† quel type de donn√©es ?** |
|------------|--------------|-----------------|-----------------------------|
| **Information Mutuelle** | ‚úÖ Captures des **relations non lin√©aires**<br>‚úÖ Fonctionne avec **variables continues et cat√©gorielles** | ‚ùå Ne tient pas compte des **interactions entre variables**<br>‚ùå Moins efficace sur de **grands ensembles de donn√©es** | üîπ Donn√©es h√©t√©rog√®nes (mixtes)<br>üîπ Lorsque la relation entre les variables explicatives et la cible peut √™tre **non lin√©aire** |
| **RFE (Recursive Feature Elimination)** | ‚úÖ S√©lection optimis√©e via un **mod√®le sous-jacent**<br>‚úÖ Garde les **variables les plus importantes** pour le mod√®le | ‚ùå **Long √† ex√©cuter** si beaucoup de variables<br>‚ùå D√©pend du **mod√®le choisi** | üîπ Convient aux mod√®les **lin√©aires et non lin√©aires**<br>üîπ Utile si on veut **garder un sous-ensemble optimal** |
| **PCA (Analyse en Composantes Principales)** | ‚úÖ R√©duit la **multicolin√©arit√©**<br>‚úÖ Diminue la **dimension** de l'espace des variables tout en pr√©servant l'information | ‚ùå **Perte d'interpr√©tabilit√©** des variables<br>‚ùå Ne fonctionne que sur **variables continues** | üîπ Quand on a **beaucoup de variables corr√©l√©es**<br>üîπ Si l'objectif est **r√©duction de dimension et non interpr√©tation** |



<font size="4"> üìå **Autres m√©thodes de s√©lection de variables :**   </font>  


En plus de **l'Information Mutuelle, RFE et PCA**, il existe d'autres techniques : üîó [Documentation Scikit - Feature selection](https://scikit-learn.org/stable/modules/feature_selection.html#feature-selection)   

<font size="3"> 1Ô∏è‚É£ <span style="color:#0a51ab"> **M√©thodes de s√©lection univari√©es** :</span>   </font>   
   - **ANOVA** (ANalysis of VAriance) : S√©lectionne les variables les plus corr√©l√©es avec la cible (utile pour variables continues et cibles cat√©goriques).
        - üîπ Scikit : `sklearn.feature_selection.SelectKBest(score_func=f_classif)`   
   - **Chi¬≤** : Test d'ind√©pendance pour variables **cat√©goriques**.
        - üîπ Scikit : `sklearn.feature_selection.SelectKBest(score_func=chi2)`
           
<font size="3">2Ô∏è‚É£ <span style="color:#0a51ab">**M√©thodes bas√©es sur l'importance des variables** :</span>   </font>   
   - **For√™t Al√©atoire** : S√©lectionne les variables ayant le plus d'impact sur les d√©cisions du mod√®le.
        - üîπ Scikit-learn : `sklearn.ensemble.RandomForestClassifier().feature_importances_`
    
<font size="3">3Ô∏è‚É£ <span style="color:#0a51ab">**M√©thodes bas√©es sur la r√©gularisation** :</span>   </font>   
   - **Lasso (L1 Regularization)** : Supprime automatiquement les variables peu importantes dans une **r√©gression lin√©aire/logistique**.    
      - üîπ Scikit : `SelectFromModel(LogisticRegression(penalty='l1', solver='liblinear'), prefit=True)`


Le plus souvent il faut tester **plusieurs approches** et √©valuer leurs performances via une **cross-validation** :   
- **Les donn√©es r√©elles sont souvent complexes**, avec des relations lin√©aires et non lin√©aires.
- **Le type d‚Äôalgorithme utilis√© influence la s√©lection des variables.**
- **Le volume des donn√©es et leur qualit√© influencent la pertinence des m√©thodes.**

üîπ **Objectif** : Trouver **le bon √©quilibre** entre **performance du mod√®le**, **r√©duction de la complexit√©** et **interpr√©tabilit√©** des r√©sultats. üöÄ
