1. D√©finir le probl√®me
 

2. R√©cup√©rer les donn√©es
 

3. Analyser et nettoyer les donn√©es
  

4. Pr√©parer les donn√©es
  

5. **Evaluer plusieurs mod√®les**
  

6. R√©glage fin des mod√®les
 

7. Surveiller son mod√®le

# üìå 5. Evaluer plusieurs mod√®les : les m√©triques de performance

## üöÄ Objectif
Dans cette section, nous allons parcourir les **m√©triques de performances** d√©di√©es √† la **classification**.  

## üîç √âtapes du processus
1. **Importer les biblioth√®ques n√©cessaires, charger les donn√©es, les s√©parer en train/test et les transformer**  
2. **Pr√©senter les limites de l'exactitude (Accuracy) en comparant une r√©gression logistique √† un classifieur na√Æf**  
3. **Pr√©senter le principe de la matrice de confusion**    
4. **Afficher des courbes ROC**  
5. **S'attarder sur la probl√©matique du compromis pr√©cision/rappel**   
6. **Afficher des courbes de pr√©cision rappel**
7. **Faire un bilan**  


In [None]:
# Import des biblioth√®ques n√©cessaires
import warnings  # Pour √©viter les warnings inutiles

import numpy as np  # Pour les calculs num√©riques
import pandas as pd  # Pour la manipulation des donn√©es
import matplotlib.pyplot as plt  # Pour la visualisation des r√©sultats
import seaborn as sns  # Pour am√©liorer l'apparence des graphiques

# Scikit-learn : outils pour la pr√©paration et l'√©valuation des mod√®les
from sklearn.model_selection import (
    train_test_split, cross_val_score, cross_val_predict, StratifiedKFold, GridSearchCV
)  # Pour diviser les donn√©es, validation crois√©e et recherche de grille
from sklearn.preprocessing import StandardScaler  # Pour la normalisation des donn√©es
from sklearn.metrics import (
    roc_auc_score, precision_score, recall_score, f1_score, roc_curve, accuracy_score,
    ConfusionMatrixDisplay, confusion_matrix, precision_recall_curve, RocCurveDisplay,
    PrecisionRecallDisplay, auc
)  # Pour l'√©valuation des performances du mod√®le
from sklearn.pipeline import Pipeline  # Pour cr√©er des pipelines de traitement
from sklearn.feature_selection import SelectKBest, mutual_info_classif  # Pour la s√©lection de variables

# Importation des algorithmes de classification
from sklearn.linear_model import LogisticRegression  # Pour la r√©gression logistique
from sklearn.ensemble import (
    RandomForestClassifier, GradientBoostingClassifier, AdaBoostClassifier
)  # Classifieurs bas√©s sur des ensembles d'arbres
from sklearn.svm import SVC  # Pour les machines √† vecteurs de support
from sklearn.neural_network import MLPClassifier  # Pour les r√©seaux de neurones
from sklearn.naive_bayes import GaussianNB  # Pour le classifieur Naive Bayes Gaussien
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis  # Pour l'analyse discriminante lin√©aire
from sklearn.neighbors import KNeighborsClassifier  # Pour le classifieur des k plus proches voisins
from imblearn.under_sampling import RandomUnderSampler  # Pour le sous-√©chantillonnage des donn√©es d√©s√©quilibr√©es
from sklearn.base import BaseEstimator  # Classe de base pour cr√©er des estimateurs personnalis√©s

warnings.filterwarnings("ignore")  # D√©sactiver les warnings pour ne pas surcharger l'affichage


## üîπ5.1. Chargement des donn√©es
Nous chargeons notre dataset qui contient plusieurs variables explicatives et une variable cible `Echec : 1/0`.


In [None]:
# Chargement des donn√©es
df = pd.read_csv("/content/DataSet_RegionPelvienne_Class.csv", sep=",")
df = df.drop(columns=["Unnamed: 0"])  # Suppression de colonnes inutiles

# Aper√ßu des donn√©es
display(df.head())

### ‚û°Ô∏è S√©paration des donn√©es en entra√Ænement et test
Nous s√©parons le dataset en :
- **70% d'entra√Ænement** pour apprendre au mod√®le.
- **30% de test** pour √©valuer ses performances sur des donn√©es jamais vues.

### ‚û°Ô∏è Sous-√©chantillonnage de la classe majoritaire
Nous √©quilibrons la base pour √©viter un d√©s√©quilibre qui pourrait biaiser l'entra√Ænement.

### ‚û°Ô∏è Normalisation des variables
Les mod√®les sensibles aux √©chelles de variables (**SVM, MLP, R√©gression Logistique**) n√©cessitent une normalisation.

In [None]:
# S√©paration des variables explicatives et de la cible
y = df['Echec']
X = df.drop(columns=['Echec'])

# Division des donn√©es en entra√Ænement (70%) et test (30%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, stratify=y, random_state=2025)

# Sous-√©chantillonnage de la classe majoritaire pour √©quilibrer les classes
rus = RandomUnderSampler(sampling_strategy={0: len(y_train[y_train == 1]) * 2, 1: len(y_train[y_train == 1])}, random_state=2025)
X_train_res, y_train_res = rus.fit_resample(X_train, y_train)

# Normalisation des variables
scaler = StandardScaler()
X_train_res_std = scaler.fit_transform(X_train_res)  # Normalisation des donn√©es d'entra√Ænement
X_test_std = scaler.transform(X_test)  # Normalisation des donn√©es test

## üîπ 5.2. Les m√©triques de performance
Lorsqu'on entra√Æne un mod√®le de ML, il est essentiel d'√©valuer ses performances correctement. Cependant, **toutes les m√©triques ne sont pas adapt√©es** √† tous les probl√®mes.

Dans Scikit-Learn, la **m√©trique par d√©faut est souvent l'accuracy**. Or, cette m√©trique peut √™tre trompeuse pour les probl√®mes de classification en cas de **d√©s√©quilibre de classes**.

**Exemple** : Si 90% des exemples appartiennent √† la classe 0, un mod√®le qui pr√©dit toujours 0 aura **90% d'accuracy**, mais il ne d√©tectera jamais la classe minoritaire.



>Nous allons d√©crire ici les **m√©triques adapt√©es √† la classification binaire**. D'autres m√©triques doivent √™tre utilis√©es si on veut faire de la **classification multiple** ou de la **r√©gression** (pr√©dire directement les valeurs des indices gamma dans notre exemple, au lieu du statut pass/fail).   
Les m√©triques disponibles dans scikit peuvent √™tre retrouv√©es ici : üîó [Documentation Scikit - Metriques](https://scikit-learn.org/stable/modules/model_evaluation.html)     
Des m√©triques personnalis√©es peuvent aussi √™tre cr√©√©es manuellement : üîó [Documentation Scikit - MetriquesPerso](https://scikit-learn.org/stable/developers/develop.html#rolling-your-own-estimator)

### üîç Comparaison entre une r√©gression logistique et un classifieur na√Øf
Nous allons comparer :
1. Une **r√©gression logistique**.
2. Un **classifieur na√Øf** qui pr√©dit toujours la classe majoritaire.

Nous utiliserons plusieurs **m√©triques de performance** :
- **Accuracy** : Combien de pr√©dictions sont correctes parmi toutes les pr√©dictions ?
- **Pr√©cision** (Precision) : Combien de pr√©dictions positives sont correctes ?
- **AUC-ROC** : Capacit√© du mod√®le √† distinguer les classes positives et n√©gatives (vrais positifs en fonction des faux positifs). AU-ROC = 1 -> Pr√©dicteur parfait
  


**Exemple avec une r√©gression logistique**

![image.png](https://datatab.fr/assets/tutorial/Logistic-function.png)

La fonction logistique a la capacit√© de transformer un nombre compris entre ‚Äì l‚Äôinfini et + l‚Äôinfini en un nombre compris entre 0 et 1 qui se comporte comme une probabilit√©. La r√©gression logistique ne permet de r√©soudre que des probl√®mes de classification. 

Vid√©o StatQuest qui explique la regression logistique :
üîó [Video StatQuest - Regression Logistique](https://www.youtube.com/watch?v=yIYKR4sgzI8)


In [None]:
# Mod√®le 1 : R√©gression Logistique
# --------------------------------
# Cr√©ation d'un mod√®le de r√©gression logistique standard.
# La r√©gression logistique est un mod√®le de classification binaire bas√© sur une fonction logistique.
# Ici, on initialise le mod√®le avec une graine al√©atoire fix√©e pour garantir la reproductibilit√©.
clf_lr = LogisticRegression(random_state=2025)

# Entra√Ænement du mod√®le de r√©gression logistique sur les donn√©es normalis√©es et r√©√©chantillonn√©es.
# - X_train_res_std : Variables explicatives normalis√©es
# - y_train_res : Variable cible (√©chec ou r√©ussite)
clf_lr.fit(X_train_res_std, y_train_res)

# Mod√®le 2 : Classifieur na√Øf (pr√©dit toujours la classe majoritaire)
# -------------------------------------------------------------------
# Cr√©ation d'un classifieur "stupide" qui classe syst√©matiquement toutes les observations
# dans la classe majoritaire (ici, classe 0, correspondant √† "r√©ussite").
# - On utilise la classe `BaseEstimator` de Scikit-learn pour rendre ce mod√®le compatible
#   avec les outils d'√©valuation de Scikit-learn (ex: cross-validation).
class TjsReussite(BaseEstimator):
    def fit(self, X, y=None):
        # Pas d'entra√Ænement n√©cessaire, le mod√®le ne fait que des pr√©dictions constantes
        pass

    def predict(self, X):
        # Retourne un tableau rempli de 0 (classe majoritaire) de la m√™me taille que X
        return np.zeros(len(X), dtype=int)

# Initialisation du classifieur na√Øf
clf_stupid = TjsReussite()

# Pr√©dictions sur les donn√©es test
# --------------------------------
# Le mod√®le de r√©gression logistique pr√©dit les classes sur les donn√©es test normalis√©es.
y_pred_lr = clf_lr.predict(X_test_std)

# Le classifieur na√Øf pr√©dit √©galement les classes sur les m√™mes donn√©es test.
y_pred_stupid = clf_stupid.predict(X_test_std)

# Calcul des m√©triques de performance
# -----------------------------------
# D√©finition d'un dictionnaire contenant plusieurs m√©triques d'√©valuation :
# - "Accuracy" : Exactitude, proportion de pr√©dictions correctes
# - "Pr√©cision" : Nombre de pr√©dictions positives correctes sur toutes les pr√©dictions positives
# - "AUC-ROC" : Aire sous la courbe ROC, mesure de la capacit√© du mod√®le √† distinguer les classes
metrics = {
    "Accuracy": accuracy_score,
    "Pr√©cision": precision_score,
    "AUC-ROC": roc_auc_score
}

# Affichage des performances des deux mod√®les
print("\nüìä Comparaison des mod√®les")
for metric_name, metric_func in metrics.items():
    # √âvaluation de chaque m√©trique pour la r√©gression logistique et le classifieur na√Øf
    print(f"{metric_name} (R√©gression Logistique): {metric_func(y_test, y_pred_lr):.2f}")
    print(f"{metric_name} (Classifieur na√Øf) : {metric_func(y_test, y_pred_stupid):.2f}\n")

# Interpr√©tation :
# - Si la base de donn√©es est tr√®s d√©s√©quilibr√©e (ex: 90% de classe 0 et 10% de classe 1),
#   alors un classifieur qui pr√©dit syst√©matiquement la classe 0 peut obtenir une *accuracy* √©lev√©e
#   mais une *pr√©cision* et un *AUC-ROC* tr√®s faibles.
# - L'AUC-ROC est g√©n√©ralement une meilleure mesure que l'accuracy pour √©valuer les mod√®les dans un contexte de classification d√©s√©quilibr√©e.


<font size = 7>‚ö†Ô∏è</font>

L'accuracy conduit √† **une illusion de performance** si l'on ne regarde pas d'autres m√©triques.   
Elle est souvent utilis√©e par d√©faut dans **Scikit-Learn** pour √©valuer les mod√®les, mais elle peut √™tre trompeuse, surtout en **classification avec classes d√©s√©quilibr√©es**. Si elle est utilis√©e pour rechercher les hyper-param√®tres du mod√®le cela peut **fausser le choix des hyper-param√®tres**. 

### üîç Matrice de confusion
Une matrice de confusion permet d'√©valuer la qualit√© des pr√©dictions.
Elle affiche :
- **Vrais positifs (TP)**
- **Faux positifs (FP)**
- **Vrais n√©gatifs (TN)**
- **Faux n√©gatifs (FN)**


<img src="https://miro.medium.com/v2/resize:fit:969/1*d0UCCIF10Soi7VQGxdVrWQ.jpeg" alt="drawing" width="700"/>

In [None]:
# Matrice de confusion pour la r√©gression logistique
cm_lr = confusion_matrix(y_test, y_pred_lr)
ConfusionMatrixDisplay(confusion_matrix=cm_lr, display_labels=[0, 1]).plot()
plt.title("Matrice de confusion - R√©gression Logistique")
plt.show()

# Matrice de confusion pour le classifieur na√Øf
cm_stupid = confusion_matrix(y_test, y_pred_stupid)
ConfusionMatrixDisplay(confusion_matrix=cm_stupid, display_labels=[0, 1]).plot()
plt.title("Matrice de confusion - Classifieur Na√Øf")
plt.show()

# Matrice de confusion pr√©dictions parfaites
cm_stupid = confusion_matrix(y_test, y_test)
ConfusionMatrixDisplay(confusion_matrix=cm_stupid, display_labels=[0, 1]).plot()
plt.title("Matrice de confusion - Classifieur parfait")
plt.show()

A partir de la matrice de confusion on a acc√®s √† diff√©rentes m√©triques : 

üî¢ **Notations :**
- **TP (True Positives)** : Nombre de cas positifs (fail) correctement d√©tect√©s.
- **TN (True Negatives)** : Nombre de cas n√©gatifs (pass) correctement d√©tect√©s.
- **FP (False Positives)** : Nombre de cas n√©gatifs (pass) incorrectement d√©tect√©s comme positifs (fail).
- **FN (False Negatives)** : Nombre de cas positifs (fail) incorrectement d√©tect√©s comme n√©gatifs (pass).
- **P (Positifs r√©els)** : $ P = TP + FN $ (*total des vrais positifs (fail)*).
- **N (N√©gatifs r√©els)** : $ N = TN + FP $ (*total des vrais n√©gatifs (pass)*).

---

 üìà **Formules des m√©triques**

| **M√©trique**                          | **Formule**                          | **Interpr√©tation** |
|----------------------------------------|--------------------------------------|--------------------|
| **Probabilit√© de fausse alarme**<br> (*False Positive Rate - FPR*) | $$ \text{FPR} = \frac{FP}{N} = 1 - \text{TNR} $$ | Proportion de cas n√©gatifs <br> incorrectement d√©tect√©s comme positifs. |
| **Taux d'√©chec** <br>(*False Negative Rate - FNR*) | $$ \text{FNR} = \frac{FN}{P} = 1 - \text{TPR} $$ | Proportion de cas positifs<br> incorrectement d√©tect√©s comme n√©gatifs. |
| **Sensibilit√©** <br>(*Rappel / True Positive Rate - TPR*) | $$ \text{TPR} = \frac{TP}{P} = 1 - \text{FNR} $$ | Proportion de cas positifs <br>correctement d√©tect√©s. |
| **Sp√©cificit√©** <br> (*True Negative Rate - TNR*) | $$ \text{TNR} = \frac{TN}{N} = 1 - \text{FPR} $$ | Proportion de cas n√©gatifs <br>correctement d√©tect√©s. |
| **Pr√©cision** <br>(*Positive Predictive Value - PPV*) | $$ \text{PPV} = \frac{TP}{TP + FP} = 1 - \text{FDR} $$ | Proportion de cas positifs correctement d√©tect√©s <br> parmi toutes les d√©tections positives. |
| **Taux de fausses d√©couvertes** <br> (*False Discovery Rate - FDR*) | $$ \text{FDR} = \frac{FP}{TP + FP} = 1 - \text{PPV} $$ | Proportion de fausses d√©tections <br>parmi toutes les d√©tections positives. |
| **Exactitude** <br> (*Accuracy*) | $$ \text{Accuracy} = \frac{TP + TN}{P + N} $$ | Proportion de pr√©dictions correctes <br> parmi l‚Äôensemble des cas. |

---


In [None]:
# Extraction des valeurs de la matrice de confusion
TN, FP, FN, TP = cm_lr.ravel()


<font size = 4><span style="color:#2980b9"> **1Ô∏è‚É£ Sensibilit√© ou Rappel (Recall, Taux de vrais positifs, TPR - True Positive Rate)** </span></font>


   - **D√©finition** : Proportion de cas positifs correctement d√©tect√©s par le mod√®le.  
   - **Formule** :  
$$ \text{Rappel} = \frac{TP}{TP + FN} $$
   - **Int√©r√™t** : Utile lorsque l‚Äôobjectif est de **minimiser les faux n√©gatifs**, par exemple en **d√©tection de maladies**.



In [None]:
# calcul de la sensibilit√© (ou rappel) √† partir du tableau de la matrice de confusion cm[ligne][colonne]
TPR = TP/(TP+FN)*100
print("Le mod√®le d√©tecte %0.0f%% des √©checs sur les donn√©es test." %TPR)

On peut aussi utiliser la fonction scikit : 

In [None]:
recall_score(y_test, y_pred_lr)

<font size = 4><span style="color:#2980b9"> **2Ô∏è‚É£ Sp√©cificit√© (Taux de vrais n√©gatifs, TNR - True Negative Rate)** </span></font>


   - **D√©finition** : Proportion de cas n√©gatifs correctement d√©tect√©s.  
   - **Formule** :  
$$ \text{Sp√©cificit√©} = \frac{TN}{TN + FP} $$
   - **Int√©r√™t** : Important lorsque **minimiser les faux positifs** est crucial, comme en **d√©tection de fraudes**.



In [None]:
# calcul de la sp√©cificit√©
TNR = TN/(FP+TN)*100
print("Le mod√®le d√©tecte %0.0f%% des r√©ussites sur les donn√©es test." %TNR)

<font size = 4><span style="color:#2980b9"> **3Ô∏è‚É£ Pr√©cision (PPV - Positive Predictive Value)** </font></span>


   - **D√©finition** : Proportion de cas pr√©dits positifs qui sont r√©ellement positifs.  
   - **Formule** :  
$$ \text{Pr√©cision} = \frac{TP}{TP + FP} $$
   - **Int√©r√™t** : Crucial lorsque **minimiser les fausses alertes est essentiel**, comme en **filtrage anti-spam**.

In [None]:
# calcul de la pr√©cision
PPV = TP / (TP + FP)*100
print("Parmis les √©checs d√©tect√©s sur les donn√©es test, %0.0f%% sont corrects." %PPV)

On peut aussi utiliser la fonction scikit : 

In [None]:
precision_score(y_test, y_pred_lr)

### üîç Courbes ROC (Receiver Operating Characteristic)
- **Courbe ROC** : Montre le taux de faux positifs (FPR) vs. le taux de vrais positifs (TPR).


<img src="https://abdatum.com/media/images/curva-roc.png" alt="drawing" width="700"/>

<font size = 3>**Aire Sous la Courbe ROC (AUROC)**   </font>   


L‚ÄôAUROC (AUC-ROC) est une mesure synth√©tique de performance :
- **AUROC = 1** : Mod√®le parfait.
- **AUROC = 0.5** : Mod√®le al√©atoire.
- **AUROC < 0.5** : Mod√®le invers√© (il pr√©dit mieux les n√©gatifs que les positifs).


<font size = 3> üéØ **Pourquoi utiliser la courbe ROC ?**   </font>   


‚úîÔ∏è **Ind√©pendante du seuil** de d√©cision utilis√©.  
‚úîÔ∏è **Utile sur des bases d√©s√©quilibr√©es**, contrairement √† l‚Äôaccuracy.  
‚úîÔ∏è **Permet de comparer plusieurs mod√®les** en fonction de leur capacit√© de discrimination.  


In [None]:
# Probabilit√©s de pr√©diction de la classe 1
# -----------------------------------------
# La plupart des mod√®les de classification binaire (comme la r√©gression logistique)
# retournent des probabilit√©s d'appartenance √† chaque classe.
# Ici, on r√©cup√®re la probabilit√© d'appartenir √† la classe positive (classe 1).
# predict_proba() retourne un tableau √† deux colonnes :
# - La premi√®re colonne correspond √† la probabilit√© d'appartenir √† la classe 0.
# - La deuxi√®me colonne correspond √† la probabilit√© d'appartenir √† la classe 1.
# Nous s√©lectionnons uniquement la colonne de la classe positive (index 1).
y_scores_lr = clf_lr.predict_proba(X_test_std)[:, 1]

# Calcul des courbes ROC
# ----------------------
# La fonction roc_curve() calcule le taux de faux positifs (FPR) et le taux de vrais positifs (TPR)
# pour diff√©rents seuils de classification.
# Ces valeurs permettent de tracer la courbe ROC (Receiver Operating Characteristic).
# _ repr√©sente les seuils de d√©cision (que l'on n'affiche pas ici).
fpr, tpr, _ = roc_curve(y_test, y_scores_lr)

# Trac√© de la courbe ROC
# ----------------------
plt.figure(figsize=(12,5))  # Cr√©ation d'une figure avec une largeur de 12 et hauteur de 5

# Cr√©ation du premier sous-graphique (1 ligne, 2 colonnes, premier graphique)
plt.subplot(1,2,1)

# Trac√© de la courbe ROC : taux de vrais positifs (TPR) en fonction du taux de faux positifs (FPR)
plt.plot(fpr, tpr, label=f"AUROC = {roc_auc_score(y_test, y_scores_lr):.2f}")

# Ajout d'une ligne diagonale en pointill√©s (classifieur al√©atoire, AUROC = 0.5)
plt.plot([0,1], [0,1], linestyle='--', color='grey')

# Ajout des labels et titre
plt.xlabel("Taux de faux positifs (FPR) - 1-Sp√©cificit√©")
plt.ylabel("Taux de vrais positifs (TPR) - Sensibilit√©")
plt.title("Courbe ROC")

# Ajout de la l√©gende affichant la valeur de l'AUROC (aire sous la courbe)
plt.legend()

# Affichage de la figure
plt.show()


<font size = 6>‚ÑπÔ∏è</font>    
On peut aussi tracer la courbe ROC directement √† l'aide de la fonction `RocCurveDisplay()` de scikit : 

In [None]:
RocCurveDisplay.from_predictions(y_test, y_scores_lr, plot_chance_level = True)

<font size = 5>‚ö†Ô∏è</font>

Attention quand on trace la courbe ROC ou qu'on calcule l'aire sous la courbe, il faut toujours utiliser les probabilit√©s pr√©dites d'appartenir √† la classe positive et pas les √©tiquettes pr√©dites directement ! L'erreur est facile √† faire (ex : on utilise `predict()` au lieu de `predict_proba()`) et les fonctions scikit ne renverront pas d'erreur.  

### üîç Compromis entre pr√©cision et rappel


<img src="https://miro.medium.com/v2/resize:fit:824/0*faCzwVWg5RLqAj1J.png" alt="drawing" width="600"/>

Dans une classification binaire, la majorit√© des classifieurs ne prennent pas directement une d√©cision, mais attribuent d‚Äôabord √† chaque observation un **score** ou une **probabilit√©** d‚Äôappartenance √† la classe positive (ex: "√©chec" dans un probl√®me de d√©tection).  

<font size = 4><span style="color:#2980b9"> **D√©cision bas√©e sur un seuil** </span></font>    
Ce score est ensuite compar√© √† un **seuil de d√©cision** pour attribuer une classe :
- Si le score est **sup√©rieur** au seuil ‚Üí l'observation est class√©e dans la classe positive.
- Sinon ‚Üí elle est class√©e dans la classe n√©gative.

<font size = 4><span style="color:#2980b9"> **Impact du seuil sur la pr√©cision et le rappel** </span></font>      
Le choix du seuil influence directement les pr√©dictions :
- **Un seuil bas** entra√Æne plus de pr√©dictions positives. Cela **augmente le rappel** ( $\frac{TP}{TP + FN}$) mais **r√©duit la pr√©cision** (on commet plus de faux positifs).
- **Un seuil √©lev√©** entra√Æne moins de pr√©dictions positives. Cela **augmente la pr√©cision** ($\frac{TP}{TP + FP}$), mais **diminue le rappel** (plus de vrais positifs sont manqu√©s).

<font size = 4><span style="color:#2980b9"> **Illustration du compromis** </span></font>      
- Un seuil **tr√®s bas** : presque toutes les observations sont class√©es comme positives ‚Üí **rappel √©lev√©, pr√©cision faible**.
- Un seuil **tr√®s haut** : seules les observations avec un score tr√®s fort sont class√©es positives ‚Üí **pr√©cision √©lev√©e, rappel faible**.

<font size = 4>üí° **Choisir le bon seuil d√©pend des objectifs du probl√®me** :   </font>
- Si **les faux n√©gatifs sont co√ªteux** (ex: diagnostic m√©dical), on privil√©gie un **rappel √©lev√©**.
- Si **les faux positifs sont critiques** (ex: filtrage anti-spam), on favorise une **pr√©cision √©lev√©e**.
- Dans certains cas, on utilise des m√©triques combin√©es comme le **score F1** pour √©quilibrer les deux.

üëâ **Le trac√© de la courbe Pr√©cision-Rappel et de la courbe ROC aide √† choisir un seuil optimal selon le contexte.** 

In [None]:
# Calcul des scores de d√©cision pour les donn√©es test
# decision_function() retourne un score continu pour chaque observation
# Plus le score est √©lev√©, plus le mod√®le est confiant que l'exemple appartient √† la classe positive
y_scores = clf_lr.decision_function(X_test_std)

# Calcul des pr√©cisions et rappels pour diff√©rents seuils de d√©cision
# precision_recall_curve() retourne trois √©l√©ments :
# - precisions : liste des pr√©cisions obtenues √† chaque seuil
# - recalls : liste des rappels obtenus √† chaque seuil
# - thresholds : liste des seuils test√©s (longueur = nombre de points - 1)
precisions, recalls, thresholds = precision_recall_curve(y_test, y_scores)

# Cr√©ation d'une figure pour tracer les courbes
plt.figure(figsize=(10, 5))  # D√©finition de la taille de la figure

# Trac√© de la courbe de pr√©cision en fonction du seuil
plt.plot(thresholds, precisions[:-1], "b--", label="Pr√©cision", linewidth=2)

# Trac√© de la courbe de rappel en fonction du seuil
plt.plot(thresholds, recalls[:-1], "g-", label="Rappel", linewidth=2)

# Ajout des axes et d'un titre explicatif
plt.xlabel("Seuil de d√©cision", fontsize=12)  # Axe des x : valeurs du seuil
plt.ylabel("Score", fontsize=12)  # Axe des y : valeurs de pr√©cision/rappel
plt.title("Courbes de Pr√©cision et Rappel en fonction du seuil de d√©cision", fontsize=14)

# Ajout d'une grille pour une meilleure lisibilit√©
plt.grid(True)

# Placement de la l√©gende en dehors de la figure
# - bbox_to_anchor=(1,1) permet de placer la l√©gende √† l'ext√©rieur de la figure
# - loc="upper left" positionne la l√©gende dans le coin sup√©rieur gauche de la zone d'affichage externe
plt.legend(loc="upper left", bbox_to_anchor=(1,1), fontsize=12)

# Ajustement des marges pour √©viter que la l√©gende ne coupe la figure
plt.tight_layout(rect=[0, 0, 0.85, 1])

# Affichage de la figure
plt.show()


<font size = 6>‚ÑπÔ∏è</font>    



La courbe de **pr√©cision** est **irr√©guli√®re**. Cela arrive si, en augmentant le seuil, il se trouve qu'on n'augmente pas le nombre de faux positifs mais uniquement celui de faux n√©gatifs. Etant donn√© que le nombre de pr√©dits positifs diminue quand on augmente le seuil de d√©cision, on peut se retrouver avec des variations importantes de la pr√©cision car le rapport entre vrai positifs et pr√©dits positifs peut varier dans un sens comme dans l'autre.      
Le rappel diminue forc√©ment avec l'augmentation du seuil car le nombre de r√©ellement positifs est toujours le m√™me alors que les pr√©dits positifs diminuent forc√©ment si on augmente le seuil de d√©cision.  

><font size = 6>‚ö†Ô∏è</font>  
>
>Dans Scikit-Learn, `predict_proba()` et `decision_function()` sont deux m√©thodes utilis√©es pour obtenir un score de confiance sur les pr√©dictions d'un mod√®le de classification. Cependant, elles diff√®rent dans leur sortie et leur utilisation.   
> - `predict_proba()` retourne les probabilit√©s d'appartenance aux diff√©rentes classes, comprises entre 0 et 1   
> - `decision_function()` retourne le score brut de la fonction de d√©cision utilis√©e en interne par l'algorithme. Les valeurs ne pas born√©es, elles peuvent √™tre n√©gatives et tr√®s grandes. Plus la valeur est grande plus le mod√®le est confiant sur l'appartenance √† la classe positive. Si le score est >0 c'est la classe positive qui est pr√©dite, s'il est <0 c'est la classe n√©gative.   
> - Comme `predict_proba()`retourne des valeurs comprises entre 0 et 1, cela peut √©craser la distribution des scores, rendant moins pr√©cise la d√©termination du seuil adequat pour ajuster le compromis pr√©cision/rappel.  

<div class="alert alert-block alert-info">
<b>Application </b> Impact du seuil de d√©cision sur le rappel et la pr√©cision : </div> 

In [None]:
import ipywidgets as widgets
from IPython.display import display, clear_output

# Calcul des scores de d√©cision pour les donn√©es test
# decision_function() retourne un score continu pour chaque observation
# Plus le score est √©lev√©, plus le mod√®le est confiant que l'exemple appartient √† la classe positive
y_test_scores = clf_lr.decision_function(X_test_std)

# D√©finition du widget interactif pour ajuster le seuil de d√©cision
threshold_slider = widgets.FloatSlider(
    value=0.5,  # Seuil initial √† 0.5
    min=-10,
    max=10,
    step=1,
    description="Seuil",
    continuous_update=True
)

# Widget d'affichage des r√©sultats
output = widgets.Output()

def update_threshold(threshold):
    """Met √† jour la pr√©cision et le rappel en fonction du seuil s√©lectionn√©."""
    with output:
        clear_output(wait=True)  # Nettoie l'affichage pr√©c√©dent
        
        # Appliquer le seuil pour g√©n√©rer les pr√©dictions binaires
        y_pred_thresholded = (y_test_scores >= threshold).astype(int)
        
        # Calcul des m√©triques avec gestion des erreurs
        precision = precision_score(y_test, y_pred_thresholded, zero_division=0)
        recall = recall_score(y_test, y_pred_thresholded)
        tn, fp, fn, tp = confusion_matrix(y_test, y_pred_thresholded).ravel()
        specificity = tn / (tn + fp)
        
        # Affichage des r√©sultats
        print(f"üîπ Seuil de d√©cision (valeur brute de la fonction de d√©cision) : {threshold:.2f}")
        
        print(f"üî∏ Pr√©cision : {precision:.2f}")
        print(f"üî∏ Rappel/Sensibilit√© : {recall:.2f}")

        # Trac√© des courbes Pr√©cision et Rappel en fonction du seuil
        thresholds = np.linspace(-10, 10, 21)
        precisions = [precision_score(y_test, (y_test_scores >= t).astype(int), zero_division=0) for t in thresholds]
        recalls = [recall_score(y_test, (y_test_scores >= t).astype(int)) for t in thresholds]

        plt.figure(figsize=(8, 5))
        plt.plot(thresholds, precisions, label="Pr√©cision", color="blue")
        plt.plot(thresholds, recalls, label="Rappel", color="green")
        plt.axvline(threshold, color="red", linestyle="--", label=f"Seuil = {threshold:.2f}")
        plt.xlabel("Seuil de d√©cision")
        plt.ylabel("Valeur")
        plt.title("Impact du seuil de d√©cision sur la pr√©cision et le rappel")
        plt.legend()
        plt.grid(True)
        plt.show()

# Lier le widget au callback
widgets.interactive(update_threshold, threshold=threshold_slider)

# Affichage des widgets
display(threshold_slider, output)


### üîç Courbe Pr√©cision-Rappel (PR)


La **courbe Pr√©cision-Rappel (PR)** est une repr√©sentation graphique de la relation entre **la pr√©cision ($\frac{TP}{TP + FP}$) et le rappel ( $\frac{TP}{TP + FN}$)** pour diff√©rents seuils de d√©cision d'un mod√®le de classification binaire.


<font size = 3><span style="color:#2980b9"> **Comment interpr√©ter la courbe PR ?**  </span></font>
- Un mod√®le **id√©al** aura une pr√©cision et un rappel √©lev√©s, donc sa courbe PR sera **proche du coin sup√©rieur droit**.
- Une **courbe plus haute** signifie un **meilleur compromis** entre la pr√©cision et le rappel.
- La **baseline** est la proportion d‚Äôexemples positifs dans l‚Äôensemble des donn√©es : si un mod√®le pr√©dit uniquement la classe positive, il aura cette pr√©cision moyenne.

<font size = 3><span style="color:#2980b9"> **Pourquoi utiliser la courbe PR ?**   </span>  </font> 


‚úî **Meilleure √©valuation pour les bases de donn√©es d√©s√©quilibr√©es** :  
   - Contrairement √† la courbe ROC, qui inclut le taux de faux positifs (FPR), la courbe PR est **plus informative** lorsque la classe positive est minoritaire.  
   - Si une classe est rare, **une faible FPR ($\frac{FP}{N} $) peut √™tre trompeuse**, car elle ne refl√®te pas bien la capacit√© du mod√®le √† d√©tecter les vrais positifs.  

‚úî **Utile pour ajuster le seuil de d√©cision** :  
   - En fonction de l‚Äôapplication, on peut privil√©gier **plus de rappel (moins de faux n√©gatifs)** ou **plus de pr√©cision (moins de faux positifs)**.

‚úî **√âvaluation globale avec l'aire sous la courbe (AUPRC - Average Precision Score)** :  
   - Comme l'AUC-ROC, **l'aire sous la courbe PR (AUPRC)** permet de comparer facilement plusieurs mod√®les.


In [None]:
# Calcul des scores de d√©cision pour les donn√©es test
# decision_function() retourne un score continu pour chaque observation
# Plus le score est √©lev√©, plus le mod√®le est confiant que l'exemple appartient √† la classe positive
y_scores = clf_lr.decision_function(X_test_std)

# Calcul des pr√©cisions et rappels pour diff√©rents seuils de d√©cision
# precision_recall_curve() retourne trois √©l√©ments :
# - precisions : liste des pr√©cisions obtenues √† chaque seuil
# - recalls : liste des rappels obtenus √† chaque seuil
# - thresholds : liste des seuils test√©s (longueur = nombre de points - 1)
precisions, recalls, thresholds = precision_recall_curve(y_test, y_scores)


# Calcul de l'aire sous la courbe PR (AUPRC)
auprc = auc(recalls, precisions)

# Cr√©ation de la figure
plt.figure(figsize=(8,6))

# Trac√© de la courbe Pr√©cision-Rappel
plt.plot(recalls, precisions, label=f"LR AUPRC = {auprc:.2f}", color="blue", linewidth=2)

# Ajout d'une ligne de base correspondant √† la proportion de la classe positive dans les donn√©es test
baseline = np.sum(y_test) / len(y_test)
plt.plot([0, 1], [baseline, baseline], linestyle='--', color='grey', label=f"Baseline AUPRC = {baseline:.2f}")

# Ajout des titres et labels
plt.xlabel("Rappel (Recall)")
plt.ylabel("Pr√©cision (Precision)")
plt.title("Courbe Pr√©cision-Rappel")
plt.legend(loc="upper right")

# Ajout d'une grille pour faciliter la lecture du graphique
plt.grid(True)

# Affichage du graphique
plt.show()


<font size = 6>‚ÑπÔ∏è</font>    
On peut aussi tracer la courbe PR directement √† l'aide de la fonction `PrecisionRecallDisplay()` de scikit :

In [None]:
PrecisionRecallDisplay.from_predictions(y_test, y_scores, plot_chance_level = True)

## üìå Bilan sur les m√©triques de classification

En classification, plusieurs **m√©triques d'√©valuation** permettent d'analyser les performances d'un mod√®le. Chaque m√©trique a ses avantages et ses limites, et leur choix d√©pend souvent du **contexte du probl√®me** et de la distribution des classes.

---

 **1Ô∏è‚É£ Accuracy (Exactitude)**   
- Proportion de bonnes pr√©dictions parmi l‚Äôensemble des observations.
- **Avantage** : Facile √† interpr√©ter.
- **Limite** : Peu pertinent en cas de **d√©s√©quilibre des classes** (ex : un mod√®le qui classe tout en n√©gatif peut avoir une haute accuracy mais √™tre inutile).

üìå **Formule** :  
$$
Accuracy = \frac{TP + TN}{TP + TN + FP + FN}
$$

---

 **2Ô∏è‚É£ Matrice de confusion**   
- Table r√©capitulant les **vrais positifs (TP)**, **faux positifs (FP)**, **vrais n√©gatifs (TN)** et **faux n√©gatifs (FN)**.

|               | Pr√©diction Positif | Pr√©diction N√©gatif |
|--------------|-------------------|-------------------|
| **R√©el Positif (P)**  | TP (Vrai Positif)  | FN (Faux N√©gatif) |
| **R√©el N√©gatif (N)**  | FP (Faux Positif)  | TN (Vrai N√©gatif) |

---

 **3Ô∏è‚É£ Pr√©cision (Precision)**   
- Proportion de pr√©dictions positives qui sont r√©ellement positives.
- **Avantage** : √âvite les **faux positifs**, utile si les **erreurs positives sont co√ªteuses** (ex : d√©tection de fraude).
- **Limite** : Ignore les **faux n√©gatifs**.

üìå **Formule** :  
$$
Precision = \frac{TP}{TP + FP}
$$

---

 **4Ô∏è‚É£ Rappel (Recall ou Sensibilit√©)**   
- Proportion de cas positifs r√©ellement d√©tect√©s.
- **Avantage** : Utile si l'on veut **minimiser les faux n√©gatifs** (ex : diagnostic m√©dical).
- **Limite** : Ignore les **faux positifs**.

üìå **Formule** :  
$$
Recall = \frac{TP}{TP + FN}
$$

---

 **5Ô∏è‚É£ Score F1**   
- Moyenne harmonique entre **pr√©cision et rappel**.
- **Avantage** : Bon **compromis entre pr√©cision et rappel** si les deux sont importants.
- **Limite** : Ne refl√®te pas bien les d√©s√©quilibres de classe.

üìå **Formule** :  
$$
F1 = 2 \times \frac{Precision \times Recall}{Precision + Recall}
$$

---

 **6Ô∏è‚É£ Courbe ROC & AUROC**   
- La **courbe ROC** (Receiver Operating Characteristic) trace **le taux de vrais positifs (TPR)** en fonction du **taux de faux positifs (FPR)**.
- AUROC proche de **1** ‚Üí Excellent mod√®le, proche de **0.5** ‚Üí Mod√®le al√©atoire.

- **Avantages** : Utile si l'on veut **analyser le compromis** entre sensibilit√© et sp√©cificit√©.  

- **Limite** : Peu fiable en cas de **d√©s√©quilibre des classes**.

---

 **7Ô∏è‚É£ Courbe Pr√©cision-Rappel (PR) & AUPRC**   
- Utile lorsque **la classe positive est rare**.
- Permet d'observer **l'√©volution de la pr√©cision et du rappel** en fonction du seuil de d√©cision.
- **AUPRC** (Aire sous la courbe Pr√©cision-Rappel) est une alternative √† l'AUC-ROC.

- **Avantages** : Plus adapt√©e aux **probl√®mes avec classes d√©s√©quilibr√©es**.  

- **Limite** :  Moins intuitive que la courbe ROC.

---

 **üîπ Comment choisir la bonne m√©trique ?**   

 
| Objectif | M√©trique recommand√©e |
|----------|---------------------|
| Classes √©quilibr√©es | **Accuracy, AUC-ROC** |
| D√©tection des positifs importants | **Rappel (Recall), Courbe PR, AUPRC** |
| Minimiser les faux positifs | **Pr√©cision (Precision)** |
| Compromis entre pr√©cision et rappel | **Score F1** |
| Visualisation globale | **Matrice de confusion, ROC, PR** |

---

‚úÖ **Toujours comparer plusieurs m√©triques avant de choisir un mod√®le final**


> **M√©triques d‚Äô√©valuation pour la r√©gression**
>
>En r√©gression, les m√©triques mesurent l‚Äô√©cart entre les valeurs **pr√©dites** et les valeurs **r√©elles**. 
>
>| **M√©trique** | **D√©finition** | **Avantages** | **Inconv√©nients** |
>|-------------|--------------|--------------|--------------|
>| **Erreur absolue moyenne (MAE)** | Moyenne des √©carts absolus entre <br> pr√©dictions et valeurs r√©elles. | Facile √† interpr√©ter, robuste <br> aux outliers. | Ne p√©nalise pas fortement <br>les grosses erreurs. |
>| **Erreur quadratique moyenne (MSE)** | Moyenne des √©carts au carr√© entre <br> pr√©dictions et valeurs r√©elles. | P√©nalise fortement les grosses erreurs, <br>utile pour ajuster un mod√®le. | Sensible aux outliers, <br>les grandes erreurs sont amplifi√©es. |
>| **Racine de l‚Äôerreur quadratique moyenne (RMSE)** | Racine carr√©e du MSE,<br> exprim√©e dans la m√™me <br> unit√© que la variable cible. | Facile √† interpr√©ter, <br>p√©nalise fortement les grandes erreurs. | Peut √™tre trop sensible aux outliers. |
>| **Coefficient de d√©termination (R¬≤)** | Indique la proportion de variance <br>expliqu√©e par le mod√®le. | Permet de comparer facilement les mod√®les. | Peut √™tre trompeur si les donn√©es sont <br>non lin√©aires ou bruit√©es. |


