# üöÄ Google Colab Setup

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/ogautier1980/sandbox-ml/blob/main/cours/02_metriques_evaluation/02_demo_metriques_classification.ipynb)

**Si vous ex√©cutez ce notebook sur Google Colab**, ex√©cutez la cellule suivante pour installer les d√©pendances.

In [None]:
# Installation des d√©pendances (Google Colab uniquement)import sysIN_COLAB = 'google.colab' in sys.modulesif IN_COLAB:    print('üì¶ Installation des packages...')        # Packages ML de base    !pip install -q numpy pandas matplotlib seaborn scikit-learn        # D√©tection du chapitre et installation des d√©pendances sp√©cifiques    notebook_name = '02_demo_metriques_classification.ipynb'  # Sera remplac√© automatiquement        # Ch 06-08 : Deep Learning    if any(x in notebook_name for x in ['06_', '07_', '08_']):        !pip install -q torch torchvision torchaudio        # Ch 08 : NLP    if '08_' in notebook_name:        !pip install -q transformers datasets tokenizers        if 'rag' in notebook_name:            !pip install -q sentence-transformers faiss-cpu rank-bm25        # Ch 09 : Reinforcement Learning    if '09_' in notebook_name:        !pip install -q gymnasium[classic-control]        # Ch 04 : Boosting    if '04_' in notebook_name and 'boosting' in notebook_name:        !pip install -q xgboost lightgbm catboost        # Ch 05 : Clustering avanc√©    if '05_' in notebook_name:        !pip install -q umap-learn        # Ch 11 : S√©ries temporelles    if '11_' in notebook_name:        !pip install -q statsmodels prophet        # Ch 12 : Vision avanc√©e    if '12_' in notebook_name:        !pip install -q ultralytics timm segmentation-models-pytorch        # Ch 13 : Recommandation    if '13_' in notebook_name:        !pip install -q scikit-surprise implicit        # Ch 14 : MLOps    if '14_' in notebook_name:        !pip install -q mlflow fastapi pydantic        print('‚úÖ Installation termin√©e !')else:    print('‚ÑπÔ∏è  Environnement local d√©tect√©, les packages sont d√©j√† install√©s.')

# Chapitre 02 - M√©triques de Classification

**Objectifs :**
- Calculer manuellement les m√©triques de classification (Precision, Recall, F1)
- Utiliser scikit-learn pour les m√©triques
- Visualiser la matrice de confusion
- Tracer et interpr√©ter les courbes ROC et Precision-Recall
- Comprendre l'impact du seuil de classification

**Dataset :** Breast Cancer Wisconsin (classification binaire)

In [None]:
# Imports
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.data  # type: ignoresets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import (
    confusion_matrix,
    accuracy_score,
    precision_score,
    recall_score,
    f1_score,
    classification_report,
    roc_curve,
    roc_auc_score,
    precision_recall_curve,
    average_precision_score,
    ConfusionMatrixDisplay
)

# Configuration des graphiques
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
%matplotlib inline

## 1. Chargement et Exploration des Donn√©es

In [None]:
# Chargement du dataset Breast Cancer
data = load_breast_cancer()
X = data.data  # type: ignore
y = data.target  # type: ignore  # 0 = malignant (cancer), 1 = benign (b√©nin)

print("Dataset Breast Cancer Wisconsin")
print(f"Nombre d'exemples : {X.shape[0]}")
print(f"Nombre de features : {X.shape[1]}")
print(f"\nClasses : {data.target  # type: ignore_names}")  # type: ignore
print(f"Distribution des classes :")
print(f"  - Malignant (0) : {(y == 0).sum()} ({(y == 0).sum() / len(y) * 100:.1f}%)")
print(f"  - Benign (1) : {(y == 1).sum()} ({(y == 1).sum() / len(y) * 100:.1f}%)")

In [None]:
# Visualisation de la distribution des classes
plt.figure(figsize=(8, 5))
unique, counts = np.unique(y, return_counts=True)
plt.bar(['Malignant', 'Benign'], counts, color=['#FF6B6B', '#4ECDC4'])
plt.ylabel('Nombre d\'exemples')
plt.title('Distribution des Classes - Breast Cancer Dataset')
for i, (label, count) in enumerate(zip(['Malignant', 'Benign'], counts)):
    plt.text(i, count + 10, f'{count}\n({count/len(y)*100:.1f}%)', ha='center')
plt.tight_layout()
plt.show()

print("Constat : Les classes sont relativement √©quilibr√©es (63% / 37%)")
print("L'accuracy sera donc une m√©trique raisonnable (mais pas suffisante).")

## 2. Entra√Ænement d'un Mod√®le Simple

In [None]:
# Split train/test (80/20)
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.2,
    random_state=42,
    stratify=y  # Pr√©serve la distribution des classes
)

print(f"Train set : {X_train.shape[0]} exemples")
print(f"Test set : {X_test.shape[0]} exemples")
print(f"\nDistribution train : {np.bincount(y_train)}")
print(f"Distribution test : {np.bincount(y_test)}")

In [None]:
# Entra√Ænement d'un mod√®le Logistic Regression
model = LogisticRegression(max_iter=10000, random_state=42)
model.fit(X_train, y_train)

# Pr√©dictions
y_pred = model.predict(X_test)
y_pred_proba = model.predict_proba(X_test)[:, 1]  # Probabilit√©s pour la classe 1 (benign)

print("Mod√®le entra√Æn√© avec succ√®s !")
print(f"Nombre de pr√©dictions : {len(y_pred)}")

## 3. Matrice de Confusion

La matrice de confusion est la base de toutes les m√©triques de classification.

In [None]:
# Calcul de la matrice de confusion
cm = confusion_matrix(y_test, y_pred)

print("Matrice de Confusion :")
print(cm)
print("\nInterpr√©tation :")
print(f"  TN (True Negative) = {cm[0, 0]} : Malignant correctement classifi√©s")
print(f"  FP (False Positive) = {cm[0, 1]} : Malignant class√©s comme Benign (dangereux !)")
print(f"  FN (False Negative) = {cm[1, 0]} : Benign class√©s comme Malignant")
print(f"  TP (True Positive) = {cm[1, 1]} : Benign correctement classifi√©s")

In [None]:
# Visualisation de la matrice de confusion
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Matrice avec valeurs absolues
disp1 = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=['Malignant', 'Benign'])
disp1.plot(ax=axes[0], cmap='Blues', values_format='d')
axes[0].set_title('Matrice de Confusion (valeurs absolues)', fontsize=12)

# Matrice normalis√©e (pourcentages)
cm_normalized = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
disp2 = ConfusionMatrixDisplay(confusion_matrix=cm_normalized, display_labels=['Malignant', 'Benign'])
disp2.plot(ax=axes[1], cmap='Greens', values_format='.2%')
axes[1].set_title('Matrice de Confusion (normalis√©e)', fontsize=12)

plt.tight_layout()
plt.show()

print("\nAnalyse :")
print(f"  - Le mod√®le a correctement classifi√© {cm[0,0] + cm[1,1]} / {cm.sum()} exemples")
print(f"  - {cm[0, 1]} cas malignant ont √©t√© class√©s comme benign (DANGEREUX en m√©decine !)")
print(f"  - {cm[1, 0]} cas benign ont √©t√© class√©s comme malignant (faux positif, stress inutile)")

## 4. Calcul Manuel des M√©triques

Avant d'utiliser scikit-learn, calculons les m√©triques √† la main pour bien comprendre.

In [None]:
# Extraction de TP, TN, FP, FN
TN = cm[0, 0]
FP = cm[0, 1]
FN = cm[1, 0]
TP = cm[1, 1]

# Calcul manuel des m√©triques
accuracy_manual = (TP + TN) / (TP + TN + FP + FN)
precision_manual = TP / (TP + FP) if (TP + FP) > 0 else 0
recall_manual = TP / (TP + FN) if (TP + FN) > 0 else 0
f1_manual = 2 * (precision_manual * recall_manual) / (precision_manual + recall_manual) if (precision_manual + recall_manual) > 0 else 0
specificity_manual = TN / (TN + FP) if (TN + FP) > 0 else 0

print("=" * 60)
print("M√âTRIQUES CALCUL√âES MANUELLEMENT")
print("=" * 60)
print(f"Accuracy    = (TP + TN) / Total = ({TP} + {TN}) / {TP+TN+FP+FN} = {accuracy_manual:.4f}")
print(f"Precision   = TP / (TP + FP) = {TP} / ({TP} + {FP}) = {precision_manual:.4f}")
print(f"Recall      = TP / (TP + FN) = {TP} / ({TP} + {FN}) = {recall_manual:.4f}")
print(f"F1-Score    = 2 * (P * R) / (P + R) = {f1_manual:.4f}")
print(f"Specificity = TN / (TN + FP) = {TN} / ({TN} + {FP}) = {specificity_manual:.4f}")
print("=" * 60)

In [None]:
# V√©rification avec scikit-learn
print("=" * 60)
print("V√âRIFICATION AVEC SCIKIT-LEARN")
print("=" * 60)
print(f"Accuracy    (sklearn) = {accuracy_score(y_test, y_pred):.4f}")
print(f"Precision   (sklearn) = {precision_score(y_test, y_pred):.4f}")
print(f"Recall      (sklearn) = {recall_score(y_test, y_pred):.4f}")
print(f"F1-Score    (sklearn) = {f1_score(y_test, y_pred):.4f}")
print("=" * 60)
print("\n‚úÖ Les calculs manuels correspondent parfaitement √† scikit-learn !")

## 5. Rapport de Classification Complet

In [None]:
# Rapport complet avec classification_report
print("\n" + "=" * 70)
print("RAPPORT DE CLASSIFICATION COMPLET")
print("=" * 70)
print(classification_report(y_test, y_pred, target_names=['Malignant', 'Benign']))

print("\nInterpr√©tation :")
print("  - Support : nombre d'exemples r√©els pour chaque classe")
print("  - Macro avg : moyenne simple des m√©triques (classes √©quivalentes)")
print("  - Weighted avg : moyenne pond√©r√©e par le nombre d'exemples")

## 6. Courbe ROC et AUC

La courbe ROC montre le compromis entre TPR (Recall) et FPR pour diff√©rents seuils.

In [None]:
# Calcul de la courbe ROC
fpr, tpr, thresholds = roc_curve(y_test, y_pred_proba)
roc_auc = roc_auc_score(y_test, y_pred_proba)

# Visualisation
plt.figure(figsize=(10, 7))

# Courbe ROC
plt.plot(fpr, tpr, color='darkorange', lw=2, label=f'ROC curve (AUC = {roc_auc:.3f})')

# Ligne de r√©f√©rence (classifieur al√©atoire)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--', label='Classifieur al√©atoire (AUC = 0.5)')

# Point correspondant au seuil par d√©faut (0.5)
default_threshold_idx = np.argmin(np.abs(thresholds - 0.5))
plt.scatter(fpr[default_threshold_idx], tpr[default_threshold_idx], 
            color='red', s=100, zorder=5, label=f'Seuil 0.5 (FPR={fpr[default_threshold_idx]:.3f}, TPR={tpr[default_threshold_idx]:.3f})')

plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate (FPR) = 1 - Specificity', fontsize=12)
plt.ylabel('True Positive Rate (TPR) = Recall', fontsize=12)
plt.title('Courbe ROC - Breast Cancer Classification', fontsize=14, fontweight='bold')
plt.legend(loc="lower right", fontsize=10)
plt.grid(alpha=0.3)
plt.tight_layout()
plt.show()

print(f"\nAUC-ROC = {roc_auc:.4f}")
print("\nInterpr√©tation de l'AUC :")
print("  - AUC = 0.50 : Classifieur al√©atoire (inutile)")
print("  - AUC = 0.70 : Acceptable")
print("  - AUC = 0.80 : Bon")
print("  - AUC = 0.90 : Excellent")
print("  - AUC = 1.00 : Parfait (rare, souvent signe d'overfitting)")
print(f"\n‚û°Ô∏è Notre mod√®le : AUC = {roc_auc:.3f} (Excellent !)")

## 7. Courbe Precision-Recall

Plus informative que ROC pour les classes d√©s√©quilibr√©es.

In [None]:
# Calcul de la courbe Precision-Recall
precision_curve, recall_curve, pr_thresholds = precision_recall_curve(y_test, y_pred_proba)
avg_precision = average_precision_score(y_test, y_pred_proba)

# Visualisation
plt.figure(figsize=(10, 7))

# Courbe PR
plt.plot(recall_curve, precision_curve, color='blue', lw=2, 
         label=f'PR curve (AP = {avg_precision:.3f})')

# Ligne de base (proportion de positifs)
baseline = (y_test == 1).sum() / len(y_test)
plt.plot([0, 1], [baseline, baseline], linestyle='--', color='red', lw=2,
         label=f'Baseline (proportion positifs = {baseline:.3f})')

plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('Recall (TPR)', fontsize=12)
plt.ylabel('Precision', fontsize=12)
plt.title('Courbe Precision-Recall - Breast Cancer Classification', fontsize=14, fontweight='bold')
plt.legend(loc="lower left", fontsize=10)
plt.grid(alpha=0.3)
plt.tight_layout()
plt.show()

print(f"\nAverage Precision (AP) = {avg_precision:.4f}")
print("\nL'Average Precision est l'aire sous la courbe PR.")
print("Plus elle est proche de 1, meilleur est le mod√®le.")

## 8. Impact du Seuil de Classification

Le seuil par d√©faut est 0.5, mais on peut l'ajuster selon le contexte.

In [None]:
# Tester diff√©rents seuils
thresholds_to_test = [0.3, 0.5, 0.7, 0.9]

results = []
for threshold in thresholds_to_test:
    y_pred_threshold = (y_pred_proba >= threshold).astype(int)
    
    acc = accuracy_score(y_test, y_pred_threshold)
    prec = precision_score(y_test, y_pred_threshold, zero_division=0)
    rec = recall_score(y_test, y_pred_threshold, zero_division=0)
    f1 = f1_score(y_test, y_pred_threshold, zero_division=0)
    
    results.append({
        'Threshold': threshold,
        'Accuracy': acc,
        'Precision': prec,
        'Recall': rec,
        'F1-Score': f1
    })

df_results = pd.DataFrame(results)
print("\n" + "=" * 80)
print("IMPACT DU SEUIL DE CLASSIFICATION")
print("=" * 80)
print(df_results.to_string(index=False))
print("\nObservations :")
print("  - Seuil bas (0.3) : Recall √©lev√© (peu de FN) mais Precision faible (beaucoup de FP)")
print("  - Seuil haut (0.9) : Precision √©lev√©e (peu de FP) mais Recall faible (beaucoup de FN)")
print("  - Seuil m√©dian (0.5) : Compromis √©quilibr√©")

In [None]:
# Visualisation de l'impact du seuil
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

metrics = ['Accuracy', 'Precision', 'Recall', 'F1-Score']
colors = ['#3498db', '#e74c3c', '#2ecc71', '#f39c12']

for i, (metric, color) in enumerate(zip(metrics, colors)):
    ax = axes[i // 2, i % 2]
    ax.plot(df_results['Threshold'], df_results[metric], marker='o', 
            linewidth=2, markersize=8, color=color, label=metric)
    ax.set_xlabel('Seuil de classification', fontsize=11)
    ax.set_ylabel(metric, fontsize=11)
    ax.set_title(f'Impact du seuil sur {metric}', fontsize=12, fontweight='bold')
    ax.grid(alpha=0.3)
    ax.set_ylim([0, 1.05])
    
    # Marquer le seuil par d√©faut (0.5)
    default_value = df_results[df_results['Threshold'] == 0.5][metric].values[0]
    ax.axvline(x=0.5, color='red', linestyle='--', alpha=0.5, label='Seuil par d√©faut')
    ax.scatter([0.5], [default_value], color='red', s=100, zorder=5)
    ax.legend(fontsize=9)

plt.tight_layout()
plt.show()

print("\nConclusion :")
print("Le choix du seuil d√©pend du contexte m√©tier :")
print("  - D√©tection de cancer : Privil√©gier Recall (ne pas manquer de malades) ‚Üí seuil bas")
print("  - Filtrage spam : Privil√©gier Precision (ne pas perdre d'emails l√©gitimes) ‚Üí seuil haut")
print("  - Usage g√©n√©ral : F1-Score maximal ‚Üí seuil optimal autour de 0.5")

## 9. Comparaison ROC vs Precision-Recall

Affichons les deux courbes c√¥te √† c√¥te pour mieux comprendre leurs diff√©rences.

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Courbe ROC
axes[0].plot(fpr, tpr, color='darkorange', lw=2, label=f'ROC (AUC = {roc_auc:.3f})')
axes[0].plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--', label='Al√©atoire')
axes[0].set_xlabel('False Positive Rate', fontsize=12)
axes[0].set_ylabel('True Positive Rate (Recall)', fontsize=12)
axes[0].set_title('Courbe ROC', fontsize=14, fontweight='bold')
axes[0].legend(loc="lower right")
axes[0].grid(alpha=0.3)

# Courbe PR
axes[1].plot(recall_curve, precision_curve, color='blue', lw=2, label=f'PR (AP = {avg_precision:.3f})')
axes[1].axhline(y=baseline, linestyle='--', color='red', lw=2, label=f'Baseline ({baseline:.3f})')
axes[1].set_xlabel('Recall', fontsize=12)
axes[1].set_ylabel('Precision', fontsize=12)
axes[1].set_title('Courbe Precision-Recall', fontsize=14, fontweight='bold')
axes[1].legend(loc="lower left")
axes[1].grid(alpha=0.3)

plt.tight_layout()
plt.show()

print("\nQuand utiliser ROC vs PR ?")
print("\nüìä Courbe ROC :")
print("  ‚úÖ Classes relativement √©quilibr√©es")
print("  ‚úÖ Les vrais n√©gatifs (TN) sont importants")
print("  ‚úÖ Vue d'ensemble de la performance")
print("\nüìä Courbe Precision-Recall :")
print("  ‚úÖ Classes tr√®s d√©s√©quilibr√©es (ex: 1% de positifs)")
print("  ‚úÖ On se concentre sur les positifs (ignore les TN)")
print("  ‚úÖ Plus sensible aux changements pour la classe minoritaire")
print("  ‚úÖ Exemples : d√©tection de fraude, anomalies, maladies rares")

## 10. R√©sum√© et Conclusions

### M√©triques calcul√©es pour notre mod√®le :

In [None]:
# R√©sum√© final
print("\n" + "=" * 80)
print("R√âSUM√â DES M√âTRIQUES - BREAST CANCER CLASSIFICATION")
print("=" * 80)
print(f"\nüéØ Accuracy       : {accuracy_score(y_test, y_pred):.4f} ({accuracy_score(y_test, y_pred)*100:.2f}%)")
print(f"üéØ Precision      : {precision_score(y_test, y_pred):.4f} ({precision_score(y_test, y_pred)*100:.2f}%)")
print(f"üéØ Recall         : {recall_score(y_test, y_pred):.4f} ({recall_score(y_test, y_pred)*100:.2f}%)")
print(f"üéØ F1-Score       : {f1_score(y_test, y_pred):.4f}")
print(f"üéØ AUC-ROC        : {roc_auc:.4f}")
print(f"üéØ Avg Precision  : {avg_precision:.4f}")
print("\n" + "=" * 80)

print("\n‚úÖ Points cl√©s √† retenir :")
print("\n1. La matrice de confusion est la base de toutes les m√©triques")
print("   TP, TN, FP, FN permettent de calculer toutes les autres m√©triques.")
print("\n2. L'accuracy peut √™tre trompeuse avec des classes d√©s√©quilibr√©es")
print("   Toujours regarder Precision, Recall, F1 en compl√©ment.")
print("\n3. Le choix de la m√©trique d√©pend du contexte m√©tier")
print("   - M√©decine : privil√©gier Recall (ne pas manquer de malades)")
print("   - Spam : privil√©gier Precision (ne pas perdre d'emails importants)")
print("   - G√©n√©ral : F1-Score (compromis √©quilibr√©)")
print("\n4. AUC-ROC mesure la performance ind√©pendamment du seuil")
print("   Utile pour comparer des mod√®les sans choisir de seuil.")
print("\n5. Courbe PR > ROC pour les classes d√©s√©quilibr√©es")
print("   Elle ignore les TN et se concentre sur les positifs.")
print("\n6. Le seuil de classification (par d√©faut 0.5) peut √™tre ajust√©")
print("   Selon que l'on privil√©gie Precision ou Recall.")

## Exercices

1. Modifiez le seuil de classification pour maximiser le F1-score. Quel seuil obtenez-vous ?

2. Cr√©ez un dataset d√©s√©quilibr√© (95% / 5%) et comparez les courbes ROC et PR.

3. Impl√©mentez vous-m√™me les fonctions `precision_score()`, `recall_score()` et `f1_score()` en NumPy pur.

4. Tracez la courbe du F1-score en fonction du seuil et trouvez le seuil optimal.

5. Calculez la matrice de confusion pour un probl√®me multi-classes (ex: Iris dataset).