# üöÄ Google Colab Setup

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/ogautier1980/sandbox-ml/blob/main/cours/02_metriques_evaluation/02_exercices_solutions.ipynb)

**Si vous ex√©cutez ce notebook sur Google Colab**, ex√©cutez la cellule suivante pour installer les d√©pendances.

In [None]:
# Installation des d√©pendances (Google Colab uniquement)
import sys
IN_COLAB = 'google.colab' in sys.modules

if IN_COLAB:
    print('üì¶ Installation des packages...')
    !pip install -q numpy pandas matplotlib seaborn scikit-learn
    print('‚úÖ Installation termin√©e !')
else:
    print('‚ÑπÔ∏è  Environnement local d√©tect√©, les packages sont d√©j√† install√©s.')

# Chapitre 02 - Solutions : M√©triques d'√âvaluation

Ce notebook contient les solutions des exercices sur les m√©triques d'√©valuation en Machine Learning.

**Objectifs** :
- Calculer et interpr√©ter les m√©triques de classification
- Utiliser les m√©triques de r√©gression
- Appliquer la validation crois√©e
- Choisir les bonnes m√©triques selon le contexte

---

## Setup

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.datasets import load_breast_cancer, load_diabetes
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.linear_model import LogisticRegression, LinearRegression
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.metrics import (
    confusion_matrix, accuracy_score, precision_score, recall_score, f1_score,
    roc_curve, roc_auc_score, precision_recall_curve,
    mean_squared_error, mean_absolute_error, r2_score,
    ConfusionMatrixDisplay
)

np.random.seed(42)
sns.set_style('whitegrid')

print("‚úÖ Biblioth√®ques import√©es")

---

## Exercice 1 : Matrice de Confusion et M√©triques de Base

**Objectif** : Calculer manuellement les m√©triques de classification √† partir d'une matrice de confusion.

**Contexte** : Un syst√®me de d√©tection de fraude bancaire a les r√©sultats suivants :

```
Matrice de Confusion :
                Pr√©dit Non-Fraude  Pr√©dit Fraude
R√©el Non-Fraude       950              50
R√©el Fraude            20              80
```

**Questions** :

1. Identifiez les valeurs de TP, TN, FP, FN
2. Calculez manuellement :
   - Accuracy
   - Precision
   - Recall (Sensibilit√©)
   - Sp√©cificit√©
   - F1-Score
3. Dans ce contexte de d√©tection de fraude, quelle m√©trique est la plus importante ? Pourquoi ?
4. Le syst√®me est-il performant ? Justifiez votre r√©ponse.

In [None]:
# Solution

# D√©finissez la matrice de confusion
# Format scikit-learn : cm[i, j] o√π i = classe r√©elle, j = classe pr√©dite
cm = np.array([
    [950, 50],   # R√©el Non-Fraude (classe 0) : 950 correctement class√©s, 50 mal class√©s
    [20, 80]     # R√©el Fraude (classe 1) : 20 mal class√©s, 80 correctement class√©s
])

print("Matrice de Confusion :")
print(cm)
print("")

# Question 1 : Identifiez TP, TN, FP, FN
# Pour la classe "Fraude" (classe positive) :
TN = cm[0, 0]  # Vrai N√©gatif : R√©el Non-Fraude, Pr√©dit Non-Fraude
FP = cm[0, 1]  # Faux Positif : R√©el Non-Fraude, Pr√©dit Fraude
FN = cm[1, 0]  # Faux N√©gatif : R√©el Fraude, Pr√©dit Non-Fraude
TP = cm[1, 1]  # Vrai Positif : R√©el Fraude, Pr√©dit Fraude

print("1. Identification des valeurs :")
print(f"   TP (Vrai Positif - fraude d√©tect√©e) : {TP}")
print(f"   TN (Vrai N√©gatif - non-fraude d√©tect√©e) : {TN}")
print(f"   FP (Faux Positif - fausse alerte) : {FP}")
print(f"   FN (Faux N√©gatif - fraude manqu√©e) : {FN}")
print("")

# Question 2 : Calculez les m√©triques
accuracy = (TP + TN) / (TP + TN + FP + FN)
precision = TP / (TP + FP)
recall = TP / (TP + FN)  # Aussi appel√©e Sensibilit√© ou TPR (True Positive Rate)
specificity = TN / (TN + FP)  # TNR (True Negative Rate)
f1_score_manual = 2 * (precision * recall) / (precision + recall)

print("2. M√©triques calcul√©es manuellement :")
print(f"   Accuracy    : {accuracy:.4f} ({accuracy*100:.2f}%)")
print(f"   Precision   : {precision:.4f} ({precision*100:.2f}%)")
print(f"   Recall      : {recall:.4f} ({recall*100:.2f}%)")
print(f"   Specificity : {specificity:.4f} ({specificity*100:.2f}%)")
print(f"   F1-Score    : {f1_score_manual:.4f}")
print("")

# Interpr√©tation de chaque m√©trique
print("   Interpr√©tations :")
print(f"   - Accuracy : {accuracy*100:.1f}% des transactions sont correctement classifi√©es")
print(f"   - Precision : {precision*100:.1f}% des alertes de fraude sont r√©elles")
print(f"   - Recall : {recall*100:.1f}% des fraudes r√©elles sont d√©tect√©es")
print(f"   - Specificity : {specificity*100:.1f}% des transactions l√©gitimes sont correctement identifi√©es")
print("")

# Question 3 : M√©trique la plus importante pour la d√©tection de fraude
print("3. M√©trique la plus importante pour la d√©tection de fraude :")
print("")
print("   ‚û§ RECALL (Sensibilit√©) est la m√©trique la plus critique !")
print("")
print("   Justification :")
print("   - Il est CRUCIAL de d√©tecter le maximum de fraudes (minimiser FN)")
print("   - Manquer une fraude (FN) peut co√ªter tr√®s cher √† la banque")
print("   - Un faux positif (FP) est moins grave : on v√©rifie manuellement")
print("   - Mieux vaut trop d'alertes que pas assez en contexte de fraude")
print("")
print("   Dans ce cas : Recall = 80% signifie que 20% des fraudes ne sont PAS d√©tect√©es")
print("   ‚Üí C'est un probl√®me majeur pour un syst√®me de d√©tection de fraude !")
print("")

# Question 4 : Le syst√®me est-il performant ?
print("4. √âvaluation globale du syst√®me :")
print("")
print("   ‚ùå Le syst√®me n'est PAS suffisamment performant")
print("")
print("   Probl√®mes identifi√©s :")
print(f"   - Recall de {recall*100:.1f}% est INSUFFISANT : 20 fraudes sur 100 passent inaper√ßues")
print(f"   - 20 fraudes manqu√©es (FN) repr√©sentent un risque financier important")
print("")
print("   Points positifs :")
print(f"   - Precision de {precision*100:.1f}% est correcte : peu de fausses alertes")
print(f"   - Specificity de {specificity*100:.1f}% est excellente : peu de clients l√©gitimes bloqu√©s")
print("")
print("   Recommandations :")
print("   1. Ajuster le seuil de d√©cision pour augmenter le Recall (accepter plus de FP)")
print("   2. Enrichir les features du mod√®le")
print("   3. Utiliser des techniques de r√©√©quilibrage (SMOTE, class_weight)")
print("   4. Tester des mod√®les plus complexes (Random Forest, XGBoost)")
print("   5. Objectif : Atteindre au minimum 95% de Recall")

# Visualisation de la matrice de confusion
fig, ax = plt.subplots(figsize=(8, 6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
            xticklabels=['Non-Fraude', 'Fraude'],
            yticklabels=['Non-Fraude', 'Fraude'],
            cbar_kws={'label': 'Nombre de transactions'})
plt.xlabel('Classe Pr√©dite')
plt.ylabel('Classe R√©elle')
plt.title('Matrice de Confusion - D√©tection de Fraude Bancaire')
plt.tight_layout()
plt.show()

# Visualisation comparative des m√©triques
metrics_names = ['Accuracy', 'Precision', 'Recall', 'Specificity', 'F1-Score']
metrics_values = [accuracy, precision, recall, specificity, f1_score_manual]

fig, ax = plt.subplots(figsize=(10, 6))
colors = ['green' if m >= 0.9 else 'orange' if m >= 0.8 else 'red' for m in metrics_values]
bars = ax.bar(metrics_names, metrics_values, color=colors, alpha=0.7, edgecolor='black')

# Ajouter les valeurs sur les barres
for bar, value in zip(bars, metrics_values):
    height = bar.get_height()
    ax.text(bar.get_x() + bar.get_width()/2., height,
            f'{value:.3f}',
            ha='center', va='bottom', fontweight='bold')

ax.axhline(y=0.95, color='green', linestyle='--', linewidth=2, label='Seuil excellent (95%)', alpha=0.5)
ax.axhline(y=0.80, color='orange', linestyle='--', linewidth=2, label='Seuil acceptable (80%)', alpha=0.5)
ax.set_ylim(0, 1.1)
ax.set_ylabel('Score')
ax.set_title('Comparaison des M√©triques de Performance')
ax.legend()
ax.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

---

## Exercice 2 : Courbe ROC et Choix du Seuil

**Objectif** : Comprendre l'impact du seuil de classification sur les performances.

**Consignes** :

1. Chargez le dataset Breast Cancer
2. Entra√Ænez un mod√®le Logistic Regression
3. Tracez la courbe ROC et calculez l'AUC
4. Testez 3 seuils diff√©rents (0.3, 0.5, 0.7) et pour chacun :
   - Calculez Precision, Recall, F1-Score
   - Affichez la matrice de confusion
5. Quel seuil choisiriez-vous pour :
   - Minimiser les faux n√©gatifs (ne pas manquer de malades) ?
   - Maximiser la pr√©cision globale ?
   - Obtenir un bon compromis ?

In [None]:
# Solution

# 1. Chargez les donn√©es
data = load_breast_cancer()
X, y = data.data, data.target

print(f"Dataset Breast Cancer :")
print(f"  - Nombre d'√©chantillons : {X.shape[0]}")
print(f"  - Nombre de features : {X.shape[1]}")
print(f"  - Classes : {data.target_names}")
print(f"  - Distribution : {np.bincount(y)} (0=malin, 1=b√©nin)")
print("")

# 2. Split train/test
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42, stratify=y
)

print(f"Split train/test :")
print(f"  - Train : {X_train.shape[0]} √©chantillons")
print(f"  - Test : {X_test.shape[0]} √©chantillons")
print("")

# 3. Entra√Ænez le mod√®le
model = LogisticRegression(max_iter=10000, random_state=42)
model.fit(X_train, y_train)

# Obtenir les probabilit√©s pr√©dites
y_proba = model.predict_proba(X_test)[:, 1]  # Probabilit√© de la classe positive (b√©nin)

print("‚úÖ Mod√®le entra√Æn√©")
print("")

# 4. Tracez la courbe ROC
fpr, tpr, thresholds_roc = roc_curve(y_test, y_proba)
auc = roc_auc_score(y_test, y_proba)

plt.figure(figsize=(10, 8))
plt.plot(fpr, tpr, linewidth=2, label=f'ROC Curve (AUC = {auc:.3f})')
plt.plot([0, 1], [0, 1], 'k--', linewidth=1, label='Chance (AUC = 0.5)')
plt.xlabel('False Positive Rate (1 - Specificity)', fontsize=12)
plt.ylabel('True Positive Rate (Recall)', fontsize=12)
plt.title('Courbe ROC - Breast Cancer Classification', fontsize=14)
plt.legend(fontsize=11)
plt.grid(alpha=0.3)
plt.tight_layout()
plt.show()

print(f"AUC Score : {auc:.4f}")
print(f"Interpr√©tation : AUC proche de 1 indique un excellent mod√®le discriminant")
print("")

# 5. Testez diff√©rents seuils
thresholds_to_test = [0.3, 0.5, 0.7]

results = []
fig, axes = plt.subplots(1, 3, figsize=(15, 4))

for idx, threshold in enumerate(thresholds_to_test):
    # Pr√©dictions avec le seuil personnalis√©
    y_pred = (y_proba >= threshold).astype(int)
    
    # Calculer les m√©triques
    precision = precision_score(y_test, y_pred)
    recall = recall_score(y_test, y_pred)
    f1 = f1_score(y_test, y_pred)
    accuracy = accuracy_score(y_test, y_pred)
    
    # Matrice de confusion
    cm = confusion_matrix(y_test, y_pred)
    
    # Stocker les r√©sultats
    results.append({
        'Threshold': threshold,
        'Precision': precision,
        'Recall': recall,
        'F1-Score': f1,
        'Accuracy': accuracy,
        'FN': cm[1, 0] if cm.shape[0] > 1 else 0  # Faux n√©gatifs
    })
    
    # Visualiser la matrice de confusion
    ax = axes[idx]
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', ax=ax,
                xticklabels=['Malin', 'B√©nin'],
                yticklabels=['Malin', 'B√©nin'])
    ax.set_xlabel('Pr√©diction')
    ax.set_ylabel('R√©alit√©')
    ax.set_title(f'Seuil = {threshold}\nF1={f1:.3f}, Recall={recall:.3f}')

plt.tight_layout()
plt.show()

# Afficher le tableau de comparaison
results_df = pd.DataFrame(results)
print("\nComparaison des seuils :")
print(results_df.to_string(index=False))
print("")

# Visualisation comparative
fig, ax = plt.subplots(figsize=(12, 6))
x = np.arange(len(thresholds_to_test))
width = 0.2

ax.bar(x - width*1.5, results_df['Precision'], width, label='Precision', alpha=0.8)
ax.bar(x - width*0.5, results_df['Recall'], width, label='Recall', alpha=0.8)
ax.bar(x + width*0.5, results_df['F1-Score'], width, label='F1-Score', alpha=0.8)
ax.bar(x + width*1.5, results_df['Accuracy'], width, label='Accuracy', alpha=0.8)

ax.set_xlabel('Seuil')
ax.set_ylabel('Score')
ax.set_title('Impact du Seuil sur les M√©triques de Performance')
ax.set_xticks(x)
ax.set_xticklabels([f'{t:.1f}' for t in thresholds_to_test])
ax.legend()
ax.grid(axis='y', alpha=0.3)
ax.set_ylim(0, 1.1)
plt.tight_layout()
plt.show()

# R√©pondre aux questions
print("\n" + "="*70)
print("RECOMMANDATIONS SELON L'OBJECTIF")
print("="*70)
print("")

print("1Ô∏è‚É£  Pour MINIMISER les faux n√©gatifs (ne pas manquer de malades) :")
print(f"   ‚Üí Choisir seuil = 0.3")
print(f"   ‚Üí Recall maximal = {results_df.loc[0, 'Recall']:.3f}")
print(f"   ‚Üí Seulement {results_df.loc[0, 'FN']:.0f} faux n√©gatifs")
print(f"   ‚Üí Justification : En m√©dical, il vaut mieux sur-diagnostiquer que manquer un cancer")
print("")

print("2Ô∏è‚É£  Pour MAXIMISER la pr√©cision globale :")
print(f"   ‚Üí Choisir seuil = 0.5 (d√©faut)")
print(f"   ‚Üí Accuracy = {results_df.loc[1, 'Accuracy']:.3f}")
print(f"   ‚Üí Bon √©quilibre entre toutes les m√©triques")
print("")

print("3Ô∏è‚É£  Pour un BON COMPROMIS (Precision-Recall) :")
print(f"   ‚Üí Choisir seuil = 0.5")
print(f"   ‚Üí F1-Score maximal = {results_df.loc[1, 'F1-Score']:.3f}")
print(f"   ‚Üí Meilleur √©quilibre entre Precision ({results_df.loc[1, 'Precision']:.3f}) et Recall ({results_df.loc[1, 'Recall']:.3f})")
print("")

print("üí° CONSEIL G√âN√âRAL :")
print("   En contexte m√©dical, PRIVIL√âGIER LE RECALL pour ne manquer aucun cas grave.")
print("   ‚Üí Recommandation finale : Seuil = 0.3 ou 0.4")

---

## Exercice 3 : M√©triques de R√©gression

**Objectif** : √âvaluer un mod√®le de r√©gression avec diff√©rentes m√©triques.

**Consignes** :

1. Chargez le dataset Diabetes
2. Entra√Ænez deux mod√®les :
   - LinearRegression
   - RandomForestRegressor
3. Pour chaque mod√®le, calculez :
   - MSE (Mean Squared Error)
   - RMSE (Root Mean Squared Error)
   - MAE (Mean Absolute Error)
   - R¬≤ (Coefficient de d√©termination)
4. Comparez les deux mod√®les
5. Visualisez les pr√©dictions vs valeurs r√©elles pour le meilleur mod√®le

In [None]:
# Solution

# 1. Chargez le dataset Diabetes
diabetes = load_diabetes()
X, y = diabetes.data, diabetes.target

print("Dataset Diabetes :")
print(f"  - √âchantillons : {X.shape[0]}")
print(f"  - Features : {X.shape[1]}")
print(f"  - Target : Progression du diab√®te (valeur continue)")
print(f"  - Range target : [{y.min():.1f}, {y.max():.1f}]")
print("")

# 2. Split train/test
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

# 3. Entra√Ænez les deux mod√®les
models = {
    'Linear Regression': LinearRegression(),
    'Random Forest': RandomForestRegressor(n_estimators=100, random_state=42, max_depth=10)
}

results = []

for name, model in models.items():
    print(f"Entra√Ænement de {name}...")
    
    # Entra√Ænement
    model.fit(X_train, y_train)
    
    # Pr√©dictions
    y_pred_train = model.predict(X_train)
    y_pred_test = model.predict(X_test)
    
    # Calcul des m√©triques sur le test set
    mse = mean_squared_error(y_test, y_pred_test)
    rmse = np.sqrt(mse)
    mae = mean_absolute_error(y_test, y_pred_test)
    r2 = r2_score(y_test, y_pred_test)
    
    # M√©triques sur train (pour d√©tecter l'overfitting)
    r2_train = r2_score(y_train, y_pred_train)
    
    results.append({
        'Model': name,
        'MSE': mse,
        'RMSE': rmse,
        'MAE': mae,
        'R¬≤ (test)': r2,
        'R¬≤ (train)': r2_train,
        'Predictions': y_pred_test
    })
    
    print(f"  ‚úì {name} entra√Æn√©")
    print("")

# 4. Comparer les mod√®les
print("="*70)
print("COMPARAISON DES MOD√àLES")
print("="*70)
print("")

# Cr√©er un DataFrame pour la comparaison
comparison_df = pd.DataFrame(results)[['Model', 'MSE', 'RMSE', 'MAE', 'R¬≤ (test)', 'R¬≤ (train)']]
print(comparison_df.to_string(index=False))
print("")

# Interpr√©tation des m√©triques
print("INTERPR√âTATION DES M√âTRIQUES :")
print("")
print("1. MSE (Mean Squared Error) :")
print("   - P√©nalise fortement les grandes erreurs (au carr√©)")
print("   - Plus le MSE est bas, meilleur est le mod√®le")
print("   - Unit√© : carr√© de l'unit√© de y (difficile √† interpr√©ter directement)")
print("")
print("2. RMSE (Root Mean Squared Error) :")
print("   - Racine carr√©e du MSE")
print("   - M√™me unit√© que y (plus interpr√©table)")
print("   - Repr√©sente l'erreur moyenne en unit√©s originales")
print("")
print("3. MAE (Mean Absolute Error) :")
print("   - Moyenne des valeurs absolues des erreurs")
print("   - Moins sensible aux outliers que MSE/RMSE")
print("   - M√™me unit√© que y")
print("")
print("4. R¬≤ (Coefficient de d√©termination) :")
print("   - Mesure la proportion de variance expliqu√©e par le mod√®le")
print("   - Varie entre -‚àû et 1 (1 = parfait, 0 = mod√®le constant)")
print("   - R¬≤ train vs test permet de d√©tecter l'overfitting")
print("")

# D√©terminer le meilleur mod√®le
best_idx = comparison_df['R¬≤ (test)'].idxmax()
best_model_name = comparison_df.loc[best_idx, 'Model']
best_r2 = comparison_df.loc[best_idx, 'R¬≤ (test)']

print(f"üèÜ MEILLEUR MOD√àLE : {best_model_name}")
print(f"   R¬≤ = {best_r2:.4f}")
print("")

# Analyse de l'overfitting
for idx, row in comparison_df.iterrows():
    diff = row['R¬≤ (train)'] - row['R¬≤ (test)']
    print(f"{row['Model']} :")
    print(f"  R¬≤ train = {row['R¬≤ (train)']:.4f}")
    print(f"  R¬≤ test  = {row['R¬≤ (test)']:.4f}")
    print(f"  √âcart    = {diff:.4f}")
    if diff > 0.1:
        print(f"  ‚ö†Ô∏è  Overfitting d√©tect√© !")
    else:
        print(f"  ‚úì Pas d'overfitting majeur")
    print("")

# 5. Visualisations
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# a) Comparaison visuelle des m√©triques
ax1 = axes[0, 0]
metrics = ['MSE', 'RMSE', 'MAE']
x = np.arange(len(metrics))
width = 0.35

for i, result in enumerate(results):
    values = [result[m] for m in metrics]
    ax1.bar(x + i*width, values, width, label=result['Model'], alpha=0.8)

ax1.set_xlabel('M√©triques')
ax1.set_ylabel('Erreur')
ax1.set_title('Comparaison des Erreurs')
ax1.set_xticks(x + width / 2)
ax1.set_xticklabels(metrics)
ax1.legend()
ax1.grid(axis='y', alpha=0.3)

# b) Comparaison R¬≤
ax2 = axes[0, 1]
model_names = [r['Model'] for r in results]
r2_train_values = [r['R¬≤ (train)'] for r in results]
r2_test_values = [r['R¬≤ (test)'] for r in results]

x = np.arange(len(model_names))
ax2.bar(x - width/2, r2_train_values, width, label='R¬≤ Train', alpha=0.8)
ax2.bar(x + width/2, r2_test_values, width, label='R¬≤ Test', alpha=0.8)
ax2.set_xlabel('Mod√®les')
ax2.set_ylabel('R¬≤ Score')
ax2.set_title('Comparaison R¬≤ (Train vs Test)')
ax2.set_xticks(x)
ax2.set_xticklabels(model_names, rotation=15, ha='right')
ax2.legend()
ax2.grid(axis='y', alpha=0.3)
ax2.set_ylim(0, 1)

# c) Pr√©dictions vs R√©alit√© pour Linear Regression
ax3 = axes[1, 0]
y_pred_lr = results[0]['Predictions']
ax3.scatter(y_test, y_pred_lr, alpha=0.6, edgecolors='k', linewidth=0.5)
ax3.plot([y.min(), y.max()], [y.min(), y.max()], 'r--', lw=2, label='Pr√©diction parfaite')
ax3.set_xlabel('Valeurs R√©elles')
ax3.set_ylabel('Pr√©dictions')
ax3.set_title(f'Linear Regression (R¬≤={results[0]["R¬≤ (test)"]:.3f})')
ax3.legend()
ax3.grid(alpha=0.3)

# d) Pr√©dictions vs R√©alit√© pour Random Forest
ax4 = axes[1, 1]
y_pred_rf = results[1]['Predictions']
ax4.scatter(y_test, y_pred_rf, alpha=0.6, edgecolors='k', linewidth=0.5, color='green')
ax4.plot([y.min(), y.max()], [y.min(), y.max()], 'r--', lw=2, label='Pr√©diction parfaite')
ax4.set_xlabel('Valeurs R√©elles')
ax4.set_ylabel('Pr√©dictions')
ax4.set_title(f'Random Forest (R¬≤={results[1]["R¬≤ (test)"]:.3f})')
ax4.legend()
ax4.grid(alpha=0.3)

plt.tight_layout()
plt.show()

# Distribution des r√©sidus pour le meilleur mod√®le
best_predictions = results[best_idx]['Predictions']
residuals = y_test - best_predictions

fig, axes = plt.subplots(1, 2, figsize=(15, 5))

# Histogramme des r√©sidus
axes[0].hist(residuals, bins=30, edgecolor='black', alpha=0.7)
axes[0].axvline(0, color='red', linestyle='--', linewidth=2, label='R√©sidu nul')
axes[0].set_xlabel('R√©sidus (R√©el - Pr√©dit)')
axes[0].set_ylabel('Fr√©quence')
axes[0].set_title(f'Distribution des R√©sidus - {best_model_name}')
axes[0].legend()
axes[0].grid(alpha=0.3)

# R√©sidus vs Pr√©dictions
axes[1].scatter(best_predictions, residuals, alpha=0.6, edgecolors='k', linewidth=0.5)
axes[1].axhline(0, color='red', linestyle='--', linewidth=2, label='R√©sidu nul')
axes[1].set_xlabel('Pr√©dictions')
axes[1].set_ylabel('R√©sidus')
axes[1].set_title(f'R√©sidus vs Pr√©dictions - {best_model_name}')
axes[1].legend()
axes[1].grid(alpha=0.3)

plt.tight_layout()
plt.show()

print("\n" + "="*70)
print("CONCLUSION")
print("="*70)
print("")
print(f"Le mod√®le {best_model_name} performe mieux avec un R¬≤ de {best_r2:.4f}.")
print("")
print("Observations :")
print("- Random Forest capture mieux les relations non-lin√©aires")
print("- Les r√©sidus devraient id√©alement √™tre centr√©s sur 0 et distribu√©s normalement")
print("- Un R¬≤ autour de 0.4-0.5 indique que le mod√®le explique environ 40-50% de la variance")
print("- Il reste de la marge d'am√©lioration (feature engineering, hyperparameter tuning)")

---

## Exercice 4 : Validation Crois√©e

**Objectif** : Comparer la validation simple (train/test split) avec la validation crois√©e.

**Consignes** :

1. Utilisez le dataset Breast Cancer
2. **M√©thode 1** : Entra√Ænez un RandomForestClassifier avec un simple split 70/30
   - Calculez l'accuracy sur le test set
3. **M√©thode 2** : Utilisez la validation crois√©e 5-fold (`cross_val_score`)
   - Calculez la moyenne et l'√©cart-type des scores
4. **M√©thode 3** : Testez diff√©rents nombres de folds (3, 5, 10, 20)
   - Visualisez l'impact sur la variance des r√©sultats
5. Quelle m√©thode vous semble la plus fiable ? Pourquoi ?
6. Quel nombre de folds recommanderiez-vous ?

In [None]:
# Solution

# 1. Chargez les donn√©es
data = load_breast_cancer()
X, y = data.data, data.target

print("Dataset Breast Cancer pour validation crois√©e")
print(f"  - Total √©chantillons : {len(X)}")
print("")

# 2. M√©thode 1 : Simple train/test split
print("="*70)
print("M√âTHODE 1 : SIMPLE TRAIN/TEST SPLIT (70/30)")
print("="*70)
print("")

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

model_simple = RandomForestClassifier(n_estimators=100, random_state=42)
model_simple.fit(X_train, y_train)
accuracy_simple = model_simple.score(X_test, y_test)

print(f"Accuracy sur le test set : {accuracy_simple:.4f}")
print("")
print("Limites de cette m√©thode :")
print("  ‚ùå D√©pend fortement du split al√©atoire")
print("  ‚ùå Pas d'estimation de la variance")
print("  ‚ùå Une partie des donn√©es (30%) n'est jamais utilis√©e pour l'entra√Ænement")
print("")

# 3. M√©thode 2 : Validation crois√©e 5-fold
print("="*70)
print("M√âTHODE 2 : VALIDATION CROIS√âE 5-FOLD")
print("="*70)
print("")

model_cv = RandomForestClassifier(n_estimators=100, random_state=42)
cv_scores_5 = cross_val_score(model_cv, X, y, cv=5, scoring='accuracy')

print(f"Scores des 5 folds : {cv_scores_5}")
print(f"Moyenne : {cv_scores_5.mean():.4f}")
print(f"√âcart-type : {cv_scores_5.std():.4f}")
print(f"Intervalle de confiance (¬±2œÉ) : [{cv_scores_5.mean() - 2*cv_scores_5.std():.4f}, {cv_scores_5.mean() + 2*cv_scores_5.std():.4f}]")
print("")
print("Avantages :")
print("  ‚úÖ Tous les exemples sont utilis√©s pour train ET test")
print("  ‚úÖ Estimation de la variance du mod√®le")
print("  ‚úÖ R√©sultat plus fiable et robuste")
print("")

# 4. M√©thode 3 : Tester diff√©rents nombres de folds
print("="*70)
print("M√âTHODE 3 : IMPACT DU NOMBRE DE FOLDS")
print("="*70)
print("")

n_folds_list = [3, 5, 10, 20]
cv_results = []

for n_folds in n_folds_list:
    model = RandomForestClassifier(n_estimators=100, random_state=42)
    scores = cross_val_score(model, X, y, cv=n_folds, scoring='accuracy')
    
    cv_results.append({
        'n_folds': n_folds,
        'mean': scores.mean(),
        'std': scores.std(),
        'min': scores.min(),
        'max': scores.max(),
        'scores': scores
    })
    
    print(f"{n_folds}-fold CV :")
    print(f"  Moyenne : {scores.mean():.4f}")
    print(f"  √âcart-type : {scores.std():.4f}")
    print(f"  Range : [{scores.min():.4f}, {scores.max():.4f}]")
    print("")

# Visualisations
fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# a) Boxplot des scores selon le nombre de folds
ax1 = axes[0, 0]
data_for_boxplot = [result['scores'] for result in cv_results]
bp = ax1.boxplot(data_for_boxplot, labels=[f"{nf}-fold" for nf in n_folds_list],
                  patch_artist=True)
for patch in bp['boxes']:
    patch.set_facecolor('lightblue')
ax1.set_xlabel('Nombre de Folds')
ax1.set_ylabel('Accuracy')
ax1.set_title('Distribution des Scores selon le Nombre de Folds')
ax1.grid(axis='y', alpha=0.3)

# b) Moyenne et √©cart-type
ax2 = axes[0, 1]
means = [r['mean'] for r in cv_results]
stds = [r['std'] for r in cv_results]
ax2.errorbar(n_folds_list, means, yerr=stds, marker='o', markersize=8,
             capsize=5, capthick=2, linewidth=2, label='Moyenne ¬± √âcart-type')
ax2.axhline(accuracy_simple, color='red', linestyle='--', linewidth=2,
            label=f'Simple split ({accuracy_simple:.4f})')
ax2.set_xlabel('Nombre de Folds')
ax2.set_ylabel('Accuracy')
ax2.set_title('Moyenne et Variance selon le Nombre de Folds')
ax2.legend()
ax2.grid(alpha=0.3)

# c) √âcart-type uniquement
ax3 = axes[1, 0]
ax3.plot(n_folds_list, stds, marker='o', markersize=8, linewidth=2, color='orange')
ax3.set_xlabel('Nombre de Folds')
ax3.set_ylabel('√âcart-type')
ax3.set_title('Stabilit√© du Mod√®le (√âcart-type) vs Nombre de Folds')
ax3.grid(alpha=0.3)

# d) Scores individuels pour 5-fold CV
ax4 = axes[1, 1]
for i, result in enumerate(cv_results):
    n_folds = result['n_folds']
    scores = result['scores']
    ax4.scatter([n_folds] * len(scores), scores, alpha=0.6, s=50, label=f"{n_folds}-fold")
ax4.set_xlabel('Nombre de Folds')
ax4.set_ylabel('Accuracy')
ax4.set_title('Scores Individuels de Chaque Fold')
ax4.legend()
ax4.grid(alpha=0.3)

plt.tight_layout()
plt.show()

# 5 & 6. Recommandations
print("\n" + "="*70)
print("RECOMMANDATIONS")
print("="*70)
print("")

print("5Ô∏è‚É£  Quelle m√©thode est la plus fiable ?")
print("")
print("   ‚Üí LA VALIDATION CROIS√âE est NETTEMENT plus fiable !")
print("")
print("   Raisons :")
print("   ‚úÖ Utilise toutes les donn√©es (train + test)")
print("   ‚úÖ Fournit une estimation de la variance")
print("   ‚úÖ R√©duit le biais li√© √† un split particulier")
print("   ‚úÖ Plus robuste pour √©valuer la g√©n√©ralisation")
print("")

print("6Ô∏è‚É£  Nombre de folds recommand√© ?")
print("")
print("   ‚Üí RECOMMANDATION : 5 ou 10 folds")
print("")
print("   Compromis :")
print("   ‚Ä¢ 3 folds : Rapide, mais variance √©lev√©e")
print("   ‚Ä¢ 5 folds : BON COMPROMIS - Standard en pratique")
print("   ‚Ä¢ 10 folds : Estimation plus pr√©cise, temps de calcul acceptable")
print("   ‚Ä¢ 20 folds : Tr√®s pr√©cis, mais co√ªteux en temps (et variance peut augmenter)")
print("")
print("   R√®gle g√©n√©rale :")
print("   - Dataset petit (<1000 exemples) : 10-fold ou LOOCV")
print("   - Dataset moyen : 5-fold (standard)")
print("   - Dataset large (>100k exemples) : 3-fold ou simple split suffit")
print("")

print("üí° CONSEIL FINAL :")
print("   Utilisez TOUJOURS la validation crois√©e pour √©valuer vos mod√®les.")
print("   Le simple train/test split ne devrait √™tre utilis√© que pour :")
print("   - Des datasets tr√®s larges (>1M d'exemples)")
print("   - Des prototypes rapides")
print("   - Le set de test FINAL (apr√®s s√©lection du mod√®le)")

---

## Exercice 5 : Cas Pratique - Syst√®me de Recommandation de Films

**Objectif** : Choisir les bonnes m√©triques selon le contexte m√©tier.

**Contexte** : Vous d√©veloppez un syst√®me de recommandation de films. Vous avez deux versions du mod√®le avec les r√©sultats suivants sur 1000 utilisateurs :

**Mod√®le A** :
- Films recommand√©s et regard√©s (TP) : 400
- Films recommand√©s mais non regard√©s (FP) : 100
- Films non recommand√©s mais regard√©s (FN) : 200
- Films non recommand√©s et non regard√©s (TN) : 300

**Mod√®le B** :
- Films recommand√©s et regard√©s (TP) : 500
- Films recommand√©s mais non regard√©s (FP) : 300
- Films non recommand√©s mais regard√©s (FN) : 100
- Films non recommand√©s et non regard√©s (TN) : 100

**Questions** :

1. Calculez pour chaque mod√®le : Accuracy, Precision, Recall, F1-Score
2. Quel mod√®le choisiriez-vous si :
   - Vous voulez √©viter de recommander de mauvais films (utilisateur satisfait) ?
   - Vous voulez maximiser la d√©couverte de films (ne pas manquer de bons films) ?
   - Vous voulez un compromis √©quilibr√© ?
3. Quelle m√©trique est la plus pertinente pour un syst√®me de recommandation ? Justifiez.
4. Cr√©ez une visualisation comparative des deux mod√®les

In [None]:
# Solution

# 1. D√©finissez les matrices de confusion
models_data = {
    'Mod√®le A': {'TP': 400, 'FP': 100, 'FN': 200, 'TN': 300},
    'Mod√®le B': {'TP': 500, 'FP': 300, 'FN': 100, 'TN': 100}
}

# Calculer les m√©triques pour chaque mod√®le
results = []

for model_name, data in models_data.items():
    TP, FP, FN, TN = data['TP'], data['FP'], data['FN'], data['TN']
    
    # Calcul des m√©triques
    accuracy = (TP + TN) / (TP + TN + FP + FN)
    precision = TP / (TP + FP) if (TP + FP) > 0 else 0
    recall = TP / (TP + FN) if (TP + FN) > 0 else 0
    f1 = 2 * (precision * recall) / (precision + recall) if (precision + recall) > 0 else 0
    
    # Matrice de confusion
    cm = np.array([[TN, FP], [FN, TP]])
    
    results.append({
        'Model': model_name,
        'TP': TP,
        'FP': FP,
        'FN': FN,
        'TN': TN,
        'Accuracy': accuracy,
        'Precision': precision,
        'Recall': recall,
        'F1-Score': f1,
        'CM': cm
    })

# Afficher les r√©sultats
print("="*70)
print("1. M√âTRIQUES CALCUL√âES")
print("="*70)
print("")

comparison_df = pd.DataFrame(results)[['Model', 'Accuracy', 'Precision', 'Recall', 'F1-Score', 'TP', 'FP', 'FN', 'TN']]
print(comparison_df.to_string(index=False))
print("")

# 2. Analyse selon les objectifs m√©tier
print("="*70)
print("2. CHOIX DU MOD√àLE SELON L'OBJECTIF M√âTIER")
print("="*70)
print("")

print("‚ù∂ √âviter de recommander de MAUVAIS films (utilisateur satisfait) :")
print("")
print("   ‚Üí M√©trique cl√© : PRECISION")
print("   ‚Üí Objectif : Minimiser les FP (recommandations non pertinentes)")
print("")
best_precision_idx = comparison_df['Precision'].idxmax()
best_precision_model = comparison_df.loc[best_precision_idx, 'Model']
best_precision_value = comparison_df.loc[best_precision_idx, 'Precision']
print(f"   ‚úÖ CHOIX : {best_precision_model}")
print(f"   Precision = {best_precision_value:.1%}")
print(f"   ‚Üí {best_precision_value*100:.0f}% des films recommand√©s sont effectivement regard√©s")
print("   ‚Üí Moins de frustration utilisateur")
print("")

print("‚ù∑ Maximiser la D√âCOUVERTE de films (ne pas manquer de bons films) :")
print("")
print("   ‚Üí M√©trique cl√© : RECALL")
print("   ‚Üí Objectif : Minimiser les FN (opportunit√©s manqu√©es)")
print("")
best_recall_idx = comparison_df['Recall'].idxmax()
best_recall_model = comparison_df.loc[best_recall_idx, 'Model']
best_recall_value = comparison_df.loc[best_recall_idx, 'Recall']
print(f"   ‚úÖ CHOIX : {best_recall_model}")
print(f"   Recall = {best_recall_value:.1%}")
print(f"   ‚Üí {best_recall_value*100:.0f}% des films potentiellement int√©ressants sont recommand√©s")
print("   ‚Üí Maximise l'engagement utilisateur")
print("")

print("‚ù∏ Compromis √âQUILIBR√â :")
print("")
print("   ‚Üí M√©trique cl√© : F1-SCORE")
print("   ‚Üí Objectif : Balance entre Precision et Recall")
print("")
best_f1_idx = comparison_df['F1-Score'].idxmax()
best_f1_model = comparison_df.loc[best_f1_idx, 'Model']
best_f1_value = comparison_df.loc[best_f1_idx, 'F1-Score']
print(f"   ‚úÖ CHOIX : {best_f1_model}")
print(f"   F1-Score = {best_f1_value:.3f}")
print("   ‚Üí Meilleur √©quilibre qualit√©/quantit√© des recommandations")
print("")

# 3. M√©trique la plus pertinente
print("="*70)
print("3. M√âTRIQUE LA PLUS PERTINENTE POUR LA RECOMMANDATION")
print("="*70)
print("")
print("   ‚Üí RECALL est g√©n√©ralement PLUS IMPORTANT en recommandation !")
print("")
print("   Justification :")
print("   üìå Objectif principal : Maximiser l'engagement et la satisfaction")
print("   üìå Il vaut mieux recommander plus (quitte √† avoir quelques rat√©s)")
print("      que de manquer des films que l'utilisateur aurait ador√©")
print("   üìå Un FP (recommandation non regard√©e) est moins grave qu'un FN (opportunit√© manqu√©e)")
print("   üìå L'utilisateur peut facilement ignorer une recommandation")
print("   üìå Mais il ne saura jamais ce qu'il a manqu√© (FN)")
print("")
print("   ‚ö†Ô∏è  MAIS : Trop de FP peut nuire √† la confiance dans le syst√®me")
print("   ‚Üí Solution : Trouver le bon compromis via F1-Score ou F2-Score")
print("   ‚Üí F2-Score = met plus de poids sur le Recall que la Precision")
print("")

# Calculer F2-Score
for result in results:
    precision = result['Precision']
    recall = result['Recall']
    beta = 2
    f2 = (1 + beta**2) * (precision * recall) / ((beta**2 * precision) + recall) if (precision + recall) > 0 else 0
    result['F2-Score'] = f2

print("   Comparaison F1 vs F2 (F2 favorise le Recall) :")
for result in results:
    print(f"   {result['Model']} : F1={result['F1-Score']:.3f}, F2={result['F2-Score']:.3f}")
print("")

# 4. Visualisations
fig = plt.figure(figsize=(16, 10))
gs = fig.add_gridspec(3, 3, hspace=0.3, wspace=0.3)

# a) Matrices de confusion c√¥te √† c√¥te
for idx, result in enumerate(results):
    ax = fig.add_subplot(gs[0, idx])
    cm = result['CM']
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', ax=ax,
                xticklabels=['Non Regard√©', 'Regard√©'],
                yticklabels=['Non Recommand√©', 'Recommand√©'])
    ax.set_xlabel('R√©alit√©')
    ax.set_ylabel('Recommandation')
    ax.set_title(f'{result["Model"]} - Matrice de Confusion')

# b) Comparaison des m√©triques principales
ax3 = fig.add_subplot(gs[1, :])
metrics_to_plot = ['Accuracy', 'Precision', 'Recall', 'F1-Score']
x = np.arange(len(metrics_to_plot))
width = 0.35

for i, result in enumerate(results):
    values = [result[m] for m in metrics_to_plot]
    ax3.bar(x + i*width, values, width, label=result['Model'], alpha=0.8)
    # Ajouter les valeurs sur les barres
    for j, v in enumerate(values):
        ax3.text(x[j] + i*width, v + 0.02, f'{v:.2f}', ha='center', fontsize=9, fontweight='bold')

ax3.set_xlabel('M√©triques', fontsize=12)
ax3.set_ylabel('Score', fontsize=12)
ax3.set_title('Comparaison des M√©triques de Performance', fontsize=14)
ax3.set_xticks(x + width / 2)
ax3.set_xticklabels(metrics_to_plot)
ax3.legend(fontsize=11)
ax3.grid(axis='y', alpha=0.3)
ax3.set_ylim(0, 1.1)

# c) Radar chart pour visualisation multidimensionnelle
ax4 = fig.add_subplot(gs[2, :], projection='polar')

categories = ['Accuracy', 'Precision', 'Recall', 'F1-Score']
N = len(categories)
angles = [n / float(N) * 2 * np.pi for n in range(N)]
angles += angles[:1]

for result in results:
    values = [result[m] for m in categories]
    values += values[:1]
    ax4.plot(angles, values, 'o-', linewidth=2, label=result['Model'])
    ax4.fill(angles, values, alpha=0.15)

ax4.set_xticks(angles[:-1])
ax4.set_xticklabels(categories)
ax4.set_ylim(0, 1)
ax4.set_title('Comparaison Multi-M√©triques (Radar Chart)', fontsize=14, pad=20)
ax4.legend(loc='upper right', bbox_to_anchor=(1.3, 1.0))
ax4.grid(True)

plt.show()

# Tableau r√©capitulatif des recommandations
print("="*70)
print("RECOMMANDATION FINALE")
print("="*70)
print("")
print(f"Pour un syst√®me de recommandation de films, nous recommandons : {best_recall_model}")
print("")
print("Raisons :")
print(f"  ‚úì Recall √©lev√© ({best_recall_value:.1%}) : Capture la majorit√© des films pertinents")
print("  ‚úì Maximise l'engagement utilisateur")
print("  ‚úì R√©duit les opportunit√©s manqu√©es")
print("")
print("Trade-offs accept√©s :")
modelB_precision = comparison_df.loc[comparison_df['Model'] == best_recall_model, 'Precision'].values[0]
print(f"  ‚Ä¢ Precision l√©g√®rement plus basse ({modelB_precision:.1%})")
print("  ‚Ä¢ Mais acceptable car les utilisateurs peuvent ignorer les recommandations non pertinentes")
print("")
print("üí° Pour am√©liorer encore :")
print("  1. Impl√©menter un syst√®me de ranking (ne pas montrer toutes les recommandations)")
print("  2. Utiliser un feedback utilisateur pour ajuster le seuil")
print("  3. Segmenter les utilisateurs (certains pr√©f√®rent qualit√©, d'autres quantit√©)")

---

## Exercice 6 : Dataset D√©s√©quilibr√©

**Objectif** : Comprendre l'impact du d√©s√©quilibre des classes sur les m√©triques.

**Consignes** :

1. Cr√©ez un dataset d√©s√©quilibr√© synth√©tique :
   - Classe 0 (majoritaire) : 950 exemples
   - Classe 1 (minoritaire) : 50 exemples
2. Entra√Ænez un mod√®le simple (LogisticRegression)
3. Calculez et comparez :
   - Accuracy
   - Precision, Recall, F1 pour chaque classe
   - Courbe ROC et AUC
   - Courbe Precision-Recall
4. Que se passe-t-il si le mod√®le pr√©dit toujours la classe majoritaire ?
5. Quelle m√©trique est la plus r√©v√©latrice du probl√®me ?
6. **Bonus** : Testez une technique de r√©√©quilibrage (SMOTE ou class_weight)

In [None]:
# Solution
from sklearn.datasets import make_classification
from sklearn.metrics import classification_report

# 1. Cr√©ez un dataset d√©s√©quilibr√©
X, y = make_classification(
    n_samples=1000,
    n_features=20,
    n_informative=15,
    n_redundant=5,
    weights=[0.95, 0.05],  # 95% classe 0, 5% classe 1
    random_state=42,
    flip_y=0.01  # L√©g√®re noise
)

print("Dataset d√©s√©quilibr√© cr√©√© :")
print(f"  Total √©chantillons : {len(y)}")
print(f"  Distribution : {np.bincount(y)}")
print(f"  Ratio : {np.bincount(y)[0]/len(y):.1%} classe 0, {np.bincount(y)[1]/len(y):.1%} classe 1")
print("")

# Split
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42, stratify=y
)

print(f"Distribution train : {np.bincount(y_train)}")
print(f"Distribution test : {np.bincount(y_test)}")
print("")

# 2. Entra√Ænez un mod√®le simple sans traitement du d√©s√©quilibre
print("="*70)
print("MOD√àLE 1 : SANS TRAITEMENT DU D√âS√âQUILIBRE")
print("="*70)
print("")

model_imbalanced = LogisticRegression(max_iter=1000, random_state=42)
model_imbalanced.fit(X_train, y_train)
y_pred_imbalanced = model_imbalanced.predict(X_test)
y_proba_imbalanced = model_imbalanced.predict_proba(X_test)[:, 1]

# 3. Calculez les m√©triques
accuracy_imb = accuracy_score(y_test, y_pred_imbalanced)
cm_imb = confusion_matrix(y_test, y_pred_imbalanced)

print("Matrice de confusion :")
print(cm_imb)
print("")

print(f"Accuracy : {accuracy_imb:.4f}")
print("")

# Classification report d√©taill√©
print("Classification Report :")
print(classification_report(y_test, y_pred_imbalanced, target_names=['Classe 0 (maj)', 'Classe 1 (min)']))

# 4. Mod√®le na√Øf : toujours pr√©dire la classe majoritaire
print("="*70)
print("MOD√àLE NA√èF : TOUJOURS PR√âDIRE CLASSE 0 (MAJORITAIRE)")
print("="*70)
print("")

y_pred_naive = np.zeros_like(y_test)  # Toujours pr√©dire 0
accuracy_naive = accuracy_score(y_test, y_pred_naive)
cm_naive = confusion_matrix(y_test, y_pred_naive)

print("Matrice de confusion :")
print(cm_naive)
print("")

print(f"Accuracy : {accuracy_naive:.4f}")
print("")

print("‚ö†Ô∏è  OBSERVATION CRITIQUE :")
print(f"   Un mod√®le qui pr√©dit TOUJOURS la classe majoritaire obtient {accuracy_naive:.1%} d'accuracy !")
print("   ‚Üí L'accuracy est une m√©trique TROMPEUSE pour les datasets d√©s√©quilibr√©s")
print("   ‚Üí Le mod√®le n'a RIEN appris, mais semble performant")
print("")

# 5. Courbes ROC et Precision-Recall
fig, axes = plt.subplots(2, 3, figsize=(18, 12))

# ROC Curve
fpr, tpr, _ = roc_curve(y_test, y_proba_imbalanced)
roc_auc = roc_auc_score(y_test, y_proba_imbalanced)

ax1 = axes[0, 0]
ax1.plot(fpr, tpr, linewidth=2, label=f'ROC (AUC={roc_auc:.3f})')
ax1.plot([0, 1], [0, 1], 'k--', linewidth=1, label='Chance')
ax1.set_xlabel('False Positive Rate')
ax1.set_ylabel('True Positive Rate')
ax1.set_title('Courbe ROC')
ax1.legend()
ax1.grid(alpha=0.3)

# Precision-Recall Curve
precision_vals, recall_vals, _ = precision_recall_curve(y_test, y_proba_imbalanced)

ax2 = axes[0, 1]
ax2.plot(recall_vals, precision_vals, linewidth=2, color='orange')
baseline = np.sum(y_test) / len(y_test)  # Proportion de la classe minoritaire
ax2.axhline(baseline, color='k', linestyle='--', linewidth=1, label=f'Baseline ({baseline:.3f})')
ax2.set_xlabel('Recall')
ax2.set_ylabel('Precision')
ax2.set_title('Courbe Precision-Recall')
ax2.legend()
ax2.grid(alpha=0.3)

# Matrice de confusion
ax3 = axes[0, 2]
sns.heatmap(cm_imb, annot=True, fmt='d', cmap='Blues', ax=ax3,
            xticklabels=['Classe 0', 'Classe 1'],
            yticklabels=['Classe 0', 'Classe 1'])
ax3.set_xlabel('Pr√©diction')
ax3.set_ylabel('R√©alit√©')
ax3.set_title('Matrice de Confusion - Mod√®le d√©s√©quilibr√©')

# 6. BONUS : Technique de r√©√©quilibrage avec class_weight
print("="*70)
print("MOD√àLE 2 : AVEC R√â√âQUILIBRAGE (class_weight='balanced')")
print("="*70)
print("")

model_balanced = LogisticRegression(max_iter=1000, random_state=42, class_weight='balanced')
model_balanced.fit(X_train, y_train)
y_pred_balanced = model_balanced.predict(X_test)
y_proba_balanced = model_balanced.predict_proba(X_test)[:, 1]

accuracy_bal = accuracy_score(y_test, y_pred_balanced)
cm_bal = confusion_matrix(y_test, y_pred_balanced)

print("Matrice de confusion :")
print(cm_bal)
print("")

print(f"Accuracy : {accuracy_bal:.4f}")
print("")

print("Classification Report :")
print(classification_report(y_test, y_pred_balanced, target_names=['Classe 0 (maj)', 'Classe 1 (min)']))

# Courbes pour le mod√®le balanced
fpr_bal, tpr_bal, _ = roc_curve(y_test, y_proba_balanced)
roc_auc_bal = roc_auc_score(y_test, y_proba_balanced)

ax4 = axes[1, 0]
ax4.plot(fpr, tpr, linewidth=2, label=f'Sans √©quilibrage (AUC={roc_auc:.3f})', alpha=0.7)
ax4.plot(fpr_bal, tpr_bal, linewidth=2, label=f'Avec √©quilibrage (AUC={roc_auc_bal:.3f})')
ax4.plot([0, 1], [0, 1], 'k--', linewidth=1)
ax4.set_xlabel('False Positive Rate')
ax4.set_ylabel('True Positive Rate')
ax4.set_title('Comparaison ROC')
ax4.legend()
ax4.grid(alpha=0.3)

precision_vals_bal, recall_vals_bal, _ = precision_recall_curve(y_test, y_proba_balanced)

ax5 = axes[1, 1]
ax5.plot(recall_vals, precision_vals, linewidth=2, label='Sans √©quilibrage', alpha=0.7, color='orange')
ax5.plot(recall_vals_bal, precision_vals_bal, linewidth=2, label='Avec √©quilibrage', color='green')
ax5.axhline(baseline, color='k', linestyle='--', linewidth=1, label=f'Baseline ({baseline:.3f})')
ax5.set_xlabel('Recall')
ax5.set_ylabel('Precision')
ax5.set_title('Comparaison Precision-Recall')
ax5.legend()
ax5.grid(alpha=0.3)

ax6 = axes[1, 2]
sns.heatmap(cm_bal, annot=True, fmt='d', cmap='Greens', ax=ax6,
            xticklabels=['Classe 0', 'Classe 1'],
            yticklabels=['Classe 0', 'Classe 1'])
ax6.set_xlabel('Pr√©diction')
ax6.set_ylabel('R√©alit√©')
ax6.set_title('Matrice de Confusion - Mod√®le √©quilibr√©')

plt.tight_layout()
plt.show()

# Comparaison finale
print("\n" + "="*70)
print("ANALYSE COMPARATIVE")
print("="*70)
print("")

# Extraire les m√©triques pour la classe minoritaire
from sklearn.metrics import precision_recall_fscore_support

prec_imb, rec_imb, f1_imb, _ = precision_recall_fscore_support(y_test, y_pred_imbalanced, average=None)
prec_bal, rec_bal, f1_bal, _ = precision_recall_fscore_support(y_test, y_pred_balanced, average=None)

comparison = pd.DataFrame({
    'M√©trique': ['Accuracy', 'Precision (classe 1)', 'Recall (classe 1)', 'F1-Score (classe 1)', 'ROC AUC'],
    'Sans √©quilibrage': [accuracy_imb, prec_imb[1], rec_imb[1], f1_imb[1], roc_auc],
    'Avec √©quilibrage': [accuracy_bal, prec_bal[1], rec_bal[1], f1_bal[1], roc_auc_bal],
    'Mod√®le na√Øf': [accuracy_naive, 0, 0, 0, 0.5]
})

print(comparison.to_string(index=False))
print("")

print("OBSERVATIONS CL√âS :")
print("")
print("1Ô∏è‚É£  L'Accuracy est TROMPEUSE :")
print(f"   - Mod√®le na√Øf : {accuracy_naive:.1%} (pr√©dit toujours classe 0)")
print(f"   - Sans √©quilibrage : {accuracy_imb:.1%}")
print(f"   - Avec √©quilibrage : {accuracy_bal:.1%} (semble pire, mais plus informatif !)")
print("")
print("2Ô∏è‚É£  Le Recall de la classe minoritaire est CRITIQUE :")
print(f"   - Sans √©quilibrage : {rec_imb[1]:.1%} (manque beaucoup d'exemples)")
print(f"   - Avec √©quilibrage : {rec_bal[1]:.1%} (bien meilleur !)")
print("")
print("3Ô∏è‚É£  La courbe Precision-Recall est PLUS INFORMATIVE que ROC :")
print("   - ROC peut √™tre optimiste sur datasets d√©s√©quilibr√©s")
print("   - Precision-Recall montre mieux les performances sur la classe minoritaire")
print("")
print("4Ô∏è‚É£  Le F1-Score de la classe minoritaire est le meilleur indicateur :")
print(f"   - Sans √©quilibrage : {f1_imb[1]:.3f}")
print(f"   - Avec √©quilibrage : {f1_bal[1]:.3f}")
print("")

print("üí° RECOMMANDATIONS pour datasets d√©s√©quilibr√©s :")
print("")
print("1. NE PAS utiliser l'Accuracy seule")
print("2. Privil√©gier : Precision, Recall, F1-Score de la classe minoritaire")
print("3. Utiliser la courbe Precision-Recall plut√¥t que ROC")
print("4. Techniques de r√©√©quilibrage :")
print("   - class_weight='balanced' (simple et efficace)")
print("   - SMOTE (sur-√©chantillonnage synth√©tique)")
print("   - Sous-√©chantillonnage de la classe majoritaire")
print("   - Ensembles avec r√©√©quilibrage (BalancedRandomForest)")
print("5. Ajuster le seuil de d√©cision selon le co√ªt m√©tier")

---

## Exercice 7 : Bonus - M√©triques Personnalis√©es

**Objectif** : Cr√©er une m√©trique personnalis√©e adapt√©e √† un contexte sp√©cifique.

**Contexte** : Une entreprise de e-commerce veut minimiser les retours produits. Un retour produit co√ªte 20‚Ç¨ √† l'entreprise, tandis qu'une vente r√©ussie rapporte 10‚Ç¨.

**Consignes** :

1. Cr√©ez une fonction de co√ªt personnalis√©e qui calcule le b√©n√©fice/perte total
2. Utilisez cette fonction pour √©valuer plusieurs mod√®les
3. Comparez avec les m√©triques classiques (accuracy, F1)
4. Quel mod√®le choisiriez-vous selon la m√©trique de co√ªt ?

In [None]:
# Solution

def custom_cost_metric(y_true, y_pred, profit_per_sale=10, cost_per_return=20):
    """
    Calcule le b√©n√©fice total selon un mod√®le m√©tier.
    
    Matrice de co√ªt :
    - TP (vente r√©ussie, bien pr√©dite) : +10‚Ç¨
    - TN (pas de vente, bien pr√©dite) : 0‚Ç¨
    - FP (vente avec retour non anticip√©) : -20‚Ç¨ (le pire cas !)
    - FN (vente manqu√©e, opportunit√© perdue) : 0‚Ç¨ (pas de perte directe)
    
    Args:
        y_true : Labels r√©els (1 = vente r√©ussie, 0 = retour)
        y_pred : Pr√©dictions (1 = recommander, 0 = ne pas recommander)
        profit_per_sale : B√©n√©fice par vente r√©ussie
        cost_per_return : Co√ªt d'un retour produit
    
    Returns:
        total_profit : B√©n√©fice total en ‚Ç¨
    """
    cm = confusion_matrix(y_true, y_pred)
    TN, FP, FN, TP = cm.ravel()
    
    # Calcul du profit total
    profit_from_tp = TP * profit_per_sale  # Ventes r√©ussies bien pr√©dites
    cost_from_fp = FP * cost_per_return    # Retours non anticip√©s (co√ªt √©lev√©)
    
    total_profit = profit_from_tp - cost_from_fp
    
    return total_profit, {'TP': TP, 'FP': FP, 'FN': FN, 'TN': TN}

# Cr√©er un dataset synth√©tique pour le e-commerce
np.random.seed(42)
X, y = make_classification(
    n_samples=1000,
    n_features=10,
    n_informative=7,
    n_redundant=2,
    weights=[0.3, 0.7],  # 70% de ventes r√©ussies, 30% de retours
    random_state=42
)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

print("Dataset E-Commerce :")
print(f"  Total : {len(y)} transactions")
print(f"  Distribution : {np.bincount(y)[0]} retours, {np.bincount(y)[1]} ventes r√©ussies")
print(f"  Taux de retour : {np.bincount(y)[0]/len(y):.1%}")
print("")

# Tester diff√©rents mod√®les avec diff√©rents hyperparam√®tres
models_configs = [
    ('Logistic (Conservative)', LogisticRegression(C=0.1, random_state=42)),
    ('Logistic (Standard)', LogisticRegression(C=1.0, random_state=42)),
    ('Logistic (Aggressive)', LogisticRegression(C=10.0, random_state=42)),
    ('RF (Conservative)', RandomForestClassifier(n_estimators=50, max_depth=3, random_state=42)),
    ('RF (Standard)', RandomForestClassifier(n_estimators=100, max_depth=10, random_state=42)),
]

results = []

print("="*70)
print("√âVALUATION DES MOD√àLES")
print("="*70)
print("")

for name, model in models_configs:
    # Entra√Æner
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    
    # M√©triques classiques
    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred)
    recall = recall_score(y_test, y_pred)
    f1 = f1_score(y_test, y_pred)
    
    # M√©trique personnalis√©e
    profit, components = custom_cost_metric(y_test, y_pred)
    
    results.append({
        'Model': name,
        'Accuracy': accuracy,
        'Precision': precision,
        'Recall': recall,
        'F1-Score': f1,
        'Profit (‚Ç¨)': profit,
        'TP': components['TP'],
        'FP': components['FP'],
        'FN': components['FN'],
        'TN': components['TN']
    })

# Afficher les r√©sultats
results_df = pd.DataFrame(results)
print(results_df[['Model', 'Accuracy', 'Precision', 'Recall', 'F1-Score', 'Profit (‚Ç¨)']].to_string(index=False))
print("")

# Identifier le meilleur selon diff√©rents crit√®res
best_accuracy_idx = results_df['Accuracy'].idxmax()
best_f1_idx = results_df['F1-Score'].idxmax()
best_profit_idx = results_df['Profit (‚Ç¨)'].idxmax()

print("="*70)
print("COMPARAISON DES CRIT√àRES")
print("="*70)
print("")

print(f"üéØ Meilleur Accuracy : {results_df.loc[best_accuracy_idx, 'Model']}")
print(f"   Accuracy = {results_df.loc[best_accuracy_idx, 'Accuracy']:.3f}")
print(f"   Profit = {results_df.loc[best_accuracy_idx, 'Profit (‚Ç¨)']:.0f}‚Ç¨")
print("")

print(f"üéØ Meilleur F1-Score : {results_df.loc[best_f1_idx, 'Model']}")
print(f"   F1-Score = {results_df.loc[best_f1_idx, 'F1-Score']:.3f}")
print(f"   Profit = {results_df.loc[best_f1_idx, 'Profit (‚Ç¨)']:.0f}‚Ç¨")
print("")

print(f"üí∞ MEILLEUR PROFIT (M√âTRIQUE M√âTIER) : {results_df.loc[best_profit_idx, 'Model']}")
print(f"   Profit = {results_df.loc[best_profit_idx, 'Profit (‚Ç¨)']:.0f}‚Ç¨")
print(f"   Accuracy = {results_df.loc[best_profit_idx, 'Accuracy']:.3f}")
print(f"   F1-Score = {results_df.loc[best_profit_idx, 'F1-Score']:.3f}")
print("")

# Analyse d√©taill√©e du meilleur mod√®le selon le profit
best_model = results_df.loc[best_profit_idx]
print(f"D√©tails du mod√®le optimal ({best_model['Model']}) :")
print(f"   TP (ventes r√©ussies d√©tect√©es) : {best_model['TP']:.0f} ‚Üí +{best_model['TP']*10:.0f}‚Ç¨")
print(f"   FP (retours non anticip√©s) : {best_model['FP']:.0f} ‚Üí -{best_model['FP']*20:.0f}‚Ç¨")
print(f"   FN (opportunit√©s manqu√©es) : {best_model['FN']:.0f} ‚Üí 0‚Ç¨")
print(f"   TN (retours bien √©vit√©s) : {best_model['TN']:.0f} ‚Üí 0‚Ç¨")
print(f"   PROFIT TOTAL : {best_model['Profit (‚Ç¨)']:.0f}‚Ç¨")
print("")

# Visualisations
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# a) Comparaison Profit vs M√©triques classiques
ax1 = axes[0, 0]
x = np.arange(len(results_df))
ax1.bar(x, results_df['Profit (‚Ç¨)'], alpha=0.7, edgecolor='black')
ax1.set_xticks(x)
ax1.set_xticklabels(results_df['Model'], rotation=45, ha='right')
ax1.set_ylabel('Profit (‚Ç¨)')
ax1.set_title('Profit Total par Mod√®le')
ax1.axhline(0, color='red', linestyle='--', linewidth=2)
ax1.grid(axis='y', alpha=0.3)

# Ajouter les valeurs
for i, v in enumerate(results_df['Profit (‚Ç¨)']):
    ax1.text(i, v + 50, f'{v:.0f}‚Ç¨', ha='center', fontweight='bold')

# b) Profit vs F1-Score (scatter)
ax2 = axes[0, 1]
scatter = ax2.scatter(results_df['F1-Score'], results_df['Profit (‚Ç¨)'],
                      s=100, alpha=0.7, edgecolors='black', linewidth=2)
ax2.set_xlabel('F1-Score')
ax2.set_ylabel('Profit (‚Ç¨)')
ax2.set_title('Profit vs F1-Score')
ax2.grid(alpha=0.3)

# Annoter les points
for idx, row in results_df.iterrows():
    ax2.annotate(row['Model'], (row['F1-Score'], row['Profit (‚Ç¨)']),
                fontsize=8, alpha=0.7)

# c) Comparaison multi-m√©triques
ax3 = axes[1, 0]
metrics_to_compare = ['Accuracy', 'Precision', 'Recall', 'F1-Score']
x_pos = np.arange(len(results_df))
width = 0.2

for i, metric in enumerate(metrics_to_compare):
    ax3.bar(x_pos + i*width, results_df[metric], width, label=metric, alpha=0.8)

ax3.set_xticks(x_pos + width * 1.5)
ax3.set_xticklabels(results_df['Model'], rotation=45, ha='right')
ax3.set_ylabel('Score')
ax3.set_title('M√©triques Classiques par Mod√®le')
ax3.legend()
ax3.grid(axis='y', alpha=0.3)

# d) Heatmap de corr√©lation entre m√©triques et profit
ax4 = axes[1, 1]
corr_data = results_df[['Accuracy', 'Precision', 'Recall', 'F1-Score', 'Profit (‚Ç¨)']].corr()
sns.heatmap(corr_data, annot=True, fmt='.2f', cmap='coolwarm', center=0, ax=ax4,
            vmin=-1, vmax=1, square=True, linewidths=1)
ax4.set_title('Corr√©lation entre M√©triques et Profit')

plt.tight_layout()
plt.show()

# Conclusion
print("\n" + "="*70)
print("CONCLUSION")
print("="*70)
print("")
print("üîç OBSERVATIONS IMPORTANTES :")
print("")
print("1. Le mod√®le avec le meilleur F1-Score N'EST PAS forc√©ment celui avec le meilleur profit")
print("")
print("2. La m√©trique m√©tier (profit) refl√®te mieux les objectifs business :")
print("   - Minimiser les FP (retours non d√©tect√©s) est CRITIQUE (co√ªt -20‚Ç¨)")
print("   - Les FN (opportunit√©s manqu√©es) ont moins d'impact (co√ªt 0‚Ç¨)")
print("   ‚Üí Un mod√®le plus conservateur (haute Precision) peut √™tre pr√©f√©rable")
print("")
print("3. Les m√©triques classiques supposent des co√ªts √©gaux pour FP et FN")
print("   ‚Üí Inadapt√© quand les erreurs ont des co√ªts asym√©triques")
print("")
print("üí° RECOMMANDATIONS :")
print("")
print("‚úÖ TOUJOURS d√©finir une m√©trique align√©e avec les objectifs m√©tier")
print("‚úÖ Quantifier les co√ªts r√©els de chaque type d'erreur (FP vs FN)")
print("‚úÖ Optimiser directement cette m√©trique m√©tier")
print("‚úÖ Utiliser les m√©triques classiques pour le diagnostic, pas la d√©cision finale")
print("")
print(f"üèÜ D√âCISION FINALE : Choisir {results_df.loc[best_profit_idx, 'Model']}")
print(f"   ‚Üí Maximise le profit : {results_df.loc[best_profit_idx, 'Profit (‚Ç¨)']:.0f}‚Ç¨")

---

## R√©sum√© et Points Cl√©s

√Ä la fin de ces exercices, vous devriez √™tre capable de :

‚úÖ Calculer et interpr√©ter toutes les m√©triques de classification

‚úÖ Comprendre le compromis Precision vs Recall

‚úÖ Utiliser la courbe ROC pour choisir un seuil optimal

‚úÖ √âvaluer un mod√®le de r√©gression avec MSE, MAE, R¬≤

‚úÖ Appliquer la validation crois√©e pour une √©valuation robuste

‚úÖ Adapter votre choix de m√©triques au contexte m√©tier

‚úÖ G√©rer les datasets d√©s√©quilibr√©s

---

**Prochaines √©tapes** :
- Chapitre 03 : R√©gression Lin√©aire et R√©gularisation
- Chapitre 04 : Classification Supervis√©e Avanc√©e