# üöÄ Google Colab Setup

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/ogautier1980/sandbox-ml/blob/main/cours/02_metriques_evaluation/02_demo_metriques_regression.ipynb)

**Si vous ex√©cutez ce notebook sur Google Colab**, ex√©cutez la cellule suivante pour installer les d√©pendances.

In [None]:
# Installation des d√©pendances (Google Colab uniquement)import sysIN_COLAB = 'google.colab' in sys.modulesif IN_COLAB:    print('üì¶ Installation des packages...')        # Packages ML de base    !pip install -q numpy pandas matplotlib seaborn scikit-learn        # D√©tection du chapitre et installation des d√©pendances sp√©cifiques    notebook_name = '02_demo_metriques_regression.ipynb'  # Sera remplac√© automatiquement        # Ch 06-08 : Deep Learning    if any(x in notebook_name for x in ['06_', '07_', '08_']):        !pip install -q torch torchvision torchaudio        # Ch 08 : NLP    if '08_' in notebook_name:        !pip install -q transformers datasets tokenizers        if 'rag' in notebook_name:            !pip install -q sentence-transformers faiss-cpu rank-bm25        # Ch 09 : Reinforcement Learning    if '09_' in notebook_name:        !pip install -q gymnasium[classic-control]        # Ch 04 : Boosting    if '04_' in notebook_name and 'boosting' in notebook_name:        !pip install -q xgboost lightgbm catboost        # Ch 05 : Clustering avanc√©    if '05_' in notebook_name:        !pip install -q umap-learn        # Ch 11 : S√©ries temporelles    if '11_' in notebook_name:        !pip install -q statsmodels prophet        # Ch 12 : Vision avanc√©e    if '12_' in notebook_name:        !pip install -q ultralytics timm segmentation-models-pytorch        # Ch 13 : Recommandation    if '13_' in notebook_name:        !pip install -q scikit-surprise implicit        # Ch 14 : MLOps    if '14_' in notebook_name:        !pip install -q mlflow fastapi pydantic        print('‚úÖ Installation termin√©e !')else:    print('‚ÑπÔ∏è  Environnement local d√©tect√©, les packages sont d√©j√† install√©s.')

# Chapitre 02 - M√©triques de R√©gression

**Objectifs :**
- Comprendre et calculer les m√©triques de r√©gression (MSE, RMSE, MAE, R¬≤, MAPE)
- Visualiser les erreurs de pr√©diction
- Comparer diff√©rents mod√®les avec les bonnes m√©triques
- Identifier l'impact des outliers sur les m√©triques
- Savoir choisir la bonne m√©trique selon le contexte

**Dataset :** Diabetes Dataset (r√©gression continue)

In [None]:
# Imports
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.metrics import (
    mean_squared_error,
    mean_absolute_error,
    r2_score,
    mean_absolute_percentage_error
)

# Configuration des graphiques
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette("husl")
%matplotlib inline

# Seed pour reproductibilit√©
np.random.seed(42)

## 1. Chargement et Exploration des Donn√©es

In [None]:
# Chargement du dataset Diabetes
data = load_diabetes()
X = data.data
y = data.target  # Mesure quantitative de progression du diab√®te apr√®s 1 an

print("Dataset Diabetes")
print(f"Nombre d'exemples : {X.shape[0]}")
print(f"Nombre de features : {X.shape[1]}")
print(f"\nFeatures : {data.feature_names}")
print(f"\nCible (y) : Progression du diab√®te")
print(f"  - Min : {y.min():.2f}")
print(f"  - Max : {y.max():.2f}")
print(f"  - Moyenne : {y.mean():.2f}")
print(f"  - √âcart-type : {y.std():.2f}")

In [None]:
# Visualisation de la distribution de la cible
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Histogramme
axes[0].hist(y, bins=30, color='skyblue', edgecolor='black', alpha=0.7)
axes[0].axvline(y.mean(), color='red', linestyle='--', linewidth=2, label=f'Moyenne = {y.mean():.2f}')
axes[0].set_xlabel('Progression du diab√®te', fontsize=12)
axes[0].set_ylabel('Fr√©quence', fontsize=12)
axes[0].set_title('Distribution de la Variable Cible', fontsize=14, fontweight='bold')
axes[0].legend()
axes[0].grid(alpha=0.3)

# Boxplot
axes[1].boxplot(y, vert=True, patch_artist=True, 
                boxprops=dict(facecolor='lightgreen', alpha=0.7),
                medianprops=dict(color='red', linewidth=2))
axes[1].set_ylabel('Progression du diab√®te', fontsize=12)
axes[1].set_title('Boxplot de la Variable Cible', fontsize=14, fontweight='bold')
axes[1].grid(alpha=0.3)

plt.tight_layout()
plt.show()

print("Observation : La distribution est relativement normale, sans outliers extr√™mes.")

## 2. Entra√Ænement de Mod√®les de R√©gression

In [None]:
# Split train/test (80/20)
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.2,
    random_state=42
)

print(f"Train set : {X_train.shape[0]} exemples")
print(f"Test set : {X_test.shape[0]} exemples")

In [None]:
# Entra√Ænement de plusieurs mod√®les
models = {
    'Linear Regression': LinearRegression(),
    'Ridge (alpha=1)': Ridge(alpha=1.0),
    'Lasso (alpha=1)': Lasso(alpha=1.0)
}

# Dictionnaire pour stocker les pr√©dictions
predictions = {}

for name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    predictions[name] = y_pred
    print(f"‚úÖ {name} entra√Æn√©")

print("\nTous les mod√®les sont entra√Æn√©s !")

## 3. Calcul Manuel des M√©triques

Calculons les m√©triques √† la main pour bien comprendre les formules.

In [None]:
# Utilisons les pr√©dictions du mod√®le Linear Regression
y_pred = predictions['Linear Regression']

# Calcul manuel des m√©triques
n = len(y_test)

# Erreurs
errors = y_test - y_pred

# MSE : Mean Squared Error
mse_manual = np.sum(errors ** 2) / n

# RMSE : Root Mean Squared Error
rmse_manual = np.sqrt(mse_manual)

# MAE : Mean Absolute Error
mae_manual = np.sum(np.abs(errors)) / n

# R¬≤ : Coefficient de D√©termination
ss_res = np.sum(errors ** 2)  # Somme des carr√©s des r√©sidus
ss_tot = np.sum((y_test - y_test.mean()) ** 2)  # Variance totale
r2_manual = 1 - (ss_res / ss_tot)

# MAPE : Mean Absolute Percentage Error (en %)
mape_manual = np.mean(np.abs(errors / y_test)) * 100

print("=" * 70)
print("M√âTRIQUES CALCUL√âES MANUELLEMENT (Linear Regression)")
print("=" * 70)
print(f"\nMSE  = (1/n) * Œ£(y - ≈∑)¬≤")
print(f"     = (1/{n}) * {ss_res:.2f}")
print(f"     = {mse_manual:.4f}")
print(f"\nRMSE = ‚àö(MSE)")
print(f"     = ‚àö({mse_manual:.4f})")
print(f"     = {rmse_manual:.4f}")
print(f"\nMAE  = (1/n) * Œ£|y - ≈∑|")
print(f"     = {mae_manual:.4f}")
print(f"\nR¬≤   = 1 - (SS_res / SS_tot)")
print(f"     = 1 - ({ss_res:.2f} / {ss_tot:.2f})")
print(f"     = {r2_manual:.4f}")
print(f"\nMAPE = (100/n) * Œ£|y - ≈∑| / y")
print(f"     = {mape_manual:.4f} %")
print("=" * 70)

In [None]:
# V√©rification avec scikit-learn
print("\n" + "=" * 70)
print("V√âRIFICATION AVEC SCIKIT-LEARN")
print("=" * 70)
print(f"MSE  (sklearn) = {mean_squared_error(y_test, y_pred):.4f}")
print(f"RMSE (sklearn) = {mean_squared_error(y_test, y_pred, squared=False):.4f}")
print(f"MAE  (sklearn) = {mean_absolute_error(y_test, y_pred):.4f}")
print(f"R¬≤   (sklearn) = {r2_score(y_test, y_pred):.4f}")
print(f"MAPE (sklearn) = {mean_absolute_percentage_error(y_test, y_pred) * 100:.4f} %")
print("=" * 70)
print("\n‚úÖ Les calculs manuels correspondent parfaitement √† scikit-learn !")

## 4. Interpr√©tation des M√©triques

In [None]:
print("\n" + "=" * 70)
print("INTERPR√âTATION DES M√âTRIQUES")
print("=" * 70)

print(f"\nüìä MSE = {mse_manual:.2f}")
print("   ‚Üí Unit√© : (progression)¬≤ (difficile √† interpr√©ter)")
print("   ‚Üí P√©nalise fortement les grandes erreurs (√† cause du carr√©)")
print("   ‚Üí Sensible aux outliers")

print(f"\nüìä RMSE = {rmse_manual:.2f}")
print("   ‚Üí Unit√© : progression (m√™me unit√© que y)")
print(f"   ‚Üí Interpr√©tation : En moyenne, les pr√©dictions s'√©cartent de {rmse_manual:.2f} unit√©s")
print("   ‚Üí Plus facile √† interpr√©ter que MSE")

print(f"\nüìä MAE = {mae_manual:.2f}")
print("   ‚Üí Unit√© : progression (m√™me unit√© que y)")
print(f"   ‚Üí Interpr√©tation : Erreur absolue moyenne de {mae_manual:.2f} unit√©s")
print("   ‚Üí Moins sensible aux outliers que RMSE")
print(f"   ‚Üí √âcart RMSE - MAE = {rmse_manual - mae_manual:.2f} (faible = peu d'outliers)")

print(f"\nüìä R¬≤ = {r2_manual:.4f}")
print(f"   ‚Üí Interpr√©tation : Le mod√®le explique {r2_manual * 100:.2f}% de la variance")
print(f"   ‚Üí Les {(1 - r2_manual) * 100:.2f}% restants sont dus au bruit ou variables non captur√©es")
print("   ‚Üí R¬≤ = 0 : mod√®le √©quivalent √† pr√©dire la moyenne")
print("   ‚Üí R¬≤ = 1 : mod√®le parfait (rare en pratique)")

print(f"\nüìä MAPE = {mape_manual:.2f}%")
print(f"   ‚Üí Interpr√©tation : Erreur moyenne de {mape_manual:.2f}% par rapport aux vraies valeurs")
print("   ‚Üí Ind√©pendant de l'√©chelle (utile pour comparer diff√©rents datasets)")
print("   ‚Üí Attention : non d√©fini si y contient des 0")

## 5. Comparaison des Mod√®les

In [None]:
# Calcul des m√©triques pour tous les mod√®les
results = []

for name, y_pred in predictions.items():
    mse = mean_squared_error(y_test, y_pred)
    rmse = mean_squared_error(y_test, y_pred, squared=False)
    mae = mean_absolute_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)
    mape = mean_absolute_percentage_error(y_test, y_pred) * 100
    
    results.append({
        'Mod√®le': name,
        'MSE': mse,
        'RMSE': rmse,
        'MAE': mae,
        'R¬≤': r2,
        'MAPE (%)': mape
    })

df_results = pd.DataFrame(results)

print("\n" + "=" * 90)
print("COMPARAISON DES MOD√àLES")
print("=" * 90)
print(df_results.to_string(index=False))
print("\nüí° Plus petit = meilleur pour MSE, RMSE, MAE, MAPE")
print("üí° Plus grand = meilleur pour R¬≤ (max = 1)")

In [None]:
# Visualisation comparative des m√©triques
fig, axes = plt.subplots(2, 3, figsize=(18, 10))
metrics_to_plot = ['MSE', 'RMSE', 'MAE', 'R¬≤', 'MAPE (%)']
colors = ['#e74c3c', '#3498db', '#2ecc71', '#f39c12', '#9b59b6']

for i, (metric, color) in enumerate(zip(metrics_to_plot, colors)):
    ax = axes[i // 3, i % 3]
    
    bars = ax.bar(df_results['Mod√®le'], df_results[metric], color=color, alpha=0.7, edgecolor='black')
    
    # Mettre en √©vidence le meilleur mod√®le
    if metric == 'R¬≤':
        best_idx = df_results[metric].idxmax()
    else:
        best_idx = df_results[metric].idxmin()
    
    bars[best_idx].set_color('gold')
    bars[best_idx].set_edgecolor('red')
    bars[best_idx].set_linewidth(3)
    
    ax.set_ylabel(metric, fontsize=11, fontweight='bold')
    ax.set_title(f'Comparaison - {metric}', fontsize=12, fontweight='bold')
    ax.tick_params(axis='x', rotation=15)
    ax.grid(alpha=0.3, axis='y')
    
    # Ajouter les valeurs sur les barres
    for bar in bars:
        height = bar.get_height()
        ax.text(bar.get_x() + bar.get_width()/2., height,
                f'{height:.2f}',
                ha='center', va='bottom', fontsize=9)

# Supprimer le subplot vide
fig.delaxes(axes[1, 2])

plt.tight_layout()
plt.show()

print("\n‚≠ê Mod√®le en OR = meilleur pour cette m√©trique")

## 6. Visualisation des Pr√©dictions vs Vraies Valeurs

In [None]:
# Scatter plot : pr√©dictions vs vraies valeurs
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

for i, (name, y_pred) in enumerate(predictions.items()):
    ax = axes[i]
    
    # Scatter plot
    ax.scatter(y_test, y_pred, alpha=0.6, s=50, edgecolors='black', linewidth=0.5)
    
    # Ligne de r√©f√©rence (pr√©diction parfaite : y = ≈∑)
    min_val = min(y_test.min(), y_pred.min())
    max_val = max(y_test.max(), y_pred.max())
    ax.plot([min_val, max_val], [min_val, max_val], 'r--', linewidth=2, label='Pr√©diction parfaite')
    
    # M√©triques
    r2 = r2_score(y_test, y_pred)
    rmse = mean_squared_error(y_test, y_pred, squared=False)
    
    ax.set_xlabel('Vraies Valeurs', fontsize=12)
    ax.set_ylabel('Pr√©dictions', fontsize=12)
    ax.set_title(f'{name}\nR¬≤ = {r2:.3f}, RMSE = {rmse:.2f}', fontsize=12, fontweight='bold')
    ax.legend()
    ax.grid(alpha=0.3)

plt.tight_layout()
plt.show()

print("\nInterpr√©tation :")
print("  - Points proches de la ligne rouge : bonnes pr√©dictions")
print("  - Points au-dessus de la ligne : surestimation")
print("  - Points en-dessous de la ligne : sous-estimation")

## 7. Distribution des Erreurs (Residuals)

In [None]:
# Analyse des r√©sidus (erreurs) pour chaque mod√®le
fig, axes = plt.subplots(2, 3, figsize=(18, 10))

for i, (name, y_pred) in enumerate(predictions.items()):
    residuals = y_test - y_pred
    
    # Histogramme des r√©sidus
    ax1 = axes[0, i]
    ax1.hist(residuals, bins=20, color='skyblue', edgecolor='black', alpha=0.7)
    ax1.axvline(0, color='red', linestyle='--', linewidth=2, label='Erreur nulle')
    ax1.axvline(residuals.mean(), color='green', linestyle='--', linewidth=2, 
                label=f'Moyenne = {residuals.mean():.2f}')
    ax1.set_xlabel('R√©sidus (y - ≈∑)', fontsize=11)
    ax1.set_ylabel('Fr√©quence', fontsize=11)
    ax1.set_title(f'{name} - Distribution des R√©sidus', fontsize=12, fontweight='bold')
    ax1.legend(fontsize=9)
    ax1.grid(alpha=0.3)
    
    # R√©sidus vs Pr√©dictions (d√©tection de patterns)
    ax2 = axes[1, i]
    ax2.scatter(y_pred, residuals, alpha=0.6, s=50, edgecolors='black', linewidth=0.5)
    ax2.axhline(0, color='red', linestyle='--', linewidth=2)
    ax2.set_xlabel('Pr√©dictions', fontsize=11)
    ax2.set_ylabel('R√©sidus', fontsize=11)
    ax2.set_title(f'{name} - R√©sidus vs Pr√©dictions', fontsize=12, fontweight='bold')
    ax2.grid(alpha=0.3)

plt.tight_layout()
plt.show()

print("\nAnalyse des r√©sidus :")
print("\nüìà Histogramme :")
print("  - Centr√© sur 0 : le mod√®le n'est pas biais√©")
print("  - Forme en cloche (normale) : hypoth√®se de normalit√© v√©rifi√©e")
print("\nüìà R√©sidus vs Pr√©dictions :")
print("  - Points al√©atoires autour de 0 : bon mod√®le (pas de pattern)")
print("  - Pattern visible (courbe, tendance) : mod√®le ne capture pas toute la complexit√©")
print("  - Variance croissante : h√©t√©rosc√©dasticit√© (probl√®me potentiel)")

## 8. Impact des Outliers sur les M√©triques

Cr√©ons un dataset avec outliers pour comprendre la diff√©rence entre RMSE et MAE.

In [None]:
# Cr√©er des donn√©es synth√©tiques
np.random.seed(42)
n_samples = 100

# Vraies valeurs
y_true = np.linspace(0, 100, n_samples)

# Pr√©dictions avec erreur normale
y_pred_normal = y_true + np.random.normal(0, 5, n_samples)

# Pr√©dictions avec quelques outliers (erreurs tr√®s importantes)
y_pred_outliers = y_pred_normal.copy()
outlier_indices = [10, 25, 50, 75, 90]
y_pred_outliers[outlier_indices] += np.random.choice([-40, -30, 30, 40], size=len(outlier_indices))

print("Dataset synth√©tique cr√©√© :")
print(f"  - {n_samples} exemples")
print(f"  - Sans outliers : erreur normale (std=5)")
print(f"  - Avec outliers : {len(outlier_indices)} erreurs extr√™mes ajout√©es")

In [None]:
# Calcul des m√©triques avec et sans outliers
metrics_comparison = []

for label, y_pred in [('Sans outliers', y_pred_normal), ('Avec outliers', y_pred_outliers)]:
    mse = mean_squared_error(y_true, y_pred)
    rmse = mean_squared_error(y_true, y_pred, squared=False)
    mae = mean_absolute_error(y_true, y_pred)
    r2 = r2_score(y_true, y_pred)
    
    metrics_comparison.append({
        'Cas': label,
        'MSE': mse,
        'RMSE': rmse,
        'MAE': mae,
        'R¬≤': r2,
        'Ratio RMSE/MAE': rmse / mae
    })

df_comparison = pd.DataFrame(metrics_comparison)

print("\n" + "=" * 80)
print("IMPACT DES OUTLIERS SUR LES M√âTRIQUES")
print("=" * 80)
print(df_comparison.to_string(index=False))

# Calcul des variations
mse_increase = (df_comparison.loc[1, 'MSE'] - df_comparison.loc[0, 'MSE']) / df_comparison.loc[0, 'MSE'] * 100
rmse_increase = (df_comparison.loc[1, 'RMSE'] - df_comparison.loc[0, 'RMSE']) / df_comparison.loc[0, 'RMSE'] * 100
mae_increase = (df_comparison.loc[1, 'MAE'] - df_comparison.loc[0, 'MAE']) / df_comparison.loc[0, 'MAE'] * 100

print("\nüìä ANALYSE :")
print(f"  - MSE augmente de {mse_increase:.1f}% avec les outliers (tr√®s sensible !)")
print(f"  - RMSE augmente de {rmse_increase:.1f}% avec les outliers (sensible)")
print(f"  - MAE augmente de {mae_increase:.1f}% avec les outliers (robuste)")
print("\nüí° CONCLUSION :")
print("  - MAE est beaucoup plus robuste aux outliers que RMSE/MSE")
print("  - Le ratio RMSE/MAE indique la pr√©sence d'outliers :")
print(f"    ‚Ä¢ Sans outliers : {df_comparison.loc[0, 'Ratio RMSE/MAE']:.2f} (proche de 1)")
print(f"    ‚Ä¢ Avec outliers : {df_comparison.loc[1, 'Ratio RMSE/MAE']:.2f} (> 1.5 = outliers d√©tect√©s)")

In [None]:
# Visualisation de l'impact des outliers
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# Sans outliers
ax = axes[0]
ax.scatter(y_true, y_pred_normal, alpha=0.6, s=50, label='Pr√©dictions', color='blue')
ax.plot([0, 100], [0, 100], 'r--', linewidth=2, label='Pr√©diction parfaite')
ax.set_xlabel('Vraies Valeurs', fontsize=12)
ax.set_ylabel('Pr√©dictions', fontsize=12)
ax.set_title(f'Sans Outliers\nRMSE={df_comparison.loc[0, "RMSE"]:.2f}, MAE={df_comparison.loc[0, "MAE"]:.2f}', 
             fontsize=13, fontweight='bold')
ax.legend()
ax.grid(alpha=0.3)

# Avec outliers
ax = axes[1]
ax.scatter(y_true, y_pred_outliers, alpha=0.6, s=50, label='Pr√©dictions', color='green')
ax.scatter(y_true[outlier_indices], y_pred_outliers[outlier_indices], 
           color='red', s=150, marker='X', edgecolors='black', linewidth=2, 
           label='Outliers', zorder=5)
ax.plot([0, 100], [0, 100], 'r--', linewidth=2, label='Pr√©diction parfaite')
ax.set_xlabel('Vraies Valeurs', fontsize=12)
ax.set_ylabel('Pr√©dictions', fontsize=12)
ax.set_title(f'Avec Outliers\nRMSE={df_comparison.loc[1, "RMSE"]:.2f}, MAE={df_comparison.loc[1, "MAE"]:.2f}', 
             fontsize=13, fontweight='bold')
ax.legend()
ax.grid(alpha=0.3)

plt.tight_layout()
plt.show()

print("\nVisuellement, on voit que :")
print("  - Les outliers (croix rouges) s'√©cartent beaucoup de la ligne de pr√©diction parfaite")
print("  - RMSE augmente plus que MAE car il met au carr√© les erreurs (p√©nalise les grandes erreurs)")
print("  - MAE traite toutes les erreurs de mani√®re proportionnelle (plus robuste)")

## 9. Guide de S√©lection des M√©triques

In [None]:
print("\n" + "=" * 80)
print("GUIDE DE S√âLECTION DES M√âTRIQUES DE R√âGRESSION")
print("=" * 80)

print("\nüéØ MSE (Mean Squared Error)")
print("   ‚úÖ Quand utiliser :")
print("      - Optimisation math√©matique (d√©rivable, convexe)")
print("      - Grandes erreurs tr√®s p√©nalisantes (finance, s√©curit√©)")
print("   ‚ùå √âviter si :")
print("      - Dataset contient des outliers")
print("      - Besoin d'interpr√©tabilit√© (unit√© au carr√©)")

print("\nüéØ RMSE (Root Mean Squared Error)")
print("   ‚úÖ Quand utiliser :")
print("      - M√™me unit√© que la cible (facile √† interpr√©ter)")
print("      - Grandes erreurs plus p√©nalisantes")
print("      - Standard pour la r√©gression (d√©faut)")
print("   ‚ùå √âviter si :")
print("      - Dataset contient beaucoup d'outliers")

print("\nüéØ MAE (Mean Absolute Error)")
print("   ‚úÖ Quand utiliser :")
print("      - Dataset avec outliers")
print("      - Toutes les erreurs ont un co√ªt similaire")
print("      - Besoin de robustesse")
print("   ‚ùå √âviter si :")
print("      - Grandes erreurs doivent √™tre fortement p√©nalis√©es")

print("\nüéØ R¬≤ (Coefficient de D√©termination)")
print("   ‚úÖ Quand utiliser :")
print("      - Comparer des mod√®les (ind√©pendant de l'√©chelle)")
print("      - Mesurer la proportion de variance expliqu√©e")
print("      - Communication (facile √† expliquer : 0-100%)")
print("   ‚ùå √âviter si :")
print("      - Seul crit√®re (peut masquer des probl√®mes)")
print("      - Beaucoup de features (pr√©f√©rer R¬≤ ajust√©)")

print("\nüéØ MAPE (Mean Absolute Percentage Error)")
print("   ‚úÖ Quand utiliser :")
print("      - Comparer diff√©rents datasets (ind√©pendant de l'√©chelle)")
print("      - Interpr√©tation en pourcentage (business)")
print("   ‚ùå √âviter si :")
print("      - Cible contient des 0 (division par 0)")
print("      - Asym√©trie probl√©matique (p√©nalise plus surestimation)")

print("\n" + "=" * 80)
print("üí° RECOMMANDATION G√âN√âRALE :")
print("   Toujours reporter PLUSIEURS m√©triques (ex: RMSE + MAE + R¬≤)")
print("   Cela donne une vision compl√®te de la performance du mod√®le.")
print("=" * 80)

## 10. R√©sum√© et Conclusions

In [None]:
print("\n" + "=" * 80)
print("R√âSUM√â DU NOTEBOOK - M√âTRIQUES DE R√âGRESSION")
print("=" * 80)

print("\n‚úÖ Ce que nous avons appris :")
print("\n1. MSE vs RMSE vs MAE :")
print("   - MSE p√©nalise fortement les grandes erreurs (au carr√©)")
print("   - RMSE est plus interpr√©table (m√™me unit√© que y)")
print("   - MAE est robuste aux outliers")

print("\n2. R¬≤ mesure la variance expliqu√©e :")
print("   - R¬≤ = 1 : mod√®le parfait")
print("   - R¬≤ = 0 : mod√®le √©quivalent √† pr√©dire la moyenne")
print("   - R¬≤ < 0 : mod√®le tr√®s mauvais")

print("\n3. MAPE donne une erreur en pourcentage :")
print("   - Ind√©pendant de l'√©chelle")
print("   - Attention aux divisions par 0")

print("\n4. Les r√©sidus donnent des informations pr√©cieuses :")
print("   - Distribution normale centr√©e sur 0 : bon mod√®le")
print("   - Pattern dans les r√©sidus : mod√®le incomplet")

print("\n5. Le ratio RMSE/MAE d√©tecte les outliers :")
print("   - Proche de 1 : peu d'outliers")
print("   - > 1.5 : pr√©sence d'outliers significatifs")

print("\n6. Toujours reporter PLUSIEURS m√©triques :")
print("   - RMSE + MAE + R¬≤ est un bon trio par d√©faut")
print("   - Chaque m√©trique apporte une information diff√©rente")

print("\n" + "=" * 80)
print("üìö Prochaine √©tape : Validation crois√©e pour une √©valuation robuste")
print("=" * 80)

## Exercices

1. Calculez le R¬≤ ajust√© pour chaque mod√®le. Lequel reste le meilleur ?

2. Cr√©ez un dataset o√π RMSE >> MAE et expliquez pourquoi.

3. Impl√©mentez vous-m√™me les fonctions `mse()`, `mae()`, `r2_score()` en NumPy pur.

4. Tracez la courbe de learning (train vs test scores) pour d√©tecter l'overfitting.

5. Comparez MAPE avec sMAPE (symmetric MAPE) qui corrige l'asym√©trie.