

# Guide Complet des Métriques de Machine Learning

## Table des matières
1. [Introduction](#introduction)
2. [Métriques de Classification](#métriques-de-classification)
3. [Métriques de Régression](#métriques-de-régression)
4. [Métriques de Clustering](#métriques-de-clustering)
5. [Métriques pour Problèmes Multi-Classes](#métriques-multi-classes)
6. [Bibliothèques et Imports](#bibliothèques-et-imports)

---

## Introduction

Les métriques de Machine Learning sont essentielles pour évaluer les performances de vos modèles. Le choix de la métrique dépend du type de problème, du contexte métier et de l'équilibre souhaité entre différents types d'erreurs.

---

## Métriques de Classification

### 1. Matrice de Confusion

**Utilité** : Base de toutes les métriques de classification binaire

**Structure** :
```
                 Prédiction
              Positif  Négatif
Réel Positif    TP       FN
     Négatif    FP       TN
```

- **TP (True Positive)** : Vrais positifs
- **TN (True Negative)** : Vrais négatifs
- **FP (False Positive)** : Faux positifs (Erreur de Type I)
- **FN (False Negative)** : Faux négatifs (Erreur de Type II)

**Code** :
```python
from sklearn.metrics import confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt

# Générer la matrice de confusion
cm = confusion_matrix(y_true, y_pred)

# Visualisation
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
plt.ylabel('Vraies valeurs')
plt.xlabel('Prédictions')
plt.show()
```

---

### 2. Accuracy (Exactitude)

**Formule** : 

$$\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}$$

**Utilité** : Proportion de prédictions correctes parmi toutes les prédictions

**Quand l'utiliser** :
-  Classes équilibrées
-  Coût égal des faux positifs et faux négatifs

**Quand NE PAS l'utiliser** :
-  Classes déséquilibrées (ex: détection de fraude avec 1% de fraudes)
-  Lorsqu'un type d'erreur est plus coûteux que l'autre

**Interprétation** : 
- Valeur entre 0 et 1 (ou 0% et 100%)
- Plus élevée = meilleure performance
- Ex: 0.95 = 95% de prédictions correctes

**Code** :
```python
from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_true, y_pred)
print(f"Accuracy: {accuracy:.4f}")
```

---

### 3. Precision (Précision)

**Formule** : 

$$\text{Precision} = \frac{TP}{TP + FP}$$

**Utilité** : Parmi les éléments prédits positifs, quelle proportion est réellement positive ?

**Quand l'utiliser** :
-  Minimiser les faux positifs est critique
-  Détection de spam (éviter de classer des emails importants comme spam)
-  Recommandation de produits (éviter de recommander des produits non pertinents)

**Interprétation** :
- Valeur entre 0 et 1
- Haute précision = peu de faux positifs
- Ex: Precision = 0.9 → 90% des prédictions positives sont correctes

**Code** :
```python
from sklearn.metrics import precision_score

precision = precision_score(y_true, y_pred)
print(f"Precision: {precision:.4f}")

# Pour multi-classes
precision_macro = precision_score(y_true, y_pred, average='macro')
precision_weighted = precision_score(y_true, y_pred, average='weighted')
```

---

### 4. Recall (Rappel / Sensibilité / True Positive Rate)

**Formule** : 

$$\text{Recall} = \frac{TP}{TP + FN}$$

**Utilité** : Parmi tous les éléments réellement positifs, quelle proportion a été correctement identifiée ?

**Quand l'utiliser** :
-  Minimiser les faux négatifs est critique
-  Diagnostic médical (ne pas manquer de maladies)
-  Détection de fraude (capturer toutes les fraudes)
-  Détection d'objets critiques (défauts de fabrication)

**Interprétation** :
- Valeur entre 0 et 1
- Haut recall = peu de faux négatifs
- Ex: Recall = 0.85 → 85% des cas positifs sont détectés

**Code** :
```python
from sklearn.metrics import recall_score

recall = recall_score(y_true, y_pred)
print(f"Recall: {recall:.4f}")
```

---

### 5. F1-Score

**Formule** : 

$$F1 = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}} = \frac{2 \times TP}{2 \times TP + FP + FN}$$

**Utilité** : Moyenne harmonique entre Precision et Recall

**Quand l'utiliser** :
- Classes déséquilibrées
- Besoin d'équilibre entre Precision et Recall
- Métrique unique pour comparer des modèles

**Interprétation** :
- Valeur entre 0 et 1
- F1 = 1 → Precision et Recall parfaits
- F1 est pénalisé si Precision ou Recall est faible

**Code** :
```python
from sklearn.metrics import f1_score

f1 = f1_score(y_true, y_pred)
print(f"F1-Score: {f1:.4f}")

# Variantes
f1_macro = f1_score(y_true, y_pred, average='macro')
f1_weighted = f1_score(y_true, y_pred, average='weighted')
```

---

### 6. F-Beta Score

**Formule** : 

$$F_\beta = (1 + \beta^2) \times \frac{\text{Precision} \times \text{Recall}}{\beta^2 \times \text{Precision} + \text{Recall}}$$

**Utilité** : Généralisation du F1-Score permettant de pondérer Precision vs Recall

**Paramètre β** :
- β < 1 : Favorise la Precision
- β = 1 : F1-Score (équilibre)
- β > 1 : Favorise le Recall
- β = 2 : F2-Score (Recall 2× plus important)
- β = 0.5 : F0.5-Score (Precision 2× plus important)

**Quand l'utiliser** :
- F2 pour détection médicale (privilégier Recall)
- F0.5 pour filtres anti-spam (privilégier Precision)

**Code** :
```python
from sklearn.metrics import fbeta_score

# F2-Score (favorise Recall)
f2 = fbeta_score(y_true, y_pred, beta=2)

# F0.5-Score (favorise Precision)
f05 = fbeta_score(y_true, y_pred, beta=0.5)

print(f"F2-Score: {f2:.4f}")
print(f"F0.5-Score: {f05:.4f}")
```

---

### 7. ROC AUC (Area Under ROC Curve)

**Utilité** : Mesure la capacité du modèle à distinguer entre les classes

**Composantes de la courbe ROC** :
- **Axe X** : False Positive Rate (FPR) = FP / (FP + TN)
- **Axe Y** : True Positive Rate (TPR) = TP / (TP + FN) = Recall

**Formule AUC** : Aire sous la courbe ROC

**Interprétation** :
- AUC = 0.5 : Modèle aléatoire (inutile)
- 0.5 < AUC < 0.7 : Performance faible
- 0.7 ≤ AUC < 0.8 : Performance acceptable
- 0.8 ≤ AUC < 0.9 : Performance bonne
- AUC ≥ 0.9 : Performance excellente
- AUC = 1.0 : Modèle parfait

**Quand l'utiliser** :
- Évaluer les modèles probabilistes
- Comparer différents modèles
- Classes déséquilibrées
- Indépendant du seuil de classification

**Code** :
```python
from sklearn.metrics import roc_auc_score, roc_curve
import matplotlib.pyplot as plt

# Calculer AUC
auc = roc_auc_score(y_true, y_pred_proba)
print(f"ROC AUC: {auc:.4f}")

# Tracer la courbe ROC
fpr, tpr, thresholds = roc_curve(y_true, y_pred_proba)
plt.plot(fpr, tpr, label=f'ROC Curve (AUC = {auc:.2f})')
plt.plot([0, 1], [0, 1], 'k--', label='Random')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC Curve')
plt.legend()
plt.show()
```

---

### 8. Precision-Recall AUC

**Utilité** : Alternative au ROC AUC pour les classes très déséquilibrées

**Quand l'utiliser** :
- Classes très déséquilibrées (ex: 1% de positifs)
- Focus sur la classe minoritaire positive
- ROC AUC peut être trop optimiste

**Interprétation** :
- Valeur entre 0 et 1
- Plus élevée = meilleure performance
- Baseline = proportion de la classe positive

**Code** :
```python
from sklearn.metrics import average_precision_score, precision_recall_curve

# Calculer PR AUC
pr_auc = average_precision_score(y_true, y_pred_proba)
print(f"PR AUC: {pr_auc:.4f}")

# Tracer la courbe Precision-Recall
precision, recall, thresholds = precision_recall_curve(y_true, y_pred_proba)
plt.plot(recall, precision, label=f'PR Curve (AUC = {pr_auc:.2f})')
plt.xlabel('Recall')
plt.ylabel('Precision')
plt.title('Precision-Recall Curve')
plt.legend()
plt.show()
```

---

### 9. Log Loss (Cross-Entropy Loss)

**Formule** : 

$$\text{Log Loss} = -\frac{1}{N}\sum_{i=1}^{N} [y_i \log(p_i) + (1-y_i) \log(1-p_i)]$$

**Utilité** : Mesure la qualité des probabilités prédites

**Interprétation** :
- Valeur ≥ 0
- Plus faible = meilleure performance
- Pénalise fortement les prédictions confiantes mais fausses

**Quand l'utiliser** :
- Évaluer la calibration des probabilités
- Modèles probabilistes
- Fonction de perte pour l'entraînement

**Code** :
```python
from sklearn.metrics import log_loss

logloss = log_loss(y_true, y_pred_proba)
print(f"Log Loss: {logloss:.4f}")
```

---

### 10. Matthews Correlation Coefficient (MCC)

**Formule** : 

$$MCC = \frac{TP \times TN - FP \times FN}{\sqrt{(TP+FP)(TP+FN)(TN+FP)(TN+FN)}}$$

**Utilité** : Mesure de corrélation entre prédictions et vraies valeurs

**Interprétation** :
- Valeur entre -1 et +1
- +1 : Prédiction parfaite
- 0 : Prédiction aléatoire
- -1 : Désaccord total

**Quand l'utiliser** :
- Classes déséquilibrées
- Métrique unique robuste
- Prend en compte les 4 valeurs de la matrice de confusion

**Code** :
```python
from sklearn.metrics import matthews_corrcoef

mcc = matthews_corrcoef(y_true, y_pred)
print(f"MCC: {mcc:.4f}")
```

---

### 11. Cohen's Kappa

**Formule** : 

$$\kappa = \frac{p_o - p_e}{1 - p_e}$$

où :
- $p_o$ = Accuracy observée
- $p_e$ = Accuracy attendue par hasard

**Utilité** : Mesure l'accord en tenant compte du hasard

**Interprétation** :
- κ < 0 : Accord pire que le hasard
- 0 ≤ κ < 0.2 : Accord faible
- 0.2 ≤ κ < 0.4 : Accord moyen
- 0.4 ≤ κ < 0.6 : Accord modéré
- 0.6 ≤ κ < 0.8 : Accord important
- κ ≥ 0.8 : Accord presque parfait

**Quand l'utiliser** :
- Inter-annotateur agreement
- Classes déséquilibrées

**Code** :
```python
from sklearn.metrics import cohen_kappa_score

kappa = cohen_kappa_score(y_true, y_pred)
print(f"Cohen's Kappa: {kappa:.4f}")
```

---

## Métriques de Régression

### 1. Mean Absolute Error (MAE)

**Formule** : 

$$MAE = \frac{1}{N}\sum_{i=1}^{N} |y_i - \hat{y}_i|$$

**Utilité** : Erreur absolue moyenne

**Interprétation** :
- Valeur ≥ 0
- Même unité que la variable cible
- Robuste aux outliers
- Ex: MAE = 5 → erreur moyenne de 5 unités

**Quand l'utiliser** :
- Interprétation intuitive nécessaire
- Présence d'outliers
- Toutes les erreurs ont la même importance

**Code** :
```python
from sklearn.metrics import mean_absolute_error

mae = mean_absolute_error(y_true, y_pred)
print(f"MAE: {mae:.4f}")
```

---

### 2. Mean Squared Error (MSE)

**Formule** : 

$$MSE = \frac{1}{N}\sum_{i=1}^{N} (y_i - \hat{y}_i)^2$$

**Utilité** : Erreur quadratique moyenne

**Interprétation** :
- Valeur ≥ 0
- Unité = (unité de y)²
- Pénalise fortement les grandes erreurs
- Sensible aux outliers

**Quand l'utiliser** :
- Grandes erreurs doivent être pénalisées
- Fonction de perte pour l'entraînement
- Données sans outliers extrêmes

**Code** :
```python
from sklearn.metrics import mean_squared_error

mse = mean_squared_error(y_true, y_pred)
print(f"MSE: {mse:.4f}")
```

---

### 3. Root Mean Squared Error (RMSE)

**Formule** : 

$$RMSE = \sqrt{\frac{1}{N}\sum_{i=1}^{N} (y_i - \hat{y}_i)^2} = \sqrt{MSE}$$

**Utilité** : Racine de l'erreur quadratique moyenne

**Interprétation** :
- Valeur ≥ 0
- Même unité que la variable cible
- Plus interprétable que MSE
- Sensible aux outliers

**Quand l'utiliser** :
- Mêmes cas que MSE mais avec interprétabilité
- Comparer des modèles

**Code** :
```python
from sklearn.metrics import mean_squared_error
import numpy as np

rmse = np.sqrt(mean_squared_error(y_true, y_pred))
# OU
rmse = mean_squared_error(y_true, y_pred, squared=False)
print(f"RMSE: {rmse:.4f}")
```

---

### 4. R² (Coefficient de Détermination)

**Formule** : 

$$R^2 = 1 - \frac{\sum_{i=1}^{N}(y_i - \hat{y}_i)^2}{\sum_{i=1}^{N}(y_i - \bar{y})^2} = 1 - \frac{SS_{res}}{SS_{tot}}$$

**Utilité** : Proportion de variance expliquée par le modèle

**Interprétation** :
- R² = 1 : Modèle parfait
- R² = 0 : Modèle aussi bon que la moyenne
- R² < 0 : Modèle pire que la moyenne
- Ex: R² = 0.85 → 85% de la variance expliquée

**Quand l'utiliser** :
- Évaluer la qualité globale du modèle
- Comparer des modèles
- Contexte de régression linéaire

**Limitations** :
- Peut être trompeur avec beaucoup de variables
- Augmente toujours avec plus de features

**Code** :
```python
from sklearn.metrics import r2_score

r2 = r2_score(y_true, y_pred)
print(f"R²: {r2:.4f}")
```

---

### 5. Adjusted R²

**Formule** : 

$$R^2_{adj} = 1 - \frac{(1-R^2)(N-1)}{N-p-1}$$

où :
- N = nombre d'observations
- p = nombre de variables explicatives

**Utilité** : R² ajusté pour le nombre de variables

**Interprétation** :
- Pénalise l'ajout de variables non pertinentes
- Plus conservateur que R²

**Quand l'utiliser** :
- Comparer des modèles avec différents nombres de features
- Sélection de variables

**Code** :
```python
from sklearn.metrics import r2_score

def adjusted_r2(y_true, y_pred, n_features):
    r2 = r2_score(y_true, y_pred)
    n = len(y_true)
    adj_r2 = 1 - (1 - r2) * (n - 1) / (n - n_features - 1)
    return adj_r2

adj_r2 = adjusted_r2(y_true, y_pred, n_features=5)
print(f"Adjusted R²: {adj_r2:.4f}")
```

---

### 6. Mean Absolute Percentage Error (MAPE)

**Formule** : 

$$MAPE = \frac{100\%}{N}\sum_{i=1}^{N} \left|\frac{y_i - \hat{y}_i}{y_i}\right|$$

**Utilité** : Erreur absolue en pourcentage

**Interprétation** :
- Valeur en pourcentage
- Indépendant de l'échelle
- Ex: MAPE = 10% → erreur moyenne de 10%

**Quand l'utiliser** :
- Comparer des modèles sur différentes échelles
- Communication avec non-experts

**Limitations** :
- Indéfini si y = 0
- Asymétrique (pénalise + les sous-estimations)

**Code** :
```python
from sklearn.metrics import mean_absolute_percentage_error

mape = mean_absolute_percentage_error(y_true, y_pred)
print(f"MAPE: {mape:.4f} ({mape*100:.2f}%)")
```

---

### 7. Median Absolute Error

**Formule** : 

$$MedAE = \text{median}(|y_i - \hat{y}_i|)$$

**Utilité** : Médiane de l'erreur absolue

**Interprétation** :
- Très robuste aux outliers
- 50% des erreurs sont inférieures à cette valeur

**Quand l'utiliser** :
- Données avec outliers importants
- Distribution d'erreurs asymétrique

**Code** :
```python
from sklearn.metrics import median_absolute_error

medae = median_absolute_error(y_true, y_pred)
print(f"Median Absolute Error: {medae:.4f}")
```

---

### 8. Explained Variance Score

**Formule** : 

$$\text{Explained Variance} = 1 - \frac{Var(y - \hat{y})}{Var(y)}$$

**Utilité** : Proportion de variance expliquée

**Interprétation** :
- Similaire à R² mais sans le biais
- Valeur entre 0 et 1

**Code** :
```python
from sklearn.metrics import explained_variance_score

evs = explained_variance_score(y_true, y_pred)
print(f"Explained Variance: {evs:.4f}")
```

---

### 9. Max Error

**Formule** : 

$$\text{Max Error} = \max_{i}|y_i - \hat{y}_i|$$

**Utilité** : Erreur maximale commise

**Quand l'utiliser** :
- Identifier le pire cas
- Applications critiques (sécurité)

**Code** :
```python
from sklearn.metrics import max_error

max_err = max_error(y_true, y_pred)
print(f"Max Error: {max_err:.4f}")
```

---

## Métriques de Clustering

### 1. Silhouette Score

**Formule** : 

$$s(i) = \frac{b(i) - a(i)}{\max(a(i), b(i))}$$

où :
- a(i) = distance moyenne intra-cluster
- b(i) = distance moyenne au cluster le plus proche

**Interprétation** :
- Valeur entre -1 et +1
- s ≈ 1 : Bien clusterisé
- s ≈ 0 : Sur la frontière
- s < 0 : Mal assigné

**Quand l'utiliser** :
- Évaluer la qualité du clustering
- Choisir le nombre optimal de clusters

**Code** :
```python
from sklearn.metrics import silhouette_score, silhouette_samples

# Score global
silhouette_avg = silhouette_score(X, cluster_labels)
print(f"Silhouette Score: {silhouette_avg:.4f}")

# Scores par échantillon
silhouette_vals = silhouette_samples(X, cluster_labels)
```

---

### 2. Davies-Bouldin Index

**Formule** : 

$$DB = \frac{1}{k}\sum_{i=1}^{k}\max_{j \neq i}\left(\frac{\sigma_i + \sigma_j}{d(c_i, c_j)}\right)$$

**Utilité** : Ratio de la dispersion intra-cluster sur la séparation inter-cluster

**Interprétation** :
- Valeur ≥ 0
- Plus faible = meilleur clustering
- 0 = clusters parfaits

**Quand l'utiliser** :
- Comparer différents algorithmes de clustering
- Sélectionner le nombre de clusters

**Code** :
```python
from sklearn.metrics import davies_bouldin_score

db_index = davies_bouldin_score(X, cluster_labels)
print(f"Davies-Bouldin Index: {db_index:.4f}")
```

---

### 3. Calinski-Harabasz Index (Variance Ratio)

**Formule** : 

$$CH = \frac{SS_B / (k-1)}{SS_W / (N-k)}$$

où :
- SS_B = variance inter-cluster
- SS_W = variance intra-cluster
- k = nombre de clusters
- N = nombre d'échantillons

**Interprétation** :
- Valeur ≥ 0
- Plus élevé = meilleur clustering

**Quand l'utiliser** :
- Clusters convexes et bien séparés
- Rapide à calculer

**Code** :
```python
from sklearn.metrics import calinski_harabasz_score

ch_score = calinski_harabasz_score(X, cluster_labels)
print(f"Calinski-Harabasz Score: {ch_score:.4f}")
```

---

### 4. Adjusted Rand Index (ARI)

**Formule** : 

$$ARI = \frac{RI - E[RI]}{\max(RI) - E[RI]}$$

**Utilité** : Mesure de similarité entre deux clusterings (corrigée du hasard)

**Interprétation** :
- Valeur entre -1 et +1
- 1 : Accord parfait
- 0 : Accord aléatoire
- < 0 : Accord pire que le hasard

**Quand l'utiliser** :
- Comparer avec un clustering de référence (ground truth)
- Évaluer la stabilité du clustering

**Code** :
```python
from sklearn.metrics import adjusted_rand_score

ari = adjusted_rand_score(true_labels, cluster_labels)
print(f"Adjusted Rand Index: {ari:.4f}")
```

---

### 5. Normalized Mutual Information (NMI)

**Formule** : 

$$NMI(U,V) = \frac{2 \times I(U;V)}{H(U) + H(V)}$$

**Utilité** : Information mutuelle normalisée entre deux clusterings

**Interprétation** :
- Valeur entre 0 et 1
- 1 : Accord parfait
- 0 : Pas d'information mutuelle

**Quand l'utiliser** :
- Comparer avec labels de référence
- Robuste au nombre de clusters

**Code** :
```python
from sklearn.metrics import normalized_mutual_info_score

nmi = normalized_mutual_info_score(true_labels, cluster_labels)
print(f"Normalized Mutual Information: {nmi:.4f}")
```

---

## Métriques Multi-Classes

### Stratégies d'agrégation

Pour les problèmes multi-classes, plusieurs stratégies existent :

#### 1. **Macro Average**

**Formule** : 

$$\text{Macro} = \frac{1}{C}\sum_{c=1}^{C} \text{Metric}_c$$

**Utilité** : Moyenne non pondérée sur toutes les classes

**Quand l'utiliser** :
- Toutes les classes ont la même importance
- Classes déséquilibrées (pour ne pas favoriser les classes majoritaires)

**Code** :
```python
from sklearn.metrics import precision_score, recall_score, f1_score

precision_macro = precision_score(y_true, y_pred, average='macro')
recall_macro = recall_score(y_true, y_pred, average='macro')
f1_macro = f1_score(y_true, y_pred, average='macro')
```

---

#### 2. **Weighted Average**

**Formule** : 

$$\text{Weighted} = \sum_{c=1}^{C} w_c \times \text{Metric}_c$$

où $w_c$ = proportion de la classe c

**Utilité** : Moyenne pondérée par le support de chaque classe

**Quand l'utiliser** :
- Classes déséquilibrées
- Classes importantes sont plus fréquentes

**Code** :
```python
precision_weighted = precision_score(y_true, y_pred, average='weighted')
recall_weighted = recall_score(y_true, y_pred, average='weighted')
f1_weighted = f1_score(y_true, y_pred, average='weighted')
```

---

#### 3. **Micro Average**

**Formule** : Calcul global sur tous les TP, FP, FN

$$\text{Micro Precision} = \frac{\sum_{c=1}^{C} TP_c}{\sum_{c=1}^{C} (TP_c + FP_c)}$$

**Utilité** : Chaque échantillon contribue également

**Quand l'utiliser** :
- Classes très déséquilibrées
- Focus sur la performance globale

**Code** :
```python
precision_micro = precision_score(y_true, y_pred, average='micro')
recall_micro = recall_score(y_true, y_pred, average='micro')
f1_micro = f1_score(y_true, y_pred, average='micro')
```

---

### Classification Report

**Utilité** : Rapport complet avec toutes les métriques par classe

**Code** :
```python
from sklearn.metrics import classification_report

report = classification_report(y_true, y_pred, target_names=['Class0', 'Class1', 'Class2'])
print(report)

# Sous forme de dictionnaire
report_dict = classification_report(y_true, y_pred, output_dict=True)
```

**Exemple de sortie** :
```
              precision    recall  f1-score   support

      Class0       0.85      0.90      0.87       100
      Class1       0.78      0.75      0.76        80
      Class2       0.92      0.88      0.90       120

    accuracy                           0.85       300
   macro avg       0.85      0.84      0.84       300
weighted avg       0.86      0.85      0.85       300
```

---

## Bibliothèques et Imports

### Imports complets

```python
# Bibliothèques principales
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Scikit-learn - Métriques de classification
from sklearn.metrics import (
    accuracy_score,
    precision_score,
    recall_score,
    f1_score,
    fbeta_score,
    confusion_matrix,
    classification_report,
    roc_auc_score,
    roc_curve,
    precision_recall_curve,
    average_precision_score,
    log_loss,
    matthews_corrcoef,
    cohen_kappa_score,
    hamming_loss,
    jaccard_score,
    zero_one_loss
)

# Métriques de régression
from sklearn.metrics import (
    mean_absolute_error,
    mean_squared_error,
    root_mean_squared_error,  # sklearn >= 1.4
    r2_score,
    mean_absolute_percentage_error,
    median_absolute_error,
    explained_variance_score,
    max_error,
    mean_squared_log_error,
    mean_poisson_deviance,
    mean_gamma_deviance,
    d2_absolute_error_score
)

# Métriques de clustering
from sklearn.metrics import (
    silhouette_score,
    silhouette_samples,
    davies_bouldin_score,
    calinski_harabasz_score,
    adjusted_rand_score,
    adjusted_mutual_info_score,
    normalized_mutual_info_score,
    fowlkes_mallows_score,
    homogeneity_score,
    completeness_score,
    v_measure_score
)

# Visualisations
from sklearn.metrics import ConfusionMatrixDisplay, RocCurveDisplay, PrecisionRecallDisplay
```

---

### Exemple complet d'évaluation

```python
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import *

# Données d'exemple
from sklearn.datasets import make_classification
X, y = make_classification(n_samples=1000, n_features=20, n_classes=2, 
                           weights=[0.9, 0.1], random_state=42)

# Split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entraînement
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

# Prédictions
y_pred = model.predict(X_test)
y_pred_proba = model.predict_proba(X_test)[:, 1]

# ======== ÉVALUATION COMPLÈTE ========

print("=" * 60)
print("MÉTRIQUES DE CLASSIFICATION BINAIRE")
print("=" * 60)

# Matrice de confusion
cm = confusion_matrix(y_test, y_pred)
print(f"\nMatrice de Confusion:\n{cm}")

# Métriques de base
print(f"\nAccuracy:    {accuracy_score(y_test, y_pred):.4f}")
print(f"Precision:   {precision_score(y_test, y_pred):.4f}")
print(f"Recall:      {recall_score(y_test, y_pred):.4f}")
print(f"F1-Score:    {f1_score(y_test, y_pred):.4f}")
print(f"F2-Score:    {fbeta_score(y_test, y_pred, beta=2):.4f}")

# Métriques avancées
print(f"\nROC AUC:     {roc_auc_score(y_test, y_pred_proba):.4f}")
print(f"PR AUC:      {average_precision_score(y_test, y_pred_proba):.4f}")
print(f"Log Loss:    {log_loss(y_test, y_pred_proba):.4f}")
print(f"MCC:         {matthews_corrcoef(y_test, y_pred):.4f}")
print(f"Cohen Kappa: {cohen_kappa_score(y_test, y_pred):.4f}")

# Rapport de classification
print("\n" + "=" * 60)
print("CLASSIFICATION REPORT")
print("=" * 60)
print(classification_report(y_test, y_pred))

# Visualisations
import matplotlib.pyplot as plt

fig, axes = plt.subplots(1, 3, figsize=(18, 5))

# 1. Matrice de confusion
ConfusionMatrixDisplay.from_predictions(y_test, y_pred, ax=axes[0], cmap='Blues')
axes[0].set_title('Confusion Matrix')

# 2. Courbe ROC
RocCurveDisplay.from_predictions(y_test, y_pred_proba, ax=axes[1])
axes[1].plot([0, 1], [0, 1], 'k--', label='Random')
axes[1].set_title('ROC Curve')
axes[1].legend()

# 3. Courbe Precision-Recall
PrecisionRecallDisplay.from_predictions(y_test, y_pred_proba, ax=axes[2])
axes[2].set_title('Precision-Recall Curve')

plt.tight_layout()
plt.show()
```

---

## Tableau Récapitulatif : Quand Utiliser Quelle Métrique ?

| Contexte | Métriques Recommandées | Raison |
|----------|------------------------|--------|
| **Classes équilibrées** | Accuracy, F1-Score | Simple et efficace |
| **Classes déséquilibrées** | F1, PR-AUC, MCC | Moins sensibles au déséquilibre |
| **Minimiser faux positifs** | Precision, F0.5 | Ex: filtrage spam |
| **Minimiser faux négatifs** | Recall, F2 | Ex: détection médicale |
| **Évaluation probabiliste** | ROC-AUC, Log Loss | Mesure la confiance |
| **Régression standard** | RMSE, R² | Interprétables |
| **Régression avec outliers** | MAE, Median AE | Robustes |
| **Régression comparative** | MAPE | Indépendant de l'échelle |
| **Clustering sans labels** | Silhouette, Davies-Bouldin | Mesures intrinsèques |
| **Clustering avec labels** | ARI, NMI | Mesures extrinsèques |
| **Multi-classes équilibrées** | Macro Average | Égalité entre classes |
| **Multi-classes déséquilibrées** | Weighted Average | Pondération par support |

---

## Conseils Pratiques

### 1. Validation Croisée

```python
from sklearn.model_selection import cross_val_score

# Évaluation avec validation croisée
scores = cross_val_score(model, X, y, cv=5, scoring='f1')
print(f"F1 scores: {scores}")
print(f"Mean F1: {scores.mean():.4f} (+/- {scores.std() * 2:.4f})")

# Plusieurs métriques
from sklearn.model_selection import cross_validate

scoring = ['accuracy', 'precision', 'recall', 'f1', 'roc_auc']
scores = cross_validate(model, X, y, cv=5, scoring=scoring)

for metric in scoring:
    print(f"{metric}: {scores['test_' + metric].mean():.4f}")
```


### 2. Optimisation du Seuil

```python
from sklearn.metrics import precision_recall_curve

# Trouver le meilleur seuil
precision, recall, thresholds = precision_recall_curve(y_test, y_pred_proba)
f1_scores = 2 * (precision * recall) / (precision + recall)
best_threshold = thresholds[np.argmax(f1_scores)]

print(f"Meilleur seuil: {best_threshold:.4f}")

# Prédictions avec nouveau seuil
y_pred_optimized = (y_pred_proba >= best_threshold).astype(int)
```


### 3. Courbe d'Apprentissage

```python
from sklearn.model_selection import learning_curve

train_sizes, train_scores, val_scores = learning_curve(
    model, X, y, cv=5, scoring='f1',
    train_sizes=np.linspace(0.1, 1.0, 10)
)

plt.plot(train_sizes, train_scores.mean(axis=1), label='Train')
plt.plot(train_sizes, val_scores.mean(axis=1), label='Validation')
plt.xlabel('Training Size')
plt.ylabel('F1 Score')
plt.legend()
plt.show()
```


### 4. Métriques Personnalisées

```python
from sklearn.metrics import make_scorer

def custom_metric(y_true, y_pred):
    # Votre logique personnalisée
    return np.mean((y_true == y_pred) & (y_true == 1))

custom_scorer = make_scorer(custom_metric)
scores = cross_val_score(model, X, y, cv=5, scoring=custom_scorer)
```



## Erreurs Courantes à Éviter

1. **Utiliser Accuracy sur des données déséquilibrées**
   - ❌ 99% d'accuracy peut être mauvais si 99% des données sont d'une classe
   - ✅ Utiliser F1, MCC, ou PR-AUC

2. **Oublier la validation croisée**
   - ❌ Évaluer uniquement sur un seul split
   - ✅ Utiliser k-fold cross-validation

3. **Data leakage dans les métriques**
   - ❌ Calculer les métriques sur les données d'entraînement
   - ✅ Toujours évaluer sur un ensemble de test séparé

4. **Ignorer le contexte métier**
   - ❌ Optimiser uniquement pour une métrique standard
   - ✅ Choisir la métrique selon le coût des erreurs

5. **Ne pas vérifier la calibration**
   - ❌ Utiliser des probabilités non calibrées
   - ✅ Vérifier avec des courbes de calibration

```python
from sklearn.calibration import calibration_curve

prob_true, prob_pred = calibration_curve(y_test, y_pred_proba, n_bins=10)
plt.plot(prob_pred, prob_true, marker='o')
plt.plot([0, 1], [0, 1], 'k--')
plt.xlabel('Predicted Probability')
plt.ylabel('True Probability')
plt.title('Calibration Curve')
plt.show()
```

---

## Ressources Supplémentaires

- **Documentation Scikit-learn** : https://scikit-learn.org/stable/modules/model_evaluation.html
- **Choosing the Right Metric** : https://neptune.ai/blog/performance-metrics-in-machine-learning-complete-guide
- **ROC vs PR Curves** : https://machinelearningmastery.com/roc-curves-and-precision-recall-curves-for-classification-in-python/



**Dernière mise à jour** : Février 2026
