# <a id='model-selection-and-evaluation'></a> 3. [**Sélection et évaluation de modèle**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/3_model_selection_and_evaluation.ipynb#model-selection-and-evaluation)</br>([*Model selection and evaluation*](https://scikit-learn.org/stable/model_selection.html#model-selection-and-evaluation))

# 3.3. [**Métriques et scoring : quantifier la qualité des prédictions**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/3_model_selection_and_evaluation.ipynb#metrics-and-scoring-quantifying-the-quality-of-predictions)<br/>([_Metrics and scoring: quantifying the quality of predictions_](https://scikit-learn.org/stable/model_selection.html#metrics-and-scoring-quantifying-the-quality-of-predictions))

Il existe 3 API différents pour évaluer la qualité des prédictions d'un modèle :

- **Méthode de score de l'estimateur :** Les estimateurs possèdent une méthode `score` fournissant un critère d'évaluation par défaut pour le problème auquel ils sont conçus pour résoudre. Cela n'est pas discuté sur cette page, mais dans la documentation de chaque estimateur.

- **Paramètre `scoring` :** Les outils d'évaluation du modèle utilisant la [**validation croisée** (3.1)](https://scikit-learn.org/stable/modules/cross_validation.html#cross-validation) (comme [**`model_selection.cross_val_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html) et [**`model_selection.GridSearchCV`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html)) reposent sur une stratégie de score interne. Cela est expliqué dans la section [**Paramètre `scoring` : définir les règles d'évaluation du modèle** (3.3.1)](https://scikit-learn.org/stable/modules/model_evaluation.html#scoring-parameter).

- **Fonctions de métriques :** Le module [**`sklearn.metrics`**](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics) implémente des fonctions permettant d'évaluer l'erreur de prédiction à des fins spécifiques. Ces métriques sont détaillées dans les sections sur les [**Métriques de classification** (3.3.2)](https://scikit-learn.org/stable/modules/model_evaluation.html), les [**Métriques de classement multi-étiquettes** (3.3.3)](https://scikit-learn.org/stable/modules/model_evaluation.html#multilabel-ranking-metrics), les [**Métriques de régression** (3.3.4)](https://scikit-learn.org/stable/modules/model_evaluation.html#regression-metrics) et les [**Métriques de regroupement** (3.3.5)](https://scikit-learn.org/stable/modules/model_evaluation.html#clustering-metrics).

Enfin, les [**Estimateurs factices** (3.3.6)](https://scikit-learn.org/stable/modules/model_evaluation.html#dummy-estimators) sont utiles pour obtenir une valeur de référence pour ces métriques pour des prédictions aléatoires.

> **Voir aussi :** Pour les métriques "pair à pair", entre les _échantillons_ et non les estimateurs ou les prédictions, voir la section [**Métriques pair à pair, affinités et noyaux** (6.8)](https://scikit-learn.org/stable/modules/metrics.html#metrics).

# Sommaire

- **Volume** : 63 pages, 19 exemples, 24 papiers
- 3.3.1. [**Le paramètre `scoring` : définir les règles d'évaluation du modèle**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/3_model_selection_and_evaluation.ipynb#the-scoring-parameter-defining-model-evaluation-rules)<br/>([_The `scoring` parameter: defining model evaluation rules_](https://scikit-learn.org/stable/model_selection.html#the-scoring-parameter-defining-model-evaluation-rules))
- 3.3.2. [**Métriques de classification**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/3_model_selection_and_evaluation.ipynb#classification-metrics)<br/>([_Classification metrics_](https://scikit-learn.org/stable/model_selection.html#classification-metrics))
- 3.3.3. [**Métriques de classement multi-étiquettes**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/3_model_selection_and_evaluation.ipynb#multilabel-ranking-metrics)<br/>([_Multilabel ranking metrics_](https://scikit-learn.org/stable/model_selection.html#multilabel-ranking-metrics))
- 3.3.4. [**Métriques de régression**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/3_model_selection_and_evaluation.ipynb#regression-metrics)<br/>([_Regression metrics_](https://scikit-learn.org/stable/model_selection.html#regression-metrics))
- 3.3.5. [**Métriques de clustering**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/3_model_selection_and_evaluation.ipynb#clustering-metrics)<br/>([_Clustering metrics_](https://scikit-learn.org/stable/model_selection.html#clustering-metrics))
- 3.3.6. [**Estimateurs factices**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/3_model_selection_and_evaluation.ipynb#dummy-estimators)<br/>([_Dummy estimators_](https://scikit-learn.org/stable/model_selection.html#dummy-estimators))

## <a id='the-scoring-parameter-defining-model-evaluation-rules'></a> 3.3.1. Le paramètre `scoring` : définir les règles d'évaluation du modèle

La sélection et l'évaluation des modèles à l'aide d'outils tels que [**`model_selection.GridSearchCV`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html) et [**`model_selection.cross_val_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html#sklearn.model_selection.cross_val_score) nécessitent un paramètre `scoring` qui contrôle la métrique appliquée aux estimateurs évalués.

### <a id='common-cases-predefined-values'></a> 3.3.1.1. Cas courants : valeurs prédéfinies

Pour les cas d'utilisation les plus courants, vous pouvez désigner un objet de métrique avec le paramètre `scoring`. Le tableau ci-dessous montre toutes les valeurs possibles. Tous les objets de métrique suivent la convention selon laquelle **des valeurs de retour plus élevées sont meilleures que des valeurs de retour plus basses**. Ainsi, les métriques qui mesurent la distance entre le modèle et les données, comme [**`metrics.mean_squared_error`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html), sont disponibles sous la forme `neg_mean_squared_error`, qui renvoie la valeur négative de la métrique.

| Métrique                             | Fonction                                                        | Commentaire                 |
|:-------------------------------------|:----------------------------------------------------------------|:----------------------------|
| **Classification**                   |                                                                 |                             |
| ‘accuracy’                           | [**`metrics.accuracy_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html)                |                             |
| ‘balanced_accuracy’                  | [**`metrics.balanced_accuracy_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.balanced_accuracy_score.html)       |                             |
| ‘top_k_accuracy’                     | [**`metrics.top_k_accuracy_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.top_k_accuracy_score.html)             |                             |
| ‘average_precision’                  | [**`metrics.average_precision_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.average_precision_score.html)       |                             |
| ‘neg_brier_score’                    | [**`metrics.brier_score_loss`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.brier_score_loss.html)                    |                             |
| ‘f1’                                 | [**`metrics.f1_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html)                                  | pour les cibles binaires   |
| ‘f1_micro’                           | [**`metrics.f1_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html)                                  | micro-average              |
| ‘f1_macro’                           | [**`metrics.f1_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html)                                  | macro-average              |
| ‘f1_weighted’                        | [**`metrics.f1_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html)                                  | moyenne pondérée           |
| ‘f1_samples’                         | [**`metrics.f1_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html)                                  | par échantillon multilabel |
| ‘neg_log_loss’                       | [**`metrics.log_loss`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.log_loss.html)                                  | nécessite le support de predict_proba|
| ‘precision’ etc.                     | [**`metrics.precision_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_score.html)                    | suffixes comme ‘f1’        |
| ‘recall’ etc.                        | [**`metrics.recall_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.recall_score.html)                          | suffixes comme ‘f1’        |
| ‘jaccard’ etc.                       | [**`metrics.jaccard_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.jaccard_score.html)                         | suffixes comme ‘f1’        |
| ‘roc_auc’                            | [**`metrics.roc_auc_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html)                           |                           |
| ‘roc_auc_ovr’                        | [**`metrics.roc_auc_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html)                           |                           |
| ‘roc_auc_ovo’                        | [**`metrics.roc_auc_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html)                           |                           |
| ‘roc_auc_ovr_weighted’               | [**`metrics.roc_auc_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html)                           |                           |
| ‘roc_auc_ovo_weighted’               | [**`metrics.roc_auc_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html)                           |                           |
| **Clustering**                       |                                                                |                           |
| ‘adjusted_mutual_info_score’         | [**`metrics.adjusted_mutual_info_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.adjusted_mutual_info_score.html) |                           |
| ‘adjusted_rand_score’                | [**`metrics.adjusted_rand_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.adjusted_rand_score.html)           |                           |
| ‘completeness_score’                 | [**`metrics.completeness_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.completeness_score.html)             |                           |
| ‘fowlkes_mallows_score’              | [**`metrics.fowlkes_mallows_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.fowlkes_mallows_score.html)       |                           |
| ‘homogeneity_score’                  | [**`metrics.homogeneity_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.homogeneity_score.html)               |                           |
| ‘mutual_info_score’                  | [**`metrics.mutual_info_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.html)               |                           |
| ‘normalized_mutual_info_score’       | [**`metrics.normalized_mutual_info_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.normalized_mutual_info_score.html) |                           |
| ‘rand_score’                         | [**`metrics.rand_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.rand_score.html)                               |                           |
| ‘v_measure_score’                    | [**`metrics.v_measure_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.v_measure_score.html)                     |                           |
| **Regression**                       |                                                                |                           |
| ‘explained_variance’                 | [**`metrics.explained_variance_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.explained_variance_score.html)   |                           |
| ‘max_error’                          | [**`metrics.max_error`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.max_error.html)                                 |                           |
| ‘neg_mean_absolute_error’            | [**`metrics.mean_absolute_error`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_absolute_error.html)           |                           |
| ‘neg_mean_squared_error’             | [**`metrics.mean_squared_error`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html)             |                           |
| ‘neg_root_mean_squared_error’        | [**`metrics.mean_squared_error`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html)             |                           |
| ‘neg_mean_squared_log_error’         | [**`metrics.mean_squared_log_error`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_log_error.html)     |                           |
| ‘neg_median_absolute_error’          | [**`metrics.median_absolute_error`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.median_absolute_error.html)       |                           |
| ‘r2’                                 | [**`metrics.r2_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html)                                   |                           |
| ‘neg_mean_poisson_deviance’          | [**`metrics.mean_poisson_deviance`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_poisson_deviance.html)       |                           |
| ‘neg_mean_gamma_deviance’            | [**`metrics.mean_gamma_deviance`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_gamma_deviance.html)           |                           |
| ‘neg_mean_absolute_percentage_error’ | [**`metrics.mean_absolute_percentage_error`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_absolute_percentage_error.html) |                           |
| ‘d2_absolute_error_score’            | [**`metrics.d2_absolute_error_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.d2_absolute_error_score.html)       |                           |
| ‘d2_pinball_score’                   | [**`metrics.d2_pinball_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.d2_pinball_score.html)                 |                           |
| ‘d2_tweedie_score’                   | [**`metrics.d2_tweedie_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.d2_tweedie_score.html)

Exemples d'utilisation :

In [1]:
from sklearn import svm, datasets
from sklearn.model_selection import cross_val_score
X, y = datasets.load_iris(return_X_y=True)
clf = svm.SVC(random_state=0)
cross_val_score(clf, X, y, cv=5, scoring='recall_macro')
# array([0.96..., 0.96..., 0.96..., 0.93..., 1.        ])

array([0.96666667, 0.96666667, 0.96666667, 0.93333333, 1.        ])

> **Note:** Si un nom de métrique incorrect est passé, une `InvalidParameterError` est levée. Vous pouvez récupérer les noms de toutes les métriques disponibles en appelant [**`get_scorer_names`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.get_scorer_names.html).

### <a id='defining-your-scoring-strategy-from-metric-functions'></a> 3.3.1.2. Définir votre stratégie d'évaluation à partir de fonctions de métriques

Le module [**`sklearn.metrics`**](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics) expose également un ensemble de fonctions simples mesurant l'erreur de prédiction en fonction des vérités terrain (ground truth) et des prédictions :
- Les fonctions se terminant par `_score` renvoient une valeur à maximiser, donc plus élevée est meilleure.
- Les fonctions se terminant par `_error` ou `_loss` renvoient une valeur à minimiser, donc plus faible est meilleure. Lors de la conversion en objet de métrique en utilisant [**`make_scorer`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.make_scorer.html), vous pouvez fixer le paramètre `greater_is_better` à `False` (`True` par défaut ; voir la description du paramètre ci-dessous).

Les métriques disponibles pour diverses tâches d'apprentissage automatique sont détaillées dans les sections ci-dessous.

De nombreuses métriques n'ont pas de noms spécifiques à utiliser comme valeurs de `scoring`, parfois parce qu'elles nécessitent des paramètres supplémentaires, tels que [**`fbeta_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.fbeta_score.html). Dans de tels cas, vous devez générer un objet de métrique approprié. La façon la plus simple de générer un objet callable pour la métrique est d'utiliser [**`make_scorer`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.make_scorer.html). Cette fonction convertit les métriques en objets callable pouvant être utilisés pour l'évaluation du modèle.

Un cas d'utilisation typique consiste à envelopper une fonction de métrique existante de la bibliothèque avec des valeurs autres que celles par défaut pour ses paramètres, tels que le paramètre `beta` pour la fonction [**`fbeta_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.fbeta_score.html) :

In [2]:
from sklearn.metrics import fbeta_score, make_scorer
ftwo_scorer = make_scorer(fbeta_score, beta=2)
from sklearn.model_selection import GridSearchCV
from sklearn.svm import LinearSVC
grid = GridSearchCV(LinearSVC(dual="auto"), param_grid={'C': [1, 10]},
                    scoring=ftwo_scorer, cv=5)

Le deuxième cas d'utilisation consiste à créer un objet de métrique complètement personnalisé à partir d'une simple fonction Python en utilisant [**`make_scorer`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.make_scorer.html), qui peut prendre plusieurs paramètres :
- la fonction Python que vous souhaitez utiliser (`my_custom_loss_func` dans l'exemple ci-dessous)
- si la fonction Python renvoie un score (`greater_is_better=True`, la valeur par défaut) ou une perte (`greater_is_better=False`). S'il s'agit d'une perte, la sortie de la fonction Python est inversée par l'objet de métrique, conformément à la convention de validation croisée selon laquelle les métriques renvoient des valeurs plus élevées pour les meilleurs modèles.
- pour les métriques de classification uniquement : si la fonction Python que vous avez fournie nécessite des certitudes de décision continues (`needs_threshold=True`). La valeur par défaut est False.
- tous les paramètres supplémentaires, tels que `beta` ou `labels` dans [**`f1_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html#sklearn.metrics.f1_score).

Voici un exemple de création de métriques personnalisées et d'utilisation du paramètre `greater_is_better` :

In [3]:
import numpy as np
def my_custom_loss_func(y_true, y_pred):
    diff = np.abs(y_true - y_pred).max()
    return np.log1p(diff)

# score will negate the return value of my_custom_loss_func,
# which will be np.log(2), 0.693, given the values for X
# and y defined below.
score = make_scorer(my_custom_loss_func, greater_is_better=False)
X = [[1], [1]]
y = [0, 1]
from sklearn.dummy import DummyClassifier
clf = DummyClassifier(strategy='most_frequent', random_state=0)
clf = clf.fit(X, y)
my_custom_loss_func(y, clf.predict(X))
# 0.69...
score(clf, X, y)
# -0.69...

-0.6931471805599453

### <a id='implementing-your-own-scoring-object'></a> 3.3.1.2. Implémentation de votre propre objet de métrique

Vous pouvez créer des métriques de modèle encore plus flexibles en construisant votre propre objet de métrique à partir de zéro, sans utiliser la fabrique [**`make_scorer`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.make_scorer.html).

**Comment créer une métrique à partir de zéro**

Pour qu'un callable soit une métrique, il doit respecter le protocole spécifié par les deux règles suivantes :
- Il peut être appelé avec les paramètres `(estimator, X, y)`, où `estimator` est le modèle qui doit être évalué, `X` est la donnée de validation et `y` est la vérité terrain pour `X` (dans le cas supervisé) ou `None` (dans le cas non supervisé).
- Il doit renvoyer un nombre à virgule flottante qui quantifie la qualité de prédiction de `estimator` sur `X`, par rapport à `y`. Encore une fois, selon la convention, les nombres plus élevés sont meilleurs. Donc, si votre métrique renvoie une perte, cette valeur doit être négative.
- **Avancé** : Si cela nécessite des métadonnées supplémentaires à lui passer, il doit exposer une méthode `get_metadata_routing` renvoyant les métadonnées demandées. L'utilisateur doit pouvoir définir les métadonnées demandées via une méthode `set_score_request`. Veuillez consulter [**Routage de métadonnées** (User Guide _exp)](https://scikit-learn.org/stable/metadata_routing.html#metadata-routing) et [**Routage de métadonnées** (Developer Guide _exp)](https://scikit-learn.org/stable/auto_examples/miscellaneous/plot_metadata_routing.html#sphx-glr-auto-examples-miscellaneous-plot-metadata-routing-py) pour plus de détails.

> **Note:** **Utilisation de métriques personnalisées dans des fonctions avec `n_jobs > 1`**
>
> Bien que la définition de la fonction de métrique personnalisée aux côtés de la fonction d'appel fonctionne par défaut avec le backend joblib (loky), l'importer à partir d'un autre module sera une approche plus robuste et fonctionnera indépendamment du backend joblib.
>
> Par exemple, pour utiliser `n_jobs` supérieur à 1 dans l'exemple ci-dessous, la fonction `custom_scoring_function` est sauvegardée dans un module créé par l'utilisateur (`custom_scorer_module.py`) et importée :
> ```python
> >>> from custom_scorer_module import custom_scoring_function 
> >>> cross_val_score(model,
> ...  X_train,
> ...  y_train,
> ...  scoring=make_scorer(custom_scoring_function, greater_is_better=False),
> ...  cv=5,
> ...  n_jobs=-1) 
> ```

### <a id='using-multiple-metric-evaluation'></a> 3.3.1.4. Utilisation de plusieurs métriques d'évaluation

Scikit-learn permet également l'évaluation de plusieurs métriques dans `GridSearchCV`, `RandomizedSearchCV` et `cross_validate`.

Il existe trois façons de spécifier plusieurs métriques `scoring` pour le paramètre `scoring` :

#### Comme un ensemble de métriques sous forme de chaînes de caractères

In [4]:
scoring = ['accuracy', 'precision']

#### Comme un `dict` associant le nom de l'évaluateur à la fonction de mesure

In [5]:
from sklearn.metrics import accuracy_score
from sklearn.metrics import make_scorer
scoring = {'accuracy': make_scorer(accuracy_score),
           'prec': 'precision'}

Notez que les valeurs du dictionnaire peuvent être des fonctions de mesure ou l'une des chaînes prédéfinies de métriques.

#### Comme une fonction appelable qui renvoie un dictionnaire de scores

In [6]:
from sklearn.model_selection import cross_validate
from sklearn.metrics import confusion_matrix
# A sample toy binary classification dataset
X, y = datasets.make_classification(n_classes=2, random_state=0)
svm = LinearSVC(dual="auto", random_state=0)
def confusion_matrix_scorer(clf, X, y):
    y_pred = clf.predict(X)
    cm = confusion_matrix(y, y_pred)
    return {'tn': cm[0, 0], 'fp': cm[0, 1],
            'fn': cm[1, 0], 'tp': cm[1, 1]}
cv_results = cross_validate(svm, X, y, cv=5,
                            scoring=confusion_matrix_scorer)
# Getting the test set true positive scores
print(cv_results['test_tp'])
# [10  9  8  7  8]
# Getting the test set false negative scores
print(cv_results['test_fn'])
# [0 1 2 3 2]

[10  9  8  7  8]
[0 1 2 3 2]


## <a id='classification-metrics'></a> 3.3.2. Métriques de classification

Le module [**`sklearn.metrics`**](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics) implémente plusieurs fonctions de perte, de score et d'utilité pour mesurer les performances de classification. Certaines métriques peuvent nécessiter des estimations de probabilité de la classe positive, des valeurs de confiance ou des valeurs de décision binaires. La plupart des implémentations permettent à chaque échantillon de contribuer de manière pondérée au score global, grâce au paramètre `sample_weight`.

### Tableau 1: Métriques de classification pour les cas de classification binaire

Certaines de ces métriques sont restreintes au cas de classification binaire :

| Fonction                                | Description                                                                                |
|:----------------------------------------|:-------------------------------------------------------------------------------------------|
| [**`precision_recall_curve`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_recall_curve.html#sklearn.metrics.precision_recall_curve)(y_true, probas_pred, *) | Calcule les couples précision-rappel pour différentes valeurs de seuil de probabilité. |
| [**`roc_curve`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_curve.html#sklearn.metrics.roc_curve)(y_true, y_score, *[, pos_label, ...]) | Calcule la courbe de caractéristique de fonctionnement du récepteur (ROC). |
| [**`class_likelihood_ratios`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.class_likelihood_ratios.html#sklearn.metrics.class_likelihood_ratios)(y_true, y_pred, *[, ...]) | Calcule les rapports de probabilités positifs et négatifs de classification binaire. |
| [**`det_curve`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.det_curve.html#sklearn.metrics.det_curve)(y_true, y_score[, pos_label, ...]) | Calcule les taux d'erreur pour différentes valeurs de seuil de probabilité. |

### Tableau 2: Métriques de classification pour les cas de classification multiclasse

D'autres fonctionnent également dans le cas de classification multiclasse :

| Fonction                                | Description                                                                                |
|:----------------------------------------|:-------------------------------------------------------------------------------------------|
| [**`balanced_accuracy_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.balanced_accuracy_score.html)(y_true, y_pred, *[, ...]) | Calcule la précision équilibrée. |
| [**`cohen_kappa_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.cohen_kappa_score.html)(y1, y2, *[, labels, ...]) | Calcule le kappa de Cohen : une statistique mesurant l'accord entre annotateurs. |
| [**`confusion_matrix`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html)(y_true, y_pred, *[, ...]) | Calcule la matrice de confusion pour évaluer l'exactitude d'une classification. |
| [**`hinge_loss`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.hinge_loss.html)(y_true, pred_decision, *[, ...]) | Perte de charnière moyenne (non régularisée). |
| [**`matthews_corrcoef`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.matthews_corrcoef.html)(y_true, y_pred, *[, ...]) | Calcule le coefficient de corrélation de Matthews (MCC). |
| [**`roc_auc_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html)(y_true, y_score, *[, average, ...]) | Calcule l'aire sous la courbe ROC (ROC AUC) à partir des scores de prédiction. |
| [**`top_k_accuracy_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.top_k_accuracy_score.html)(y_true, y_score, *[, ...]) | Score de classification Top-k Accuracy. |

### Tableau 3: Métriques de classification pour les cas de classification multilabel

Certaines fonctionnent également dans le cas de classification multilabel :

| Fonction                                | Description                                                                                |
|:----------------------------------------|:-------------------------------------------------------------------------------------------|
| [**`accuracy_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html#sklearn.metrics.accuracy_score)(y_true, y_pred, *[, ...]) | Score de classification Accuracy. |
| [**`classification_report`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html#sklearn.metrics.classification_report)(y_true, y_pred, *[, ...]) | Génère un rapport texte présentant les principales métriques de classification. |
| [**`f1_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html#sklearn.metrics.f1_score)(y_true, y_pred, *[, labels, ...]) | Calcule le score F1, également connu sous le nom de F-score équilibré ou mesure F. |
| [**`fbeta_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.fbeta_score.html#sklearn.metrics.fbeta_score)(y_true, y_pred, *, beta[, ...]) | Calcule le score F-beta. |
| [**`hamming_loss`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.hamming_loss.html#sklearn.metrics.hamming_loss)(y_true, y_pred, *[, sample_weight]) | Calcule la perte de Hamming moyenne. |
| [**`jaccard_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.jaccard_score.html#sklearn.metrics.jaccard_score)(y_true, y_pred, *[, labels, ...]) | Score de similarité de Jaccard. |
| [**`log_loss`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.log_loss.html#sklearn.metrics.log_loss)(y_true, y_pred, *[, eps, ...]) | Perte logarithmique, également appelée perte logistique ou perte d'entropie croisée. |
| [**`multilabel_confusion_matrix`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.multilabel_confusion_matrix.html#sklearn.metrics.multilabel_confusion_matrix)(y_true, y_pred, *) | Calcule une matrice de confusion pour chaque classe ou échantillon. |
| [**`precision_recall_fscore_support`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_recall_fscore_support.html#sklearn.metrics.precision_recall_fscore_support)(y_true, ...) | Calcule la précision, le rappel, le score F et le support pour chaque classe. |
| [**`precision_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_score.html)(y_true, y_pred, *[, labels, ...]) | Calcule la précision. |
| [**`recall_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.recall_score.html)(y_true, y_pred, *[, labels, ...]) | Calcule le rappel. |

### Tableau 4: Métriques de classification pour les cas de classification binaire et multilabel (mais pas multiclasse)

Et certaines fonctionnent pour les problèmes binaires et multilabel (mais pas multiclasse) :

| Fonction                                | Description                                                                                |
|:----------------------------------------|:-------------------------------------------------------------------------------------------|
| [**`average_precision_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.average_precision_score.html)(y_true, y_score, *) | Calcule la précision moyenne (AP) à partir des scores de prédiction. |

Dans les sous-sections suivantes, nous décrirons chacune de ces fonctions, précédées de quelques notes sur l'API commune et la définition des métriques.

### <a id='classification-metrics'></a> 3.3.2.1. De la classification binaire à la classification multiclasse et multilabel

Certaines métriques sont essentiellement définies pour les tâches de classification binaire (par exemple, [**`f1_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html), [**`roc_auc_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html)). Dans ces cas, par défaut, seule l'étiquette positive est évaluée, en supposant que la classe positive est étiquetée `1` (bien que cela puisse être configuré via le paramètre `pos_label`).

Lors de l'extension d'une métrique binaire aux problèmes de classification multiclasse ou multilabel, les données sont traitées comme une collection de problèmes binaires, un pour chaque classe. Il existe alors plusieurs façons de calculer la moyenne des métriques binaires pour l'ensemble des classes, chacune pouvant être utile dans certains scénarios. Lorsque cela est disponible, vous devez sélectionner l'une de ces options à l'aide du paramètre `average`.

- `"macro"` calcule simplement la moyenne des métriques binaires, en accordant un poids égal à chaque classe. Dans les problèmes où les classes peu fréquentes sont néanmoins importantes, le calcul macro-averaging peut mettre en évidence leurs performances. D'un autre côté, l'hypothèse selon laquelle toutes les classes sont également importantes est souvent fausse, de sorte que le macro-averaging surestimera généralement les performances généralement faibles d'une classe peu fréquente.
- `"weighted"` prend en compte le déséquilibre de classe en calculant la moyenne des métriques binaires dans lesquelles le score de chaque classe est pondéré par sa présence dans l'échantillon de données réelles.
- `"micro"` donne à chaque paire échantillon-classe une contribution égale à la métrique globale (à l'exception du poids de l'échantillon). Au lieu de sommer la métrique par classe, cela additionne les dividendes et les diviseurs qui composent les métriques par classe pour calculer un quotient global. Le micro-averaging peut être préféré dans les paramètres multilabel, y compris la classification multiclasse où une classe majoritaire doit être ignorée.
- `"samples"` s'applique uniquement aux problèmes multilabel. Il ne calcule pas une mesure par classe, mais calcule plutôt la métrique sur les classes réelles et prédites pour chaque échantillon dans les données d'évaluation, et retourne leur moyenne (`sample_weight-weighted`).
- La sélection de `average=None` renverra un tableau avec le score pour chaque classe.

Alors que les données multiclasse sont fournies à la métrique, tout comme les cibles binaires, sous forme de tableau d'étiquettes de classe, les données multilabel sont spécifiées sous forme de matrice indicatrice, dans laquelle la cellule `[i, j]` a la valeur 1 si l'échantillon `i` a l'étiquette `j` et la valeur 0 sinon.

### <a id='accuracy-score'></a> 3.3.2.2. Score d'exactitude (Accuracy score)

La fonction [**`accuracy_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html) calcule l'[**exactitude**](https://en.wikipedia.org/wiki/Accuracy_and_precision) soit en tant que fraction (par défaut), soit en tant que nombre (`normalize=False`) de prédictions correctes.

Dans la classification multi-étiquette, la fonction renvoie l'exactitude du sous-ensemble. Si l'ensemble entier des étiquettes prédites pour un échantillon correspond strictement à l'ensemble réel des étiquettes, alors l'exactitude du sous-ensemble est de 1.0 ; sinon, elle est de 0.0.

Si $\hat{y}_i$ représente la valeur prédite du $i$-ème échantillon et $y_i$ représente la valeur réelle correspondante, alors la fraction de prédictions correctes sur $n_\text{samples}$ est définie comme suit :

$$\texttt{accuracy}(y, \hat{y}) = \frac{1}{n_\text{samples}} \sum_{i=0}^{n_\text{samples}-1} 1(\hat{y}_i = y_i)$$

où $1(x)$ est la [**fonction indicatrice**](https://en.wikipedia.org/wiki/Indicator_function).

In [7]:
import numpy as np
from sklearn.metrics import accuracy_score
y_pred = [0, 2, 1, 3]
y_true = [0, 1, 2, 3]
accuracy_score(y_true, y_pred)
# 0.5
accuracy_score(y_true, y_pred, normalize=False)
# 2

2

Dans le cas multi-étiquette avec des indicateurs d'étiquettes binaires :

In [8]:
accuracy_score(np.array([[0, 1], [1, 1]]), np.ones((2, 2)))

0.5

#### Exemple

##### [**Test par permutations de la signifiance d'un score de classification**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/3_model_selection/plot_permutation_tests_for_classification.ipynb)<br/>([_Test with permutations the significance of a classification score_](https://scikit-learn.org/stable/auto_examples/model_selection/plot_permutation_tests_for_classification.html))

Exemple d'utilisation du score d'exactitude en utilisant des permutations de l'ensemble de données.

### <a id='top-k-accuracy-score'></a> 3.3.2.3. Top-k accuracy score

The [**`top_k_accuracy_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.top_k_accuracy_score.html) function is a generalization of [**`accuracy_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html). The difference is that a prediction is considered correct as long as the true label is associated with one of the `k` highest predicted scores. [**`accuracy_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html) is the special case of `k = 1`.

The function covers the binary and multiclass classification cases but not the multilabel case.

If $\hat{f}_{i,j}$ is the predicted class for the $i$-th sample corresponding to the $j$-th largest predicted score and $y_i$ is the corresponding true value, then the fraction of correct predictions over $n_\text{samples}$ is defined as

$$\texttt{top-k accuracy}(y, \hat{f}) = \frac{1}{n_\text{samples}} \sum_{i=0}^{n_\text{samples}-1} \sum_{j=1}^{k} 1(\hat{f}_{i,j} = y_i)$$

where $k$ is the number of guesses allowed and $1(x)$ is the [**indicator function**](https://en.wikipedia.org/wiki/Indicator_function).

### <a id='top-k-accuracy-score'></a> 3.3.2.3. Score d'exactitude Top-k (Top-k accuracy score)

La fonction [**`top_k_accuracy_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.top_k_accuracy_score.html) est une généralisation du [**`accuracy_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html). La différence est qu'une prédiction est considérée comme correcte tant que l'étiquette réelle est associée à l'une des `k` valeurs de prédiction les plus élevées. [**`accuracy_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html) est le cas spécial où `k = 1`.

La fonction couvre les cas de classification binaire et multiclasse, mais pas le cas multi-étiquette.

Si $\hat{f}_{i,j}$ représente la classe prédite pour le $i$-ème échantillon correspondant au $j$-ème score de prédiction le plus élevé et $y_i$ représente la valeur réelle correspondante, alors la fraction de prédictions correctes sur $n_\text{samples}$ est définie comme suit :

$$\texttt{top-k accuracy}(y, \hat{f}) = \frac{1}{n_\text{samples}} \sum_{i=0}^{n_\text{samples}-1} \sum_{j=1}^{k} 1(\hat{f}_{i,j} = y_i)$$

où $k$ est le nombre de prédictions autorisées et $1(x)$ est la [**fonction indicatrice**](https://en.wikipedia.org/wiki/Indicator_function).

In [1]:
import numpy as np
from sklearn.metrics import top_k_accuracy_score
y_true = np.array([0, 1, 2, 2])
y_score = np.array([[0.5, 0.2, 0.2],
                    [0.3, 0.4, 0.2],
                    [0.2, 0.4, 0.3],
                    [0.7, 0.2, 0.1]])
top_k_accuracy_score(y_true, y_score, k=2)
# 0.75
# Not normalizing gives the number of "correctly" classified samples
top_k_accuracy_score(y_true, y_score, k=2, normalize=False)
# 3

3

### <a id='balanced-accuracy-score'></a> 3.3.2.4. Score d'exactitude équilibrée (Balanced accuracy score)

La fonction [**`balanced_accuracy_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.balanced_accuracy_score.html) calcule l'[**exactitude équilibrée**](https://en.wikipedia.org/wiki/Accuracy_and_precision), ce qui évite les estimations de performance biaisées sur des ensembles de données déséquilibrés. C'est la macro-moyenne des scores de rappel par classe, ou, de manière équivalente, l'exactitude brute où chaque échantillon est pondéré en fonction de l'inverse de la prévalence de sa classe réelle. Ainsi, pour les ensembles de données équilibrés, le score est égal à l'exactitude.

Dans le cas binaire, l'exactitude équilibrée est égale à la moyenne arithmétique de la [**sensibilité**](https://en.wikipedia.org/wiki/Sensitivity_and_specificity) (taux de vrais positifs) et de la [**spécificité**](https://en.wikipedia.org/wiki/Sensitivity_and_specificity) (taux de vrais négatifs), ou la surface sous la courbe ROC avec des prédictions binaires plutôt que des scores :

$$\texttt{balanced-accuracy} = \frac{1}{2}\left( \frac{TP}{TP + FN} + \frac{TN}{TN + FP}\right )$$

Si le classifieur fonctionne également bien pour les deux classes, ce terme se réduit à l'exactitude conventionnelle (c'est-à-dire le nombre de prédictions correctes divisé par le nombre total de prédictions).

En revanche, si l'exactitude conventionnelle est supérieure au hasard uniquement parce que le classifieur profite d'un ensemble de test déséquilibré, alors l'exactitude équilibrée, le cas échéant, se réduira à $\frac{1}{n\_classes}$.

Le score varie de 0 à 1, ou lorsqu'on utilise `adjusted=True`, il est recalé dans la plage $\frac{1}{1 - n\_classes}$ à 1, inclusivement, avec une performance aléatoire obtenant un score de 0.

Si $y_i$ est la vraie valeur du $i$-ème échantillon, et $w_i$ est le poids d'échantillon correspondant, alors nous ajustons le poids d'échantillon de la manière suivante :

$$\hat{w}_i = \frac{w_i}{\sum_j{1(y_j = y_i) w_j}}$$

où $1(x)$ est la [**fonction indicatrice**](https://en.wikipedia.org/wiki/Indicator_function). Étant donné la prédiction $\hat{y}_i$ pour l'échantillon $i$, l'exactitude équilibrée est définie comme suit :

$$\texttt{balanced-accuracy}(y, \hat{y}, w) = \frac{1}{\sum{\hat{w}_i}} \sum_i 1(\hat{y}_i = y_i) \hat{w}_i$$

Avec `adjusted=True`, l'exactitude équilibrée rapporte l'augmentation relative à $\texttt{balanced-accuracy}(y, \mathbf{0}, w) = \frac{1}{n\_classes}$. Dans le cas binaire, cela est également connu sous le nom de [**statistique J de Youden**](https://en.wikipedia.org/wiki/Youden's_J_statistic), ou _informedness_. 

> **Note:** La définition multiclasse ici semble être l'extension la plus raisonnable de la métrique utilisée en classification binaire, bien qu'il n'y ait pas de consensus certain dans la littérature :
> - Notre définition : [Mosley2013], [Kelleher2015] et [Guyon2015], où [Guyon2015] adopte la version ajustée pour s'assurer que les prédictions aléatoires ont un score de $0$ et les prédictions parfaites ont un score de $1$.
> - Exactitude équilibrée de classe comme décrite dans [Mosley2013] : le minimum entre la précision et le rappel pour chaque classe est calculé. Ces valeurs sont ensuite moyennées sur le nombre total de classes pour obtenir l'exactitude équilibrée.
> - Exactitude équilibrée comme décrite dans [Urbanowicz2015] : la moyenne de la sensibilité et de la spécificité est calculée pour chaque classe, puis moyennée sur le nombre total de classes.

#### Références

🔬 [Guyon2015] (1,2) I. Guyon, K. Bennett, G. Cawley, H.J. Escalante, S. Escalera, T.K. Ho, N. Macià, B. Ray, M. Saeed, A.R. Statnikov, E. Viegas, [**“Design of the 2015 ChaLearn AutoML Challenge”**](http://haralick.org/ML/automl_ijcnn15.pdf), IJCNN 2015.

🔬 [Mosley2013] (1,2) L. Mosley, [**“A balanced approach to the multi-class imbalance problem”**](https://dr.lib.iastate.edu/server/api/core/bitstreams/7af0eb70-76f0-4411-9b1b-ce9254e64062/content), IJCV 2010.

📚 [Kelleher2015] John. D. Kelleher, Brian Mac Namee, Aoife D’Arcy, [**“Fundamentals of Machine Learning for Predictive Data Analytics: Algorithms, Worked Examples, and Case Studies”**](https://mitpress.mit.edu/9780262029445/), 2015.

🔬 [Urbanowicz2015] Urbanowicz R.J., Moore, J.H. [**“ExSTraCS 2.0: description and evaluation of a scalable learning classifier system”**](https://europepmc.org/backend/ptpmcrender.fcgi?accid=PMC4583133&blobtype=pdf), Evol. Intel. (2015) 8: 89.

### <a id='cohen-s-kappa'></a> 3.3.2.5. Statistique de Cohen (Cohen’s kappa)

La fonction [**`cohen_kappa_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.cohen_kappa_score.html) calcule la [**statistique de Cohen**](https://en.wikipedia.org/wiki/Cohen's_kappa). Cette mesure vise à comparer les annotations par différents annotateurs humains, et non un classifieur par rapport à une vérité terrain.

Le score kappa (voir la docstring) est un nombre compris entre -1 et 1. Les scores supérieurs à 0,8 sont généralement considérés comme une bonne concordance ; zéro ou moins signifie aucune concordance (étiquettes pratiquement aléatoires).

Les scores kappa peuvent être calculés pour les problèmes binaires ou multiclasse, mais pas pour les problèmes multi-étiquette (sauf en calculant manuellement un score par étiquette) et pas pour plus de deux annotateurs.

In [2]:
from sklearn.metrics import cohen_kappa_score
y_true = [2, 0, 2, 2, 0, 1]
y_pred = [0, 0, 2, 2, 0, 2]
cohen_kappa_score(y_true, y_pred)
# 0.4285714285714286

0.4285714285714286

### <a id='confusion-matrix'></a> 3.3.2.6. Matrice de confusion

La fonction [**`confusion_matrix`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html#sklearn.metrics.confusion_matrix) évalue l'exactitude de la classification en calculant la [**matrice de confusion**](https://en.wikipedia.org/wiki/Confusion_matrix) dont chaque ligne correspond à la classe réelle (Wikipedia et d'autres références peuvent utiliser une convention différente pour les axes).

Par définition, l'entrée $i, j$ dans une matrice de confusion est le nombre d'observations réellement dans le groupe $i$, mais prédit comme étant dans le groupe $j$. Voici un exemple :

In [3]:
from sklearn.metrics import confusion_matrix
y_true = [2, 0, 2, 2, 0, 1]
y_pred = [0, 0, 2, 2, 0, 2]
confusion_matrix(y_true, y_pred)
# array([[2, 0, 0],
#        [0, 0, 1],
#        [1, 0, 2]])

array([[2, 0, 0],
       [0, 0, 1],
       [1, 0, 2]], dtype=int64)

[**`ConfusionMatrixDisplay`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.ConfusionMatrixDisplay.html) peut être utilisé pour représenter visuellement une matrice de confusion comme illustré dans l'exemple **Confusion matrix**, qui crée la figure suivante :

![](https://scikit-learn.org/stable/_images/sphx_glr_plot_confusion_matrix_001.png)

Le paramètre `normalize` permet de rapporter des ratios au lieu des décomptes. La matrice de confusion peut être normalisée de 3 manières différentes : `'pred'`, `'true'` et `'all'`, qui diviseront les décomptes par la somme de chaque colonne, ligne ou la matrice entière, respectivement.

In [4]:
y_true = [0, 0, 0, 1, 1, 1, 1, 1]
y_pred = [0, 1, 0, 1, 0, 1, 0, 1]
confusion_matrix(y_true, y_pred, normalize='all')
# array([[0.25 , 0.125],
#        [0.25 , 0.375]])

array([[0.25 , 0.125],
       [0.25 , 0.375]])

Pour les problèmes binaires, nous pouvons obtenir les décomptes de vrais négatifs, faux positifs, faux négatifs et vrais positifs de la manière suivante :

In [5]:
y_true = [0, 0, 0, 1, 1, 1, 1, 1]
y_pred = [0, 1, 0, 1, 0, 1, 0, 1]
tn, fp, fn, tp = confusion_matrix(y_true, y_pred).ravel()
tn, fp, fn, tp
# (2, 1, 2, 3)

(2, 1, 2, 3)

#### Examples

##### [**Matrice de confusion**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/3_model_selection/plot_confusion_matrix.ipynb)<br/>([_Confusion matrix_](https://scikit-learn.org/stable/auto_examples/model_selection/plot_confusion_matrix.html))

Exemple d'utilisation d'une matrice de confusion pour évaluer la qualité de la sortie d'un classifieur.

##### [**Reconnaissance de chiffres manuscrits**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/classification/plot_digits_classification.ipynb)<br/>([_Recognizing hand-written digits_](https://scikit-learn.org/stable/auto_examples/classification/plot_digits_classification.html))

Exemple d'utilisation d'une matrice de confusion pour classifier des chiffres manuscrits.

##### [**Classification de documents textuels à l'aide de caractéristiques creuses**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/text/plot_document_classification_20newsgroups.ipynb)<br/>([*Classification of text documents using sparse features*](https://scikit-learn.org/stable/auto_examples/text/plot_document_classification_20newsgroups.html))

Exemple d'utilisation d'une matrice de confusion pour classifier des documents textuels.

### <a id='classification-report'></a> 3.3.2.7. Rapport de classification

La fonction [**`classification_report`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html#sklearn.metrics.classification_report) génère un rapport textuel montrant les principales métriques de classification. Voici un petit exemple avec des `target_names` personnalisées et des étiquettes inférées :

In [6]:
from sklearn.metrics import classification_report
y_true = [0, 1, 2, 2, 0]
y_pred = [0, 0, 2, 1, 0]
target_names = ['class 0', 'class 1', 'class 2']
print(classification_report(y_true, y_pred, target_names=target_names))
#               precision    recall  f1-score   support
# 
#      class 0       0.67      1.00      0.80         2
#      class 1       0.00      0.00      0.00         1
#      class 2       1.00      0.50      0.67         2
# 
#     accuracy                           0.60         5
#    macro avg       0.56      0.50      0.49         5
# weighted avg       0.67      0.60      0.59         5

              precision    recall  f1-score   support

     class 0       0.67      1.00      0.80         2
     class 1       0.00      0.00      0.00         1
     class 2       1.00      0.50      0.67         2

    accuracy                           0.60         5
   macro avg       0.56      0.50      0.49         5
weighted avg       0.67      0.60      0.59         5



#### Exemples

##### [**Reconnaissance de chiffres manuscrits**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/classification/plot_digits_classification.ipynb)<br/>([_Recognizing hand-written digits_](https://scikit-learn.org/stable/auto_examples/classification/plot_digits_classification.html))

Exemple d'utilisation du rapport de classification pour des chiffres manuscrits.

##### [**Stratégie personnalisée de réajustement d'une recherche en grille avec validation croisée**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/3_model_selection/plot_grid_search_digits.ipynb)<br/>([_Custom refit strategy of a grid search with cross-validation_](https://scikit-learn.org/stable/auto_examples/model_selection/plot_grid_search_digits.html))

Exemple d'utilisation du rapport de classification pour une recherche en grille avec validation croisée imbriquée.

### <a id='hamming-loss'></a> 3.3.2.8. Perte de Hamming

La fonction [**`hamming_loss`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.hamming_loss.html#sklearn.metrics.hamming_loss) calcule la perte de Hamming moyenne ou [**distance de Hamming**](https://en.wikipedia.org/wiki/Hamming_distance) entre deux ensembles d'échantillons.

Si $\hat{y}_{i,j}$ est la valeur prédite pour la $j$-ème étiquette d'un échantillon donné $i$, $y_{i,j}$ est la valeur correspondante vraie, $n_\text{samples}$ est le nombre d'échantillons et $n_\text{labels}$ est le nombre d'étiquettes, alors la perte de Hamming $L_{Hamming}$ est définie comme suit :

$$L_{Hamming}(y, \hat{y}) = \frac{1}{n_\text{samples} * n_\text{labels}} \sum_{i=0}^{n_\text{samples}-1} \sum_{j=0}^{n_\text{labels} - 1} 1(\hat{y}_{i,j} \not= y_{i,j})$$

où $1(x)$ est la [**fonction indicatrice**](https://en.wikipedia.org/wiki/Indicator_function).

L'équation ci-dessus ne s'applique pas au cas de classification multiclasse. Veuillez vous référer à la note ci-dessous pour plus d'informations.

In [7]:
from sklearn.metrics import hamming_loss
y_pred = [1, 2, 3, 4]
y_true = [2, 2, 3, 4]
hamming_loss(y_true, y_pred)
# 0.25

0.25

Dans le cas multilabel avec des indicateurs d'étiquettes binaires :

In [None]:
hamming_loss(np.array([[0, 1], [1, 1]]), np.zeros((2, 2)))
# 0.75

> **Note :** En classification multiclasse, la perte de Hamming correspond à la distance de Hamming entre `y_true` et `y_pred`, ce qui est similaire à la fonction de perte [**Zero one loss** (3.3.2.17)](https://scikit-learn.org/stable/modules/model_evaluation.html#zero-one-loss). Cependant, alors que la perte zero-one pénalise les ensembles de prédictions qui ne correspondent pas strictement aux ensembles réels, la perte de Hamming pénalise les étiquettes individuelles. Ainsi, la perte de Hamming, bornée par la perte zero-one, est toujours comprise entre zéro et un, inclusivement ; et prédire un sous-ensemble ou un sur-ensemble approprié des étiquettes réelles donnera une perte de Hamming comprise entre zéro et un, exclusivement.

### <a id='hamming-loss'></a> 3.3.2.9. Précision, rappel et scores F

De manière intuitive, la [**précision**](https://fr.wikipedia.org/wiki/Pr%C3%A9cision_et_rappel) représente la capacité du classifieur à ne pas étiqueter comme positive un échantillon qui est négatif, et le rappel représente la capacité du classifieur à trouver tous les échantillons positifs.

Le [**score F**](https://fr.wikipedia.org/wiki/F-mesure) ($F_\beta$ et $F_1$) peut être interprété comme une moyenne harmonique pondérée de la précision et du rappel. Un score F atteint sa meilleure valeur à 1 et son pire score à 0. Avec $\beta = 1$, le score F et le score F1 sont équivalents, et le rappel et la précision sont tout aussi importants.

La fonction [**`precision_recall_curve`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_recall_curve.html) calcule une courbe de précision-rappel à partir des étiquettes de vérité terrain et d'un score donné par le classifieur en faisant varier un seuil de décision.

La fonction [**`average_precision_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.average_precision_score.html) calcule la [**précision moyenne**](https://fr.wikipedia.org/w/index.php?title=Information_retrieval&oldid=793358396#Average_precision) (AP) à partir des scores de prédiction. La valeur est comprise entre 0 et 1, et plus elle est élevée, mieux c'est. L'AP est définie comme suit :

$$\text{AP} = \sum_n (R_n - R_{n-1}) P_n$$

où $P_n$ et $R_n$ sont la précision et le rappel au n-ième seuil. Avec des prédictions aléatoires, l'AP est la fraction d'échantillons positifs.

Les références [Manning2008] et [Everingham2010] présentent des variantes alternatives de l'AP qui permettent d'interpoler la courbe précision-rappel. Actuellement, [**`average_precision_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.average_precision_score.html) n'implémente aucune variante interpolée. Les références [Davis2006] et [Flach2015] expliquent pourquoi une interpolation linéaire des points sur la courbe précision-rappel donne une mesure excessivement optimiste des performances du classifieur. Cette interpolation linéaire est utilisée lors du calcul de l'aire sous la courbe avec la règle du trapèze dans la fonction [**`auc`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.auc.html).

Plusieurs fonctions vous permettent d'analyser la précision, le rappel et le score F :

| Fonction                                | Description                                                                                |
|:----------------------------------------|:-------------------------------------------------------------------------------------------|
| [**`average_precision_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.average_precision_score.html)(y_true, y_score, *) | Calcule la précision moyenne (AP) à partir des scores de prédiction. |
| [**`f1_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html)(y_true, y_pred, *[, labels, ...]) | Calcule le score F1, également connu sous le nom de F-score équilibré ou F-mesure. |
| [**`fbeta_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.fbeta_score.html)(y_true, y_pred, *, beta[, ...]) | Calcule le score F-beta. |
| [**`precision_recall_curve`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_recall_curve.html)(y_true, probas_pred, *) | Calcule les paires précision-rappel pour différents seuils de probabilité. |
| [**`precision_recall_fscore_support`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_recall_fscore_support.html) (y_true, ...) | Calcule la précision, le rappel, le score F et le support pour chaque classe. |
| [**`precision_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_score.html)(y_true, y_pred, *[, labels, ...]) | Calcule la précision. |
| [**`recall_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.recall_score.html)(y_true, y_pred, *[, labels, ...]) | Calcule le rappel. |

Notez que la fonction [**`precision_recall_curve`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_recall_curve.html) est limitée au cas binaire. La fonction [**`average_precision_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.average_precision_score.html) prend en charge les formats multiclasse et multilabel en calculant le score de chaque classe de manière "One-vs-the-rest" (OvR) et en les moyennant ou non en fonction de la valeur de l'argument `average`. 

Les fonctions `PredictionRecallDisplay.from_estimator` et `PredictionRecallDisplay.from_predictions` afficheront la courbe précision-rappel comme suit :

![](https://scikit-learn.org/stable/_images/sphx_glr_plot_precision_recall_001.png)

#### Exemples

##### [**Stratégie personnalisée de réajustement d'une recherche en grille avec validation croisée**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/3_model_selection/plot_grid_search_digits.ipynb)<br/>([_Custom refit strategy of a grid search with cross-validation_](https://scikit-learn.org/stable/auto_examples/model_selection/plot_grid_search_digits.html))

Exemple d'utilisation des fonctions [**`precision_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_score.html) et [**`recall_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.recall_score.html) pour estimer les paramètres à l'aide d'une recherche par grille avec validation croisée imbriquée.

##### [**Précision-Rappel**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/3_model_selection/plot_precision_recall.ipynb)<br/>([_Precision-Recall_](https://scikit-learn.org/stable/auto_examples/model_selection/plot_precision_recall.html))

Exemple d'utilisation de la fonction [**`precision_recall_curve`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_recall_curve.html) pour évaluer la qualité de la sortie du classifieur.

#### Références

Z 📚 [Manning2008] C.D. Manning, P. Raghavan, H. Schütze, [**“Introduction to Information Retrieval”**](https://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf), 2009.

Z 🔬 [Everingham2010] M. Everingham, L. Van Gool, C.K.I. Williams, J. Winn, A. Zisserman, [**“The Pascal Visual Object Classes (VOC) Challenge”**](https://www.pure.ed.ac.uk/ws/files/20017166/ijcv_voc14.pdf), IJCV 2010.

Z 🔬 [Davis2006] J. Davis, M. Goadrich, [**“The Relationship Between Precision-Recall and ROC Curves”**](https://www.biostat.wisc.edu/~page/rocpr.pdf), ICML 2006.

Z 🔬 [Flach2015] P.A. Flach, M. Kull, [**“Precision-Recall-Gain Curves: PR Analysis Done Right”**](https://proceedings.neurips.cc/paper_files/paper/2015/file/33e8075e9970de0cfea955afd4644bb2-Paper.pdf), NIPS 2015.

#### <a id='binary-classification'></a> Classification binaire

Dans une tâche de classification binaire, les termes "positif" et "négatif" font référence à la prédiction du classifieur, tandis que les termes "vrai" et "faux" font référence à la correspondance de cette prédiction avec le jugement externe (parfois appelé "observation"). Avec ces définitions, nous pouvons formuler le tableau suivant :

<table>
<tbody>
<tr><td></td>
<td colspan="2"><p>Classe réelle (observation)</p></td>
</tr>
<tr><td rowspan="2"><p>Classe prédite
(expectation)</p></td>
<td><p>tp (vrai positif)
Résultat correct</p></td>
<td><p>fp (faux positif)
Résultat inattendu</p></td>
</tr>
<tr><td><p>fn (faux négatif)
Résultat manquant</p></td>
<td><p>tn (vrai négatif)
Absence de résultat correct</p></td>
</tr>
</tbody>
</table>

Dans ce contexte, nous pouvons définir les notions de précision, rappel et F-mesure :

$$P = \frac{tp}{tp + fp},$$
$$R = \frac{tp}{tp + fn},$$
$$F_\beta = (1 + \beta^2) \frac{P \times R}{\beta^2 P + R}.$$

Parfois, le rappel est également appelé "sensibilité".

Voici quelques petits exemples de classification binaire :

In [1]:
from sklearn import metrics
y_pred = [0, 1, 0, 0]
y_true = [0, 1, 0, 1]
metrics.precision_score(y_true, y_pred)
# 1.0
metrics.recall_score(y_true, y_pred)
# 0.5
metrics.f1_score(y_true, y_pred)
# 0.66...
metrics.fbeta_score(y_true, y_pred, beta=0.5)
# 0.83...
metrics.fbeta_score(y_true, y_pred, beta=1)
# 0.66...
metrics.fbeta_score(y_true, y_pred, beta=2)
# 0.55...
metrics.precision_recall_fscore_support(y_true, y_pred, beta=0.5)
# (array([0.66..., 1.        ]), array([1. , 0.5]), array([0.71..., 0.83...]), array([2, 2]))


import numpy as np
from sklearn.metrics import precision_recall_curve
from sklearn.metrics import average_precision_score
y_true = np.array([0, 0, 1, 1])
y_scores = np.array([0.1, 0.4, 0.35, 0.8])
precision, recall, threshold = precision_recall_curve(y_true, y_scores)
precision
# array([0.5       , 0.66..., 0.5       , 1.        , 1.        ])
recall
# array([1. , 1. , 0.5, 0.5, 0. ])
threshold
# array([0.1 , 0.35, 0.4 , 0.8 ])
average_precision_score(y_true, y_scores)
# 0.83...

0.8333333333333333

#### <a id='multiclass-and-multilabel-classification'></a> Classification multiclasse et multilabel

Dans une tâche de classification multiclasse et multilabel, les notions de précision, de rappel et de F-mesure peuvent être appliquées à chaque étiquette indépendamment. Il existe quelques façons de combiner les résultats entre les étiquettes, spécifiées par l'argument `average` des fonctions [**`average_precision_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.average_precision_score.html), [**`f1_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html), [**`fbeta_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.fbeta_score.html), [**`precision_recall_fscore_support`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_recall_fscore_support.html), [**`precision_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_score.html) et [**`recall_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.recall_score.html), comme décrit ci-dessus. Notez que si toutes les étiquettes sont incluses, le "micro-averaging" dans un contexte multiclasse produira des valeurs de précision, de rappel et de F qui sont toutes identiques à l'exactitude (accuracy). Notez également que le "weighted-averaging" peut produire un score F qui n'est pas nécessairement compris entre la précision et le rappel.

Pour clarifier cela, considérons la notation suivante :

- $y$ est l'ensemble des paires $(échantillon, étiquette)$ réelles
- $\hat{y}$ est l'ensemble des paires $(échantillon, étiquette)$ prédites
- $L$ est l'ensemble des étiquettes
- $S$ est l'ensemble des échantillons
- $y_s$ est le sous-ensemble de $y$ contenant l'échantillon $s$, c'est-à-dire $y_s := \left\{(s', l) \in y | s' = s\right\}$
- $y_l$ est le sous-ensemble de $y$ contenant l'étiquette $l$
- de même, $\hat{y}_s$ et $\hat{y}_l$ sont des sous-ensembles de $\hat{y}$
- $P(A, B) := \frac{\left \vert A \cap B \right \vert}{\left \vert B \right \vert}$ pour certains ensembles $A$ et $B$
- $R(A, B) := \frac{\left \vert A \cap B \right \vert}{\left \vert A \right \vert}$ (Les conventions peuvent varier sur le traitement de $A = \emptyset$ ; cette implémentation utilise $R(A, B):=0$, et de manière similaire pour $P$.)
- $F_\beta(A, B) := \left(1 + \beta^2\right) \frac{P(A, B) \times R(A, B)}{\beta^2 P(A, B) + R(A, B)}$

Les métriques sont ensuite définies comme suit :

| Moyenne | Précision | Rappel | F_beta |
|-|-|-|-|
|`"micro"`|$P(y, \hat{y})$|$R(y, \hat{y})$|$F_\beta(y, \hat{y})$|
|`"samples"`|$\frac{1}{\left \vert S \right \vert} \sum_{s \in S} P(y_s, \hat{y}_s)$|$\frac{1}{\left \vert S \right \vert} \sum_{s \in S} R(y_s, \hat{y}_s)$|$\frac{1}{\left \vert S \right \vert} \sum_{s \in S} F_\beta(y_s, \hat{y}_s)$|
|`"macro"`|$\frac{1}{\left \vert L \right \vert} \sum_{l \in L} P(y_l, \hat{y}_l)$|$\frac{1}{\left \vert L \right \vert} \sum_{l \in L} R(y_l, \hat{y}_l)$|$\frac{1}{\left \vert L \right \vert} \sum_{l \in L} F_\beta(y_l, \hat{y}_l)$|
|`"weighted"`|$\frac{1}{\sum_{l \in L} \left \vert y_l \right \vert} \sum_{l \in L} \left \vert y_l \right \vert P(y_l, \hat{y}_l)$|$\frac{1}{\sum_{l \in L} \left \vert y_l \right \vert} \sum_{l \in L} \left \vert y_l \right \vert R(y_l, \hat{y}_l)$|$\frac{1}{\sum_{l \in L} \left \vert y_l \right \vert} \sum_{l \in L} \left \vert y_l \right \vert F_\beta(y_l, \hat{y}_l)$|
|`None`|$\langle P(y_l, \hat{y}_l) \vert l \in L \rangle$|$\langle R(y_l, \hat{y}_l) \vert l \in L \rangle$|$\langle F_\beta(y_l, \hat{y}_l) \vert l \in L \rangle$|

In [2]:
from sklearn import metrics
y_true = [0, 1, 2, 0, 1, 2]
y_pred = [0, 2, 1, 0, 0, 1]
metrics.precision_score(y_true, y_pred, average='macro')
# 0.22...
metrics.recall_score(y_true, y_pred, average='micro')
# 0.33...
metrics.f1_score(y_true, y_pred, average='weighted')
# 0.26...
metrics.fbeta_score(y_true, y_pred, average='macro', beta=0.5)
# 0.23...
metrics.precision_recall_fscore_support(y_true, y_pred, beta=0.5, average=None)
# (array([0.66..., 0.        , 0.        ]), array([1., 0., 0.]), array([0.71..., 0.        , 0.        ]), array([2, 2, 2]...))

(array([0.66666667, 0.        , 0.        ]),
 array([1., 0., 0.]),
 array([0.71428571, 0.        , 0.        ]),
 array([2, 2, 2], dtype=int64))

Pour la classification multiclasse avec une "classe négative", il est possible d'exclure certaines étiquettes :

In [3]:
metrics.recall_score(y_true, y_pred, labels=[1, 2], average='micro')
# excluding 0, no labels were correctly recalled
# 0.0

0.0

De même, les étiquettes non présentes dans l'échantillon de données peuvent être prises en compte dans l'approche de la macro-moyenne.

In [4]:
metrics.precision_score(y_true, y_pred, labels=[0, 1, 2, 3], average='macro')
# 0.166...

  _warn_prf(average, modifier, msg_start, len(result))


0.16666666666666666

### <a id='jaccard-similarity-coefficient-score'></a> 3.3.2.10. Coefficient de similarité de Jaccard

La fonction [**`jaccard_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.jaccard_score.html) calcule la moyenne des [**coefficients de similarité de Jaccard**](https://en.wikipedia.org/wiki/Jaccard_index), également appelés indice de Jaccard, entre les paires d'ensembles d'étiquettes.

Le coefficient de similarité de Jaccard avec un ensemble d'étiquettes de vérité terrain $y$ et un ensemble d'étiquettes prédites $\hat{y}$ est défini comme suit :

$$J(y, \hat{y}) = \frac{|y \cap \hat{y}|}{|y \cup \hat{y}|}.$$


Le [**`jaccard_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.jaccard_score.html) (tout comme [**`precision_recall_fscore_support`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_recall_fscore_support.html)) s'applique nativement aux cibles binaires. En le calculant par ensemble, il peut être étendu pour s'appliquer aux problèmes multilabel et multiclasse en utilisant l'argument `average` (voir [**ci-dessus** (3.3.2.1)](https://scikit-learn.org/stable/modules/model_evaluation.html#average)).

Dans le cas binaire :

In [5]:
import numpy as np
from sklearn.metrics import jaccard_score
y_true = np.array([[0, 1, 1],
                   [1, 1, 0]])
y_pred = np.array([[1, 1, 1],
                   [1, 0, 0]])
jaccard_score(y_true[0], y_pred[0])
# 0.6666...

0.6666666666666666

Dans le cas de la comparaison 2D (par exemple, la similarité d'images) :

In [7]:
jaccard_score(y_true, y_pred, average="micro")
# 0.6

0.6

Dans le cas multilabel avec des indicateurs binaires d'étiquettes :

In [6]:
jaccard_score(y_true, y_pred, average='samples')
# 0.5833...
jaccard_score(y_true, y_pred, average='macro')
# 0.6666...
jaccard_score(y_true, y_pred, average=None)
# array([0.5, 0.5, 1. ])

array([0.5, 0.5, 1. ])

Les problèmes multiclasse sont binarisés et traités de la même manière que les problèmes multilabel correspondants :

In [8]:
y_pred = [0, 2, 1, 2]
y_true = [0, 1, 2, 2]
jaccard_score(y_true, y_pred, average=None)
# array([1. , 0. , 0.33...])
jaccard_score(y_true, y_pred, average='macro')
# 0.44...
jaccard_score(y_true, y_pred, average='micro')
# 0.33...

0.3333333333333333

### <a id='hinge-loss'></a> 3.3.2.11. Perte de charnière (Hinge Loss)

La fonction [**`hinge_loss`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.hinge_loss.html) calcule la distance moyenne entre le modèle et les données en utilisant la [**perte de charnière**](https://en.wikipedia.org/wiki/Hinge_loss), une métrique unilatérale qui ne prend en compte que les erreurs de prédiction. (La perte de charnière est utilisée dans les classificateurs à marge maximale tels que les machines à vecteurs de support.)

Si l'étiquette vraie $y_i$ d'une tâche de classification binaire est encodée comme $y_i=\left\{-1, +1\right\}$ pour chaque échantillon $i$ ; et $w_i$ est la décision prédite correspondante (un tableau de forme `(n_samples,)` en sortie de la méthode `decision_function`), alors la perte de charnière est définie comme suit :

$$L_\text{Hinge}(y, w) = \frac{1}{n_\text{samples}} \sum_{i=0}^{n_\text{samples}-1} \max\left\{1 - w_i y_i, 0\right\}$$

S'il y a plus de deux étiquettes, [**`hinge_loss`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.hinge_loss.html) utilise une variante multiclasse due à Crammer & Singer. [Ici](https://jmlr.csail.mit.edu/papers/volume2/crammer01a/crammer01a.pdf) se trouve l'article qui la décrit.

Dans ce cas, la décision prédite est un tableau de forme `(n_samples, n_labels)`. Si $w_{i, y_i}$ est la décision prédite pour la vraie étiquette de l'échantillon $i$ ; et $\hat{w}_{i, y_i} = \max\left\{w_{i, y_j}~|~y_j \ne y_i \right\}$ est le maximum des décisions prédites pour toutes les autres étiquettes, alors la perte de charnière multiclasse est définie par :

$$L_\text{Hinge}(y, w) = \frac{1}{n_\text{samples}}
\sum_{i=0}^{n_\text{samples}-1} \max\left\{1 + \hat{w}_{i, y_i}
- w_{i, y_i}, 0\right\}$$

Voici un petit exemple illustrant l'utilisation de la fonction [**`hinge_loss`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.hinge_loss.html) avec un classificateur SVM dans un problème de classe binaire :

In [10]:
from sklearn import svm
from sklearn.metrics import hinge_loss
X = [[0], [1]]
y = [-1, 1]
est = svm.LinearSVC(dual="auto", random_state=0)
est.fit(X, y)
# LinearSVC(dual='auto', random_state=0)
pred_decision = est.decision_function([[-2], [3], [0.5]])
pred_decision
# array([-2.18...,  2.36...,  0.09...])
hinge_loss([-1, 1, 1], pred_decision)
# 0.3...

0.30303030303030304

Voici un exemple illustrant l'utilisation de la fonction [**`hinge_loss`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.hinge_loss.html) avec un classificateur SVM dans un problème multiclasse :

In [11]:
X = np.array([[0], [1], [2], [3]])
Y = np.array([0, 1, 2, 3])
labels = np.array([0, 1, 2, 3])
est = svm.LinearSVC(dual="auto")
est.fit(X, Y)
# LinearSVC(dual='auto')
pred_decision = est.decision_function([[-1], [2], [3]])
y_true = [0, 2, 3]
hinge_loss(y_true, pred_decision, labels=labels)
# 0.56...

0.5641025641025641

### <a id='log-loss'></a> 3.3.2.12. Perte logarithmique (Log Loss)

La perte logarithmique, également appelée perte de régression logistique ou entropie croisée, est définie sur les estimations de probabilité. Elle est couramment utilisée en régression logistique (multinomiale) et en réseaux neuronaux, ainsi que dans certaines variantes de l'espérance-maximisation. Elle peut être utilisée pour évaluer les sorties de probabilité (`predict_proba`) d'un classificateur au lieu de ses prédictions discrètes.

Pour la classification binaire avec une vraie étiquette $y \in \{0,1\}$ et une estimation de probabilité $p = \operatorname{Pr}(y = 1)$, la perte logarithmique par échantillon est le négatif du logarithme de vraisemblance du classificateur étant donné la vraie étiquette :

$$L_{\log}(y, p) = -\log \operatorname{Pr}(y|p) = -(y \log (p) + (1 - y) \log (1 - p))$$

Ceci s'étend au cas multiclasse comme suit. Soit les vraies étiquettes pour un ensemble d'échantillons encodées sous forme d'une matrice binaire indicatrice 1-of-K $Y$, c'est-à-dire $y_{i,k} = 1$ si l'échantillon $i$ a l'étiquette $k$ choisie parmi un ensemble de $K$ étiquettes. Soit $P$ une matrice d'estimations de probabilité, avec $p_{i,k} = \operatorname{Pr}(y_{i,k} = 1)$. Alors, la perte logarithmique de l'ensemble entier est définie par :

$$L_{\log}(Y, P) = -\log \operatorname{Pr}(Y|P) = - \frac{1}{N} \sum_{i=0}^{N-1} \sum_{k=0}^{K-1} y_{i,k} \log p_{i,k}$$

Pour voir comment cela généralise la perte logarithmique binaire donnée ci-dessus, notez que dans le cas binaire, $p_{i,0} = 1 - p_{i,1}$ et $y_{i,0} = 1 - y_{i,1}$. Ainsi, en développant la somme interne sur $y_{i,k} \in \{0,1\}$, on obtient la perte logarithmique binaire.

La fonction [**`log_loss`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.log_loss.html) calcule la perte logarithmique à partir d'une liste d'étiquettes réelles et d'une matrice de probabilités, telle qu'elle est renvoyée par la méthode `predict_proba` d'un estimateur.

In [12]:
from sklearn.metrics import log_loss
y_true = [0, 0, 1, 1]
y_pred = [[.9, .1], [.8, .2], [.3, .7], [.01, .99]]
log_loss(y_true, y_pred)
# 0.1738...

0.1738073366910675

Le premier `[.9, .1]` dans `y_pred` indique une probabilité de 90% que le premier échantillon ait l'étiquette 0. La perte logarithmique est non négative.

### <a id='matthews-correlation-coefficient'></a> 3.3.2.13. Coefficient de corrélation de Matthews

La fonction [**`matthews_corrcoef`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.matthews_corrcoef.html) calcule le [**coefficient de corrélation de Matthews (MCC)**](https://en.wikipedia.org/wiki/Phi_coefficient) pour les classes binaires. En citant Wikipedia :

_"Le coefficient de corrélation de Matthews est utilisé en apprentissage automatique comme mesure de la qualité des classifications binaires (à deux classes). Il prend en compte les vrais positifs, les vrais négatifs, les faux positifs et les faux négatifs, et est généralement considéré comme une mesure équilibrée qui peut être utilisée même si les classes sont de tailles très différentes. Le MCC est essentiellement une valeur de coefficient de corrélation entre -1 et +1. Un coefficient de +1 représente une prédiction parfaite, 0 une prédiction aléatoire moyenne et -1 une prédiction inverse. La statistique est également connue sous le nom de coefficient phi."_

Dans le cas binaire (à deux classes), $tp$, $tn$, $fp$ et $fn$ représentent respectivement le nombre de vrais positifs, de vrais négatifs, de faux positifs et de faux négatifs. Le MCC est défini comme suit :

$$MCC = \frac{tp \times tn - fp \times fn}{\sqrt{(tp + fp)(tp + fn)(tn + fp)(tn + fn)}}.$$

Dans le cas multiclasse, le coefficient de corrélation de Matthews peut être [défini](https://rth.dk/resources/rk/introduction/index.html) en termes d'une [**matrice de confusion**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html) $C$ pour $K$ classes. Pour simplifier la définition, considérons les variables intermédiaires suivantes :

- $t_k=\sum_{i}^{K} C_{ik}$ le nombre de fois où la classe $k$ est réellement présente,
- $p_k=\sum_{i}^{K} C_{ki}$ le nombre de fois où la classe $k$ a été prédite,
- $c=\sum_{k}^{K} C_{kk}$ le nombre total d'échantillons correctement prédits,
- $s=\sum_{i}^{K} \sum_{j}^{K} C_{ij}$ le nombre total d'échantillons.

Le coefficient de corrélation de Matthews multiclasse est défini comme suit :

$$MCC = \frac{
    c \times s - \sum_{k}^{K} p_k \times t_k
}{\sqrt{
    (s^2 - \sum_{k}^{K} p_k^2) \times
    (s^2 - \sum_{k}^{K} t_k^2)
}}$$

Lorsqu'il y a plus de deux étiquettes, la valeur du MCC ne se situera plus entre -1 et +1. Au lieu de cela, la valeur minimale sera quelque part entre -1 et 0 en fonction du nombre et de la répartition des étiquettes réelles. La valeur maximale est toujours +1.

Voici un petit exemple illustrant l'utilisation de la fonction [**`matthews_corrcoef`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.matthews_corrcoef.html) :

In [1]:
from sklearn.metrics import matthews_corrcoef
y_true = [+1, +1, +1, -1]
y_pred = [+1, -1, +1, +1]
matthews_corrcoef(y_true, y_pred)
# -0.33...

-0.3333333333333333

### <a id='multi-label-confusion-matrix'></a> 3.3.2.14. Matrice de confusion multi-étiquettes

La fonction [**`multilabel_confusion_matrix`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.multilabel_confusion_matrix.html) calcule la matrice de confusion multi-étiquettes pour chaque classe (par défaut) ou pour chaque échantillon (samplewise=True) afin d'évaluer l'exactitude d'une classification. La fonction `multilabel_confusion_matrix` traite également les données multiclasse comme si elles étaient multi-étiquettes, car il s'agit d'une transformation couramment appliquée pour évaluer les problèmes multiclasse avec des métriques de classification binaire (telles que la précision, le rappel, etc.).

Lors du calcul de la matrice de confusion multi-étiquettes par classe $C$, le nombre de vrais négatifs pour la classe $i$ est $C_{i,0,0}$, le nombre de faux négatifs est $C_{i,1,0}$, le nombre de vrais positifs est $C_{i,1,1}$ et le nombre de faux positifs est $C_{i,0,1}$.

Voici un exemple illustrant l'utilisation de la fonction [**`multilabel_confusion_matrix`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.multilabel_confusion_matrix.html) avec une entrée de [**matrice indicatrice multi-étiquettes**](https://scikit-learn.org/stable/glossary.html#term-multilabel-indicator-matrix) :

In [2]:
import numpy as np
from sklearn.metrics import multilabel_confusion_matrix
y_true = np.array([[1, 0, 1],
                   [0, 1, 0]])
y_pred = np.array([[1, 0, 0],
                   [0, 1, 1]])
multilabel_confusion_matrix(y_true, y_pred)
# array([[[1, 0],
#         [0, 1]],
# 
#        [[1, 0],
#         [0, 1]],
# 
#        [[0, 1],
#         [1, 0]]])

array([[[1, 0],
        [0, 1]],

       [[1, 0],
        [0, 1]],

       [[0, 1],
        [1, 0]]], dtype=int64)

Ou une matrice de confusion peut être construite pour les étiquettes de chaque échantillon :

In [3]:
multilabel_confusion_matrix(y_true, y_pred, samplewise=True)
# array([[[1, 0],
#         [1, 1]],
# 
#        [[1, 1],
#         [0, 1]]])

array([[[1, 0],
        [1, 1]],

       [[1, 1],
        [0, 1]]], dtype=int64)

Voici un exemple illustrant l'utilisation de la fonction [**`multilabel_confusion_matrix`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.multilabel_confusion_matrix.html) avec une entrée [**multiclasse**](https://scikit-learn.org/stable/glossary.html#term-multiclass) :

In [4]:
y_true = ["cat", "ant", "cat", "cat", "ant", "bird"]
y_pred = ["ant", "ant", "cat", "cat", "ant", "cat"]
multilabel_confusion_matrix(y_true, y_pred,
                            labels=["ant", "bird", "cat"])
# array([[[3, 1],
#         [0, 2]],
# 
#        [[5, 0],
#         [1, 0]],
# 
#        [[2, 1],
#         [1, 2]]])

array([[[3, 1],
        [0, 2]],

       [[5, 0],
        [1, 0]],

       [[2, 1],
        [1, 2]]], dtype=int64)

Voici quelques exemples illustrant l'utilisation de la fonction [**`multilabel_confusion_matrix`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.multilabel_confusion_matrix.html) pour calculer le rappel (ou la sensibilité), la spécificité, le taux de faux positifs et le taux de faux négatifs pour chaque classe dans un problème avec une entrée de matrice indicatrice multi-étiquettes.

Calcul du [**rappel**](https://en.wikipedia.org/wiki/Sensitivity_and_specificity) (également appelé le taux de vrais positifs ou la sensibilité) pour chaque classe :

In [6]:
y_true = np.array([[0, 0, 1],
                   [0, 1, 0],
                   [1, 1, 0]])
y_pred = np.array([[0, 1, 0],
                   [0, 0, 1],
                   [1, 1, 0]])
mcm = multilabel_confusion_matrix(y_true, y_pred)
tn = mcm[:, 0, 0]
tp = mcm[:, 1, 1]
fn = mcm[:, 1, 0]
fp = mcm[:, 0, 1]
tp / (tp + fn)
# array([1. , 0.5, 0. ])

array([1. , 0.5, 0. ])

Calcul de la [**spécificité**](https://en.wikipedia.org/wiki/Sensitivity_and_specificity) (également appelée le taux de vrais négatifs) pour chaque classe :

In [7]:
tn / (tn + fp)
# array([1. , 0. , 0.5])

array([1. , 0. , 0.5])

Calcul du [**taux de faux positifs**](https://en.wikipedia.org/wiki/False_positive_rate) pour chaque classe :

In [8]:
fp / (fp + tn)
# array([0. , 1. , 0.5])

array([0. , 1. , 0.5])

Calcul du [**taux de faux négatifs**](https://en.wikipedia.org/wiki/False_positives_and_false_negatives) pour chaque classe :

In [9]:
fn / (fn + tp)
# array([0. , 0.5, 1. ])

array([0. , 0.5, 1. ])

### <a id='receiver-operating-characteristic-roc'></a> 3.3.2.15. Courbe caractéristique de fonctionnement du récepteur (ROC)

La fonction [**`roc_curve`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_curve.html) calcule la [**courbe caractéristique de fonctionnement du récepteur, ou courbe ROC**](https://en.wikipedia.org/wiki/Receiver_operating_characteristic). Pour citer Wikipedia :

_"Une courbe caractéristique de fonctionnement du récepteur (ROC), ou simplement courbe ROC, est un graphique qui illustre la performance d'un système de classification binaire lorsque son seuil de discrimination est varié. Elle est créée en traçant la fraction de vrais positifs parmi les positifs (TRP = taux de vrais positifs) en fonction de la fraction de faux positifs parmi les négatifs (FRP = taux de faux positifs), pour différentes valeurs de seuil. TRP est également connu sous le nom de sensibilité, et FRP est équivalent à un moins la spécificité ou le taux de vrais négatifs."_

Cette fonction nécessite les vraies valeurs binaires ainsi que les scores cibles, qui peuvent être soit les estimations de probabilité de la classe positive, soit les valeurs de confiance, soit les décisions binaires. Voici un petit exemple de l'utilisation de la fonction [**`roc_curve`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_curve.html) :

In [10]:
import numpy as np
from sklearn.metrics import roc_curve
y = np.array([1, 1, 2, 2])
scores = np.array([0.1, 0.4, 0.35, 0.8])
fpr, tpr, thresholds = roc_curve(y, scores, pos_label=2)
fpr
# array([0. , 0. , 0.5, 0.5, 1. ])
tpr
# array([0. , 0.5, 0.5, 1. , 1. ])
thresholds
# array([ inf, 0.8 , 0.4 , 0.35, 0.1 ])

array([ inf, 0.8 , 0.4 , 0.35, 0.1 ])

Comparé à des métriques telles que la précision de sous-ensemble, la perte de Hamming ou le score F1, la courbe ROC ne nécessite pas d'optimiser un seuil pour chaque étiquette.

La fonction [**`roc_auc_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html), également appelée ROC-AUC ou AUROC, calcule l'aire sous la courbe ROC. Ainsi, les informations de la courbe sont résumées en un seul nombre.

La figure suivante montre la courbe ROC et le score ROC-AUC pour un classificateur visant à distinguer la fleur "virginica" du reste des espèces dans l'ensemble de données [**Iris plants** (7.1.1)](https://scikit-learn.org/stable/datasets/toy_dataset.html#iris-dataset) :

![](https://scikit-learn.org/stable/_images/sphx_glr_plot_roc_001.png)

Pour plus d'informations, consultez l'[**article Wikipedia sur l'aire sous la courbe**](https://en.wikipedia.org/wiki/Receiver_operating_characteristic#Area_under_the_curve).

#### Cas binaire

Dans le cas **binaire**, vous pouvez fournir les estimations de probabilité en utilisant la méthode `classifier.predict_proba()`, ou les valeurs de décision non seuillées fournies par la méthode `classifier.decision_function()`. Dans le cas où vous fournissez les estimations de probabilité, la probabilité de la classe avec l'"étiquette supérieure" doit être fournie. L'"étiquette supérieure" correspond à `classifier.classes_[1]` et donc `classifier.predict_proba(X)[:, 1]`. Par conséquent, le paramètre `y_score` a une taille de `(n_samples,)`.

In [11]:
from sklearn.datasets import load_breast_cancer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
X, y = load_breast_cancer(return_X_y=True)
clf = LogisticRegression(solver="liblinear").fit(X, y)
clf.classes_
# array([0, 1])

array([0, 1])

Nous pouvons utiliser les estimations de probabilité correspondant à `clf.classes_[1]`.

In [12]:
y_score = clf.predict_proba(X)[:, 1]
roc_auc_score(y, y_score)
# 0.99...

0.9947412927435125

Sinon, nous pouvons utiliser les valeurs de décision non seuillées.

In [13]:
roc_auc_score(y, clf.decision_function(X))
# 0.99...

0.9947412927435125

#### Cas multi-classes

La fonction [**`roc_auc_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html) peut également être utilisée pour la **classification multi-classes**. Deux stratégies de moyennage sont actuellement prises en charge : l'algorithme "un contre un" calcule la moyenne des scores de l'aire sous la courbe ROC par paires, et l'algorithme "un contre tous" calcule la moyenne des scores de l'aire sous la courbe ROC pour chaque classe par rapport à toutes les autres classes. Dans les deux cas, les étiquettes prédites sont fournies dans un tableau avec des valeurs de 0 à `n_classes`, et les scores correspondent aux estimations de probabilité qu'un échantillon appartienne à une classe particulière. Les algorithmes OvO (un contre un) et OvR (un contre tous) prennent en charge un pondérage uniforme (`average='macro'`) et un pondérage par prévalence (`average='weighted'`).

**Algorithme un contre un (OvO) :** Calcule la moyenne de toutes les combinaisons possibles de paires de classes. [HT2001] définit une métrique AUC multiclasse pondérée uniformément :

$$\frac{1}{c(c-1)}\sum_{j=1}^{c}\sum_{k > j}^c (\text{AUC}(j | k) +
\text{AUC}(k | j))$$

où $c$ est le nombre de classes et $\text{AUC}(j | k)$ est l'AUC avec la classe $j$ comme classe positive et la classe $k$ comme classe négative. En général, $\text{AUC}(j | k) \neq \text{AUC}(k | j)$ dans le cas multiclasse. Cet algorithme est utilisé en définissant l'argument `multiclass` sur `'ovo'` et `average` sur `'macro'`.

La métrique AUC multiclasse de [HT2001] peut être étendue pour être pondérée par la prévalence :

$$\frac{1}{c(c-1)}\sum_{j=1}^{c}\sum_{k > j}^c p(j \cup k)(
\text{AUC}(j | k) + \text{AUC}(k | j))$$

où $c$ est le nombre de classes. Cet algorithme est utilisé en définissant l'argument `multiclass` sur `'ovo'` et `average` sur `'weighted'`. L'option `'weighted'` renvoie une moyenne pondérée par la prévalence comme décrit dans [FC2009].

**Algorithme un contre tous (OvR) :** Calcule l'AUC de chaque classe par rapport au reste [PD2000]. L'algorithme est fonctionnellement le même que dans le cas multilabel. Pour activer cet algorithme, définissez l'argument `multiclass` sur `'ovr'`. En plus de la moyenne `'macro'` [F2006] et `'weighted'` [F2001], OvR prend en charge la moyenne `'micro'`.

Dans les applications où un taux de faux positifs élevé n'est pas tolérable, le paramètre `max_fpr` de [**`roc_auc_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html) peut être utilisé pour résumer la courbe ROC jusqu'à la limite donnée.

La figure suivante montre la courbe ROC micro-pondérée et son score ROC-AUC correspondant pour un classificateur visant à distinguer les différentes espèces dans l'ensemble de données [**Iris plants** (7.1.1)](https://scikit-learn.org/stable/datasets/toy_dataset.html#iris-dataset) :

![](https://scikit-learn.org/stable/_images/sphx_glr_plot_roc_002.png)

#### Cas multi-étiquettes

Dans la **classification multi-étiquettes**, la fonction [**`roc_auc_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html) est étendue par la moyenne des étiquettes comme [**ci-dessus** (3.3.2.1)](https://scikit-learn.org/stable/modules/model_evaluation.html#average). Dans ce cas, vous devez fournir un `y_score` de forme `(n_samples, n_classes)`. Ainsi, lors de l'utilisation des estimations de probabilité, il est nécessaire de sélectionner la probabilité de la classe avec l'étiquette supérieure pour chaque sortie.

In [14]:
from sklearn.datasets import make_multilabel_classification
from sklearn.multioutput import MultiOutputClassifier
X, y = make_multilabel_classification(random_state=0)
inner_clf = LogisticRegression(solver="liblinear", random_state=0)
clf = MultiOutputClassifier(inner_clf).fit(X, y)
y_score = np.transpose([y_pred[:, 1] for y_pred in clf.predict_proba(X)])
roc_auc_score(y, y_score, average=None)
# array([0.82..., 0.86..., 0.94..., 0.85... , 0.94...])

array([0.82664884, 0.86034414, 0.94181818, 0.8502652 , 0.94809095])

Et les valeurs de décision ne nécessitent pas un tel traitement.

In [15]:
from sklearn.linear_model import RidgeClassifierCV
clf = RidgeClassifierCV().fit(X, y)
y_score = clf.decision_function(X)
roc_auc_score(y, y_score, average=None)
# array([0.81..., 0.84... , 0.93..., 0.87..., 0.94...])

array([0.81996435, 0.8467387 , 0.93090909, 0.87229702, 0.94422994])

#### Exemples

##### [**Courbe de Caractéristique de Fonctionnement du Récepteur (ROC) Multiclasse**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/3_model_selection/plot_roc.ipynb)<br/>([*Multiclass Receiver Operating Characteristic (ROC)*](https://scikit-learn.org/stable/auto_examples/model_selection/plot_roc.html))

Exemple de l'utilisation de la courbe ROC pour évaluer la qualité de la sortie d'un classifieur.

##### [**Caractéristique de Fonctionnement du Récepteur (Receiver Operating Characteristic - ROC) avec validation croisée**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/3_model_selection/plot_roc_crossval.ipynb)<br/>([*Receiver Operating Characteristic (ROC) with cross validation*](https://scikit-learn.org/stable/auto_examples/model_selection/plot_roc_crossval.html))

Exemple de l'utilisation de la courbe ROC pour évaluer la qualité de la sortie d'un classifieur, en utilisant une validation croisée.

##### [**Modélisation de la distribution des espèces**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/applications/plot_species_distribution_modeling.ipynb)<br/>([_Species distribution modeling_](https://scikit-learn.org/stable/auto_examples/applications/plot_species_distribution_modeling.html))

Exemple de l'utilisation de la courbe ROC pour modéliser la distribution des espèces.

#### Références

Z 🔬 [HT2001] (1,2) Hand, D.J. and Till, R.J., (2001). [**“A simple generalisation of the area under the ROC curve for multiple class classification problems”**](https://link.springer.com/content/pdf/10.1023/A:1010920819831.pdf). Machine learning, 45(2), pp. 171-186.

Z 🔬 [FC2009] Ferri, Cèsar & Hernandez-Orallo, Jose & Modroiu, R. (2009). [**“An Experimental Comparison of Performance Measures for Classification”**](https://www.math.ucdavis.edu/~saito/data/roc/ferri-class-perf-metrics.pdf). Pattern Recognition Letters. 30. 27-38.

Z 🔬 [PD2000] Provost, F., Domingos, P. (2000). [**“Well-trained PETs: Improving probability estimation trees”**](https://pages.stern.nyu.edu/~fprovost/Papers/pet-wp.pdf) (Section 6.2), CeDER Working Paper #IS-00-04, Stern School of Business, New York University.

Z 🔬 [F2006] Fawcett, T., 2006. [**“An introduction to ROC analysis”**](http://www.decom.ufop.br/menotti/rp112/slides/13-2006-AnIntroductionToROCAnalysis-PRLv27pp861-874.pdf). Pattern Recognition Letters, 27(8), pp. 861-874.

x 🔬 [F2001] Fawcett, T., 2001. [**“Using rule sets to maximize ROC performance”**](https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=41641e00fe67bb0fd4f2d9cec01d0e35fc89552f) In Data Mining, 2001. Proceedings IEEE International Conference, pp. 131-138

### <a id='detection-error-tradeoff-det'></a> 3.3.2.16. Courbe de trade-off d'erreur de détection (DET)

La fonction [**`det_curve`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.det_curve.html) calcule la [**courbe de trade-off d'erreur de détection (DET)**](https://en.wikipedia.org/wiki/Detection_error_tradeoff). Pour citer Wikipedia :

_"Un graphique de trade-off d'erreur de détection (DET) est une représentation graphique des taux d'erreur pour les systèmes de classification binaire, qui trace le taux de rejet faux par rapport au taux d'acceptation faux. Les axes x et y sont mis à l'échelle de manière non linéaire par leurs écarts types normaux (ou simplement par transformation logarithmique), ce qui donne des courbes de trade-off plus linéaires que les courbes ROC et utilise la majeure partie de la zone de l'image pour mettre en évidence les différences d'importance dans la région opérationnelle critique."_

Les courbes DET sont une variation des courbes ROC où le taux de faux négatifs est tracé sur l'axe des y au lieu du taux de vrais positifs. Les courbes DET sont généralement tracées à l'échelle des écarts normaux par transformation avec $\phi^{-1}$ (avec $\phi$ étant la fonction de répartition cumulative). Les courbes de performance résultantes visualisent explicitement le compromis entre les types d'erreurs pour les algorithmes de classification donnés. Voir [Martin1997] pour des exemples et des motivations supplémentaires.

Cette figure compare les courbes ROC et DET de deux classificateurs d'exemple sur la même tâche de classification :

![Courbes ROC et DET](https://scikit-learn.org/stable/_images/sphx_glr_plot_det_001.png)

#### Propriétés

- Les courbes DET forment une courbe linéaire à l'échelle des écarts normaux si les scores de détection sont distribués de manière normale (ou proche de la normale). Il a été démontré par [Navratil2007] que l'inverse n'est pas nécessairement vrai et que des distributions encore plus générales peuvent produire des courbes DET linéaires.

- La transformation à l'échelle des écarts normaux écarte les points de manière à occuper un espace relativement plus grand sur le graphique. Par conséquent, des courbes avec des performances de classification similaires peuvent être plus faciles à distinguer sur un graphique DET.

- Avec le taux de faux négatifs étant "inverse" au taux de vrais positifs, le point de perfection pour les courbes DET est l'origine (par opposition au coin supérieur gauche pour les courbes ROC).

#### Applications et limites

Les courbes DET sont intuitives à lire et permettent donc une évaluation visuelle rapide des performances d'un classificateur. De plus, les courbes DET peuvent être consultées pour une analyse des seuils et la sélection du point de fonctionnement. Cela est particulièrement utile si une comparaison des types d'erreurs est nécessaire.

D'autre part, les courbes DET ne fournissent pas leur métrique sous forme d'un seul nombre. Par conséquent, pour une évaluation automatisée ou une comparaison avec d'autres tâches de classification, des métriques telles que l'aire sous la courbe ROC dérivée peuvent être plus adaptées.

#### Exemples

##### [**Courbe de trade-off d'erreur de détection (DET)**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/3_model_selection/plot_det.ipynb)<br/>([_Detection error tradeoff (DET) curve_](https://scikit-learn.org/stable/auto_examples/model_selection/plot_det.html))

Exemple de comparaison entre les courbes de caractéristiques de fonctionnement du récepteur (ROC) et les courbes de trade-off d'erreur de détection (DET).

#### Références

Z 🔬 [Martin1997] A. Martin, G. Doddington, T. Kamm, M. Ordowski, and M. Przybocki, [**“The DET Curve in Assessment of Detection Task Performance”**](http://ccc.inaoep.mx/%7Evillasen/bib/martin97det.pdf), NIST 1997.

Z 🔬 [Navratil2007] J. Navractil and D. Klusacek, [**“On Linear DETs”**](https://www.researchgate.net/profile/Jiri-Navratil/publication/4249280_On_Linear_DETs/links/5820e0f108ae40da2cb50dfb/On-Linear-DETs.pdf), 2007 IEEE International Conference on Acoustics, Speech and Signal Processing - ICASSP ‘07, Honolulu, HI, 2007, pp. IV-229-IV-232.

### <a id='zero-one-loss'></a> 3.3.2.17. Perte zéro-un

La fonction [**`zero_one_loss`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.zero_one_loss.html) calcule la somme ou la moyenne de la perte de classification 0-1 ($L_{0-1}$) sur $n_{\text{samples}}$. Par défaut, la fonction normalise par échantillon. Pour obtenir la somme de $L_{0-1}$, définissez `normalize` sur `False`.

Dans la classification multilabel, la fonction [**`zero_one_loss`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.zero_one_loss.html) attribue un score de un à un sous-ensemble si ses étiquettes correspondent strictement aux prédictions, et de zéro s'il y a des erreurs. Par défaut, la fonction renvoie le pourcentage de sous-ensembles mal prédits. Pour obtenir le nombre de ces sous-ensembles, définissez `normalize` sur `False`.

Si $\hat{y}_i$ est la valeur prédite pour le $i$-ème échantillon et $y_i$ est la valeur vraie correspondante, alors la perte 0-1 $L_{0-1}$ est définie comme suit :

$$L_{0-1}(y, \hat{y}) = \frac{1}{n_\text{samples}} \sum_{i=0}^{n_\text{samples}-1} 1(\hat{y}_i \neq y_i)$$

où $1(x)$ est la [**fonction indicatrice**](https://en.wikipedia.org/wiki/Indicator_function). La perte zéro-un peut également être calculée comme $zero\_one\_loss = 1 - accuracy$.

In [16]:
from sklearn.metrics import zero_one_loss
y_pred = [1, 2, 3, 4]
y_true = [2, 2, 3, 4]
zero_one_loss(y_true, y_pred)
# 0.25
zero_one_loss(y_true, y_pred, normalize=False)
# 1

1

Dans le cas multilabel avec des indicateurs d'étiquettes binaires, où le premier ensemble d'étiquettes [0,1] comporte une erreur :

In [17]:
zero_one_loss(np.array([[0, 1], [1, 1]]), np.ones((2, 2)))
# 0.5
zero_one_loss(np.array([[0, 1], [1, 1]]), np.ones((2, 2)),  normalize=False)
# 1

1

#### Exemple

##### [**Élimination récursive des caractéristiques (RFE) avec validation croisée**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/1_13_feature_selection/plot_rfe_with_cross_validation.ipynb)<br/>([_Recursive Feature Elimination (RFE) with cross-validation_](https://scikit-learn.org/stable/auto_examples/feature_selection/plot_rfe_with_cross_validation.html))

Exemple d'utilisation de la perte zéro-un pour effectuer une élimination récursive des fonctionnalités avec validation croisée.

### <a id='brier-score-loss'></a> 3.3.2.18. Score de Brier

La fonction [**`brier_score_loss`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.brier_score_loss.html) calcule le [**score de Brier**](https://en.wikipedia.org/wiki/Brier_score) pour les classes binaires [Brier1950]. Pour citer Wikipedia :

_« Le score de Brier est une fonction de score appropriée qui mesure l'exactitude des prédictions probabilistes. Il s'applique aux tâches dans lesquelles les prédictions doivent attribuer des probabilités à un ensemble de résultats discrets mutuellement exclusifs. »_

Cette fonction renvoie l'erreur quadratique moyenne entre le résultat réel $y \in \{0,1\}$ et l'estimation de probabilité prédite $p = \operatorname{Pr}(y = 1)$ ([**predict_proba**](https://scikit-learn.org/stable/glossary.html#term-predict_proba)) comme sortie par :

$$BS = \frac{1}{n_{\text{samples}}} \sum_{i=0}^{n_{\text{samples}} - 1}(y_i - p_i)^2$$

Le score de Brier est également compris entre 0 et 1, et plus la valeur est basse (l'écart quadratique moyen est plus petit), plus la prédiction est précise.

Voici un petit exemple d'utilisation de cette fonction :

In [None]:
import numpy as np
from sklearn.metrics import brier_score_loss
y_true = np.array([0, 1, 1, 0])
y_true_categorical = np.array(["spam", "ham", "ham", "spam"])
y_prob = np.array([0.1, 0.9, 0.8, 0.4])
y_pred = np.array([0, 1, 1, 0])
brier_score_loss(y_true, y_prob)
# 0.055
brier_score_loss(y_true, 1 - y_prob, pos_label=0)
# 0.055
brier_score_loss(y_true_categorical, y_prob, pos_label="ham")
# 0.055
brier_score_loss(y_true, y_prob > 0.5)
# 0.0

Le score de Brier peut être utilisé pour évaluer à quel point un classificateur est calibré. Cependant, un score de Brier plus bas ne signifie pas toujours une meilleure calibration. Cela est dû au fait que, par analogie avec la décomposition biais-variance de l'erreur quadratique moyenne, le score de Brier peut être décomposé en la somme de la perte de calibration et de la perte de raffinement [Bella2012]. La perte de calibration est définie comme l'écart quadratique moyen par rapport aux probabilités empiriques dérivées de la pente des segments de la courbe ROC. La perte de raffinement peut être définie comme la perte optimale attendue mesurée par l'aire sous la courbe de coût optimale. La perte de raffinement peut changer indépendamment de la perte de calibration, donc un score de Brier plus bas ne signifie pas nécessairement un modèle mieux calibré. "Ce n'est que lorsque la perte de raffinement reste la même qu'un score de Brier plus bas signifie toujours une meilleure calibration" [Bella2012], [Flach2008].

#### Exemple

##### [**Calibration des probabilités des classificateurs**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/calibration/plot_calibration.ipynb)<br/>([_Probability calibration of classifiers_](https://scikit-learn.org/stable/auto_examples/calibration/plot_calibration.html))

Exemple d'utilisation du score de Brier pour effectuer la calibration des probabilités des classifieurs.

#### Références

Z 🔬 [Brier1950] G. Brier, [**“Verification of forecasts expressed in terms of probability”**](https://viterbi-web.usc.edu/~shaddin/cs699fa17/docs/Brier50.pdf), Monthly weather review 78.1 (1950)

Z 🔬 [Bella2012] (1,2) Bella, Ferri, Hernández-Orallo, and Ramírez-Quintana [**“Calibration of Machine Learning Models”**](http://dmip.webs.upv.es/papers/BFHRHandbook2010.pdf) in Khosrow-Pour, M. “Machine learning: concepts, methodologies, tools and applications.” Hershey, PA: Information Science Reference (2012).

Z 🔬 [Flach2008] Flach, Peter, and Edson Matsubara. [**“On classification, ranking, and probability estimation”**](https://drops.dagstuhl.de/opus/volltexte/2008/1382/pdf/07161.FlachPeter.Paper.1382.pdf). Dagstuhl Seminar Proceedings. Schloss Dagstuhl-Leibniz-Zentrum fr Informatik (2008)

### <a id='class-likelihood-ratios'></a> 3.3.2.19. Rapports de vraisemblance de classe

La fonction [**`class_likelihood_ratios`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.class_likelihood_ratios.html) calcule les [**rapports de vraisemblance positifs et négatifs**](https://en.wikipedia.org/wiki/Likelihood_ratios_in_diagnostic_testing)  $LR_\pm$ pour les classes binaires, qui peuvent être interprétés comme le rapport des cotes post-test sur pré-test, comme expliqué ci-dessous. En conséquence, cette mesure est invariante par rapport à la prévalence de la classe (le nombre d'échantillons dans la classe positive divisé par le nombre total d'échantillons) et **peut être extrapolée entre les populations indépendamment de tout déséquilibre éventuel des classes**.

Les $LR_\pm$ metrics sont donc très utiles dans les situations où les données disponibles pour apprendre et évaluer un classifieur proviennent d'une population étudiée avec des classes presque équilibrées, comme une étude cas-témoin, tandis que l'application cible, c'est-à-dire la population générale, a une prévalence très faible.

Le rapport de vraisemblance positif $LR_+$ est la probabilité d'un classifieur de prédire correctement qu'un échantillon appartient à la classe positive, divisée par la probabilité de prédire la classe positive pour un échantillon appartenant à la classe négative :

$$LR_+ = \frac{\text{PR}(P+|T+)}{\text{PR}(P+|T-)}.$$

La notation ici fait référence à l'étiquette prédite ($P$) ou réelle ($T$) et le signe $+$ et $-$ fait référence aux classes positive et négative, respectivement, par exemple $P+$ signifie "prédiction positive".

De manière analogue, le rapport de vraisemblance négatif $LR_-$ est la probabilité qu'un échantillon de la classe positive soit classé comme appartenant à la classe négative, divisée par la probabilité qu'un échantillon de la classe négative soit correctement classé :

$$LR_- = \frac{\text{PR}(P-|T+)}{\text{PR}(P-|T-)}.$$

Pour les classifieurs supérieurs au hasard, $LR_+$ au-dessus de 1 est **meilleur**, tandis que $LR_-$ varie de 0 à 1 et est **meilleur** si plus petit. Les valeurs de $LR_\pm \approx 1$ correspondent à un niveau de chance.

Notez que les probabilités diffèrent des dénombrements, par exemple $\operatorname{PR}(P+|T+)$ n'est pas égal au nombre de vrais positifs `tp` (voir [la page Wikipedia](https://en.wikipedia.org/wiki/Likelihood_ratios_in_diagnostic_testing) pour les formules réelles).

#### Interprétation avec une prévalence variable

Les deux rapports de vraisemblance de classe sont interprétables en termes de rapport des cotes (pré-test et post-test) :

$$\text{cotes post-test} = \text{Rapport de vraisemblance} \times \text{cotes pré-test}.$$

Les cotes sont en général liées aux probabilités via

$$\text{cotes} = \frac{\text{probabilité}}{1 - \text{probabilité}},$$

ou de manière équivalente

$$\text{probabilité} = \frac{\text{cotes}}{1 + \text{cotes}}.$$

Dans une population donnée, la probabilité pré-test est donnée par la prévalence. En convertissant les cotes en probabilités, les rapports de vraisemblance peuvent être traduits en probabilité d'appartenir véritablement à l'une ou l'autre classe avant et après la prédiction d'un classifieur :

$$\text{cotes post-test} = \text{Rapport de vraisemblance} \times
\frac{\text{probabilité pré-test}}{1 - \text{probabilité pré-test}},$$
$$\text{probabilité post-test} = \frac{\text{cotes post-test}}{1 + \text{cotes post-test}}.$$

#### Divergences mathématiques

Le rapport de vraisemblance positif est indéfini lorsque $fp = 0$, ce qui peut être interprété comme le classifieur identifiant parfaitement les cas positifs. Si $fp = 0$ et en plus $tp = 0$, cela entraîne une division par zéro. Cela se produit, par exemple, lors de l'utilisation d'un `DummyClassifier` qui prédit toujours la classe négative, ce qui fait perdre l'interprétation en tant que classifieur parfait.

Le rapport de vraisemblance négatif est indéfini lorsque $tn = 0$. Une telle divergence est invalide, car $LR_- > 1$ indiquerait une augmentation des chances qu'un échantillon appartienne à la classe positive après avoir été classifié comme négatif, comme si l'acte de classification avait provoqué la condition positive. Cela inclut le cas d'un `DummyClassifier` qui prédit toujours la classe positive (c'est-à-dire lorsque $tn=fn=0$).

Les deux rapports de vraisemblance de classe sont indéfinis lorsque $tp=fn=0$, ce qui signifie qu'aucun échantillon de la classe positive n'était présent dans l'ensemble de test. Cela peut également se produire lors de la validation croisée de données fortement déséquilibrées.

Dans tous les cas précédents, la fonction [**`class_likelihood_ratios`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.class_likelihood_ratios.html) déclenche par défaut un message d'avertissement approprié et renvoie `nan` pour éviter toute pollution lors de la moyenne sur les plis de validation croisée.

Pour une démonstration détaillée de la fonction [**`class_likelihood_ratios`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.class_likelihood_ratios.html), consultez l'exemple ci-dessous.

#### Exemples

##### [**Rapports de vraisemblance de classe pour mesurer la performance de classification**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/3_model_selection/plot_likelihood_ratios.ipynb)<br/>([_Class Likelihood Ratios to measure classification performance_](https://scikit-learn.org/stable/auto_examples/model_selection/plot_likelihood_ratios.html))

#### Références

Z 🔬 Brenner, H., & Gefeller, O. (1997). [**“Variation of sensitivity, specificity, likelihood ratios and predictive values with disease prevalence”**](https://www.floppybunny.org/robin/web/virtualclassroom/stats/basics/articles/odds_risks/odds_sensitivity%29likelihood_ratios_validity_brenner_1997.pdf). Statistics in medicine, 16(9), 981-991

## <a id='multilabel-ranking-metrics'></a> 3.3.3. Mesures de classement multi-étiquettes

En apprentissage multi-étiquettes, chaque échantillon peut être associé à un nombre quelconque d'étiquettes réelles. L'objectif est d'attribuer des scores élevés et un meilleur classement aux étiquettes réelles.

### <a id='multilabel-ranking-metrics'></a> 3.3.3.1. Erreur de couverture

La fonction [**`coverage_error`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.coverage_error.html) calcule le nombre moyen d'étiquettes qui doivent être incluses dans la prédiction finale pour que toutes les étiquettes réelles soient prédites. Cela est utile si vous souhaitez savoir combien d'étiquettes ayant le meilleur score vous devez prédire en moyenne sans en manquer une seule. La meilleure valeur de cette métrique est donc le nombre moyen d'étiquettes réelles.

**Note :** Le score de notre implémentation est supérieur d'une unité à celui donné dans l'article de Tsoumakas et al., 2010. Cela étend la fonction pour gérer le cas dégénéré dans lequel une instance n'a aucune étiquette réelle.

Formellement, étant donné une matrice binaire d'indicateurs des étiquettes réelles $y \in \left\{0, 1\right\}^{n_\text{samples} \times n_\text{labels}}$ et le score associé à chaque étiquette $\hat{f} \in \mathbb{R}^{n_\text{samples} \times n_\text{labels}}$, la couverture est définie comme suit :

$$\text{couverture}(y, \hat{f}) = \frac{1}{n_{\text{samples}}}
  \sum_{i=0}^{n_{\text{samples}} - 1} \max_{j:y_{ij} = 1} \text{rang}_{ij}$$

avec $\text{rang}_{ij} = \left|\left\{k: \hat{f}_{ik} \geq \hat{f}_{ij} \right\}\right|$. Étant donné la définition du rang, les égalités dans `y_scores` sont résolues en attribuant le rang maximal qui aurait été attribué à toutes les valeurs égales.

Voici un petit exemple d'utilisation de cette fonction :

In [18]:
import numpy as np
from sklearn.metrics import coverage_error
y_true = np.array([[1, 0, 0], [0, 0, 1]])
y_score = np.array([[0.75, 0.5, 1], [1, 0.2, 0.1]])
coverage_error(y_true, y_score)
# 2.5

2.5

### <a id='label-ranking-average-precision'></a> 3.3.3.2. Précision moyenne du classement des étiquettes

La fonction [**`label_ranking_average_precision_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.label_ranking_average_precision_score.html) implémente la précision moyenne du classement des étiquettes (LRAP - Label Ranking Average Precision). Cette mesure est liée à la fonction [**`average_precision_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.average_precision_score.html), mais est basée sur la notion de classement des étiquettes plutôt que sur la précision et le rappel.

La précision moyenne du classement des étiquettes (LRAP) calcule en moyenne sur les échantillons la réponse à la question suivante : pour chaque étiquette réelle, quelle fraction des étiquettes mieux classées étaient des étiquettes réelles ? Cette mesure de performance sera plus élevée si vous êtes capable de donner un meilleur classement aux étiquettes associées à chaque échantillon. Le score obtenu est toujours strictement supérieur à 0, et la meilleure valeur est 1. S'il y a exactement une étiquette pertinente par échantillon, la précision moyenne du classement des étiquettes est équivalente au [**taux de rang réciproque moyen**](https://en.wikipedia.org/wiki/Mean_reciprocal_rank).

Formellement, étant donné une matrice binaire d'indicateurs des étiquettes réelles $y \in \left\{0, 1\right\}^{n_\text{samples} \times n_\text{labels}}$ et le score associé à chaque étiquette $\hat{f} \in \mathbb{R}^{n_\text{samples} \times n_\text{labels}}$, la précision moyenne est définie comme suit :

$$LRAP(y, \hat{f}) = \frac{1}{n_{\text{samples}}}
  \sum_{i=0}^{n_{\text{samples}} - 1} \frac{1}{||y_i||_0}
  \sum_{j:y_{ij} = 1} \frac{|\mathcal{L}_{ij}|}{\text{rang}_{ij}}$$

où $\mathcal{L}_{ij} = \left\{k: y_{ik} = 1, \hat{f}_{ik} \geq \hat{f}_{ij} \right\}$, $|\cdot|$, calcule le cardinal de l'ensemble (c'est-à-dire le nombre d'éléments dans l'ensemble), et $||\cdot||_0$ est la "norme" $\ell_0$ (qui calcule le nombre d'éléments non nuls dans un vecteur).

Voici un petit exemple d'utilisation de cette fonction :

In [19]:
import numpy as np
from sklearn.metrics import label_ranking_average_precision_score
y_true = np.array([[1, 0, 0], [0, 0, 1]])
y_score = np.array([[0.75, 0.5, 1], [1, 0.2, 0.1]])
label_ranking_average_precision_score(y_true, y_score)
# 0.416...

0.41666666666666663

### <a id='ranking-loss'></a> 3.3.3.3. Perte de classement

La fonction [**`label_ranking_loss`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.label_ranking_loss.html) calcule la perte de classement, qui représente en moyenne sur les échantillons le nombre de paires d'étiquettes incorrectement ordonnées, c'est-à-dire les étiquettes réelles ayant un score inférieur aux étiquettes fausses, pondéré par l'inverse du nombre de paires ordonnées d'étiquettes fausses et réelles. La perte de classement la plus basse possible est zéro.

Formellement, étant donné une matrice binaire d'indicateurs des étiquettes réelles $y \in \left\{0, 1\right\}^{n_\text{samples} \times n_\text{labels}}$ et le score associé à chaque étiquette $\hat{f} \in \mathbb{R}^{n_\text{samples} \times n_\text{labels}}$, la perte de classement est définie comme suit :

$$ranking\_loss(y, \hat{f}) =  \frac{1}{n_{\text{samples}}}
  \sum_{i=0}^{n_{\text{samples}} - 1} \frac{1}{||y_i||_0(n_\text{labels} - ||y_i||_0)}
  \left|\left\{(k, l): \hat{f}_{ik} \leq \hat{f}_{il}, y_{ik} = 1, y_{il} = 0 \right\}\right|$$

où $|\cdot|$ calcule le cardinal de l'ensemble (c'est-à-dire le nombre d'éléments dans l'ensemble) et $||\cdot||_0$ est la "norme" $\ell_0$ (qui calcule le nombre d'éléments non nuls dans un vecteur).

Voici un petit exemple d'utilisation de cette fonction :

In [20]:
import numpy as np
from sklearn.metrics import label_ranking_loss
y_true = np.array([[1, 0, 0], [0, 0, 1]])
y_score = np.array([[0.75, 0.5, 1], [1, 0.2, 0.1]])
label_ranking_loss(y_true, y_score)
# 0.75...
# With the following prediction, we have perfect and minimal loss
y_score = np.array([[1.0, 0.1, 0.2], [0.1, 0.2, 0.9]])
label_ranking_loss(y_true, y_score)
# 0.0

0.0

#### Référence

Z 🔬 Tsoumakas, G., Katakis, I., & Vlahavas, I. (2010). [**“Mining multi-label data”**](http://lpis.csd.auth.gr/publications/tsoumakas09-dmkdh.pdf). In Data mining and knowledge discovery handbook (pp. 667-685). Springer US.

### <a id='normalized-discounted-cumulative-gain'></a> 3.3.3.4. Gain cumulé actualisé normalisé

Le Gain cumulé actualisé (DCG) et le Gain cumulé actualisé normalisé (NDCG) sont des métriques de classement implémentées dans les fonctions `dcg_score` et `ndcg_score` ; elles comparent un ordre prédit aux scores réels, tels que la pertinence des réponses à une requête.

D'après la page Wikipedia pour le [**Gain cumulé actualisé**](https://en.wikipedia.org/wiki/Discounted_cumulative_gain) :

_“Le Gain cumulé actualisé (DCG) est une mesure de la qualité de classement. En recherche d'informations, il est souvent utilisé pour mesurer l'efficacité des algorithmes de moteurs de recherche Web ou d'applications similaires. En utilisant une échelle de pertinence graduée des documents dans un ensemble de résultats de moteur de recherche, le DCG mesure l'utilité, ou le gain, d'un document en fonction de sa position dans la liste de résultats. Le gain est cumulé du haut de la liste de résultats vers le bas, le gain de chaque résultat étant réduit pour les rangs inférieurs”_

Le DCG ordonne les cibles réelles (par exemple, la pertinence des réponses à une requête) dans l'ordre prédit, puis les multiplie par une décroissance logarithmique et en fait la somme. La somme peut être tronquée après les premiers $K$ résultats, auquel cas nous l'appelons DCG@K. Le NDCG, ou NDCG@K, est le DCG divisé par le DCG obtenu par une prédiction parfaite, de sorte qu'il soit toujours compris entre 0 et 1. En général, le NDCG est préféré au DCG.

Comparé à la perte de classement, le NDCG peut prendre en compte les scores de pertinence, plutôt qu'un classement réel. Donc, si les données réelles consistent uniquement en un classement, la perte de classement devrait être préférée ; si les données réelles consistent en des scores d'utilité réels (par exemple, 0 pour non pertinent, 1 pour pertinent, 2 pour très pertinent), le NDCG peut être utilisé.

Pour un échantillon, étant donné le vecteur des valeurs réelles continues pour chaque cible $y \in \mathbb{R}^{M}$, où $M$ est le nombre de sorties, et la prédiction $\hat{y}$, qui induit la fonction de classement $f$, le score DCG est défini comme suit :

$$\sum_{r=1}^{\min(K, M)}\frac{y_{f(r)}}{\log(1 + r)}$$

et le score NDCG est le score DCG divisé par le score DCG obtenu pour $y$.

#### Références

Z 🔬 Jarvelin, K., & Kekalainen, J. (2002). [**“Cumulated Gain-Based Evaluation of IR Techniques”**](https://faculty.cc.gatech.edu/~zha/CS8803WST/dcg.pdf). ACM Transactions on Information Systems (TOIS), 20(4), 422-446.

Z 🔬 Wang, Y., Wang, L., Li, Y., He, D., Chen, W., & Liu, T. Y. (2013, May). [**“A Theoretical Analysis of NDCG Ranking Measures”**](http://proceedings.mlr.press/v30/Wang13.pdf). In Proceedings of the 26th Annual Conference on Learning Theory (COLT 2013)

Z 🔬 McSherry, F., & Najork, M. (2008, March). [**“Computing Information Retrieval Performance Measures Efficiently in the Presence of Tied Scores”**](https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/ecir2008.pdf). In European conference on information retrieval (pp. 414-421). Springer, Berlin, Heidelberg.

## <a id='regression-metrics'></a> 3.3.4. Métriques de régression

Le module [**`sklearn.metrics`**](https://scikit-learn.org/stable/modules/classes.html) implémente plusieurs fonctions de perte, de score et d'utilité pour mesurer les performances en régression. Certaines d'entre elles ont été améliorées pour gérer le cas de sortie multiple : [**`mean_squared_error`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html), [**`mean_absolute_error`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_absolute_error.html), [**`r2_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html), [**`explained_variance_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.explained_variance_score.html), [**`mean_pinball_loss`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_pinball_loss.html), [**`d2_pinball_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.d2_pinball_score.html) et [**`d2_absolute_error_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.d2_absolute_error_score.html).

Ces fonctions possèdent un argument facultatif `multioutput` qui spécifie la manière dont les scores ou les pertes pour chaque cible individuelle doivent être moyennés. La valeur par défaut est `'uniform_average'`, qui spécifie une moyenne pondérée uniformément sur les sorties. Si un `ndarray` de forme `(n_outputs,)` est passé, ses entrées sont interprétées comme des poids et une moyenne pondérée correspondante est renvoyée. Si `multioutput` est `'raw_values'`, alors tous les scores ou pertes individuels non modifiés seront renvoyés dans un tableau de forme `(n_outputs,)`.

Les fonctions [**`r2_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html) et [**`explained_variance_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.explained_variance_score.html) acceptent une valeur supplémentaire `'variance_weighted'` pour le paramètre `multioutput`. Cette option conduit à une pondération de chaque score individuel par la variance de la variable cible correspondante. Ce réglage quantifie la variance globalement capturée et non mise à l'échelle. Si les variables cibles ont des échelles différentes, alors ce score accorde plus d'importance à l'explication des variables à variance plus élevée. `multioutput='variance_weighted'` est la valeur par défaut pour [**`r2_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html) pour assurer la compatibilité ascendante. Cela sera changé en `uniform_average` à l'avenir.

### <a id='r2-score-the-coefficient-of-determination'></a> 3.3.4.1. Score R², le coefficient de détermination

La fonction [**`r2_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html) calcule le [**coefficient de détermination**](https://en.wikipedia.org/wiki/Coefficient_of_determination), généralement noté $R^2$.

Il représente la proportion de variance (de $y$) qui a été expliquée par les variables indépendantes dans le modèle. Il fournit une indication de l'ajustement du modèle et donc une mesure de la capacité du modèle à prédire correctement les échantillons non vus, à travers la proportion de variance expliquée.

Comme la variance dépend du jeu de données, le score $R^2$ peut ne pas être comparé de manière significative entre différents ensembles de données. Le meilleur score possible est 1.0 et il peut être négatif (car le modèle peut être arbitrairement moins bon). Un modèle constant qui prédit toujours la valeur attendue (moyenne) de $y$, en ignorant les caractéristiques d'entrée, obtiendrait un score $R^2$ de 0.0.

**Note :** lorsque les résidus de prédiction ont une moyenne nulle, le score $R^2$ et le [**score de variance expliquée** (3.3.4.8)](https://scikit-learn.org/stable/modules/model_evaluation.html) sont identiques.

Si $\hat{y}_i$ est la valeur prédite du $i$-ème échantillon et $y_i$ est la valeur réelle correspondante pour un total de $n$ échantillons, le $R^2$ estimé est défini comme suit :

$$R^2(y, \hat{y}) = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}$$

où $\bar{y} = \frac{1}{n} \sum_{i=1}^{n} y_i$ et $\sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} \epsilon_i^2$.

Remarque : [**`r2_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html) calcule le $R^2$ non ajusté sans correction du biais dans la variance d'échantillon de $y$.

Dans le cas particulier où la cible réelle est constante, le score $R^2$ n'est pas fini : il est soit `NaN` (prédictions parfaites), soit `-Inf` (prédictions imparfaites). De tels scores non finis peuvent empêcher une optimisation correcte du modèle, telle qu'une recherche en grille avec validation croisée. Pour cette raison, le comportement par défaut de [**`r2_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html) est de les remplacer par 1.0 (prédictions parfaites) ou 0.0 (prédictions imparfaites). Si `force_finite` est défini sur `False`, ce score revient à la définition originale du $R^2$.

Voici un petit exemple d'utilisation de la fonction [**`r2_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html) :

In [21]:
from sklearn.metrics import r2_score
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
r2_score(y_true, y_pred)
# 0.948...

0.9486081370449679

In [22]:
y_true = [[0.5, 1], [-1, 1], [7, -6]]
y_pred = [[0, 2], [-1, 2], [8, -5]]
r2_score(y_true, y_pred, multioutput='variance_weighted')
# 0.938...

0.9382566585956417

In [23]:
y_true = [[0.5, 1], [-1, 1], [7, -6]]
y_pred = [[0, 2], [-1, 2], [8, -5]]
r2_score(y_true, y_pred, multioutput='uniform_average')
# 0.936...

0.9368005266622779

In [24]:
r2_score(y_true, y_pred, multioutput='raw_values')
# array([0.965..., 0.908...])

array([0.96543779, 0.90816327])

In [25]:
r2_score(y_true, y_pred, multioutput=[0.3, 0.7])
# 0.925...

0.9253456221198156

In [26]:
y_true = [-2, -2, -2]
y_pred = [-2, -2, -2]
r2_score(y_true, y_pred)
# 1.0

1.0

In [27]:
r2_score(y_true, y_pred, force_finite=False)
# nan

  output_scores = 1 - (numerator / denominator)


nan

In [28]:
y_true = [-2, -2, -2]
y_pred = [-2, -2, -2 + 1e-8]
r2_score(y_true, y_pred)
# 0.0

0.0

In [29]:
r2_score(y_true, y_pred, force_finite=False)
# -inf

  output_scores = 1 - (numerator / denominator)


-inf

#### Exemples

##### [**Modèles basés sur L1 pour signaux creux**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/1_1_linear_model/plot_lasso_and_elasticnet.ipynb)<br/>([_L1-based models for Sparse Signals_](https://scikit-learn.org/stable/auto_examples/linear_model/plot_lasso_and_elasticnet.html))

Exemple d'utilisation du score R² pour évaluer Lasso et Elastic Net sur des signaux creux.

### <a id='mean-absolute-error'></a> 3.3.4.2. Erreur absolue moyenne

La fonction [**`mean_absolute_error`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_absolute_error.html) (MAE) calcule l'[**erreur absolue moyenne**](https://en.wikipedia.org/wiki/Mean_absolute_error), une mesure de risque correspondant à la valeur attendue de la perte d'erreur absolue ou de la norme $\ell_1$.

Si $\hat{y}_i$ représente la valeur prédite pour le $i$-ème échantillon, et $y_i$ la valeur réelle correspondante, alors l'erreur absolue moyenne (MAE) estimée sur $n_{\text{samples}}$ est définie comme suit :

$$\text{MAE}(y, \hat{y}) = \frac{1}{n_{\text{samples}}} \sum_{i=0}^{n_{\text{samples}}-1} \left| y_i - \hat{y}_i \right|.$$

Voici un petit exemple d'utilisation de la fonction [**`mean_absolute_error`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_absolute_error.html) :

In [1]:
from sklearn.metrics import mean_absolute_error
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
mean_absolute_error(y_true, y_pred)
# 0.5
y_true = [[0.5, 1], [-1, 1], [7, -6]]
y_pred = [[0, 2], [-1, 2], [8, -5]]
mean_absolute_error(y_true, y_pred)
# 0.75
mean_absolute_error(y_true, y_pred, multioutput='raw_values')
# array([0.5, 1. ])
mean_absolute_error(y_true, y_pred, multioutput=[0.3, 0.7])
# 0.85...

0.85

### <a id='mean-squared-error'></a> 3.3.4.3. Erreur quadratique moyenne

La fonction [**`mean_squared_error`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html) (MSE) calcule l'[**erreur quadratique moyenne**](https://en.wikipedia.org/wiki/Mean_squared_error), une métrique de risque correspondant à la valeur attendue de l'erreur au carré (quadratique) ou de la perte.

Si $\hat{y}_i$ représente la valeur prédite pour le $i$-ème échantillon, et $y_i$ la valeur réelle correspondante, alors l'erreur quadratique moyenne (MSE) estimée sur $n_{\text{samples}}$ est définie comme suit :

$$\text{MSE}(y, \hat{y}) = \frac{1}{n_\text{samples}} \sum_{i=0}^{n_\text{samples} - 1} (y_i - \hat{y}_i)^2.$$

Voici un petit exemple d'utilisation de la fonction [**`mean_squared_error`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html) : 

In [2]:
from sklearn.metrics import mean_squared_error
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
mean_squared_error(y_true, y_pred)
# 0.375
y_true = [[0.5, 1], [-1, 1], [7, -6]]
y_pred = [[0, 2], [-1, 2], [8, -5]]
mean_squared_error(y_true, y_pred)
# 0.7083...

0.7083333333333334

#### Exemples

##### [**Régression à amplification de gradient**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/1_11_ensembles/plot_gradient_boosting_regression.ipynb)<br/>([_Gradient Boosting regression_](https://scikit-learn.org/stable/auto_examples/ensembles/plot_gradient_boosting_regression.html))

Exemple d'utilisation de l'erreur quadratique moyenne pour évaluer la régression par Gradient Boosting.

### <a id='mean-squared-logarithmic-error'></a> 3.3.4.4. Erreur quadratique logarithmique moyenne

La fonction [**`mean_squared_log_error`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_log_error.html) (MSLE) calcule une métrique de risque correspondant à la valeur attendue de l'erreur logarithmique (quadratique) au carré ou de la perte.

Si $\hat{y}_i$ représente la valeur prédite pour le $i$-ème échantillon, et $y_i$ la valeur réelle correspondante, alors l'erreur quadratique logarithmique moyenne (MSLE) estimée sur $n_{\text{samples}}$ est définie comme suit :

$$\text{MSLE}(y, \hat{y}) = \frac{1}{n_\text{samples}} \sum_{i=0}^{n_\text{samples} - 1} (\log_e (1 + y_i) - \log_e (1 + \hat{y}_i) )^2.$$

Où $\log_e (x)$ représente le logarithme népérien de $x$. Cette métrique est préférable à utiliser lorsque les cibles ont une croissance exponentielle, comme les nombres de population, les ventes moyennes d'une marchandise sur plusieurs années, etc. Notez que cette métrique pénalise une estimation sous-évaluée plus sévèrement qu'une estimation surévaluée.

Voici un petit exemple d'utilisation de la fonction [**`mean_squared_log_error`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_log_error.html) :

In [3]:
from sklearn.metrics import mean_squared_log_error
y_true = [3, 5, 2.5, 7]
y_pred = [2.5, 5, 4, 8]
mean_squared_log_error(y_true, y_pred)
# 0.039...
y_true = [[0.5, 1], [1, 2], [7, 6]]
y_pred = [[0.5, 2], [1, 2.5], [8, 8]]
mean_squared_log_error(y_true, y_pred)
# 0.044...

0.044199361889160536

### <a id='mean-absolute-percentage-error'></a> 3.3.4.5. Erreur absolue moyenne en pourcentage

La fonction [**`mean_absolute_percentage_error`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_absolute_percentage_error.html) (MAPE), également connue sous le nom de [**déviation moyenne absolue en pourcentage**](https://en.wikipedia.org/wiki/Mean_absolute_percentage_error) (MAPD), est une métrique d'évaluation pour les problèmes de régression. L'idée de cette métrique est d'être sensible aux erreurs relatives. Par exemple, elle n'est pas affectée par une mise à l'échelle globale de la variable cible.

Si $\hat{y}_i$ représente la valeur prédite pour le $i$-ème échantillon et $y_i$ la valeur réelle correspondante, alors l'erreur absolue moyenne en pourcentage (MAPE) estimée sur $n_{\text{samples}}$ est définie comme suit :

$$\text{MAPE}(y, \hat{y}) = \frac{1}{n_{\text{samples}}} \sum_{i=0}^{n_{\text{samples}}-1} \frac{{}\left| y_i - \hat{y}_i \right|}{\max(\epsilon, \left| y_i \right|)}$$

où $\epsilon$ est un petit nombre arbitraire mais strictement positif pour éviter des résultats indéfinis lorsque $y$ est nul.

La fonction [**`mean_absolute_percentage_error`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_absolute_percentage_error.html) prend en charge plusieurs sorties (multioutput).

Voici un petit exemple d'utilisation de la fonction [**`mean_absolute_percentage_error`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_absolute_percentage_error.html) :

In [4]:
from sklearn.metrics import mean_absolute_percentage_error
y_true = [1, 10, 1e6]
y_pred = [0.9, 15, 1.2e6]
mean_absolute_percentage_error(y_true, y_pred)
# 0.2666...

0.26666666666666666

Dans l'exemple ci-dessus, si nous avions utilisé la métrique `mean_absolute_error`, elle aurait ignoré les petites valeurs de magnitude et aurait seulement reflété l'erreur de prédiction de la valeur de plus grande magnitude. Mais ce problème est résolu dans le cas de la métrique MAPE car elle calcule l'erreur relative en pourcentage par rapport à la sortie réelle.

### <a id='median-absolute-error'></a> 3.3.4.6. Erreur absolue médiane

La fonction [**`median_absolute_error`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.median_absolute_error.html) (MedAE) est particulièrement intéressante car elle est robuste aux valeurs aberrantes (outliers). La perte est calculée en prenant la médiane de toutes les différences absolues entre la cible et la prédiction.

Si $\hat{y}_i$ représente la valeur prédite pour le $i$-ème échantillon et $y_i$ la valeur réelle correspondante, alors l'erreur absolue médiane (MedAE) estimée sur $n_{\text{samples}}$ est définie comme suit :

$$\text{MedAE}(y, \hat{y}) = \text{médiane}(\mid y_1 - \hat{y}_1 \mid, \ldots, \mid y_n - \hat{y}_n \mid).$$

La fonction [**`median_absolute_error`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.median_absolute_error.html) ne prend **pas** en charge les sorties multiples (multioutput).

Voici un petit exemple d'utilisation de la fonction [**`median_absolute_error`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.median_absolute_error.html) :

In [5]:
from sklearn.metrics import median_absolute_error
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
median_absolute_error(y_true, y_pred)
# 0.5

0.5

### <a id='max-error'></a> 3.3.4.7. Erreur maximale

La fonction [**`max_error`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.max_error.html) calcule l'erreur maximale [**résiduelle**](https://en.wikipedia.org/wiki/Errors_and_residuals), une métrique qui capture l'erreur maximale entre la valeur prédite et la valeur réelle. Dans un modèle de régression avec une seule sortie parfaitement ajusté, `max_error` serait `0` sur l'ensemble d'entraînement, bien que cela soit très improbable dans le monde réel. Cette métrique montre l'étendue de l'erreur que le modèle a eue lorsqu'il a été ajusté.

Si $\hat{y}_i$ représente la valeur prédite pour le $i$-ème échantillon et $y_i$ la valeur réelle correspondante, alors l'erreur maximale est définie comme suit :

$$\text{Erreur maximale}(y, \hat{y}) = \max(| y_i - \hat{y}_i |)$$

Voici un petit exemple d'utilisation de la fonction [**`max_error`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.max_error.html) :

In [6]:
from sklearn.metrics import max_error
y_true = [3, 2, 7, 1]
y_pred = [9, 2, 7, 1]
max_error(y_true, y_pred)
# 6

6

La fonction [**`max_error`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.max_error.html) ne prend pas en charge les sorties multiples (multioutput).

### <a id='explained-variance-score'></a> 3.3.4.8. Score de variance expliquée

La fonction [**`explained_variance_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.explained_variance_score.html) calcule le [**score de variance expliquée pour la régression**](https://en.wikipedia.org/wiki/Explained_variation).

Si $\hat{y}$ représente la valeur estimée de la sortie cible, $y$ la valeur cible correspondante (correcte), et $\text{Var}$ est [**la variance**](https://en.wikipedia.org/wiki/Variance), le carré de l'écart type, alors la variance expliquée est estimée comme suit :

$$\text{Variance expliquée}(y, \hat{y}) = 1 - \frac{\text{Var}(y - \hat{y})}{\text{Var}(y)}$$

Le meilleur score possible est 1.0, les valeurs inférieures sont moins bonnes.

#### Lien vers [**le score R², le coefficient de détermination** (3.3.4.1)](https://scikit-learn.org/stable/modules/model_evaluation.html#r2-score).

La différence entre le score de variance expliquée et [**le score R², le coefficient de détermination** (3.3.4.1)](https://scikit-learn.org/stable/modules/model_evaluation.html#r2-score) est que le score de variance expliquée n'enregistre pas de décalage systématique dans la prédiction. Pour cette raison, [**le score R², le coefficient de détermination** (3.3.4.1)](https://scikit-learn.org/stable/modules/model_evaluation.html#r2-score) devrait être préféré en général.

Dans le cas particulier où la vraie cible est constante, le score de variance expliquée n'est pas fini : il est soit `NaN` (prédictions parfaites), soit `-Inf` (prédictions imparfaites). De tels scores non finis peuvent empêcher une optimisation correcte du modèle, telle que la recherche en grille et la validation croisée, d'être effectuée correctement. Pour cette raison, le comportement par défaut de [**`explained_variance_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.explained_variance_score.html) est de les remplacer par 1.0 (prédictions parfaites) ou 0.0 (prédictions imparfaites). Vous pouvez définir le paramètre `force_finite` sur `False` pour empêcher cette correction de se produire et utiliser le score de variance expliquée original.

Voici un petit exemple d'utilisation de la fonction [**`explained_variance_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.explained_variance_score.html) :

In [7]:
from sklearn.metrics import explained_variance_score
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
explained_variance_score(y_true, y_pred)
# 0.957...
y_true = [[0.5, 1], [-1, 1], [7, -6]]
y_pred = [[0, 2], [-1, 2], [8, -5]]
explained_variance_score(y_true, y_pred, multioutput='raw_values')
# array([0.967..., 1.        ])
explained_variance_score(y_true, y_pred, multioutput=[0.3, 0.7])
# 0.990...
y_true = [-2, -2, -2]
y_pred = [-2, -2, -2]
explained_variance_score(y_true, y_pred)
# 1.0
explained_variance_score(y_true, y_pred, force_finite=False)
# nan
y_true = [-2, -2, -2]
y_pred = [-2, -2, -2 + 1e-8]
explained_variance_score(y_true, y_pred)
# 0.0
explained_variance_score(y_true, y_pred, force_finite=False)
# -inf

  output_scores = 1 - (numerator / denominator)
  output_scores = 1 - (numerator / denominator)


-inf

### <a id='mean-poisson-gamma-and-tweedie-deviances'></a> 3.3.4.9. Deviances moyennes de Poisson, gamma et Tweedie

La fonction [**`mean_tweedie_deviance`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_tweedie_deviance.html) calcule [**la déviance Tweedie moyenne**](https://en.wikipedia.org/wiki/Tweedie_distribution#The_Tweedie_deviance) avec un paramètre `power` ($p$). Il s'agit d'une mesure qui révèle les valeurs d'attente prédites des cibles de régression.

Les cas spéciaux suivants existent :
- lorsque `power=0`, cela équivaut à [**`mean_squared_error`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html).
- lorsque `power=1`, cela équivaut à [**`mean_poisson_deviance`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_poisson_deviance.html).
- lorsque `power=2`, cela équivaut à [**`mean_gamma_deviance`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_gamma_deviance.html).

Si $\hat{y}_i$ représente la valeur prédite du $i$-ème échantillon et $y_i$ la valeur cible correspondante (réelle), alors la déviance Tweedie moyenne ($\text{D}$) pour une puissance $p$, estimée sur $n_{\text{samples}}$, est définie comme suit :

$$\begin{split}\text{D}(y, \hat{y}) = \frac{1}{n_\text{samples}}
\sum_{i=0}^{n_\text{samples} - 1}
\begin{cases}
(y_i-\hat{y}_i)^2, & \text{pour }p=0\text{ (Normale)}\\
2(y_i \log(y_i/\hat{y}_i) + \hat{y}_i - y_i),  & \text{pour }p=1\text{ (Poisson)}\\
2(\log(\hat{y}_i/y_i) + y_i/\hat{y}_i - 1),  & \text{pour }p=2\text{ (Gamma)}\\
2\left(\frac{\max(y_i,0)^{2-p}}{(1-p)(2-p)}-
\frac{y_i\,\hat{y}_i^{1-p}}{1-p}+\frac{\hat{y}_i^{2-p}}{2-p}\right),
& \text{autrement}
\end{cases}\end{split}$$

La déviance Tweedie est une fonction homogène de degré `2 - power`. Ainsi, la distribution gamma avec `power=2` signifie que mettre à l'échelle simultanément `y_true` et `y_pred` n'a aucun effet sur la déviance. Pour la distribution de Poisson avec `power=1`, la déviance s'échelonne linéairement, et pour la distribution normale (`power=0`), quadratiquement. En général, plus la valeur de `power` est élevée, moins on accorde de poids aux écarts extrêmes entre les cibles réelles et prédites.

Par exemple, comparons les deux prédictions 1,5 et 150 qui sont toutes deux 50% plus grandes que leur valeur réelle correspondante.

L'erreur quadratique moyenne (`power=0`) est très sensible à la différence de prédiction du deuxième point :

In [8]:
from sklearn.metrics import mean_tweedie_deviance
mean_tweedie_deviance([1.0], [1.5], power=0)
# 0.25
mean_tweedie_deviance([100.], [150.], power=0)
# 2500.0

2500.0

Si nous augmentons `power` à 1 :

In [9]:
mean_tweedie_deviance([1.0], [1.5], power=1)
# 0.18...
mean_tweedie_deviance([100.], [150.], power=1)
# 18.9...

18.906978378367114

La différence entre les erreurs diminue. Enfin, en fixant `power=2` :

In [10]:
mean_tweedie_deviance([1.0], [1.5], power=2)
# 0.14...
mean_tweedie_deviance([100.], [150.], power=2)
# 0.14...

0.14426354954966225

nous obtiendrions des erreurs identiques. La déviance lorsque `power=2` est donc seulement sensible aux erreurs relatives.

### <a id='pinball-loss'></a> 3.3.4.10. Pinball Loss

La fonction [**`mean_pinball_loss`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_pinball_loss.html) est utilisée pour évaluer les performances prédictives des modèles de [**régression quantile**](https://en.wikipedia.org/wiki/Quantile_regression).

$$\text{pinball}(y, \hat{y}) = \frac{1}{n_{\text{samples}}} \sum_{i=0}^{n_{\text{samples}}-1}  \alpha \max(y_i - \hat{y}_i, 0) + (1 - \alpha) \max(\hat{y}_i - y_i, 0)$$

La valeur de la perte Pinball est équivalente à la moitié de [**`mean_absolute_error`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_absolute_error.html) lorsque le paramètre de quantile `alpha` est fixé à 0.5.

Voici un petit exemple d'utilisation de la fonction [**`mean_pinball_loss`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_pinball_loss.html) :

In [11]:
from sklearn.metrics import mean_pinball_loss
y_true = [1, 2, 3]
mean_pinball_loss(y_true, [0, 2, 3], alpha=0.1)
# 0.03...
mean_pinball_loss(y_true, [1, 2, 4], alpha=0.1)
# 0.3...
mean_pinball_loss(y_true, [0, 2, 3], alpha=0.9)
# 0.3...
mean_pinball_loss(y_true, [1, 2, 4], alpha=0.9)
# 0.03...
mean_pinball_loss(y_true, y_true, alpha=0.1)
# 0.0
mean_pinball_loss(y_true, y_true, alpha=0.9)
# 0.0

0.0

Il est possible de créer un objet mesureur (scorer) avec un choix spécifique de `alpha` :

In [12]:
from sklearn.metrics import make_scorer
mean_pinball_loss_95p = make_scorer(mean_pinball_loss, alpha=0.95)

Un tel mesureur peut être utilisé pour évaluer les performances de généralisation d'un régresseur quantile via une validation croisée :

In [13]:
from sklearn.datasets import make_regression
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import GradientBoostingRegressor

X, y = make_regression(n_samples=100, random_state=0)
estimator = GradientBoostingRegressor(
    loss="quantile",
    alpha=0.95,
    random_state=0,
)
cross_val_score(estimator, X, y, cv=5, scoring=mean_pinball_loss_95p)
# array([13.6..., 9.7..., 23.3..., 9.5..., 10.4...])

array([13.66913589,  9.78247589, 23.32807339,  9.518313  , 10.49785928])

Il est également possible de créer des objets mesureurs pour l'optimisation des hyperparamètres. Le signe de la perte doit être inversé pour s'assurer que plus grand signifie mieux, comme expliqué dans l'exemple lié ci-dessous.

#### Exemple

##### [**Intervalle de prédiction pour la régression par Gradient Boosting**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/1_11_ensembles/plot_gradient_boosting_quantile.ipynb)<br/>([_Prediction Intervals for Gradient Boosting Regression_](https://scikit-learn.org/stable/auto_examples/ensembles/plot_gradient_boosting_quantile.html))

Exemple d'utilisation de la perte Pinball pour évaluer et ajuster les hyperparamètres des modèles de régression quantile sur des données avec un bruit asymétrique et des valeurs aberrantes.

### <a id='d2-score'></a> 3.3.4.11. Score D²

Le score D² calcule la fraction de déviance expliquée. C'est une généralisation du R², où l'erreur quadratique est généralisée et remplacée par une déviance de choix $\text{dev}(y, \hat{y})$ (par exemple, déviance Tweedie, perte pinball ou erreur absolue moyenne). D² est une forme de "skill score". Il est calculé comme suit :

$$D^2(y, \hat{y}) = 1 - \frac{\text{dev}(y, \hat{y})}{\text{dev}(y, y_{\text{null}})} \,.$$

Où $y_{\text{null}}$ est la prédiction optimale d'un modèle contenant uniquement l'intercept (par exemple, la moyenne de `y_true` pour le cas de Tweedie, la médiane pour l'erreur absolue et le quantile alpha pour la perte pinball).

Comme pour le R², le meilleur score possible est de 1,0 et il peut être négatif (parce que le modèle peut être arbitrairement pire). Un modèle constant qui prédit toujours $y_{\text{null}}$, indépendamment des caractéristiques d'entrée, obtiendrait un score D² de 0,0.

#### <a id='d2-tweedie-score'></a> Score D² Tweedie

La fonction [**`d2_tweedie_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.d2_tweedie_score.html) implémente le cas spécial du D² où $\text{dev}(y, \hat{y})$ est la déviance Tweedie, voir [**Mean Poisson, Gamma, and Tweedie deviances** (3.3.4.9)](https://scikit-learn.org/stable/modules/model_evaluation.html#mean-tweedie-deviance). Il est également connu sous le nom de D² Tweedie et est lié à l'indice du rapport de vraisemblance de McFadden.

L'argument `power` définit la puissance de Tweedie, comme pour [**`d2_tweedie_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.d2_tweedie_score.html). Notez que pour `power=0`, [**`d2_tweedie_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.d2_tweedie_score.html) est égal à [**`r2_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.r2_score.html) (pour des cibles uniques).

Un objet de score avec un choix spécifique de `power` peut être créé par :

In [None]:
from sklearn.metrics import d2_tweedie_score, make_scorer
d2_tweedie_score_15 = make_scorer(d2_tweedie_score, power=1.5)

#### <a id='d2-pinball-score'></a> Score D² pinball

La fonction [**`d2_pinball_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.d2_pinball_score.html) implémente le cas spécial du D² avec la perte pinball, voir [**Pinball loss** (3.3.4.10)](https://scikit-learn.org/stable/modules/model_evaluation.html#pinball-loss), c'est-à-dire :

$$\text{dev}(y, \hat{y}) = \text{pinball}(y, \hat{y}).$$

L'argument alpha définit la pente de la perte pinball, comme pour [**`mean_pinball_loss`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_pinball_loss.html) ([**Pinball loss** (3.3.4.10)](https://scikit-learn.org/stable/modules/model_evaluation.html#pinball-loss)). Il détermine le niveau de quantile `alpha` pour lequel la perte pinball et donc D² sont optimaux. Notez que pour `alpha=0.5` (la valeur par défaut), [**`d2_pinball_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.d2_pinball_score.html) est égal à [**`d2_absolute_error_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.d2_absolute_error_score.html).

Un objet de score avec un choix spécifique de `alpha` peut être créé par :

In [None]:
from sklearn.metrics import d2_pinball_score, make_scorer
d2_pinball_score_08 = make_scorer(d2_pinball_score, alpha=0.8)

#### <a id='d2-absolute-error-score'></a> Score D² erreur absolue

La fonction [**`d2_absolute_error_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.d2_absolute_error_score.html) implémente le cas spécial de l'erreur absolue moyenne [**Mean absolute error** (3.3.4.2)](https://scikit-learn.org/stable/modules/model_evaluation.html#mean-absolute-error) :

$$\text{dev}(y, \hat{y}) = \text{MAE}(y, \hat{y}).$$

Voici quelques exemples d'utilisation de la fonction [**`d2_absolute_error_score`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.d2_absolute_error_score.html) :

In [None]:
from sklearn.metrics import d2_absolute_error_score
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
d2_absolute_error_score(y_true, y_pred)
# 0.764...
y_true = [1, 2, 3]
y_pred = [1, 2, 3]
d2_absolute_error_score(y_true, y_pred)
# 1.0
y_true = [1, 2, 3]
y_pred = [2, 2, 2]
d2_absolute_error_score(y_true, y_pred)
# 0.0

### <a id='visual-evaluation-of-regression-models'></a> 3.3.4.12. Évaluation visuelle des modèles de régression

Parmi les méthodes permettant d'évaluer la qualité des modèles de régression, scikit-learn fournit la classe [**`PredictionErrorDisplay`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.PredictionErrorDisplay.html). Elle permet d'inspecter visuellement les erreurs de prédiction d'un modèle de deux manières différentes.

![](https://scikit-learn.org/stable/_images/sphx_glr_plot_cv_predict_001.png)

Le graphique de gauche montre les valeurs réelles par rapport aux valeurs prédites. Pour une tâche de régression sans bruit visant à prédire l'espérance (conditionnelle) de `y`, un modèle de régression parfait afficherait des points de données sur la diagonale définie par les valeurs prédites égales aux valeurs réelles. Plus on s'éloigne de cette ligne optimale, plus l'erreur du modèle est grande. Dans un contexte plus réaliste avec du bruit irréductible, c'est-à-dire lorsque toutes les variations de `y` ne peuvent pas être expliquées par les caractéristiques de `X`, le meilleur modèle conduirait à un nuage de points densement disposés autour de la diagonale.

Notez que ce qui précède est valable uniquement lorsque les valeurs prédites sont la valeur attendue de `y` étant donné `X`. C'est généralement le cas pour les modèles de régression qui minimisent la fonction objectif de l'erreur quadratique moyenne ou plus généralement la [**déviance moyenne de Tweedie** (3.3.4.9)](https://scikit-learn.org/stable/modules/model_evaluation.html#mean-tweedie-deviance) pour n'importe quelle valeur de son paramètre `power`.

Lorsque l'on trace les prédictions d'un estimateur qui prédit un quantile de `y` étant donné `X`, par exemple [**`QuantileRegressor`**](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.QuantileRegressor.html) ou tout autre modèle minimisant la [**perte pinball** (3.3.4.10)](https://scikit-learn.org/stable/modules/model_evaluation.html), une fraction des points est censée se situer au-dessus ou en dessous de la diagonale en fonction du niveau de quantile estimé.

Dans l'ensemble, bien qu'intuitif à lire, ce graphique ne nous informe pas vraiment sur ce qu'il faut faire pour obtenir un meilleur modèle.

Le graphique du côté droit montre les résidus (c'est-à-dire la différence entre les valeurs réelles et les valeurs prédites) par rapport aux valeurs prédites.

Ce graphique permet de visualiser plus facilement si les résidus suivent une distribution homoscédastique ou hétéroschédistique.

En particulier, si la vraie distribution de $y|X$ est distribuée selon la loi de Poisson ou de Gamma, on s'attend à ce que la variance des résidus du modèle optimal augmente avec la valeur prédite de $E[y|X]$ (linéairement pour la loi de Poisson ou quadratiquement pour la loi de Gamma).

Lorsque l'on ajuste un modèle de régression linéaire des moindres carrés (voir [**`LinearRegression`**](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html) et [**`Ridge`**](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html)), on peut utiliser ce graphique pour vérifier si certaines des [**hypothèses du modèle**](https://en.wikipedia.org/wiki/Ordinary_least_squares#Assumptions) sont satisfaites, en particulier que les résidus doivent être non corrélés, que leur valeur attendue doit être nulle et que leur variance doit être constante (homoscédasticité).

Si ce n'est pas le cas, et en particulier si le graphique des résidus montre une structure en forme de banane, cela indique que le modèle est probablement mal spécifié et qu'une ingénierie des caractéristiques non linéaire ou le passage à un modèle de régression non linéaire pourraient être utiles.

Reportez-vous à l'exemple ci-dessous pour voir une évaluation de modèle qui utilise cette visualisation.

#### Exemple

##### [**Effet de la transformation des cibles dans le modèle de régression**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/6_1_compose/plot_transformed_target.ipynb)<br/>([_Effect of transforming the targets in regression model_](https://scikit-learn.org/stable/auto_examples/compose/plot_transformed_target.html))

Exemple de l'utilisation de [**`PredictionErrorDisplay`**](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.PredictionErrorDisplay.html) pour visualiser l'amélioration de la qualité des prédictions d'un modèle de régression obtenu en transformant la cible avant l'apprentissage.

## <a id='clustering-metrics'></a> 3.3.5. Mesures de clustering

Le module [**`sklearn.metrics`**](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics) implémente plusieurs fonctions de perte, de score et d'utilité pour l'évaluation des performances de clustering. Pour plus d'informations, consultez la section [**Évaluation des performances de clustering** (2.3.11)](https://scikit-learn.org/stable/modules/clustering.html#clustering-evaluation) pour le clustering de groupes similaires et [**Évaluation biclustering** (2.4.3)](https://scikit-learn.org/stable/modules/biclustering.html#biclustering-evaluation) pour le biclustering.

## <a id='dummy-estimators'></a> 3.3.6. Estimateurs factices (Dummy estimators)

Lorsque l'on effectue de l'apprentissage supervisé, une vérification simple consiste à comparer l'estimateur à des règles simples de base. [**`DummyClassifier`**](https://scikit-learn.org/stable/modules/generated/sklearn.dummy.DummyClassifier.html) implémente plusieurs stratégies simples pour la classification :

- `stratified` génère des prédictions aléatoires en respectant la distribution des classes de l'ensemble d'entraînement.
- `most_frequent` prédit toujours l'étiquette la plus fréquente dans l'ensemble d'entraînement.
- `prior` prédit toujours la classe qui maximise la priorité de classe (comme `most_frequent`) et `predict_proba` renvoie la priorité de classe.
- `uniform` génère des prédictions de manière uniforme et aléatoire.
- **`constant` prédit toujours une étiquette constante fournie par l'utilisateur.**
    - Une motivation majeure de cette méthode est l'évaluation F1, lorsque la classe positive est minoritaire.

Notez qu'avec toutes ces stratégies, la méthode `predict` ignore complètement les données d'entrée !

Pour illustrer [**`DummyClassifier`**](https://scikit-learn.org/stable/modules/generated/sklearn.dummy.DummyClassifier.html), commençons par créer un ensemble de données déséquilibré :

In [14]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
X, y = load_iris(return_X_y=True)
y[y != 1] = -1
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

Ensuite, comparons la précision de [**`SVC`**](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html) (Support Vector Classifier) avec celle de `most_frequent` :

In [15]:
from sklearn.dummy import DummyClassifier
from sklearn.svm import SVC
clf = SVC(kernel='linear', C=1).fit(X_train, y_train)
clf.score(X_test, y_test)
# 0.63...
clf = DummyClassifier(strategy='most_frequent', random_state=0)
clf.fit(X_train, y_train)
# DummyClassifier(random_state=0, strategy='most_frequent')
clf.score(X_test, y_test)
# 0.57...

0.5789473684210527

Nous constatons que [**`SVC`**](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html) ne fait guère mieux qu'un classificateur fictif. Maintenant, changeons le noyau (kernel) :

In [16]:
clf = SVC(kernel='rbf', C=1).fit(X_train, y_train)
clf.score(X_test, y_test)
# 0.94...

0.9473684210526315

Nous constatons que la précision a augmenté jusqu'à près de 100%. Une stratégie de validation croisée est recommandée pour une meilleure estimation de la précision, si cela n'est pas trop coûteux en termes de calcul. Pour plus d'informations, consultez la section [**Validation croisée : évaluation des performances de l'estimateur** (3.1)](https://scikit-learn.org/stable/modules/cross_validation.html). De plus, si vous souhaitez optimiser l'espace des hyperparamètres, il est fortement recommandé d'utiliser une méthodologie appropriée ; consultez la section [**Ajustement des hyperparamètres d'un estimateur** (3.2)](https://scikit-learn.org/stable/modules/grid_search.html#grid-search) pour plus de détails.

De manière générale, lorsque la précision d'un classificateur est trop proche du hasard, cela signifie probablement qu'il y a un problème : les caractéristiques ne sont pas utiles, un hyperparamètre n'est pas correctement réglé, le classificateur souffre d'un déséquilibre des classes, etc...

[**`DummyRegressor`**](https://scikit-learn.org/stable/modules/generated/sklearn.dummy.DummyRegressor.html#sklearn.dummy.DummyRegressor) implémente également quatre règles de base simples pour la régression :

- `mean` prédit toujours la moyenne des valeurs cibles de l'ensemble d'entraînement.
- `median` prédit toujours la médiane des valeurs cibles de l'ensemble d'entraînement.
- `quantile` prédit toujours un quantile fourni par l'utilisateur des valeurs cibles de l'ensemble d'entraînement.
- `constant` prédit toujours une valeur constante fournie par l'utilisateur.

Dans toutes ces stratégies, la méthode `predict` ignore complètement les données d'entrée.