# 6.9. [**Transformation de la cible de prédiction (y)**](https://nbviewer.org/github/Franck-PepperLabs/pepper_dsia_skl_doc_fr/blob/main/docs/6_9_preprocessing_targets.ipynb)</br>([*Transforming the prediction target (y)*](https://scikit-learn.org/stable/modules/preprocessing_targets.html))

Ce sont des transformateurs qui ne sont pas destinés à être utilisés sur des caractéristiques, uniquement sur des cibles d'apprentissage supervisé. Voir aussi [**Transformation de la cible en régression** (6.1.2)](https://nbviewer.org/github/Franck-PepperLabs/pepper_dsia_skl_doc_fr/blob/main/docs/6_1_compose.ipynb#transforming-target-in-regression) si vous souhaitez transformer la cible de prédiction pour l'apprentissage, mais évaluer le modèle dans l'espace d'origine (non transformé).

- ✔ 6.9. [**Transformation de la cible de prédiction (y)**](https://nbviewer.org/github/Franck-PepperLabs/pepper_dsia_skl_doc_fr/blob/main/docs/6_9_preprocessing_targets.ipynb)<br/>([*Transforming the prediction target (y)*](https://scikit-learn.org/stable/modules/preprocessing_targets.html))
    - **Volume** : 2 pages, 0 exemples, 0 papiers
    - ✔ 6.9.1. [**Binarisation des étiquettes**](https://nbviewer.org/github/Franck-PepperLabs/pepper_dsia_skl_doc_fr/blob/main/docs/6_9_preprocessing_targets.ipynb#label-binarization)<br/>([*Label binarization*](https://scikit-learn.org/stable/modules/preprocessing_targets.html#label-binarization))
    - ✔ 6.9.2. [**Encodage des étiquettes**](https://nbviewer.org/github/Franck-PepperLabs/pepper_dsia_skl_doc_fr/blob/main/docs/6_9_preprocessing_targets.ipynb#label-encoding)<br/>([*Label encoding*](https://scikit-learn.org/stable/modules/preprocessing_targets.html#label-encoding))

## 6.9.1. <a id='label-binarization'></a> Binarisation des étiquettes

### 6.9.1.1. <a id='labelbinarizer'></a> LabelBinarizer

[**`LabelBinarizer`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelBinarizer.html#sklearn.preprocessing.LabelBinarizer) est une classe utilitaire permettant de créer une [*matrice d'indicateurs d'étiquettes*](https://scikit-learn.org/stable/glossary.html#term-label-indicator-matrix) à partir d'une liste d'étiquettes [*multiclasses*](https://scikit-learn.org/stable/glossary.html#term-multiclass) :

In [1]:
from sklearn import preprocessing
lb = preprocessing.LabelBinarizer()
lb.fit([1, 2, 6, 4, 2])
# LabelBinarizer()
lb.classes_
# array([1, 2, 4, 6])
lb.transform([1, 6])
# array([[1, 0, 0, 0],
#       [0, 0, 0, 1]])

array([[1, 0, 0, 0],
       [0, 0, 0, 1]])

L'utilisation de ce format peut permettre une classification multiclasse dans les estimateurs qui prennent en charge le format de matrice d'indicateur d'étiquette.

**Avertissement** : LabelBinarizer n'est pas nécessaire si vous utilisez un estimateur qui prend déjà en charge les données [*multiclasses*](https://scikit-learn.org/stable/glossary.html#term-multiclass).

Pour plus d'informations sur la classification multiclasse, reportez-vous à la section [**Classification multiclasse** (1.12.1)](https://scikit-learn.org/stable/modules/multiclass.html#multiclass-classification).

### 6.9.1.2.  <a id='multilabelbinarizer'></a> MultiLabelBinarizer

Dans l'apprentissage [*multiétiquette*](https://scikit-learn.org/stable/glossary.html#term-multilabel), l'ensemble conjoint de tâches de classification binaire est exprimé avec un tableau d'indicateurs binaires d'étiquette : chaque échantillon est une ligne d'un tableau 2d de forme `(n_échantillons, n_classes)` avec des valeurs binaires où l'un, c'est-à-dire les éléments non nuls, correspond au sous-ensemble d'étiquettes pour cet échantillon. Un tableau tel que `np.array([[1, 0, 0], [0, 1, 1], [0, 0, 0]])` représente l'étiquette 0 dans le premier échantillon, les étiquettes 1 et 2 dans le deuxième échantillon, et aucune étiquette dans le troisième échantillon.

La production de données multiétiquettes sous la forme d'une liste d'ensembles d'étiquettes peut être plus intuitive. Le transformateur [**`MultiLabelBinarizer`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MultiLabelBinarizer.html#sklearn.preprocessing.MultiLabelBinarizer) peut être utilisé pour convertir entre une collection de collections d'étiquettes et le format d'indicateur :

In [2]:
from sklearn.preprocessing import MultiLabelBinarizer
y = [[2, 3, 4], [2], [0, 1, 3], [0, 1, 2, 3, 4], [0, 1, 2]]
MultiLabelBinarizer().fit_transform(y)
# array([[0, 0, 1, 1, 1],
#        [0, 0, 1, 0, 0],
#        [1, 1, 0, 1, 0],
#        [1, 1, 1, 1, 1],
#        [1, 1, 1, 0, 0]])

array([[0, 0, 1, 1, 1],
       [0, 0, 1, 0, 0],
       [1, 1, 0, 1, 0],
       [1, 1, 1, 1, 1],
       [1, 1, 1, 0, 0]])

Pour plus d'informations sur la classification multiétiquette, reportez-vous à la section [**Classification multiétiquette** (1.12.2)](https://scikit-learn.org/stable/modules/multiclass.html#multilabel-classification).

## 6.9.2. <a id='label-encoding'></a> Encodage des étiquettes

[**`LabelEncoder`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html#sklearn.preprocessing.LabelEncoder) est une classe utilitaire permettant de normaliser les étiquettes de sorte qu'elles ne contiennent que des valeurs comprises entre `0` et `n_classes-1`. Ceci est parfois utile pour écrire des routines Cython efficaces. [**`LabelEncoder`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html#sklearn.preprocessing.LabelEncoder) peut être utilisé comme suit :

In [3]:
from sklearn import preprocessing
le = preprocessing.LabelEncoder()
le.fit([1, 2, 2, 6])
# LabelEncoder()
le.classes_
# array([1, 2, 6])
le.transform([1, 1, 2, 6])
# array([0, 0, 1, 2])
le.inverse_transform([0, 0, 1, 2])
# array([1, 1, 2, 6])

array([1, 1, 2, 6])

Il peut également être utilisé pour transformer des étiquettes non numériques (tant qu'elles sont hachables et comparables) en étiquettes numériques :

In [4]:
le = preprocessing.LabelEncoder()
le.fit(["paris", "paris", "tokyo", "amsterdam"])
# LabelEncoder()
list(le.classes_)
# ['amsterdam', 'paris', 'tokyo']
le.transform(["tokyo", "tokyo", "paris"])
# array([2, 2, 1])
list(le.inverse_transform([2, 2, 1]))
# ['tokyo', 'tokyo', 'paris']

['tokyo', 'tokyo', 'paris']