# 6. Transformations d'ensembles de données

scikit-learn fournit une bibliothèque de transformateurs, qui peuvent nettoyer (voir [6.3. Prétraitement des données](https://scikit-learn.org/stable/modules/preprocessing.html#preprocessing)), réduire (voir [6.5. Réduction de dimensionnalité non supervisée](https://scikit-learn.org/stable/modules/unsupervised_reduction.html#data-reduction)), étendre (voir [6.7. Approximation du noyau](https://scikit-learn.org/stable/modules/kernel_approximation.html#kernel-approximation)) ou générer (voir [6.2. Extraction de caractéristiques](https://scikit-learn.org/stable/modules/feature_extraction.html#feature-extraction)) des représentations d'entités.

Comme d'autres estimateurs, ceux-ci sont représentés par des classes avec une méthode d'ajustement `fit`, qui apprend les paramètres du modèle (par exemple, la moyenne et l'écart type pour la normalisation) à partir d'un ensemble d'apprentissage, et une méthode de transformation `transform` qui applique ce modèle de transformation à de nouvelles données. `fit_transform` peut être plus pratique et efficace pour modéliser et transformer simultanément les données d'apprentissage.

La combinaison de tels transformateurs, en parallèle ou en série, est traitée dans [6.1. Pipelines et estimateurs composites](https://scikit-learn.org/stable/modules/compose.html#combining-estimators). [6.8. Les métriques par paires, es Affinités et les Noyaux](https://scikit-learn.org/stable/modules/metrics.html#metrics) couvrent la transformation des espaces de caractéristiques en matrices d'affinité, tandis que la [6.9. transformation de la cible de prédiction (y)](https://scikit-learn.org/stable/modules/preprocessing_targets.html#preprocessing-targets) considère les transformations de l'espace cible (par exemple, les étiquettes catégorielles) à utiliser dans scikit-learn.

6.1. Pipelines et estimateurs composites
* 6.1.1. Pipeline : estimateurs de chaînage
* 6.1.2. Transformer la cible en régression
* 6.1.3. FeatureUnion : espaces d'entités composites
* 6.1.4. ColumnTransformer pour les données hétérogènes
* 6.1.5. Visualisation des estimateurs composites

6.2. Extraction de caractéristiques
* 6.2.1. Chargement de fonctionnalités à partir de dicts
* 6.2.2. Hachage des fonctionnalités
* 6.2.3. Extraction de caractéristiques de texte
* 6.2.4. Extraction de caractéristiques d'image

6.3. Prétraitement des données
* 6.3.1. Standardisation, ou suppression de la moyenne et mise à l'échelle de la variance
* 6.3.2. Transformation non linéaire
* 6.3.3. Normalisation
* 6.3.4. Encodage des caractéristiques catégorielles
* 6.3.5. Discrétisation
* 6.3.6. Imputation des valeurs manquantes
* 6.3.7. Génération de caractéristiques polynomiales
* 6.3.8. Transformateurs personnalisés

6.4. Imputation des valeurs manquantes
* 6.4.1. Imputation univariée vs imputation multivariée
* 6.4.2. Imputation de caractéristique univariée
* 6.4.3. Imputation de caractéristiques multivariées
* 6.4.4. Références
* 6.4.5. Imputation des plus proches voisins
* 6.4.6. Marquage des valeurs imputées
* 6.4.7. Estimateurs qui gèrent les valeurs NaN

6.5. Réduction de dimensionnalité non supervisée
* 6.5.1. ACP : analyse en composantes principales
* 6.5.2. Projections aléatoires
* 6.5.3. Agglomération de fonctionnalités

6.6. Projection aléatoire
* 6.6.1. Le lemme de Johnson-Lindenstrauss
* 6.6.2. Projection aléatoire gaussienne
* 6.6.3. Projection aléatoire clairsemée
* 6.6.4. Transformation inverse

6.7. Approximation du noyau
* 6.7.1. Méthode Nystroem pour l'approximation du noyau
* 6.7.2. Noyau de fonction de base radiale
* 6.7.3. Additif Chi Squared Kernel
* 6.7.4. Noyau au carré de chi asymétrique
* 6.7.5. Approximation du noyau polynomial via Tensor Sketch
* 6.7.6. Détails mathématiques

6.8. Métriques par paires, affinités et noyaux
* 6.8.1. Similitude cosinus
* 6.8.2. Noyau linéaire
* 6.8.3. Noyau polynomial
* 6.8.4. Noyau sigmoïde
* 6.8.5. Noyau RBF
* 6.8.6. Noyau laplacien
* 6.8.7. Noyau du chi carré

✔ 6.9. Transformer la cible de prédiction (y)
* ✔ 6.9.1. Binarisation des étiquettes
* ✔ 6.9.2. Encodage des étiquettes

# 6.1. Pipelines et estimateurs composites

Les transformateurs sont généralement combinés avec des classifieurs, des régresseurs ou d'autres estimateurs pour construire un estimateur composite. L'outil le plus courant est un [6.1.1. Pipeline](https://scikit-learn.org/stable/modules/compose.html#pipeline-chaining-estimators). Pipeline est souvent utilisé en combinaison avec [6.1.3. FeatureUnion](https://scikit-learn.org/stable/modules/compose.html#feature-union) qui concatène la sortie des transformateurs dans un espace de caractéristiques composite. [6.1.2. TransformedTargetRegressor](https://scikit-learn.org/stable/modules/compose.html#transformed-target-regressor) traite de la transformation de la cible (c'est-à-dire log-transform y). En revanche, Pipelines ne transforme que les données observées (X).

## 6.1.1. Pipeline : estimateurs de chaînage¶

[`Pipeline`](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html#sklearn.pipeline.Pipeline) peut être utilisé pour enchaîner plusieurs estimateurs en un seul. Ceci est utile car il y a souvent une séquence fixe d'étapes dans le traitement des données, par exemple la sélection des caractéristiques, la normalisation et la classification. Pipeline a plusieurs objectifs ici :

**Commodité et encapsulation**

Il suffit d'appeler `fit` et `predict` une fois sur vos données pour ajuster toute une séquence d'estimateurs.

**Sélection des paramètres communs**

Vous pouvez effectuer une recherche par grille sur les paramètres de tous les estimateurs du pipeline à la fois.

**Sécurité**

Les pipelines permettent d'éviter les fuites de statistiques de vos données de test dans le modèle formé lors de la validation croisée, en garantissant que les mêmes échantillons sont utilisés pour former les transformateurs et les prédicteurs.

Tous les estimateurs d'un pipeline, à l'exception du dernier, doivent être des transformateurs (c'est-à-dire qu'ils doivent avoir une méthode `transform`). Le dernier estimateur peut être de n'importe quel type (transformateur, classificateur, etc.).

### Usage

#### Construction

Le [`Pipeline`](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html#sklearn.pipeline.Pipeline) est construit à l'aide d'une liste de paires `(key, value)`, où `key` est une chaîne contenant le nom que vous souhaitez donner à cette étape et `value` est un objet estimateur :

In [1]:
from sklearn.pipeline import Pipeline
from sklearn.svm import SVC
from sklearn.decomposition import PCA
estimators = [('reduce_dim', PCA()), ('clf', SVC())]
pipe = Pipeline(estimators)
pipe
# Pipeline(steps=[('reduce_dim', PCA()), ('clf', SVC())])

#### Accéder aux étapes

Les estimateurs d'un pipeline sont stockés sous forme de liste dans l'attribut `steps`, mais sont accessibles par index ou nom en indexant (avec `[idx]`) le Pipeline :

In [2]:
pipe.steps[0]
# ('reduce_dim', PCA())
pipe[0]
# PCA()
pipe['reduce_dim']
# PCA()

L'attribut `named_steps` de Pipeline permet d'accéder aux étapes par leur nom avec complétion par tabulation dans des environnements interactifs :

In [3]:
pipe.named_steps.reduce_dim is pipe['reduce_dim']

True

Un sous-pipeline peut également être extrait en utilisant la notation de découpage couramment utilisée pour les séquences Python telles que les listes ou les chaînes (bien que seul un pas de 1 soit autorisé). Ceci est pratique pour n'effectuer qu'une partie des transformations (ou leur inverse) :

In [4]:
pipe[:1]
# Pipeline(steps=[('reduce_dim', PCA())])
pipe[-1:]
# Pipeline(steps=[('clf', SVC())])

#### Paramètres imbriqués

Les paramètres des estimateurs du pipeline sont accessibles à l'aide de la syntaxe `<estimator>__<parameter>` :

In [5]:
pipe.set_params(clf__C=10)
# Pipeline(steps=[('reduce_dim', PCA()), ('clf', SVC(C=10))])

Ceci est particulièrement important pour effectuer des recherches sur grille :

In [6]:
from sklearn.model_selection import GridSearchCV
param_grid = dict(reduce_dim__n_components=[2, 5, 10],
                  clf__C=[0.1, 10, 100])
grid_search = GridSearchCV(pipe, param_grid=param_grid)

Les étapes individuelles peuvent également être remplacées en tant que paramètres, et les étapes non finales peuvent être ignorées en les définissant sur `'passthrough'` :

In [7]:
from sklearn.linear_model import LogisticRegression
param_grid = dict(reduce_dim=['passthrough', PCA(5), PCA(10)],
                  clf=[SVC(), LogisticRegression()],
                  clf__C=[0.1, 10, 100])
grid_search = GridSearchCV(pipe, param_grid=param_grid)

Les estimateurs du pipeline peuvent être récupérés par index :

In [8]:
pipe[0]

ou par nom :

In [9]:
pipe['reduce_dim']

Pour activer l'inspection du modèle, [`Pipeline`](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html#sklearn.pipeline.Pipeline) a une méthode `get_feature_names_out()`, comme tous les transformateurs. Vous pouvez utiliser le découpage de pipeline pour obtenir les noms de fonctionnalités à chaque étape :

In [10]:
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest
iris = load_iris()
pipe = Pipeline(steps=[
    ('select', SelectKBest(k=2)),
    ('clf', LogisticRegression())])
pipe.fit(iris.data, iris.target)
# Pipeline(steps=[('select', SelectKBest(...)), ('clf', LogisticRegression(...))])
pipe[:-1].get_feature_names_out()

array(['x2', 'x3'], dtype=object)

### Voir aussi

[3.2. Estimateurs composites et espaces de paramètres](https://scikit-learn.org/stable/modules/grid_search.html#composite-grid-search)

### Exemple - [Pipeline ANOVA SVM](https://scikit-learn.org/stable/auto_examples/feature_selection/plot_feature_selection_pipeline.html#sphx-glr-auto-examples-feature-selection-plot-feature-selection-pipeline-py)

Cet exemple montre comment une sélection de caractéristiques peut être facilement intégrée dans un pipeline d'apprentissage automatique.

Nous montrons également que vous pouvez facilement introspecter une partie du pipeline.

Nous allons commencer par générer un jeu de données de classification binaire. Par la suite, nous diviserons le jeu de données en deux sous-ensembles.

In [11]:
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

X, y = make_classification(
    n_features=20,
    n_informative=3,
    n_redundant=0,
    n_classes=2,
    n_clusters_per_class=2,
    random_state=42,
)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

Une erreur courante commise avec la sélection de caractéristiques consiste à rechercher un sous-ensemble de caractéristiques discriminantes sur l'ensemble de données complet au lieu d'utiliser uniquement l'ensemble d'apprentissage. L'utilisation du [`Pipeline`](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html#sklearn.pipeline.Pipeline) scikit-learn empêche de commettre une telle erreur.

Ici, nous allons montrer comment créer un pipeline où la première étape sera la sélection des caractéristiques.

Lors de l'appel de `fit` sur les données d'entraînement, un sous-ensemble de caractéristiques sera sélectionné et l'index de ces caractéristiques sélectionnées sera stocké. Le sélecteur de caractéristiques réduira ensuite le nombre de caractéristiques et transmettra ce sous-ensemble au classifieur qui sera formé.

In [12]:
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.pipeline import make_pipeline
from sklearn.svm import LinearSVC

anova_filter = SelectKBest(f_classif, k=3)
clf = LinearSVC()
anova_svm = make_pipeline(anova_filter, clf)
anova_svm.fit(X_train, y_train)

Une fois l'entraînement accompli, nous pouvons prédire sur de nouveaux échantillons inédits. Dans ce cas, le sélecteur de caractéristiques sélectionnera uniquement les caractéristiques les plus discriminantes en fonction des informations stockées pendant l'entraînement. Ensuite, les données seront transmises au classifieur qui fera la prédiction.

Ici, nous rapportons les mesures finales via un rapport de classification.

In [13]:
from sklearn.metrics import classification_report

y_pred = anova_svm.predict(X_test)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.92      0.80      0.86        15
           1       0.75      0.90      0.82        10

    accuracy                           0.84        25
   macro avg       0.84      0.85      0.84        25
weighted avg       0.85      0.84      0.84        25



Sachez que vous pouvez inspecter une étape du pipeline. Par exemple, nous pourrions être intéressés par les paramètres du classifieur. Puisque nous avons sélectionné trois caractéristiques, nous nous attendons à avoir trois coefficients.

In [14]:
anova_svm[-1].coef_

array([[0.75791019, 0.27158925, 0.26109575]])

Cependant, nous ne savons pas quelles caractéristiques ont été sélectionnées dans l'ensemble de données d'origine. On pourrait procéder de plusieurs manières. Ici, nous allons inverser la transformation de ces coefficients pour obtenir des informations sur l'espace d'origine.

In [15]:
anova_svm[:-1].inverse_transform(anova_svm[-1].coef_)

array([[0.        , 0.        , 0.75791019, 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.27158925,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.26109575]])

Nous pouvons voir que les trois premières caractéristiques étaient les caractéristiques sélectionnées par la première étape.

### Exemple - ...

## 6.3.4. Encodage des caractéristiques catégorielles | Encoding categorical features

Souvent, les caractéristiques ne sont pas données sous forme de valeurs continues mais catégorielles. Par exemple, une personne peut avoir des caractéristiques `["homme", "femme"]`, `["from Europe", "from États-Unis", "from Asia"]`, `["uses Firefox", "uses Chrome", "uses Safari", "uses Internet Explorer"]`. Ces caractéristiques peuvent être efficacement codées sous forme d'entiers, par exemple `["male", "from États-Unis", "uses Internet Explorer"]` pourrait être exprimé par `[0, 1, 3]` tandis que `["female", "from Asia", "uses Chrome"]` serait `[1, 2, 1]`.

Pour convertir des caractéristiques catégorielles en de tels codes entiers, nous pouvons utiliser [`OrdinalEncoder`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OrdinalEncoder.html#sklearn.preprocessing.OrdinalEncoder). Cet estimateur transforme chaque caractéristique catégorielle en une nouvelle caractéristique d'entiers ($0$ à $n_{\text{categories}} - 1$) :

In [3]:
from sklearn import preprocessing
enc = preprocessing.OrdinalEncoder()
X = [['male', 'from US', 'uses Safari'], ['female', 'from Europe', 'uses Firefox']]
enc.fit(X)
# OrdinalEncoder()
enc.transform([['female', 'from US', 'uses Safari']])
# array([[0., 1., 1.]])

array([[0., 1., 1.]])

Une telle représentation entière ne peut cependant pas être utilisée directement avec tous les estimateurs scikit-learn, car ceux-ci attendent une entrée continue et interpréteraient les catégories comme étant ordonnées, ce qui n'est souvent pas souhaité (c'est-à-dire que l'ensemble de navigateurs a été ordonné arbitrairement).

Par défaut, [`OrdinalEncoder`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OrdinalEncoder.html#sklearn.preprocessing.OrdinalEncoder) transmettra également les valeurs manquantes indiquées par `np.nan`.

In [5]:
import numpy as np
enc = preprocessing.OrdinalEncoder()
X = [['male'], ['female'], [np.nan], ['female']]
enc.fit_transform(X)
# array([[ 1.],
#       [ 0.],
#       [nan],
#       [ 0.]])

array([[ 1.],
       [ 0.],
       [nan],
       [ 0.]])

[`OrdinalEncoder`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OrdinalEncoder.html#sklearn.preprocessing.OrdinalEncoder) fournit un paramètre `encoded_missing_value` pour encoder les valeurs manquantes sans avoir besoin de créer un pipeline et en utilisant [`SimpleImputer`](https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html#sklearn.impute.SimpleImputer).

In [6]:
enc = preprocessing.OrdinalEncoder(encoded_missing_value=-1)
X = [['male'], ['female'], [np.nan], ['female']]
enc.fit_transform(X)
# array([[ 1.],
#        [ 0.],
#        [-1.],
#        [ 0.]])

array([[ 1.],
       [ 0.],
       [-1.],
       [ 0.]])

Le traitement ci-dessus est équivalent au pipeline suivant :

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
enc = Pipeline(steps=[
        ("encoder", preprocessing.OrdinalEncoder()),
        ("imputer", SimpleImputer(strategy="constant", fill_value=-1)),
    ])
enc.fit_transform(X)
# array([[ 1.],
#        [ 0.],
#        [-1.],
#        [ 0.]])

Une autre possibilité de convertir des caractéristiques catégorielles en caractéristiques pouvant être utilisées avec les estimateurs scikit-learn consiste à utiliser un one-of-K, également connu sous le nom de codage one-hot ou factice. Ce type d'encodage peut être obtenu avec le [`OneHotEncoder`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessing.OneHotEncoder), qui transforme chaque caractéristique catégorique avec `n_categories` valeurs possibles en `n_categories` caractéristiques binaires, avec l'une d'elles 1, et toutes les autres 0.

Reprenons l'exemple ci-dessus :

In [7]:
enc = preprocessing.OneHotEncoder()
X = [['male', 'from US', 'uses Safari'], ['female', 'from Europe', 'uses Firefox']]
enc.fit(X)
# OneHotEncoder()
enc.transform([['female', 'from US', 'uses Safari'],
               ['male', 'from Europe', 'uses Safari']]).toarray()
# array([[1., 0., 0., 1., 0., 1.],
#        [0., 1., 1., 0., 0., 1.]])

array([[1., 0., 0., 1., 0., 1.],
       [0., 1., 1., 0., 0., 1.]])

Par défaut, les valeurs que chaque caractéristique peut prendre sont automatiquement déduites du jeu de données et peuvent être trouvées dans l'attribut `categories_` :

In [8]:
enc.categories_
# [array(['female', 'male'], dtype=object),
#  array(['from Europe', 'from US'], dtype=object),
#  array(['uses Firefox', 'uses Safari'], dtype=object)]

[array(['female', 'male'], dtype=object),
 array(['from Europe', 'from US'], dtype=object),
 array(['uses Firefox', 'uses Safari'], dtype=object)]

Il est possible de le spécifier explicitement à l'aide du paramètre `categories`. Il existe deux genres, quatre continents possibles et quatre navigateurs Web dans notre ensemble de données :

In [9]:
genders = ['female', 'male']
locations = ['from Africa', 'from Asia', 'from Europe', 'from US']
browsers = ['uses Chrome', 'uses Firefox', 'uses IE', 'uses Safari']
enc = preprocessing.OneHotEncoder(categories=[genders, locations, browsers])
# Note that for there are missing categorical values for the 2nd and 3rd
# feature
X = [['male', 'from US', 'uses Safari'], ['female', 'from Europe', 'uses Firefox']]
enc.fit(X)
# OneHotEncoder(categories=[['female', 'male'],
#                           ['from Africa', 'from Asia', 'from Europe',
#                            'from US'],
#                           ['uses Chrome', 'uses Firefox', 'uses IE',
#                            'uses Safari']])
enc.transform([['female', 'from Asia', 'uses Chrome']]).toarray()
# array([[1., 0., 0., 1., 0., 0., 1., 0., 0., 0.]])

array([[1., 0., 0., 1., 0., 0., 1., 0., 0., 0.]])

S'il est possible que les données d'entraînement aient des caractéristiques catégorielles manquantes, il peut souvent être préférable de spécifier `handle_unknown='infrequent_if_exist'` au lieu de définir les catégories manuellement comme ci-dessus. Lorsque `handle_unknown='infrequent_if_exist'` est spécifié et que des catégories inconnues sont rencontrées lors de la transformation, aucune erreur ne sera générée, mais les colonnes encodées à chaud résultantes pour cette fonctionnalité seront toutes nulles ou considérées comme une catégorie peu fréquente si elle est activée. (`handle_unknown='infrequent_if_exist'` n'est pris en charge que pour l'encodage one-hot) :

In [10]:
enc = preprocessing.OneHotEncoder(handle_unknown='infrequent_if_exist')
X = [['male', 'from US', 'uses Safari'], ['female', 'from Europe', 'uses Firefox']]
enc.fit(X)
# OneHotEncoder(handle_unknown='infrequent_if_exist')
enc.transform([['female', 'from Asia', 'uses Chrome']]).toarray()
# array([[1., 0., 0., 0., 0., 0.]])

array([[1., 0., 0., 0., 0., 0.]])

Il est également possible d'encoder chaque colonne en `n_categories - 1` colonnes au lieu de `n_categories` colonnes en utilisant le paramètre `drop`. Ce paramètre permet à l'utilisateur de spécifier une catégorie pour chaque fonctionnalité à supprimer. Ceci est utile pour éviter la colinéarité dans la matrice d'entrée dans certains classificateurs. Une telle fonctionnalité est utile, par exemple, lors de l'utilisation d'une régression non régularisée ([`LinearRegression`](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression)), car la colinéarité rendrait la matrice de covariance non inversible :

In [11]:
X = [['male', 'from US', 'uses Safari'],
     ['female', 'from Europe', 'uses Firefox']]
drop_enc = preprocessing.OneHotEncoder(drop='first').fit(X)
drop_enc.categories_
# [array(['female', 'male'], dtype=object), array(['from Europe', 'from US'], dtype=object),
#  array(['uses Firefox', 'uses Safari'], dtype=object)]
drop_enc.transform(X).toarray()
# array([[1., 1., 1.],
#        [0., 0., 0.]])

array([[1., 1., 1.],
       [0., 0., 0.]])

On peut vouloir supprimer l'une des deux colonnes uniquement pour les fonctionnalités avec 2 catégories. Dans ce cas, vous pouvez définir le paramètre `drop='if_binary'`.

In [12]:
X = [['male', 'US', 'Safari'],
     ['female', 'Europe', 'Firefox'],
     ['female', 'Asia', 'Chrome']]
drop_enc = preprocessing.OneHotEncoder(drop='if_binary').fit(X)
drop_enc.categories_
# [array(['female', 'male'], dtype=object), array(['Asia', 'Europe', 'US'], dtype=object),
#  array(['Chrome', 'Firefox', 'Safari'], dtype=object)]
drop_enc.transform(X).toarray()
# array([[1., 0., 0., 1., 0., 0., 1.],
#        [0., 0., 1., 0., 0., 1., 0.],
#        [0., 1., 0., 0., 1., 0., 0.]])

array([[1., 0., 0., 1., 0., 0., 1.],
       [0., 0., 1., 0., 0., 1., 0.],
       [0., 1., 0., 0., 1., 0., 0.]])

Dans le `X` transformé, la première colonne est l'encodage de la caractéristique avec les catégories "masculin"/"féminin", tandis que les 6 colonnes restantes sont l'encodage des 2 caractéristiques avec respectivement 3 catégories chacune.

Lorsque `handle_unknown='ignore'` et que `drop` n'est pas `None`, les catégories inconnues seront encodées comme des zéros :

In [None]:
drop_enc = preprocessing.OneHotEncoder(drop='first',
                                       handle_unknown='ignore').fit(X)
X_test = [['unknown', 'America', 'IE']]
drop_enc.transform(X_test).toarray()
# array([[0., 0., 0., 0., 0.]])

Toutes les catégories dans `X_test` sont inconnues lors de la transformation et seront mappées sur tous les zéros. Cela signifie que les catégories inconnues auront le même mappage que la catégorie supprimée. : `OneHotEncoder.inverse_transform` mappera tous les zéros à la catégorie supprimée si une catégorie est supprimée et `None` si une catégorie n'est pas supprimée :

In [13]:
drop_enc = preprocessing.OneHotEncoder(drop='if_binary', sparse=False,
                                       handle_unknown='ignore').fit(X)
X_test = [['unknown', 'America', 'IE']]
X_trans = drop_enc.transform(X_test)
X_trans
# array([[0., 0., 0., 0., 0., 0., 0.]])
drop_enc.inverse_transform(X_trans)
# array([['female', None, None]], dtype=object)



array([['female', None, None]], dtype=object)

[`OneHotEncoder`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessing.OneHotEncoder) prend en charge les caractéristiques catégorielles avec des valeurs manquantes en considérant les valeurs manquantes comme une catégorie supplémentaire :

In [14]:
X = [['male', 'Safari'],
     ['female', None],
     [np.nan, 'Firefox']]
enc = preprocessing.OneHotEncoder(handle_unknown='error').fit(X)
enc.categories_
# [array(['female', 'male', nan], dtype=object),
#  array(['Firefox', 'Safari', None], dtype=object)]
enc.transform(X).toarray()
# array([[0., 1., 0., 0., 1., 0.],
#        [1., 0., 0., 0., 0., 1.],
#        [0., 0., 1., 1., 0., 0.]])

array([[0., 1., 0., 0., 1., 0.],
       [1., 0., 0., 0., 0., 1.],
       [0., 0., 1., 1., 0., 0.]])

Si une caractéristique contient à la fois `np.nan` et `None`, elles seront considérées comme des catégories distinctes :

In [15]:
X = [['Safari'], [None], [np.nan], ['Firefox']]
enc = preprocessing.OneHotEncoder(handle_unknown='error').fit(X)
enc.categories_
# [array(['Firefox', 'Safari', None, nan], dtype=object)]
enc.transform(X).toarray()
# array([[0., 1., 0., 0.],
#        [0., 0., 1., 0.],
#        [0., 0., 0., 1.],
#        [1., 0., 0., 0.]])

array([[0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.],
       [1., 0., 0., 0.]])

Voir [6.2.1. Chargement de caractéristiques](https://scikit-learn.org/stable/modules/feature_extraction.html#dict-feature-extraction) à partir de dicts pour les entités catégorielles représentées sous forme de dict, et non sous forme de scalaires.

### 6.3.4.1. Catégories peu fréquentes

[`OneHotEncoder`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessing.OneHotEncoder) prend en charge l'agrégation de catégories peu fréquentes en une seule sortie pour chaque caractéristique. Les paramètres permettant de rassembler les catégories peu fréquentes sont `min_frequency` et `max_categories`.

1. `min_frequency` est soit un entier supérieur ou égal à 1, soit un flottant dans l'intervalle `(0.0, 1.0)`. Si `min_frequency` est un entier, les catégories avec une cardinalité inférieure à `min_frequency` seront considérées comme peu fréquentes. Si `min_frequency` est un flottant, les catégories avec une cardinalité inférieure à cette fraction du nombre total d'échantillons seront considérées comme peu fréquentes. La valeur par défaut est 1, ce qui signifie que chaque catégorie est encodée séparément.

2. `max_categories` vaut `None` ou tout entier supérieur à 1. Ce paramètre définit une limite supérieure au nombre d'entités en sortie pour chaque entité en entrée. `max_categories` inclut la caractéristique qui combine des catégories peu fréquentes.

Dans l'exemple suivant, les catégories `dog`, `snake` sont considérées comme peu fréquentes :

In [16]:
X = np.array([['dog'] * 5 + ['cat'] * 20 + ['rabbit'] * 10 +
              ['snake'] * 3], dtype=object).T
enc = preprocessing.OneHotEncoder(min_frequency=6, sparse=False).fit(X)
enc.infrequent_categories_
# [array(['dog', 'snake'], dtype=object)]
enc.transform(np.array([['dog'], ['cat'], ['rabbit'], ['snake']]))
# array([[0., 0., 1.],
#        [1., 0., 0.],
#        [0., 1., 0.],
#        [0., 0., 1.]])

array([[0., 0., 1.],
       [1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

En définissant `handle_unknown` sur `'infrequent_if_exist'`, les catégories inconnues seront considérées comme peu fréquentes :

In [17]:
enc = preprocessing.OneHotEncoder(
    handle_unknown='infrequent_if_exist', sparse=False, min_frequency=6)
enc = enc.fit(X)
enc.transform(np.array([['dragon']]))
# array([[0., 0., 1.]])

array([[0., 0., 1.]])

[`OneHotEncoder.get_feature_names_out`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessing.OneHotEncoder.get_feature_names_out) utilise `'infrequent'` pour désigner les caractéristiques peu fréquentes :

In [18]:
enc.get_feature_names_out()
# array(['x0_cat', 'x0_rabbit', 'x0_infrequent_sklearn'], dtype=object)

array(['x0_cat', 'x0_rabbit', 'x0_infrequent_sklearn'], dtype=object)

Lorsque `'handle_unknown'` est défini sur `'infrequent_if_exist'` et qu'une catégorie inconnue est rencontrée dans la transformation :

1. Si la prise en charge de la catégorie peu fréquente n'a pas été configurée ou s'il n'y avait pas de catégorie peu fréquente pendant la formation, les colonnes encodées à chaud résultantes pour cette caractéristique seront toutes des zéros. Dans la transformation inverse, une catégorie inconnue sera notée `None`.

2. S'il y a une catégorie peu fréquente pendant la formation, la catégorie inconnue sera considérée comme peu fréquente. Dans la transformation inverse, "infrequent_sklearn" sera utilisé pour représenter la catégorie peu fréquente.

Les catégories peu fréquentes peuvent également être configurées à l'aide de `max_categories`. Dans l'exemple suivant, nous définissons `max_categories=2` pour limiter le nombre d'entités dans la sortie. Il en résultera que toutes les catégories sauf la catégorie `'cat'` seront considérées comme peu fréquentes, ce qui conduira à deux caractéristiques, une pour les catégories `'cat'` et une pour les catégories peu fréquentes - qui sont toutes les autres :

In [19]:
enc = preprocessing.OneHotEncoder(max_categories=2, sparse=False)
enc = enc.fit(X)
enc.transform([['dog'], ['cat'], ['rabbit'], ['snake']])
# array([[0., 1.],
#        [1., 0.],
#        [0., 1.],
#        [0., 1.]])

array([[0., 1.],
       [1., 0.],
       [0., 1.],
       [0., 1.]])

Si `max_categories` et `min_frequency` ne sont pas des valeurs par défaut, les catégories sont sélectionnées en fonction de `min_frequency` en premier et les catégories `max_categories` sont conservées. Dans l'exemple suivant, `min_frequency=4` considère que seul `snake` est peu fréquent, mais `max_categories=3`, force `dog` à être également peu fréquent :

In [None]:
enc = preprocessing.OneHotEncoder(min_frequency=4, max_categories=3, sparse=False)
enc = enc.fit(X)
enc.transform([['dog'], ['cat'], ['rabbit'], ['snake']])
# array([[0., 0., 1.],
#        [1., 0., 0.],
#        [0., 1., 0.],
#        [0., 0., 1.]])

S'il existe des catégories peu fréquentes avec la même cardinalité au seuil de `max_categories`, alors les premières `max_categories` sont prises en fonction de l'ordre du lexique. Dans l'exemple suivant, « b », « c » et « d » ont la même cardinalité et avec `max_categories=2`, « b » et « c » sont peu fréquents car ils ont un ordre de lexique plus élevé.

In [20]:
X = np.asarray([["a"] * 20 + ["b"] * 10 + ["c"] * 10 + ["d"] * 10], dtype=object).T
enc = preprocessing.OneHotEncoder(max_categories=3).fit(X)
enc.infrequent_categories_
# [array(['b', 'c'], dtype=object)]

[array(['b', 'c'], dtype=object)]

## 6.3.5. ...

# 6.9. Transformer la cible de prédiction (y) | Transforming the prediction target (y)

Ce sont des transformateurs qui ne sont pas destinés à être utilisés sur des caractéristiques, uniquement sur des cibles d'apprentissage supervisé. Voir aussi [6.1. Transformer la cible en régression](https://scikit-learn.org/stable/modules/compose.html#transformed-target-regressor) si vous souhaitez transformer la cible de prédiction pour l'apprentissage, mais évaluer le modèle dans l'espace d'origine (non transformé).

## 6.9.1. Binarisation des étiquettes | Label binarization

### 6.9.1.1. LabelBinarizer

[`LabelBinarizer`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelBinarizer.html#sklearn.preprocessing.LabelBinarizer) est une classe utilitaire permettant de créer une [matrice d'indicateurs d'étiquettes](https://scikit-learn.org/stable/glossary.html#term-label-indicator-matrix) à partir d'une liste d'étiquettes [multiclasses](https://scikit-learn.org/stable/glossary.html#term-multiclass) :

In [1]:
from sklearn import preprocessing
lb = preprocessing.LabelBinarizer()
lb.fit([1, 2, 6, 4, 2])
# LabelBinarizer()
lb.classes_
# array([1, 2, 4, 6])
lb.transform([1, 6])
# array([[1, 0, 0, 0],
#       [0, 0, 0, 1]])

array([[1, 0, 0, 0],
       [0, 0, 0, 1]])

L'utilisation de ce format peut permettre une classification multiclasse dans les estimateurs qui prennent en charge le format de matrice d'indicateur d'étiquette.

**Avertissement** : LabelBinarizer n'est pas nécessaire si vous utilisez un estimateur qui prend déjà en charge les données [multiclasses](https://scikit-learn.org/stable/glossary.html#term-multiclass).

Pour plus d'informations sur la classification multiclasse, reportez-vous à la section [1.12.1. Classification multiclasse](https://scikit-learn.org/stable/modules/multiclass.html#multiclass-classification).

### 6.9.1.2. MultiLabelBinarizer

Dans l'apprentissage [multiétiquette](https://scikit-learn.org/stable/glossary.html#term-multilabel), l'ensemble conjoint de tâches de classification binaire est exprimé avec un tableau d'indicateurs binaires d'étiquette : chaque échantillon est une ligne d'un tableau 2d de forme `(n_échantillons, n_classes)` avec des valeurs binaires où l'un, c'est-à-dire les éléments non nuls, correspond au sous-ensemble d'étiquettes pour cet échantillon. Un tableau tel que `np.array([[1, 0, 0], [0, 1, 1], [0, 0, 0]])` représente l'étiquette 0 dans le premier échantillon, les étiquettes 1 et 2 dans le deuxième échantillon, et aucune étiquette dans le troisième échantillon.

La production de données multiétiquettes sous la forme d'une liste d'ensembles d'étiquettes peut être plus intuitive. Le transformateur [`MultiLabelBinarizer`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MultiLabelBinarizer.html#sklearn.preprocessing.MultiLabelBinarizer) peut être utilisé pour convertir entre une collection de collections d'étiquettes et le format d'indicateur :

In [None]:
from sklearn.preprocessing import MultiLabelBinarizer
y = [[2, 3, 4], [2], [0, 1, 3], [0, 1, 2, 3, 4], [0, 1, 2]]
MultiLabelBinarizer().fit_transform(y)
# array([[0, 0, 1, 1, 1],
#        [0, 0, 1, 0, 0],
#        [1, 1, 0, 1, 0],
#        [1, 1, 1, 1, 1],
#        [1, 1, 1, 0, 0]])

Pour plus d'informations sur la classification multiétiquette, reportez-vous à la section [1.12.2. Classification multiétiquette](https://scikit-learn.org/stable/modules/multiclass.html#multilabel-classification).

## 6.9.2. Encodage des étiquettes | Label encoding

[`LabelEncoder`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html#sklearn.preprocessing.LabelEncoder) est une classe utilitaire permettant de normaliser les étiquettes de sorte qu'elles ne contiennent que des valeurs comprises entre 0 et n_classes-1. Ceci est parfois utile pour écrire des routines Cython efficaces. [`LabelEncoder`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html#sklearn.preprocessing.LabelEncoder) peut être utilisé comme suit :

In [2]:
from sklearn import preprocessing
le = preprocessing.LabelEncoder()
le.fit([1, 2, 2, 6])
# LabelEncoder()
le.classes_
# array([1, 2, 6])
le.transform([1, 1, 2, 6])
# array([0, 0, 1, 2])
le.inverse_transform([0, 0, 1, 2])
# array([1, 1, 2, 6])

array([1, 1, 2, 6])

Il peut également être utilisé pour transformer des étiquettes non numériques (tant qu'elles sont hachables et comparables) en étiquettes numériques :

In [None]:
le = preprocessing.LabelEncoder()
le.fit(["paris", "paris", "tokyo", "amsterdam"])
# LabelEncoder()
list(le.classes_)
# ['amsterdam', 'paris', 'tokyo']
le.transform(["tokyo", "tokyo", "paris"])
# array([2, 2, 1])
list(le.inverse_transform([2, 2, 1]))
# ['tokyo', 'tokyo', 'paris']