# <a id='imputation-of-missing-values'></a> 6.4. [**Imputation des valeurs manquantes**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/6_4_impute.ipynb)</br>([*Imputation of missing values*](https://scikit-learn.org/stable/modules/impute.html))

Pour diverses raisons, de nombreux ensembles de données du monde réel contiennent des valeurs manquantes, souvent codées comme des blancs, des NaN ou d'autres indicateurs de position. Cependant, de tels ensembles de données sont incompatibles avec les estimateurs de scikit-learn qui supposent que toutes les valeurs dans un tableau sont numériques et ont une signification. Une stratégie de base pour utiliser des ensembles de données incomplets consiste à supprimer les lignes et/ou les colonnes entières contenant des valeurs manquantes. Cependant, cela se fait au prix de la perte de données qui peuvent être précieuses (même si elles sont incomplètes). Une meilleure stratégie consiste à imputer les valeurs manquantes, c'est-à-dire à les inférer à partir de la partie connue des données. Voir l'entrée du glossaire sur l'[imputation](https://scikit-learn.org/stable/glossary.html#term-imputation).

- ✔ 6.4. [**Imputation des valeurs manquantes**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/6_4_impute.ipynb#imputation-of-missing-values)<br/>([*Imputation of missing values*](https://scikit-learn.org/stable/modules/impute.html))
    - **Volume** : 8 pages, 2 exemples, 3 papiers
    - ✔ 6.4.1. [**Imputation univariée vs imputation multivariée**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/6_4_impute.ipynb#univariate-vs-multivariate-imputation)<br/>([*Univariate vs. Multivariate Imputation*](https://scikit-learn.org/stable/modules/impute.html#univariate-vs-multivariate-imputation))
    - ✔ 6.4.2. [**Imputation de caractéristique univariée**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/6_4_impute.ipynb#univariate-feature-imputation)<br/>([*Univariate feature imputation*](https://scikit-learn.org/stable/modules/impute.html#univariate-feature-imputation))
    - ✔ 6.4.3. [**Imputation de caractéristiques multivariées**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/6_4_impute.ipynb#multivariate-feature-imputation)<br/>([*Multivariate feature imputation*](https://scikit-learn.org/stable/modules/impute.html#multivariate-feature-imputation))
    - ✔ 6.4.4. [**Imputation des plus proches voisins**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/6_4_impute.ipynb#nearest-neighbors-imputation)<br/>([*Nearest neighbors imputation*](https://scikit-learn.org/stable/modules/impute.html#nearest-neighbors-imputation))
    - ✔ 6.4.5. [**Maintenir le nombre de caractéristiques constant**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/6_4_impute.ipynb#keeping-the-number-of-features-constants)<br/>([*Keeping the number of features constants*](https://scikit-learn.org/stable/modules/impute.html#keeping-the-number-of-features-constants))
    - ✔ 6.4.6. [**Marquage des valeurs imputées**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/6_4_impute.ipynb#marking-imputed-values)<br/>([*Marking imputed values*](https://scikit-learn.org/stable/modules/impute.html#marking-imputed-values))
    - ✔ 6.4.7. [**Estimateurs qui gèrent les valeurs NaN**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/6_4_impute.ipynb#estimators-that-handle-nan-values)<br/>([*Estimators that handle NaN values*](https://scikit-learn.org/stable/modules/impute.html#estimators-that-handle-nan-values))

## <a id='univariate-vs-multivariate-imputation'></a> 6.4.1. Imputation univariée vs. Imputation multivariée

Un type d'algorithme d'imputation est univarié, ce qui impute des valeurs dans la dimension de la i-ème caractéristique en n'utilisant que les valeurs non manquantes dans cette dimension (par exemple, [**`impute.SimpleImputer`**](https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html)). En revanche, les algorithmes d'imputation multivariée utilisent l'ensemble complet des dimensions de caractéristiques disponibles pour estimer les valeurs manquantes (par exemple, [**`impute.IterativeImputer`**](https://scikit-learn.org/stable/modules/generated/sklearn.impute.IterativeImputer.html)).

## <a id='univariate-feature-imputation'></a> 6.4.2. Imputation univariée des caractéristiques

La classe [**`SimpleImputer`**](https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html#sklearn.impute.SimpleImputer) propose des stratégies de base pour l'imputation des valeurs manquantes. Les valeurs manquantes peuvent être imputées avec une valeur constante fournie, ou en utilisant les statistiques (_moyenne_, _médiane_ ou _plus fréquente_) de chaque colonne dans laquelle se trouvent les valeurs manquantes. Cette classe permet également différentes codifications des valeurs manquantes.

L'exemple suivant montre comment remplacer les valeurs manquantes, codées en tant que `np.nan`, en utilisant la valeur moyenne des colonnes (axe 0) contenant les valeurs manquantes :

In [1]:
import numpy as np
from sklearn.impute import SimpleImputer
imp = SimpleImputer(missing_values=np.nan, strategy='mean')
imp.fit([[1, 2], [np.nan, 3], [7, 6]])
# SimpleImputer()
X = [[np.nan, 2], [6, np.nan], [7, 6]]
print(imp.transform(X))
# [[4.          2.        ]
#  [6.          3.666...]
#  [7.          6.        ]]

[[4.         2.        ]
 [6.         3.66666667]
 [7.         6.        ]]


La classe [**`SimpleImputer`**](https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html#sklearn.impute.SimpleImputer) prend également en charge les matrices creuses :

In [2]:
import scipy.sparse as sp
X = sp.csc_matrix([[1, 2], [0, -1], [8, 4]])
imp = SimpleImputer(missing_values=-1, strategy='mean')
imp.fit(X)
# SimpleImputer(missing_values=-1)
X_test = sp.csc_matrix([[-1, 2], [6, -1], [7, 6]])
print(imp.transform(X_test).toarray())
# [[3. 2.]
#  [6. 3.]
#  [7. 6.]]

[[3. 2.]
 [6. 3.]
 [7. 6.]]


Notez que ce format n'est pas destiné à être utilisé pour stocker implicitement les valeurs manquantes dans la matrice, car cela la densifierait lors de la transformation. Les valeurs manquantes codées par 0 doivent être utilisées avec une entrée dense.

La classe [**`SimpleImputer`**](https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html#sklearn.impute.SimpleImputer) prend également en charge les données catégorielles représentées sous forme de valeurs de chaîne de caractères ou de catégories pandas lors de l'utilisation de la stratégie `most_frequent` ou `constant` :

In [3]:
import pandas as pd
df = pd.DataFrame([["a", "x"],
                   [np.nan, "y"],
                   ["a", np.nan],
                   ["b", "y"]], dtype="category")

imp = SimpleImputer(strategy="most_frequent")
print(imp.fit_transform(df))
# [['a' 'x']
#  ['a' 'y']
#  ['a' 'y']
#  ['b' 'y']]

[['a' 'x']
 ['a' 'y']
 ['a' 'y']
 ['b' 'y']]


## <a id='multivariate-feature-imputation'></a> 6.4.3. Imputation multivariée des caractéristiques

Une approche plus sophistiquée consiste à utiliser la classe [**`IterativeImputer`**](https://scikit-learn.org/stable/modules/generated/sklearn.impute.IterativeImputer.html), qui modélise chaque caractéristique avec des valeurs manquantes comme une fonction des autres caractéristiques et utilise cette estimation pour l'imputation. Cela se fait de manière itérative : à chaque étape, une colonne de caractéristiques est désignée comme sortie `y` et les autres colonnes de caractéristiques sont traitées comme des entrées `X`. Un régresseur est ajusté sur `(X, y)` pour `y` connu. Ensuite, le régresseur est utilisé pour prédire les valeurs manquantes de `y`. Cela est fait pour chaque caractéristique de manière itérative, puis répété pour un certain nombre d'itérations d'imputation (`max_iter`). Les résultats de la dernière itération d'imputation sont renvoyés.

**Remarque** Cet estimateur est encore **expérimental** pour le moment : les paramètres par défaut ou les détails du comportement peuvent changer sans aucun cycle de dépréciation. Résoudre les problèmes suivants aiderait à stabiliser [**`IterativeImputer`**](https://scikit-learn.org/stable/modules/generated/sklearn.impute.IterativeImputer.html) : critères de convergence ([#14338](https://github.com/scikit-learn/scikit-learn/issues/14338)), estimateurs par défaut ([#13286](https://github.com/scikit-learn/scikit-learn/issues/13286)) et utilisation de l'état aléatoire ([#15611](https://github.com/scikit-learn/scikit-learn/issues/15611)). Pour l'utiliser, vous devez importer explicitement `enable_iterative_imputer`.

In [4]:
import numpy as np
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
imp = IterativeImputer(max_iter=10, random_state=0)
imp.fit([[1, 2], [3, 6], [4, 8], [np.nan, 3], [7, np.nan]])
# IterativeImputer(random_state=0)
X_test = [[np.nan, 2], [6, np.nan], [np.nan, 6]]
# the model learns that the second feature is double the first
print(np.round(imp.transform(X_test)))
# [[ 1.  2.]
#  [ 6. 12.]
#  [ 3.  6.]]

[[ 1.  2.]
 [ 6. 12.]
 [ 3.  6.]]


À la fois [**`SimpleImputer`**](https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html#sklearn.impute.SimpleImputer) et [**`IterativeImputer`**](https://scikit-learn.org/stable/modules/generated/sklearn.impute.IterativeImputer.html) peuvent être utilisés dans un pipeline pour construire un estimateur composite prenant en charge l'imputation. Voir [**Imputation des valeurs manquantes avant la construction d'un estimateur**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/6_4_impute/plot_missing_values.ipynb).

### <a id='flexibility-of-iterativeimputer'></a> 6.4.3.1. Souplesse d'IterativeImputer

Il existe de nombreux packages d'imputation bien établis dans l'écosystème R de la science des données : Amelia, mi, mice, missForest, etc. missForest est populaire et s'avère être une instance particulière de différents algorithmes d'imputation séquentiels qui peuvent tous être implémentés avec [**`IterativeImputer`**](https://scikit-learn.org/stable/modules/generated/sklearn.impute.IterativeImputer.html) en passant différents régresseurs pour prédire les valeurs manquantes des caractéristiques. Dans le cas de missForest, ce régresseur est un RandomForest. Voir [**Imputation des valeurs manquantes avec des variantes de l'IterativeImputer**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/6_4_impute/plot_iterative_imputer_variants_comparison.ipynb).

### <a id='multiple-vs-single-imputation'></a> 6.4.3.2. Imputation multiple vs. Imputation unique

Dans la communauté statistique, il est courant de réaliser des imputations multiples, générant par exemple `m` imputations distinctes pour une seule matrice de caractéristiques. Chacune de ces `m` imputations est ensuite soumise au pipeline d'analyse ultérieur (par exemple, l'ingénierie des caractéristiques, le regroupement, la régression, la classification). Les `m` résultats finaux de l'analyse (par exemple, les erreurs de validation rétentionnée) permettent au scientifique des données de comprendre comment les résultats analytiques peuvent différer en raison de l'incertitude inhérente causée par les valeurs manquantes. Cette pratique est appelée imputation multiple.

Notre implémentation d'[**`IterativeImputer`**](https://scikit-learn.org/stable/modules/generated/sklearn.impute.IterativeImputer.html) s'est inspirée du package R MICE (Multivariate Imputation by Chained Equations) [1], mais diffère de celui-ci en renvoyant une seule imputation au lieu de plusieurs imputations. Cependant, [**`IterativeImputer`**](https://scikit-learn.org/stable/modules/generated/sklearn.impute.IterativeImputer.html) peut également être utilisé pour des imputations multiples en l'appliquant de manière répétée au même jeu de données avec différentes graines aléatoires lorsque `sample_posterior=True`. Voir [2], chapitre 4 pour plus de discussions sur les imputations multiples par rapport aux imputations uniques.

Il reste un problème ouvert concernant l'utilité de l'imputation unique par rapport à l'imputation multiple dans le contexte de la prédiction et de la classification lorsque l'utilisateur n'est pas intéressé par la mesure de l'incertitude due aux valeurs manquantes.

Notez qu'un appel à la méthode `transform` de [**`IterativeImputer`**](https://scikit-learn.org/stable/modules/generated/sklearn.impute.IterativeImputer.html) n'est pas autorisé à modifier le nombre d'échantillons. Par conséquent, les imputations multiples ne peuvent pas être réalisées par un seul appel à `transform`.

### Références

[1] Stef van Buuren, Karin Groothuis-Oudshoorn (2011). [“**mice: Multivariate Imputation by Chained Equations in R**](https://www.jstatsoft.org/article/view/v045i03)[”](https://drive.google.com/file/d/1TCGl_roQnvBQp-OntDPQZ-edvrQkQPxN/view?usp=drive_link). Journal of Statistical Software 45: 1-67.Stef van Buuren, Karin Groothuis-Oudshoorn (2011). “**mice: Multivariate Imputation by Chained Equations in R**”. Journal of Statistical Software 45: 1-67.

[2] [**BOOK**] Roderick J A Little and Donald B Rubin (1986). [“**Statistical Analysis with Missing Data**](https://onlinelibrary.wiley.com/doi/book/10.1002/9781119013563)[”](https://drive.google.com/file/d/1eGVHvjaFN5nEthRMHdTD3CXhQJPFmFKc/view?usp=drive_link). John Wiley & Sons, Inc., New York, NY, USA.

### 6.4.3.4. Exemples

#### [**Imputation des valeurs manquantes avant la construction d'un estimateur**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/6_4_impute/plot_missing_values.ipynb)<br/>([_Imputing missing values before building an estimator_](https://scikit-learn.org/stable/auto_examples/impute/plot_missing_values.html))

#### [**Imputation des valeurs manquantes avec des variantes de l'IterativeImputer**](https://nbviewer.org/github/Franck-PepperLabs/pepper_data-science_practising/blob/main/Sklearn/examples/6_4_impute/plot_iterative_imputer_variants_comparison.ipynb)<br/>([_Imputing missing values with variants of IterativeImputer_](https://scikit-learn.org/stable/auto_examples/impute/plot_iterative_imputer_variants_comparison.html))

## <a id='nearest-neighbors-imputation'></a> 6.4.4. Imputation par les plus proches voisins

La classe [**`KNNImputer`**](https://scikit-learn.org/stable/modules/generated/sklearn.impute.KNNImputer.html) permet d'imputer les valeurs manquantes en utilisant l'approche des k-plus proches voisins. Par défaut, une mesure de distance euclidienne prenant en compte les valeurs manquantes, `nan_euclidean_distances`, est utilisée pour trouver les voisins les plus proches. Chaque caractéristique manquante est imputée en utilisant les valeurs des `n_neighbors` voisins les plus proches qui ont une valeur pour la caractéristique. Les caractéristiques des voisins sont moyennées de manière uniforme ou pondérée par la distance de chaque voisin. Si un échantillon a plusieurs caractéristiques manquantes, les voisins pour cet échantillon peuvent être différents en fonction de la caractéristique particulière à imputer. Lorsque le nombre de voisins disponibles est inférieur à `n_neighbors` et qu'il n'y a pas de distances définies par rapport à l'ensemble d'entraînement, la moyenne de l'ensemble d'entraînement pour cette caractéristique est utilisée pendant l'imputation. S'il y a au moins un voisin avec une distance définie, la moyenne pondérée ou non pondérée des voisins restants sera utilisée pendant l'imputation. Si une caractéristique est toujours manquante dans l'ensemble d'entraînement, elle est supprimée lors de la transformation. Pour plus d'informations sur la méthodologie, voir la référence [OL2001].

L'extrait suivant montre comment remplacer les valeurs manquantes, codées en tant que `np.nan`, en utilisant la valeur moyenne des deux voisins les plus proches des échantillons avec des valeurs manquantes :

In [5]:
import numpy as np
from sklearn.impute import KNNImputer
nan = np.nan
X = [[1, 2, nan], [3, 4, 3], [nan, 6, 5], [8, 8, 7]]
imputer = KNNImputer(n_neighbors=2, weights="uniform")
imputer.fit_transform(X)
# array([[1. , 2. , 4. ],
#        [3. , 4. , 3. ],
#        [5.5, 6. , 5. ],
#        [8. , 8. , 7. ]])

array([[1. , 2. , 4. ],
       [3. , 4. , 3. ],
       [5.5, 6. , 5. ],
       [8. , 8. , 7. ]])

### Références

[OL2001] Olga Troyanskaya, Michael Cantor, Gavin Sherlock, Pat Brown, Trevor Hastie, Robert Tibshirani, David Botstein and Russ B. Altman, [“**Missing value estimation methods for DNA microarrays**](https://sci2s.ugr.es/keel/pdf/algorithm/articulo/troyanskaya_cantor_sherlock01.pdf)[”](https://drive.google.com/file/d/1Lz7bcRMKRhXJV-SjF7BGjAhRMSFvx4IO/view?usp=drive_link), BIOINFORMATICS Vol. 17 no. 6, 2001 Pages 520-525.

## <a id='keeping-the-number-of-features-constants'></a> 6.4.5. Maintenir le nombre de caractéristiques constant

Par défaut, les imputeurs de scikit-learn supprimeront les caractéristiques entièrement vides, c'est-à-dire les colonnes ne contenant que des valeurs manquantes. Par exemple :

In [6]:
imputer = SimpleImputer()
X = np.array([[np.nan, 1], [np.nan, 2], [np.nan, 3]])
imputer.fit_transform(X)
# array([[1.],
#        [2.],
#        [3.]])

array([[1.],
       [2.],
       [3.]])

La première caractéristique dans `X` ne contenant que des `np.nan` a été supprimée après l'imputation. Bien que cette caractéristique ne soit pas utile dans un contexte prédictif, supprimer les colonnes modifie la forme de `X`, ce qui peut poser problème lors de l'utilisation d'imputeurs dans un pipeline d'apprentissage automatique plus complexe. Le paramètre `keep_empty_features` offre la possibilité de conserver les caractéristiques vides en les imputant avec une valeur constante. Dans la plupart des cas, cette valeur constante est zéro :

In [7]:
imputer.set_params(keep_empty_features=True)
# SimpleImputer(keep_empty_features=True)
imputer.fit_transform(X)
# array([[0., 1.],
#        [0., 2.],
#        [0., 3.]])

array([[0., 1.],
       [0., 2.],
       [0., 3.]])

## <a id='marking-imputed-values'></a> 6.4.6. Marquage des valeurs imputées

Le transformateur [**`MissingIndicator`**](https://scikit-learn.org/stable/modules/generated/sklearn.impute.MissingIndicator.html#sklearn.impute.MissingIndicator) est utile pour transformer un ensemble de données en une matrice binaire correspondante indiquant la présence de valeurs manquantes dans l'ensemble de données. Cette transformation est utile en conjonction avec l'imputation. Lors de l'utilisation de l'imputation, conserver l'information sur les valeurs manquantes peut être informatif. Notez que les classes [**`SimpleImputer`**](https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html) et [**`IterativeImputer`**](https://scikit-learn.org/stable/modules/generated/sklearn.impute.IterativeImputer.html) disposent toutes deux du paramètre booléen `add_indicator` (`False` par défaut) qui, lorsqu'il est défini sur `True`, permet de superposer facilement la sortie du transformateur [**`MissingIndicator`**](https://scikit-learn.org/stable/modules/generated/sklearn.impute.MissingIndicator.html#sklearn.impute.MissingIndicator) avec la sortie de l'imputeur.

`NaN` est généralement utilisé comme espace réservé pour les valeurs manquantes. Cependant, cela impose que le type de données soit flottant. Le paramètre `missing_values` permet de spécifier d'autres espaces réservés tels que les entiers. Dans l'exemple suivant, nous utiliserons `-1` comme valeurs manquantes :

In [8]:
from sklearn.impute import MissingIndicator
X = np.array([[-1, -1, 1, 3],
              [4, -1, 0, -1],
              [8, -1, 1, 0]])
indicator = MissingIndicator(missing_values=-1)
mask_missing_values_only = indicator.fit_transform(X)
mask_missing_values_only
# array([[ True,  True, False],
#        [False,  True,  True],
#        [False,  True, False]])

array([[ True,  True, False],
       [False,  True,  True],
       [False,  True, False]])

Le paramètre `features` est utilisé pour choisir les caractéristiques pour lesquelles le masque est construit. Par défaut, il est défini sur `'missing-only'`, ce qui renvoie le masque de l'imputeur des caractéristiques contenant des valeurs manquantes au moment de l'ajustement (appel de `fit`) :

In [9]:
indicator.features_
# array([0, 1, 3])

array([0, 1, 3], dtype=int64)

Le paramètre `features` peut être défini sur `'all'` pour renvoyer toutes les caractéristiques, qu'elles contiennent ou non des valeurs manquantes :

In [10]:
indicator = MissingIndicator(missing_values=-1, features="all")
mask_all = indicator.fit_transform(X)
mask_all
# array([[ True,  True, False, False],
#        [False,  True, False,  True],
#        [False,  True, False, False]])
indicator.features_
# array([0, 1, 2, 3])

array([0, 1, 2, 3])

Lors de l'utilisation de [**`MissingIndicator`**](https://scikit-learn.org/stable/modules/generated/sklearn.impute.MissingIndicator.html) dans un [**`Pipeline`**](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html), assurez-vous d'utiliser [**`FeatureUnion`**](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.FeatureUnion.html) ou [**`ColumnTransformer`**](https://scikit-learn.org/stable/modules/generated/sklearn.compose.ColumnTransformer.html) pour ajouter les caractéristiques indicatrices aux caractéristiques régulières. Tout d'abord, nous obtenons l'ensemble de données `iris` et y ajoutons quelques valeurs manquantes.

In [11]:
from sklearn.datasets import load_iris
from sklearn.impute import SimpleImputer, MissingIndicator
from sklearn.model_selection import train_test_split
from sklearn.pipeline import FeatureUnion, make_pipeline
from sklearn.tree import DecisionTreeClassifier
X, y = load_iris(return_X_y=True)
mask = np.random.randint(0, 2, size=X.shape).astype(bool)
X[mask] = np.nan
X_train, X_test, y_train, _ = train_test_split(
    X, y, test_size=100, random_state=0)

Maintenant, nous créons un [**`FeatureUnion`**](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.FeatureUnion.html). Toutes les caractéristiques seront imputées à l'aide de [**`SimpleImputer`**](https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html), afin de permettre aux classificateurs de travailler avec ces données. De plus, il ajoute les variables indicatrices de [**`MissingIndicator`**](https://scikit-learn.org/stable/modules/generated/sklearn.impute.MissingIndicator.html).

In [12]:
transformer = FeatureUnion(
    transformer_list=[
        ('features', SimpleImputer(strategy='mean')),
        ('indicators', MissingIndicator())])
transformer = transformer.fit(X_train, y_train)
results = transformer.transform(X_test)
results.shape
# (100, 8)

(100, 8)

Bien sûr, nous ne pouvons pas utiliser le transformeur pour effectuer des prédictions. Nous devons l'envelopper dans un `Pipeline` avec un classifieur (par exemple, un `DecisionTreeClassifier`) pour pouvoir faire des prédictions.

In [13]:
clf = make_pipeline(transformer, DecisionTreeClassifier())
clf = clf.fit(X_train, y_train)
results = clf.predict(X_test)
results.shape
# (100,)

(100,)

## <a id='estimators-that-handle-nan-values'></a> 6.4.7. Estimateurs qui gèrent les valeurs NaN

Certains estimateurs sont conçus pour gérer les valeurs NaN sans prétraitement. Voici la liste de ces estimateurs, classés par type (regroupement, régresseur, classifieur, transformeur) :

- **Les estimateurs qui autorisent les valeurs NaN pour le type de `regressor` :**
    - [**`HistGradientBoostingRegressor`**](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.HistGradientBoostingRegressor.html)
- **Les estimateurs qui autorisent les valeurs NaN pour le type de `classifier` :**
    - [**`HistGradientBoostingClassifier`**](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.HistGradientBoostingClassifier.html)
- **Les estimateurs qui autorisent les valeurs NaN pour le type de `transformer` :**
    - [**`IterativeImputer`**](https://scikit-learn.org/stable/modules/generated/sklearn.impute.IterativeImputer.html)
    - [**`KNNImputer`**](https://scikit-learn.org/stable/modules/generated/sklearn.impute.KNNImputer.html)
    - [**`MaxAbsScaler`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MaxAbsScaler.html)
    - [**`MinMaxScaler`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html)
    - [**`MissingIndicator`**](https://scikit-learn.org/stable/modules/generated/sklearn.impute.MissingIndicator.html)
    - [**`PowerTransformer`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PowerTransformer.html)
    - [**`QuantileTransformer`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.QuantileTransformer.html)
    - [**`RobustScaler`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.RobustScaler.html)
    - [**`SimpleImputer`**](https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html)
    - [**`StandardScaler`**](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html)
    - [**`VarianceThreshold`**](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.VarianceThreshold.html)