# Nettoyage de données

Ce type de transformer permet de nettoyer notre base des données en éliminant ou en remplaçant les valeurs présentes dans celle-ci.

In [6]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
from sklearn.linear_model import SGDClassifier

## SimpleImputer

Remplace toutes les valeurs manquantes par une valeur **statistique**.

In [7]:
from sklearn.impute import SimpleImputer

In [13]:
X = np.array([[10, 3],
             [0, 3],
              [5, 3],
             [np.nan, 3]])

In [14]:
imputer = SimpleImputer(missing_values = np.nan,
             strategy = 'mean') #strategy => mean, median, most_frequent, constant

imputer.fit_transform(X)

#la moyenne de la première colonne est calculé et ça nous donne 5. ainsi np.nan est remplacé par 5

array([[10.,  3.],
       [ 0.,  3.],
       [ 5.,  3.],
       [ 5.,  3.]])

In [12]:
X_test = np.array([[12, 5],
             [40, 2],
              [5, 5],
             [np.nan, np.nan]])

imputer.transform(X_test)

array([[12.,  5.],
       [40.,  2.],
       [ 5.,  5.],
       [ 5.,  3.]])

## KNNImputer

Remplace toutes les valeurs **manquantes** par les valeurs des **plus proches voisins**.
Le KNNImputer remplace les valeurs manquantes associées à un certain échantillon par les valeurs qui correspondent aux échantillons qui ressemblent le plus à celui-ci.

In [15]:
from sklearn.impute import KNNImputer

In [16]:
X = np.array([[1, 100],
             [2, 30],
              [3, 15],
             [np.nan, 20]])

In [17]:
imputer = KNNImputer(n_neighbors = 1)
imputer.fit_transform(X)

array([[  1., 100.],
       [  2.,  30.],
       [  3.,  15.],
       [  3.,  20.]])

## MissingIndicator

Variable **booléenne** qui indique **l'absence** de valeurs dans le dataset.

In [18]:
from sklearn.impute import MissingIndicator
from sklearn.pipeline import make_union

In [19]:
X = np.array([[1, 100],
             [2, 30],
              [3, 15],
             [np.nan, np.nan]])

In [20]:
MissingIndicator().fit_transform(X)

array([[False, False],
       [False, False],
       [False, False],
       [ True,  True]])

In [21]:
pipeline = make_union(SimpleImputer(strategy = 'constant', fill_value = -99),
                     MissingIndicator())

pipeline.fit_transform(X)

array([[  1., 100.,   0.,   0.],
       [  2.,  30.,   0.,   0.],
       [  3.,  15.,   0.,   0.],
       [-99., -99.,   1.,   1.]])

## Application

In [28]:
import pandas as pd
from sklearn.pipeline import make_pipeline
from sklearn.model_selection import GridSearchCV, train_test_split

In [29]:
titanic = sns.load_dataset('titanic')
X = titanic[['pclass', 'age']]
y = titanic['survived']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state = 5)

In [30]:
model = make_pipeline(KNNImputer(), SGDClassifier())

In [31]:
params = {
    'knnimputer__n_neighbors' : [1, 2, 3 ,4]
}

In [32]:
grid = GridSearchCV(model, param_grid = params, cv = 5)

In [33]:
grid.fit(X_train, y_train)

GridSearchCV(cv=5,
             estimator=Pipeline(steps=[('knnimputer', KNNImputer()),
                                       ('sgdclassifier', SGDClassifier())]),
             param_grid={'knnimputer__n_neighbors': [1, 2, 3, 4]})

In [34]:
grid.best_params_   #le meilleur paramètre pour notre modèle vaut 3

{'knnimputer__n_neighbors': 3}