# SKLEARN IMPUTER : NETTOYAGE DE DONNÉES

URL : https://youtu.be/QVEJJNsz-eM?si=RL-6qOSD9CyRQJ6C

In [4]:
#importations
import numpy as np
from sklearn.impute import SimpleImputer, KNNImputer, MissingIndicator

## SimpleImputer

Il remplace toutes les valeurs manquantes par une valeur statistique.
1. On indique le **type des valeurs manquantes** (Nan, ou valeurs négatives,...etc)
2. On indique la **stratégie** pour remplacer ces valeurs manquantes:
   - mean (la moyenne)
   - median (la médiane)
   - most_frequent (la valeur la plus fréquente)
   - constant (remplacer par une constante)
3. On applique **fill_value pour strategy = 'constant'**

In [7]:
#définir X
X = np.array([[10, 3],
             [0, 4],
             [5, 3],
             [np.nan, 3]])

In [8]:
#définir imputer
#on nettoye les valeurs Nan dans X avec SimpleImputer
#on les remplace avec la moyenne
imputer = SimpleImputer(missing_values=np.nan,
             strategy='mean')

#transformer les données X avec SimpleImputer() avec la méthode fit_transform()
imputer.fit_transform(X)

array([[10.,  3.],
       [ 0.,  4.],
       [ 5.,  3.],
       [ 5.,  3.]])

In [9]:
#np.nan est remplacée par la moyenne de la 1ère colonne qui est 5
#la moyenne de la 2ème colonne est calculée aussi, mais il n'y a pas de valeurs à remplacer dans la 2ème colonne

In [10]:
#X_test
X_test = np.array([[12, 5],
                   [40, 2],
                   [5, 5],
                   [np.nan, np.nan]])

#transformer les données X_test avec SimpleImputer() avec la méthode transform()
imputer.transform(X_test)

array([[12.  ,  5.  ],
       [40.  ,  2.  ],
       [ 5.  ,  5.  ],
       [ 5.  ,  3.25]])

In [11]:
#les valeurs manquantes dans le test set (X_test) sont remplacées par les moyennes calculées dans le train set (X)
#même si les moyennes du test set sont différentes de celles du train set
#le transformer traite toutes les données futures de la même manière dont a été traité le train set

## KNNImputer

Il remplace toutes les valeurs manquantes par les valeurs des plus proches voisins.

**Exemple:** si on connait 2 des 3 valeurs de variables d'une donné, alors on peut savoir la valeur de la 3ème variable en comparant avec les données du dataset.

In [14]:
#définir X
X = np.array([[1, 100],
             [2, 30],
             [3, 15],
             [np.nan, 20]])

In [15]:
#définir imputer
#n_neighbors=1
imputer = KNNImputer(n_neighbors=1)

#transformer les données X avec KNNImputer() avec la méthode fit_transform()
imputer.fit_transform(X)

array([[  1., 100.],
       [  2.,  30.],
       [  3.,  15.],
       [  3.,  20.]])

In [16]:
#KNNImputer analyse les données de X pour voir celles aui sont les plus sempblables à la valeur manquante pour la remplacer

## MissingIndicator

Il donne des variables booléennes qui indiquent l'absence des valeurs dans le dataset.

In [19]:
#définir X
X = np.array([[1, 100],
              [2, 30],
              [3, 15],
              [np.nan, np.nan]])

In [20]:
#transformer les données X avec MissingIndicator() avec la méthode fit_transform()
MissingIndicator().fit_transform(X)

array([[False, False],
       [False, False],
       [False, False],
       [ True,  True]])