# <font color="blue">Features imputation

<p>Dans le monde réel, souvent et pour diverses raisons les data set proviennent avec des données manquantes qui sont souvent encodées sous forme de blancs, de NaN ou d'autres caractères de remplissage.</p> 
<p>Toutefois, ces données ne sont pas compatibles avec les estimateurs de scikit-learn qui exigent que les données soient numériques et signifiantes. la première stratégie pour utiliser ces data set incomplet es consiste à supprimer les lignes/colonnes contenant des valeurs manquantes. Toutefois, cette stratégie n'est pas efficace car elle impose une perte des données qui peuvent être bénéfiques.</p>
<p>Une meilleure stratégie consiste à déduire les données manquantes (imputer) à partir de la partie connue de dataset. Pour ce faire, nous allons utiliser le module [sklearn.impute](https://scikit-learn.org stable/modules/classes.html#module-sklearn.impute) qui contient plusieurs Imputers.</p>
<p>Ce Colab se contente de présenter les imputers suivants:</p>

+ **SimpleImputer():**
+ **MissingIndicator()**
+ **KNNImputer()**

## <font color="blue">1. SimpleImputer

SimpleImputer() remplace toutes la valeurs manquantes par une valeur statistique détermiée par une des stratégies (strategy) suivantes:

<font color="blue">Strategy:</font>
+ *mean*: remplace les valeurs manquantes par la moyenne de chaque colonne. Utilisée uniquement avec les données numériques
+ *Median*: remplace les valeurs manquantes par la médiane. Utilisée uniquement avec les données numériques
+ *most-frequent*: remplace les valeurs manquantes par la valeur la plus fréquente de chaque colonne. Utilisée  avec les données numériques et cacactères
+ *Constant*: remplace les valeurs manquantes par constante déterminée (numérique ou caractères) à l'avance.
<p>Le bout de code suivant montre à travers un exemple simple l'utilisation de SimpleImputer avec les quatre stratégies.


In [None]:
"""
Cet exmple présente l'utilisation de SimpleImputer aves les 4 stratégies
"""
#importer les modules
import numpy as np
from sklearn.impute import SimpleImputer
"""construire un array contenant une donnée manquante!
"""
tableau=np.array([12,14,12,16,7,12,10,np.nan])
#tableau=np.array(liste)
#afficher le tableau avant  imputation
print(tableau)

#imputet la donnée manquante (dernière valeur de tablea!)
#En utilisant "mean" comme stratégie
imputer1=SimpleImputer(missing_values=np.nan, strategy="mean")
res1=imputer1.fit_transform(tableau.reshape(-1,1))
print("Résultat en utulisant \"mean\":\n",res1)

#En utilisant "constant" comme stratégie=> dans ce cas il faut ajouter 
#fill_value!!
imputer2=SimpleImputer(missing_values=np.nan, strategy="constant",\
                       fill_value=15)
res2=imputer2.fit_transform(tableau.reshape(-1,1))
print("Résultat en utulisant \"constant\":\n",res2)
"""
Pour les deux autres stratégie, il suffit de remplacer "mean" par "median"
ou "most_frequent"
"""



[12. 14. 12. 16.  7. 12. 10. nan]
Résultat en utulisant "mean":
 [[12.        ]
 [14.        ]
 [12.        ]
 [16.        ]
 [ 7.        ]
 [12.        ]
 [10.        ]
 [11.85714286]]
Résultat en utulisant "constant":
 [[12.]
 [14.]
 [12.]
 [16.]
 [ 7.]
 [12.]
 [10.]
 [15.]]


'\nPour les deux autres stratégie, il suffit de remplacer "mean" par "median"\nou "most_frequent"\n'

## <font color="blue">2. KNNImputer

Présentation...

In [None]:
import numpy as np
from sklearn.impute import KNNImputer
#Données initiales contenant des valeurs manquante
X = [
     [1, 2, np.nan], 
     [3, 4, 3], 
     [np.nan, 6, 5], 
     [8, 8, 7]
     ]
#imputation des valeurs manquantes par KNNImputer
imputer = KNNImputer(n_neighbors=2)
res=imputer.fit_transform(X)
#Afficher le tableau après l'imputation avec KNNImputer
print(res)

[[1.  2.  4. ]
 [3.  4.  3. ]
 [5.5 6.  5. ]
 [8.  8.  7. ]]


## <font color="blue">3. MissingIndicator