## SimpleImputer

SimpleImputer remplace toutes les valeurs manquantes par une valeur statistique 

 

C'est un imputeur univarié qui complète les valeurs manquantes avec des stratégies simples. 

Cet imputeur intervient lorsqu'il est nécessaire de remplacer les valeurs manquantes dans un ensemble de données. Il utilise des statistiques descriptives telles que la moyenne, la médiane ou la valeur la plus fréquente pour remplacer les valeurs manquantes le long de chaque colonne.  

Il offre également la possibilité de remplacer les valeurs manquantes par une valeur constante prédéfinie. Cette approche permet de maintenir l'intégrité des données en assurant qu'elles restent informatives malgré la présence de valeurs manquantes. 

In [1]:
import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer


data = {'A': [1, 2, np.nan, 4, 5], 

   'B': [10, np.nan, 30, 40, 50], 

   'C': [10,0,np.nan,0,10]} 

 

df = pd.DataFrame(data)
df

Unnamed: 0,A,B,C
0,1.0,10.0,10.0
1,2.0,,0.0
2,,30.0,
3,4.0,40.0,0.0
4,5.0,50.0,10.0


In [2]:
df.isnull().sum()

A    1
B    1
C    1
dtype: int64

In [3]:
imputer = SimpleImputer()

df = imputer.fit_transform(df)

df = pd.DataFrame(df)
df

Unnamed: 0,0,1,2
0,1.0,10.0,10.0
1,2.0,32.5,0.0
2,3.0,30.0,5.0
3,4.0,40.0,0.0
4,5.0,50.0,10.0


In [4]:
df.isnull().sum()

0    0
1    0
2    0
dtype: int64

Paramètres Importants: 

 

        missing_values : (int, float, str, np.nan, None or pandas.NA, default=np.nan) 

La valeur de substitution pour les valeurs manquantes. Toutes les occurrences de missing_values seront imputées. Pour les DataFrames pandas avec des types de données entiers avec des valeurs manquantes, missing_values peut être défini sur np.nan ou pd.NA. 

        



        

        strategy : (str, default='mean') 

La stratégie d'imputation. 

Si "mean", remplace les valeurs manquantes par la moyenne le long de chaque colonne. Peut être utilisé uniquement avec des données numériques. 



Si "median", remplace les valeurs manquantes par la médiane le long de chaque colonne. Peut être utilisé uniquement avec des données numériques. 



Si "most_frequent", remplace les valeurs manquantes par la valeur la plus fréquente le long de chaque colonne. Peut être utilisé avec des chaînes ou des données numériques. Si plusieurs valeurs sont les plus fréquentes, seule la plus petite est renvoyée. 

Si "constant", remplace les valeurs manquantes par fill_value. Peut être utilisé avec des chaînes ou des données numériques. 

        



        

        fill_value : (str or valeur numérique, default=None) 

Lorsque strategy == "constant", fill_value est utilisé pour remplacer toutes les occurrences de missing_values. Pour les types de données de chaîne ou d'objet, fill_value doit être une chaîne. Si None, fill_value sera 0 lors de l'imputation des données numériques et "missing_value" pour les chaînes ou les types de données d'objet. 



        

Ex:          

        imputer = SimpleImputer(missing_values=np.nan, strategy='mean') 

        

        imputer = SimpleImputer(strategy="constant", fill_value="MISSING") 

In [5]:
data = {'prenoms' : ['Antoine', 'Cyril', 'Melody', 'Thibaut', 'Maxime', 'Kevin', 'Florian', 'Elie', 'Deborah', 'Farid', 'Saadia', 'Christian', 'Louis', 'Greg', 'Quentin', 'Simon'], 

   'notes' : [9, 14, 5, 18, np.nan, 11, 7, 16, 3,np.nan, 8, 13, 4,np.nan, 1, 10], 

   'Presence': ['Présent',np.nan,'Présent','Présent','Présent','Présent',np.nan,np.nan,'Présent',np.nan,'Présent','Présent','Présent',np.nan,np.nan,'Présent']} 

df = pd.DataFrame(data)  
df


Unnamed: 0,prenoms,notes,Presence
0,Antoine,9.0,Présent
1,Cyril,14.0,
2,Melody,5.0,Présent
3,Thibaut,18.0,Présent
4,Maxime,,Présent
5,Kevin,11.0,Présent
6,Florian,7.0,
7,Elie,16.0,
8,Deborah,3.0,Présent
9,Farid,,


In [6]:
from sklearn.impute import SimpleImputer
from sklearn.pipeline import make_pipeline
from sklearn.compose import ColumnTransformer

colonne_numerique = ['notes']
colonne_categorie = ['Presence']

tranformer = ColumnTransformer(
    transformers=[
        ('impute_colonne_b',SimpleImputer(strategy='median'),colonne_numerique),
        ('impute_colonne_c',SimpleImputer(strategy='constant', fill_value="Absent"),colonne_categorie)
        
    ],remainder='passthrough')

my_pipeline = make_pipeline(tranformer)

my_pipeline.fit(df)

df = my_pipeline.transform(df)

df = pd.DataFrame(df,columns=['notes', 'Presence', 'prenoms'])
df

Unnamed: 0,notes,Presence,prenoms
0,9.0,Présent,Antoine
1,14.0,Absent,Cyril
2,5.0,Présent,Melody
3,18.0,Présent,Thibaut
4,9.0,Présent,Maxime
5,11.0,Présent,Kevin
6,7.0,Absent,Florian
7,16.0,Absent,Elie
8,3.0,Présent,Deborah
9,9.0,Absent,Farid
