# <span style='color:SteelBlue'>Valeurs manquantes : détection et traitement</span>

- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html

In [1]:
# Notre jeu de données avec valeurs manquantes
# Dataframe

import numpy as np
import pandas as pd
df = pd.DataFrame({'A': [20, 15, 20],
                  'B': [np.nan, 50, 4],
                  'C': [30, 5, 30,],
                  'D': [15, 2, np.nan],
                  'E': [8, 5, 10],
                  'F': [45, 7, np.nan],
                  'G': [35, 10, 35]},
                  index = ['Row 1', 'Row 2',  'Row 3'])
df

Unnamed: 0,A,B,C,D,E,F,G
Row 1,20,,30,15.0,8,45.0,35
Row 2,15,50.0,5,2.0,5,7.0,10
Row 3,20,4.0,30,,10,,35


## <span style='background:GreenYellow'>Détection</span>

In [2]:
df.isnull()
#df.isna()

Unnamed: 0,A,B,C,D,E,F,G
Row 1,False,True,False,False,False,False,False
Row 2,False,False,False,False,False,False,False
Row 3,False,False,False,True,False,True,False


In [3]:
# Somme par colonne
df.isnull().sum()

A    0
B    1
C    0
D    1
E    0
F    1
G    0
dtype: int64

In [6]:
# Pour une colonne
df["B"].isna().sum()
#df["A"].isna().sum()

1

In [7]:
# Nombre total de Valeurs Manquantes dans le dataframe
df.isnull().sum().sum()

3

## <span style='background:GreenYellow'>Traitement</span>

## <span style='background:Thistle'>Suppression dropna()</span> 

- __axis__: 0 pour ligne et 1 pour colonne
- __how__: 
> - __"any"__ pour supprimer une ligne ou une colonne si des valeurs NaN sont présentes. 
> - __"all"__ pour supprimer la ligne de la colonne si toutes les valeurs sont NaN.
- __thresh__: nécessite que de nombreuses valeurs non-NaN
- __inplace__: Si __True__, effectuez l'opération sur place et renvoyez None.

In [10]:
# Supprimer les valeurs manquantes (par défaut)
df.dropna()

Unnamed: 0,A,B,C,D,E,F,G
Row 2,15,50.0,5,2.0,5,7.0,10


In [8]:
# Suppression de lignes (any : au moins 1 NAN)
df.dropna(axis=0, how="any", inplace=False)

Unnamed: 0,A,B,C,D,E,F,G
Row 2,15,50.0,5,2.0,5,7.0,10


In [9]:
# Suppression de lignes (all : suppression si uniquement des NAN dans la ligne)
df.dropna(axis=0, how="all", inplace=False)

Unnamed: 0,A,B,C,D,E,F,G
Row 1,20,,30,15.0,8,45.0,35
Row 2,15,50.0,5,2.0,5,7.0,10
Row 3,20,4.0,30,,10,,35


In [11]:
# Dataframe non modifié (inplace=False)
df

Unnamed: 0,A,B,C,D,E,F,G
Row 1,20,,30,15.0,8,45.0,35
Row 2,15,50.0,5,2.0,5,7.0,10
Row 3,20,4.0,30,,10,,35


In [12]:
# Suppression par colonne : obligatoirement préciser axis = 1
df.dropna(axis=1)

Unnamed: 0,A,C,E,G
Row 1,20,30,8,35
Row 2,15,5,5,10
Row 3,20,30,10,35


In [16]:
df.dropna(axis=1, how="any", thresh=2)

Unnamed: 0,A,B,C,D,E,F,G
Row 1,20,,30,15.0,8,45.0,35
Row 2,15,50.0,5,2.0,5,7.0,10
Row 3,20,4.0,30,,10,,35


In [17]:
df.dropna(axis=1, how="any", thresh=3)

Unnamed: 0,A,C,E,G
Row 1,20,30,8,35
Row 2,15,5,5,10
Row 3,20,30,10,35


## <span style='background:Thistle'>Imputation fillna()</span> 

- __value__: valeur à utiliser pour remplacer NaN
- __method__: méthode à utiliser pour remplacer NaN. 
> - __method='ffill'__effectue le remplacement avec la valeur avant la valeur NAN. 
> - __method='bfill'__fait le remplacement avec la valeur après la valeur NAN.
- __axis__: 0 pour ligne et 1 pour colonne.
- __inplace__: Si True, effectuez l'opération sur place et renvoyez None.

In [18]:
# Nan remplacés par une valeur
df.fillna(value=10)

Unnamed: 0,A,B,C,D,E,F,G
Row 1,20,10.0,30,15.0,8,45.0,35
Row 2,15,50.0,5,2.0,5,7.0,10
Row 3,20,4.0,30,10.0,10,10.0,35


In [20]:
# Imputation avec la valeur avant la valeur Nan
df.fillna( axis=0 , method='ffill' )

Unnamed: 0,A,B,C,D,E,F,G
Row 1,20,,30,15.0,8,45.0,35
Row 2,15,50.0,5,2.0,5,7.0,10
Row 3,20,4.0,30,2.0,10,7.0,35


In [23]:
# Remplace avec la valeur dans la ligne d'après
df.fillna(axis=0, method='bfill')

Unnamed: 0,A,B,C,D,E,F,G
Row 1,20,50.0,30,15.0,8,45.0,35
Row 2,15,50.0,5,2.0,5,7.0,10
Row 3,20,4.0,30,,10,,35


In [24]:
# Remplace avec la valeur dans la colonne d'après
df.fillna(axis=1, method='bfill')

Unnamed: 0,A,B,C,D,E,F,G
Row 1,20.0,30.0,30.0,15.0,8.0,45.0,35.0
Row 2,15.0,50.0,5.0,2.0,5.0,7.0,10.0
Row 3,20.0,4.0,30.0,10.0,10.0,35.0,35.0


In [28]:
# Remplacement pour la colonne B, par la moyenne de cette colonne
df['B'].fillna(value=df['B'].mean(), inplace=True)
df

Unnamed: 0,A,B,C,D,E,F,G
Row 1,20,27.0,30,15.0,8,45.0,35
Row 2,15,50.0,5,2.0,5,7.0,10
Row 3,20,4.0,30,,10,,35


In [29]:
# Dictionnaire pour remplir certaines colonnes avec des valeurs spécifiques
values={"D":3000, "F": "ABC"}
df.fillna(value=values)

Unnamed: 0,A,B,C,D,E,F,G
Row 1,20,27.0,30,15.0,8,45.0,35
Row 2,15,50.0,5,2.0,5,7.0,10
Row 3,20,4.0,30,3000.0,10,ABC,35
