In [1]:
import numpy  as np
import pandas as pd

# **Traiter les données manquetes à un dataset**

Les ensembles de données sont rarement propres et homogènes. Les données peuvent manquées de différentes manières ce qui complique l'analyse.  
Elles sont indiquées par `NULL`, `NaN`, `NA`.

In [2]:
notes = pd.DataFrame({
                      'Anglais'     : {"Christiane":np.nan, "Carla":     1, "Caroline": 18, "Jean-Baptiste":    17, "Florence":    17, "Emma": 20},
                      'Français'    : {"Christiane":    20, "Carla":     5, "Caroline": 20, "Jean-Baptiste":np.nan, "Florence":    19, "Emma": 19},
                      'Histoire'    : {"Christiane":    20, "Carla":     9, "Caroline": 20, "Jean-Baptiste":    18, "Florence":    20, "Emma": 19},
                      'Informatique': {"Christiane":    20, "Carla":np.nan, "Caroline": 19, "Jean-Baptiste":    17, "Florence":    18, "Emma": 11},
                      'Maths'       : {"Christiane":np.nan, "Carla":     6, "Caroline": 20, "Jean-Baptiste":    12, "Florence":np.nan, "Emma": 19}
                    })

notes

Unnamed: 0,Anglais,Français,Histoire,Informatique,Maths
Christiane,,20.0,20,20.0,
Carla,1.0,5.0,9,,6.0
Caroline,18.0,20.0,20,19.0,20.0
Jean-Baptiste,17.0,,18,17.0,12.0
Florence,17.0,19.0,20,18.0,
Emma,20.0,19.0,19,11.0,19.0


In [3]:
# Les valeurs manquantes
notes.isnull()

Unnamed: 0,Anglais,Français,Histoire,Informatique,Maths
Christiane,True,False,False,False,True
Carla,False,False,False,True,False
Caroline,False,False,False,False,False
Jean-Baptiste,False,True,False,False,False
Florence,False,False,False,False,True
Emma,False,False,False,False,False


In [5]:
# Les valeurs existantes

In [4]:
notes.notnull()

Unnamed: 0,Anglais,Français,Histoire,Informatique,Maths
Christiane,False,True,True,True,False
Carla,True,True,True,False,True
Caroline,True,True,True,True,True
Jean-Baptiste,True,False,True,True,True
Florence,True,True,True,True,False
Emma,True,True,True,True,True


Pandas ne peut que supprimer les lignes et/ou colonnes aux valeurs manquantes.

In [5]:
# Supprimer les lignes aux valeurs manquantes `dropna` sans l'enregistrer
notes.dropna()

Unnamed: 0,Anglais,Français,Histoire,Informatique,Maths
Caroline,18.0,20.0,20,19.0,20.0
Emma,20.0,19.0,19,11.0,19.0


In [6]:
# Et les colonnes
notes.dropna(axis=1)

Unnamed: 0,Histoire
Christiane,20
Carla,9
Caroline,20
Jean-Baptiste,18
Florence,20
Emma,19


Le risque est de supprimer les données à conserver, c'est pourquoi, il est possible de spécifier à combien de valeurs absentes il faut supprimer.

In [8]:
notes.dropna(axis=1,how='all')

Unnamed: 0,Anglais,Français,Histoire,Informatique,Maths
Christiane,,20.0,20,20.0,
Carla,1.0,5.0,9,,6.0
Caroline,18.0,20.0,20,19.0,20.0
Jean-Baptiste,17.0,,18,17.0,12.0
Florence,17.0,19.0,20,18.0,
Emma,20.0,19.0,19,11.0,19.0


In [7]:
# Garder les lignes ayant au moins 5 valeurs non nulles
notes.dropna(thresh=5)

Unnamed: 0,Anglais,Français,Histoire,Informatique,Maths
Caroline,18.0,20.0,20,19.0,20.0
Emma,20.0,19.0,19,11.0,19.0


In [9]:
# Garder les lignes ayant au moins 1 valeurs
notes.dropna(thresh=1)

Unnamed: 0,Anglais,Français,Histoire,Informatique,Maths
Christiane,,20.0,20,20.0,
Carla,1.0,5.0,9,,6.0
Caroline,18.0,20.0,20,19.0,20.0
Jean-Baptiste,17.0,,18,17.0,12.0
Florence,17.0,19.0,20,18.0,
Emma,20.0,19.0,19,11.0,19.0


#### Remplacer les valeurs nulles

In [10]:
# Mettre 10 pour les notes absentes
notes.fillna(10)

Unnamed: 0,Anglais,Français,Histoire,Informatique,Maths
Christiane,10.0,20.0,20,20.0,10.0
Carla,1.0,5.0,9,10.0,6.0
Caroline,18.0,20.0,20,19.0,20.0
Jean-Baptiste,17.0,10.0,18,17.0,12.0
Florence,17.0,19.0,20,18.0,10.0
Emma,20.0,19.0,19,11.0,19.0


In [12]:
# Non, mettre la valeurs précédante
notes.ffill(axis=0) # inplace=True

Unnamed: 0,Anglais,Français,Histoire,Informatique,Maths
Christiane,,20.0,20,20.0,
Carla,1.0,5.0,9,20.0,6.0
Caroline,18.0,20.0,20,19.0,20.0
Jean-Baptiste,17.0,20.0,18,17.0,12.0
Florence,17.0,19.0,20,18.0,12.0
Emma,20.0,19.0,19,11.0,19.0


In [14]:
# Non, la suivante
notes.bfill(axis=0) # inplace=True

Unnamed: 0,Anglais,Français,Histoire,Informatique,Maths
Christiane,1.0,20.0,20,20.0,6.0
Carla,1.0,5.0,9,19.0,6.0
Caroline,18.0,20.0,20,19.0,20.0
Jean-Baptiste,17.0,19.0,18,17.0,12.0
Florence,17.0,19.0,20,18.0,19.0
Emma,20.0,19.0,19,11.0,19.0


In [11]:
# Non, mettre la valeurs précédante (dépreciée)
notes.fillna(method='ffill',axis=0)

  notes.fillna(method='ffill',axis=0)


Unnamed: 0,Anglais,Français,Histoire,Informatique,Maths
Christiane,,20.0,20,20.0,
Carla,1.0,5.0,9,20.0,6.0
Caroline,18.0,20.0,20,19.0,20.0
Jean-Baptiste,17.0,20.0,18,17.0,12.0
Florence,17.0,19.0,20,18.0,12.0
Emma,20.0,19.0,19,11.0,19.0


In [13]:
# Non, la suivante (déprecieée)
notes.fillna(method='bfill',axis=0)

  notes.fillna(method='bfill',axis=0)


Unnamed: 0,Anglais,Français,Histoire,Informatique,Maths
Christiane,1.0,20.0,20,20.0,6.0
Carla,1.0,5.0,9,19.0,6.0
Caroline,18.0,20.0,20,19.0,20.0
Jean-Baptiste,17.0,19.0,18,17.0,12.0
Florence,17.0,19.0,20,18.0,19.0
Emma,20.0,19.0,19,11.0,19.0
