# Données manquantes

Montrons quelques méthodes pratiques pour traiter les données manquantes avec Pandas :

In [2]:
import numpy as np
import pandas as pd

In [3]:
df = pd.DataFrame({'A':[1,2,np.nan,4],
                  'B':[5,np.nan,np.nan,8],
                  'C':[10,20,30,40]})

### Conserver les données manquantes

In [4]:
df

Unnamed: 0,A,B,C
0,1.0,5.0,10
1,2.0,,20
2,,,30
3,4.0,8.0,40


## Supprimer les données manquantes

In [5]:
df.dropna()

Unnamed: 0,A,B,C
0,1.0,5.0,10
3,4.0,8.0,40


In [6]:
df.dropna(axis=1)

Unnamed: 0,C
0,10
1,20
2,30
3,40


### Threshold (Requiert un nombre de valeurs non-NA.)

In [7]:
df.fillna(value='A REMPLIR')

Unnamed: 0,A,B,C
0,1.0,5.0,10
1,2.0,A REMPLIR,20
2,A REMPLIR,A REMPLIR,30
3,4.0,8.0,40


In [8]:
df.dropna(thresh=2)

Unnamed: 0,A,B,C
0,1.0,5.0,10
1,2.0,,20
3,4.0,8.0,40


## Compléter les données manquantes

In [9]:
df.fillna(value='A remplir')

Unnamed: 0,A,B,C
0,1.0,5.0,10
1,2.0,A remplir,20
2,A remplir,A remplir,30
3,4.0,8.0,40


In [10]:
df

Unnamed: 0,A,B,C
0,1.0,5.0,10
1,2.0,,20
2,,,30
3,4.0,8.0,40


In [11]:
df['A'].fillna(value=0)

0    1.0
1    2.0
2    0.0
3    4.0
Name: A, dtype: float64

In [12]:
df['A'].fillna(df['A'].mean())

0    1.000000
1    2.000000
2    2.333333
3    4.000000
Name: A, dtype: float64

In [13]:
df.fillna(df.mean())

Unnamed: 0,A,B,C
0,1.0,5.0,10
1,2.0,6.5,20
2,2.333333,6.5,30
3,4.0,8.0,40
