Les données manquante sont fréquentes dans de nombreuse application d'analyse de données. L'un des objectifs de pandas est de rendre le travail avec les données manquante aussi indolore que possible. Par exemple, Toutes les statistiques descriptive sur les objets pandas excluent par defaut les données manquantes.
La manière dont les données manquantes sont représentées dans les objets pandas est quelque peu imparfaite, mais elle suffit pour de nombreux utilisateur. Dans le cas des données numérique, pandas représente les données manquantes par la valeur en virgule flottante NaN (not a number). Nous appelons cela une valeur sentinelle. Ce type de valeur est facilement detectable

In [2]:
import pandas as pd
import numpy as np
string_data = pd.Series(['alexis', 'hello', np.nan, 'avocat'])
string_data

0    alexis
1     hello
2       NaN
3    avocat
dtype: object

Lors du nettoyage des données pour l'analyse, il est souvent important d'étudier les données manquantes elles-mêmes pour d'y identifier les probleme de collecte ou de bias potentiel provoqués justement par ces données manquante. 

Les valeurs native None de python est également traitée en tant que NA dans les tableaux d'objets : 

In [3]:
string_data[0] = None
string_data.isnull()

0     True
1    False
2     True
3    False
dtype: bool

#### Methode de traitement des valeurs NA
dropna = filtre les étiquettes des axes selon que des valeurs pour chaque étiquette ont des données manquantes, avec des seuils variable pour   la quantité de données manquante a tolérer.

fillna = Complete les données manquantes avec une certaine valeur ou en utilisant une méthode d'interpolation telle que 'ffill' ou 'bfill'

isnull() = Renvoie des valeurs booléennes indiquant quelles valeur sont manquantes ou NA.

notnull() = inverse de isnull


## Filtrer les données manquantes

Il existe plusieur moyens de filtrer les données manquantes. on a toujours la possibilité de le faire à la main avec pandas .isnull et l'indexation booléenne, mais dropna peut etre utile sur une serie, il renvoie l'objet Serie avec seulement les données non nulle et les valeurs d'index : 

In [4]:
from numpy import nan as NA
data = pd.Series([1, NA, 3,5, NA, 7])
data

0    1.0
1    NaN
2    3.0
3    5.0
4    NaN
5    7.0
dtype: float64

In [5]:
data.dropna()

0    1.0
2    3.0
3    5.0
5    7.0
dtype: float64

In [6]:
data[data.notnull()]

0    1.0
2    3.0
3    5.0
5    7.0
dtype: float64

Avec les objets DataFrame, les choses sont un peu plus complexes. On peut vouloir éliminer des lignes ou des colonnes qui sont entièrement NA, ou seulement celles qui contiennent des NA. dropna élimine par defaut toute les lignes contenant une valeurs manquante :  

In [12]:
data = pd.DataFrame([[1., 6.5, 3.], [1., NA, NA], [NA, NA, NA], [NA, 6.5, 3]])
propre = data.dropna()
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [13]:
propre

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


Passer how = 'all' élimine seulement les lignes qui sont entièrement NA :

In [14]:
data.dropna(how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


Pour procéder de la meme maniere en ce qui concerne les colonnes ,passez axis=1 :

In [17]:
data[4] = NA
data

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


In [18]:
data.dropna(axis=1, how='all')

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


Une autre façon de filtrer les lignes d'un DataFrame concerne en particulier les données de series chronologiques. Supponsons qu'on souhaite conserver que les lignes contenant un certains nombre d'observation. On peut indiquer avec l'agument de seuil thresh : 

In [23]:
df

Unnamed: 0,0,1,2
0,-0.095597,,
1,-0.276429,,
2,0.102626,,-0.444576
3,-0.13067,,-1.552173
4,-1.025695,0.790772,0.151693
5,1.950511,1.638662,-0.954792
6,-0.127725,0.26244,-1.038328


In [24]:
df = pd.DataFrame(np.random.randn(7, 3))
df.iloc[:4, 1] = NA
df.iloc[:2, 2] = NA
df

Unnamed: 0,0,1,2
0,-1.763083,,
1,-0.154516,,
2,-1.226838,,0.512903
3,1.146253,,-1.141319
4,1.638604,0.442482,-1.4868
5,0.870912,0.08163,1.960058
6,-1.057994,0.994019,0.921231


In [25]:
df.dropna()

Unnamed: 0,0,1,2
4,1.638604,0.442482,-1.4868
5,0.870912,0.08163,1.960058
6,-1.057994,0.994019,0.921231


In [26]:
df.dropna(thresh=2)

Unnamed: 0,0,1,2
2,-1.226838,,0.512903
3,1.146253,,-1.141319
4,1.638604,0.442482,-1.4868
5,0.870912,0.08163,1.960058
6,-1.057994,0.994019,0.921231


## Completer les données manquantes
plutôt que de filtrer les données manquantes(risquant ainsi de rejeter d'autre données en même temps), vous pouvez combler les "trous" de différente maniere. Dans la plupart des cas, la méthode fillna est la fonction de base a utiliser. En appelant fillna avec un constante, on remplace les données manquantes par cette valeur : 

In [31]:
df.fillna(0)

Unnamed: 0,0,1,2
0,-1.763083,0.0,0.0
1,-0.154516,0.0,0.0
2,-1.226838,0.0,0.512903
3,1.146253,0.0,-1.141319
4,1.638604,0.442482,-1.4868
5,0.870912,0.08163,1.960058
6,-1.057994,0.994019,0.921231


En appelant fillna avec un dict, on peut utiliser une valeur de remplissage différente pour chaque colonne :

In [32]:
df.fillna({1: 0.5, 2: 0})

Unnamed: 0,0,1,2
0,-1.763083,0.5,0.0
1,-0.154516,0.5,0.0
2,-1.226838,0.5,0.512903
3,1.146253,0.5,-1.141319
4,1.638604,0.442482,-1.4868
5,0.870912,0.08163,1.960058
6,-1.057994,0.994019,0.921231


fillna renvoie un nouvel objet, mais vous pouvez modifier l'objet existant sur place : 

In [33]:
_ = df.fillna(0, inplace=True)
df

Unnamed: 0,0,1,2
0,-1.763083,0.0,0.0
1,-0.154516,0.0,0.0
2,-1.226838,0.0,0.512903
3,1.146253,0.0,-1.141319
4,1.638604,0.442482,-1.4868
5,0.870912,0.08163,1.960058
6,-1.057994,0.994019,0.921231


Les mêmes méthode d'interpolation disponible pour la reindexation peuvent être employées avec fillna :

In [35]:
df = pd.DataFrame(np.random.randn(6, 3))
df.iloc[2:, 1] = NA
df.iloc[4:, 2] = NA
df

Unnamed: 0,0,1,2
0,1.849284,0.52161,-1.447632
1,1.025225,1.583012,-0.332733
2,0.666146,,-0.766284
3,0.139959,,0.446234
4,1.186601,,
5,-0.381089,,


In [38]:
df.fillna(method="ffill", limit=2)

  df.fillna(method="ffill", limit=2)


Unnamed: 0,0,1,2
0,1.849284,0.52161,-1.447632
1,1.025225,1.583012,-0.332733
2,0.666146,1.583012,-0.766284
3,0.139959,1.583012,0.446234
4,1.186601,,0.446234
5,-0.381089,,0.446234


Avec fillna, on peux faire beaucoup d'autres choses avec un peu de créativité. Par exemple, on peut passer la valeur moyenne ou medianne d'une série :

In [40]:
data = pd.Series([1, NA, 3.5, NA, 7])
data.fillna(data.mean())

0    1.000000
1    3.833333
2    3.500000
3    3.833333
4    7.000000
dtype: float64

#### Arguments de la fonction fillna : 

value = valeur scalaire ou objet ressemblant à un dictaphone à utiliser pour remplir les valeur manquantes.

method = Interpolation : par defaut "ffill" si la fonction est appelé sans autre arguments

axis = Axe a remplir; axe par defaut = 0

inplace = Modifier l'objet appelant sans en produire de copie.

limit = Pour le remplissage en avant et en arrière, nombre maximum de périodes consécutives à remplir