## Les fonctions on va apprendre:
- np.nan
- isnull --> any
- notnull --> all
- dropna
- fillna (method = 'ffill/bfill')

### Traitement des données manquantes
#### Il existe deux types de données perdues :
- None
- np.nan(NaN)

#### La différence entre les deux types de perte de données:


In [1]:
import numpy as np
type(None)

NoneType

In [2]:
np.nan

nan

In [3]:
type(np.nan)

float

- Pourquoi le type flottant null est-il utilisé dans l'analyse des données au lieu du type objet ?
    - Certaines formes d'opérations sont souvent utilisées dans l'analyse de données pour traiter des données brutes. Si la valeur nulle dans les données brutes est sous la forme de Nan, elle n'interférera ni n'interrompra l'opération.
    - Nan peut participer à l'opération
    - Aucun ne peut participer à l'opération

- Dans pandas, si une valeur nulle sous la forme None est rencontrée, pandas la forcera au type Nan

In [4]:
np.nan +1

nan

### pandas gère les opérations de valeur nulle
- isnull
- notnull
- any
- all
- dropna
- fillna

In [5]:
import pandas as pd
from pandas import DataFrame, Series

In [6]:
df = DataFrame(data= np.random.randint(0,100,size = (8,6)))

In [7]:
df

Unnamed: 0,0,1,2,3,4,5
0,75,19,23,20,32,85
1,4,92,95,51,27,9
2,12,19,21,90,40,24
3,91,76,44,24,17,60
4,14,0,8,3,41,55
5,76,83,18,49,41,92
6,95,7,44,59,43,37
7,43,86,35,92,30,1


In [8]:
df.iloc[2,3] = None
df.iloc[4,4] = np.nan
df.iloc[5,2] = None

In [9]:
df

Unnamed: 0,0,1,2,3,4,5
0,75,19,23.0,20.0,32.0,85
1,4,92,95.0,51.0,27.0,9
2,12,19,21.0,,40.0,24
3,91,76,44.0,24.0,17.0,60
4,14,0,8.0,3.0,,55
5,76,83,,49.0,41.0,92
6,95,7,44.0,59.0,43.0,37
7,43,86,35.0,92.0,30.0,1


### Méthode 1 : filtrer les valeurs nulles (Supprimer la ligne correspondant à l'espace vide)
    - isnull, notnull, any, all

- BOUCLE

In [10]:
bool_df = df.isnull()

In [11]:
bool_df.shape[0]

8

In [12]:
for i in range(bool_df.shape[0]):
    for j in range(bool_df.shape[1]):
        if bool_df.iloc[i][j] == True:
            df.drop(labels=i,axis=0,inplace = True)
            break

In [13]:
df

Unnamed: 0,0,1,2,3,4,5
0,75,19,23.0,20.0,32.0,85
1,4,92,95.0,51.0,27.0,9
3,91,76,44.0,24.0,17.0,60
6,95,7,44.0,59.0,43.0,37
7,43,86,35.0,92.0,30.0,1


- ANY

In [14]:
df = DataFrame(data= np.random.randint(0,100,size = (8,6)))
df.iloc[2,3] = None
df.iloc[4,4] = np.nan
df.iloc[5,2] = None
# Utilisez any pour détecter si true existe dans une ligne ou une colonne
df.isnull().any(axis = 1)

0    False
1    False
2     True
3    False
4     True
5     True
6    False
7    False
dtype: bool

In [15]:
# Utilisez la valeur booléenne ci-dessus comme index de ligne des données d'origine
drop_index = df.loc[df.isnull().any(axis = 1)].index
drop_index

Int64Index([2, 4, 5], dtype='int64')

In [16]:
df.drop(labels = drop_index,axis = 0,inplace = True)

In [17]:
df

Unnamed: 0,0,1,2,3,4,5
0,57,83,46.0,40.0,42.0,31
1,95,55,76.0,27.0,47.0,89
3,26,68,0.0,89.0,9.0,36
6,6,65,37.0,28.0,72.0,24
7,42,20,32.0,51.0,45.0,10


- ALL

In [18]:
df = DataFrame(data= np.random.randint(0,100,size = (8,6)))
df.iloc[2,3] = None
df.iloc[4,4] = np.nan
df.iloc[5,2] = None
# Utilisez any pour détecter si false existe dans une ligne ou une colonne
df.notnull().all(axis = 1)

0     True
1     True
2    False
3     True
4    False
5    False
6     True
7     True
dtype: bool

In [21]:
df = df.loc[df.notnull().all(axis = 1)]

In [22]:
df

Unnamed: 0,0,1,2,3,4,5
0,53,65,42.0,0.0,88.0,5
1,5,76,28.0,39.0,99.0,21
3,52,96,36.0,84.0,48.0,83
6,18,79,54.0,64.0,73.0,0
7,78,85,22.0,92.0,9.0,1


- dropna: Vous pouvez supprimer directement les lignes ou les colonnes manquantes

In [23]:
df = DataFrame(data= np.random.randint(0,100,size = (8,6)))
df.iloc[2,3] = None
df.iloc[4,4] = np.nan
df.iloc[5,2] = None
df

Unnamed: 0,0,1,2,3,4,5
0,38,41,14.0,99.0,68.0,14
1,48,48,36.0,96.0,30.0,89
2,67,94,73.0,,28.0,83
3,97,20,69.0,78.0,14.0,62
4,10,95,10.0,4.0,,13
5,71,57,,69.0,89.0,18
6,96,20,64.0,89.0,30.0,99
7,62,33,91.0,27.0,58.0,43


In [27]:
df.dropna(axis = 0 , inplace = True)

In [28]:
df

Unnamed: 0,0,1,2,3,4,5
0,38,41,14.0,99.0,68.0,14
1,48,48,36.0,96.0,30.0,89
3,97,20,69.0,78.0,14.0,62
6,96,20,64.0,89.0,30.0,99
7,62,33,91.0,27.0,58.0,43


### Méthode 2 : Remplacer les valeurs manquantes
- fillna
- En général, choisissez de supprimer.
Si le coût de suppression est trop élevé (par exemple, un total de 10 lignes de données, 6 lignes sont libres), alors effectuez une opération de remplacement


In [29]:
df = DataFrame(data= np.random.randint(0,100,size = (8,6)))
df.iloc[2,3] = None
df.iloc[4,4] = np.nan
df.iloc[5,2] = None
df

Unnamed: 0,0,1,2,3,4,5
0,67,76,89.0,97.0,25.0,81
1,87,73,2.0,93.0,23.0,21
2,60,75,93.0,,55.0,14
3,54,63,55.0,84.0,19.0,60
4,26,84,72.0,11.0,,80
5,55,56,,44.0,66.0,50
6,37,81,73.0,34.0,31.0,90
7,38,66,19.0,85.0,57.0,18


In [30]:
df.fillna(value = 666)

Unnamed: 0,0,1,2,3,4,5
0,67,76,89.0,97.0,25.0,81
1,87,73,2.0,93.0,23.0,21
2,60,75,93.0,666.0,55.0,14
3,54,63,55.0,84.0,19.0,60
4,26,84,72.0,11.0,666.0,80
5,55,56,666.0,44.0,66.0,50
6,37,81,73.0,34.0,31.0,90
7,38,66,19.0,85.0,57.0,18


In [35]:
# 'ffill' remplir en avant 'bfill' remplir à l'envers
df.fillna(method='ffill',axis = 0) 

Unnamed: 0,0,1,2,3,4,5
0,67,76,89.0,97.0,25.0,81
1,87,73,2.0,93.0,23.0,21
2,60,75,93.0,93.0,55.0,14
3,54,63,55.0,84.0,19.0,60
4,26,84,72.0,11.0,19.0,80
5,55,56,72.0,44.0,66.0,50
6,37,81,73.0,34.0,31.0,90
7,38,66,19.0,85.0,57.0,18


In [36]:
df.fillna(method='bfill',axis = 1) 

Unnamed: 0,0,1,2,3,4,5
0,67.0,76.0,89.0,97.0,25.0,81.0
1,87.0,73.0,2.0,93.0,23.0,21.0
2,60.0,75.0,93.0,55.0,55.0,14.0
3,54.0,63.0,55.0,84.0,19.0,60.0
4,26.0,84.0,72.0,11.0,80.0,80.0
5,55.0,56.0,44.0,44.0,66.0,50.0
6,37.0,81.0,73.0,34.0,31.0,90.0
7,38.0,66.0,19.0,85.0,57.0,18.0
