# Données manquantes 

2 Choix valables (Stratégies): 
    1: Garder les données manquantes
    2: Supprimer les données manquantes
        Dépend de la quantité de données manquantes:
            - Pourcentage élevé, il manque trop de données pour pouvoir faire une estimation raisonable
            - Gaible pourcentage, ne supprimer que quelques point de données (Lignes)
    3: Compléter les données manquantes
        - Pourcentage non trivial de données manquantes et les lignes de points de données sont importantes.
        - Il existe de nombreuses stratégies:
            - Mode, Moyenne, Médiane
            - Sur la base d'une autre colonne de caractéristiques (features) concevoir une donnée adaptée
           
## Traitement des données manquantes 

"Quelle est la bonne approche ?"

Chaque situation, dataset à une stratégie préférable

## Passons à Pandas 

In [1]:
import numpy as np
import pandas as pd

In [2]:
df = pd.DataFrame({'A': [0,2,np.nan, 4],
                   'B': [4,np.nan, np.nan, 8],
                   'C': [9,20,30,40]})

In [4]:
df

Unnamed: 0,A,B,C
0,0.0,4.0,9
1,2.0,,20
2,,,30
3,4.0,8.0,40


In [5]:
df.dropna()

Unnamed: 0,A,B,C
0,0.0,4.0,9
3,4.0,8.0,40


In [6]:
df.dropna(axis=1)

Unnamed: 0,C
0,9
1,20
2,30
3,40


axis : Supprime la colonne lorsque la donnée est manquante
thresh : Strinct minimum de valeur manquante 

In [7]:
df.dropna(axis=1, thresh=2)

Unnamed: 0,A,B,C
0,0.0,4.0,9
1,2.0,,20
2,,,30
3,4.0,8.0,40


In [8]:
df.dtypes

A    float64
B    float64
C      int64
dtype: object

df.fillna : Remplace les valeur NaN par la valeur spécifiée en paramètre

In [9]:
df.fillna(value="UNE VALEUR")

Unnamed: 0,A,B,C
0,0.0,4.0,9
1,2.0,UNE VALEUR,20
2,UNE VALEUR,UNE VALEUR,30
3,4.0,8.0,40


In [10]:
df.fillna(value=0)

Unnamed: 0,A,B,C
0,0.0,4.0,9
1,2.0,0.0,20
2,0.0,0.0,30
3,4.0,8.0,40


In [11]:
df

Unnamed: 0,A,B,C
0,0.0,4.0,9
1,2.0,,20
2,,,30
3,4.0,8.0,40


Remplacer les valeurs NaN de façon permanante sur la colonne A de df par 0

In [15]:
df["A"] = df['A'].fillna(value=0)

In [16]:
df

Unnamed: 0,A,B,C
0,0.0,4.0,9
1,2.0,,20
2,0.0,,30
3,4.0,8.0,40


Completer les valeurs manquantes de ma colonne B par la moyenne de la colonne

In [17]:
df['B'].fillna(value=df["B"].mean())

0    4.0
1    6.0
2    6.0
3    8.0
Name: B, dtype: float64

In [18]:
df.fillna(df.mean())

Unnamed: 0,A,B,C
0,0.0,4.0,9
1,2.0,6.0,20
2,0.0,6.0,30
3,4.0,8.0,40
