<a href="https://colab.research.google.com/github/nitron-alpha-kplr/Data-Preparation/blob/main/FR/2-Handling-Missing-Data/Workshop/2_Handling_Missing_Data_Exercice.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Handling Missing Data**

- Il s'agit d'un problème répandu dans le monde de l'analyse de données.
![image](https://user-images.githubusercontent.com/123748165/226333913-37710dba-c9ab-41cf-86f7-c798246f1935.png)


- Des données manquantes peuvent survenir dans l'ensemble de données pour plusieurs raisons : 
    - les données du champ spécifique n'ont pas été ajoutées par l'utilisateur/l'application de collecte de données, les données ont été perdues lors du transfert manuel, une erreur de programmation, etc.
    - Il est parfois essentiel d'en comprendre la cause. car cela influencera la façon dont vous traitez ces données.

- Pour les données numériques, pandas utilise une valeur à virgule flottante NaN (Not a Number) pour représenter les données manquantes. 
- Il s'agit d'une valeur unique définie dans la bibliothèque Numpy , nous devrons donc également l'importer.
- NaN est le marqueur de valeur manquante par défaut pour des raisons de rapidité de calcul et de commodité.

![image](https://user-images.githubusercontent.com/123748165/226334141-cf4a813f-0df7-4542-ad8c-ae974ae26879.png)

In [1]:
import numpy as np
import pandas as pd

# Creating a pandas series
data = pd.Series([0, 1, 2, 3, 4, 5, np.nan, 6, 7, 8])

# To check if and what index in the dataset contains null value
data.isnull()

0    False
1    False
2    False
3    False
4    False
5    False
6     True
7    False
8    False
9    False
dtype: bool

- Ci-dessus, nous avons utilisé la fonction isnull()qui retourne une valeur booléenne vraie ou fausse.
- Vrai, lorsque les données de cet index particulier sont réellement manquantes ou NaN. Le contraire est la notnull()fonction.

In [4]:
# Pour vérifier où l'ensemble de données ne contient pas de valeur nulle - à l'opposé de isnull()
#fill_here
data.shape

(10,)

In [6]:
data.head()

0    0.0
1    1.0
2    2.0
3    3.0
4    4.0
dtype: float64

In [7]:
data.isnull().any()

True

In [8]:
data.notnull().any()

True

- De plus, nous pouvons utiliser la dropna()fonction pour filtrer les données manquantes et supprimer la valeur nulle (manquante) et ne voir que les valeurs non nulles.
- Cependant, la valeur NaN n'est pas vraiment supprimée et peut toujours être trouvée dans l'ensemble de données d'origine.

In [10]:
# N'affichera pas l'index 6 car il contient une valeur nulle (NaN)

#fill_here

In [11]:
data

0    0.0
1    1.0
2    2.0
3    3.0
4    4.0
5    5.0
6    NaN
7    6.0
8    7.0
9    8.0
dtype: float64

- Ce que vous pouvez faire pour vraiment "supprimer" ou supprimer la valeur NaN est soit de stocker le nouvel ensemble de données (sans NaN) afin que la série de données d'origine ne soit pas falsifiée, soit d'appliquer une suppression sur place .
- L' argument inplace a une valeur par défaut de false.

In [12]:
not_null_data = data.dropna()
not_null_data

0    0.0
1    1.0
2    2.0
3    3.0
4    4.0
5    5.0
7    6.0
8    7.0
9    8.0
dtype: float64

In [13]:
# Drop the 6th index in the original 'data' since it has a NaN place
data.dropna(inplace = True)
data

0    0.0
1    1.0
2    2.0
3    3.0
4    4.0
5    5.0
7    6.0
8    7.0
9    8.0
dtype: float64

In [14]:
# Création d'un dataframe avec 4 lignes et 4 colonnes (matrice 4*4)
data_dim = pd.DataFrame([[1,2,3,np.nan],[4,5,np.nan,np.nan],[7,np.nan,np.nan,np.nan],[np.nan,np.nan,np.nan,np.nan]])
data_dim

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,
1,4.0,5.0,,
2,7.0,,,
3,,,,


- Supposons maintenant que vous ne souhaitiez supprimer que les lignes ou les colonnes qui sont toutes nulles ou uniquement celles qui contiennent un certain nombre de valeurs nulles.
- Découvrez les différents scénarios, rappelez-vous que la baisse ne se produit pas sur place , de sorte que l'ensemble de données réel n'est pas altéré.
- Faites attention aux arguments passés à la dropna()fonction pour déterminer comment supprimer les données manquantes.

In [None]:
# Supprimer toutes les lignes et colonnes contenant la valeur NaN
#fill_here
 data.dropna() 
 

In [28]:
data.dropna(subset, inplace=True)

NameError: ignored

In [22]:
 data.isnull().sum()

0

In [None]:
# Supprimer toutes les lignes et colonnes contenant entièrement de la valeur NaN
#fill_here
 print(df.dropna(how='all'))

In [21]:
data_dim dropNan()

SyntaxError: ignored

In [29]:
# Supprimez uniquement les colonnes contenant entièrement la valeur NaN
# La valeur par défaut est 0 - ce qui signifie des lignes
#fill_here
# importing libraries
import pandas as pd
import numpy as np
 
num = {'Integers': [10, 15, 30, 40, 55, np.nan,
                    75, np.nan, 90, 150, np.nan]}
 
# Create the dataframe
df = pd.DataFrame(num, columns =['Integers'])
 
# dropping the rows having NaN values
df = df.dropna()
 
# printing the result
df

Unnamed: 0,Integers
0,10.0
1,15.0
2,30.0
3,40.0
4,55.0
6,75.0
8,90.0
9,150.0


In [30]:
# Supprimer toutes les colonnes qui ont plus de 2 valeurs NaN
#fill_here
 for column in column_with_nan:
...     print(column, df[column].isnull().sum())

IndentationError: ignored

In [33]:
# Supprimer toutes les lignes qui ont plus de 2 valeurs NaN
#fill_here
 data.index[df.isnull().any(axis=1)]


IndentationError: ignored

- Vous savez maintenant comment identifier et supprimer les valeurs manquantes que ce soit pour simplement voir l'ensemble de données résultant ou pour effectuer une suppression sur place .
- Dans de nombreux cas, supprimer simplement les valeurs nulles n'est pas une option réalisable et vous souhaiterez peut-être remplir les données manquantes avec une autre valeur.
- Voyons comment vous pouvez faire cela...

# **Remplir les données manquantes**
- Pour remplacer ou plutôt "remplir" les données nulles, vous pouvez utiliser la fillna()fonction.
- Par exemple, essayons d'utiliser le même ensemble de données que ci-dessus et essayons de remplir les valeurs NaN avec 0.

In [None]:
# Vérifiez à nouveau à quoi ressemble l'ensemble de données
data_dim

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,
1,4.0,5.0,,
2,7.0,,,
3,,,,


In [None]:
# Remplir les valeurs NaN avec 0
data_dim_fill = #fill_here
data_dim_fill

- Et comme avec dropna(), vous pouvez également faire beaucoup d'autres choses en fonction du type d'argument que vous passez. 
- Aussi un rappel que le passage de l' inplace = True argument apportera la modification à l'ensemble de données d'origine.

In [34]:
# Passez un dictionnaire pour utiliser des valeurs différentes pour chaque colonne
data_dim_fill = data_dim.fillna({0: 0, 1: 8, 2: 9, 3: 10})
data_dim_fill

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,10.0
1,4.0,5.0,9.0,10.0
2,7.0,8.0,9.0,10.0
3,0.0,8.0,9.0,10.0


- Vous pouvez passer un argument de méthode fillna() à la fonction qui propage automatiquement les valeurs non nulles vers l'avant (ffill ou pad) ou vers l'arrière (bfill ou backfill).

In [38]:
# Méthode Pass pour déterminer comment remplir la colonne -  vers l'avant ici
data_dim_fill = data_dim(ffill)

NameError: ignored

- Vous pouvez également limiter le nombre de remplissages ci-dessus. Par exemple, ne remplissez que deux emplacements dans les colonnes...
- De plus, si vous passez axe = 1 , cela remplira la valeur de la ligne en conséquence.

In [None]:
# Méthode Pass pour déterminer comment remplir la colonne - vers l'avant ici
data_dim_fill = data_dim.#fill_here
data_dim_fill

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,
1,4.0,5.0,3.0,
2,7.0,5.0,3.0,
3,7.0,5.0,,


In [None]:
# Méthode Pass pour déterminer comment remplir la ligne - vers l'avant ici
data_dim_fill = data_dim.#fill_here
data_dim_fill

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,3.0
1,4.0,5.0,5.0,5.0
2,7.0,7.0,7.0,7.0
3,,,,


- Avec une certaine compréhension des données et de votre cas d'utilisation, vous pouvez utiliser la fillna()fonction de bien d'autres manières que de simplement la remplir avec des chiffres.
- Vous pouvez le remplir en utilisant la moyenne en utilisant également la mean()valeur médiane ou la valeur médiane median()...

In [None]:
# Check the data_dim dataset
data_dim

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,
1,4.0,5.0,,
2,7.0,,,
3,,,,


In [None]:
# Remplissez la valeur NaN avec les valeurs moyennes dans la colonne correspondante
data_dim_fill = data_dim.#fill_here
data_dim_fill

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,
1,4.0,5.0,3.0,
2,7.0,3.5,3.0,
3,4.0,3.5,3.0,
