# Pandas - Cleaning Data

## Nettoyage des données
> Le nettoyage des données consiste à corriger les données incorrectes dans votre ensemble de données.

### Les données incorrectes peuvent inclure :

- Cellules vides
- Données au format incorrect
- Données incorrectes
- Duplicatas
- Dans ce tutoriel, vous apprendrez comment traiter tous ces cas.

## Notre ensemble de données
> Dans les prochains , nous utiliserons cet ensemble de données.

In [11]:
import pandas as pd

df = pd.read_csv('data.csv')

print(df.head().to_string())

   Duration          Date  Pulse  Maxpulse  Calories
0        60  '2020/12/01'    110       130     409.1
1        60  '2020/12/02'    117       145     479.0
2        60  '2020/12/03'    103       135     340.0
3        45  '2020/12/04'    109       175     282.4
4        45  '2020/12/05'    117       148     406.0


### Cellules vides

> Les cellules vides peuvent potentiellement fausser les résultats de l'analyse des données.

### Supprimer les lignes

> Une façon de traiter les cellules vides est de supprimer les lignes qui les contiennent.
Cela est généralement acceptable, car les ensembles de données peuvent être très volumineux, et supprimer quelques lignes n'aura pas un impact significatif sur le résultat.

> Remarque : Par défaut, la méthode dropna() renvoie un nouveau DataFrame et ne modifie pas l'original.

In [12]:
new_df = df.dropna()
print(new_df.to_string())

    Duration          Date  Pulse  Maxpulse  Calories
0         60  '2020/12/01'    110       130     409.1
1         60  '2020/12/02'    117       145     479.0
2         60  '2020/12/03'    103       135     340.0
3         45  '2020/12/04'    109       175     282.4
4         45  '2020/12/05'    117       148     406.0
5         60  '2020/12/06'    102       127     300.0
6         60  '2020/12/07'    110       136     374.0
7        450  '2020/12/08'    104       134     253.3
8         30  '2020/12/09'    109       133     195.1
9         60  '2020/12/10'     98       124     269.0
10        60  '2020/12/11'    103       147     329.3
11        60  '2020/12/12'    100       120     250.7
12        60  '2020/12/12'    100       120     250.7
13        60  '2020/12/13'    106       128     345.3
14        60  '2020/12/14'    104       132     379.3
15        60  '2020/12/15'     98       123     275.0
16        60  '2020/12/16'     98       120     215.2
17        60  '2020/12/17'  

> Si vous souhaitez modifier le DataFrame d'origine, utilisez l'argument inplace=True

> Note : Maintenant, dropna(inplace=True) ne renverra PAS un nouveau DataFrame, mais il supprimera toutes les lignes contenant des valeurs NULL du DataFrame d'origine.

In [17]:
#df.dropna(inplace = True)

print(df.to_string())

    Duration          Date  Pulse  Maxpulse  Calories
0         60  '2020/12/01'    110       130     409.1
1         60  '2020/12/02'    117       145     479.0
2         60  '2020/12/03'    103       135     340.0
3         45  '2020/12/04'    109       175     282.4
4         45  '2020/12/05'    117       148     406.0
5         60  '2020/12/06'    102       127     300.0
6         60  '2020/12/07'    110       136     374.0
7        450  '2020/12/08'    104       134     253.3
8         30  '2020/12/09'    109       133     195.1
9         60  '2020/12/10'     98       124     269.0
10        60  '2020/12/11'    103       147     329.3
11        60  '2020/12/12'    100       120     250.7
12        60  '2020/12/12'    100       120     250.7
13        60  '2020/12/13'    106       128     345.3
14        60  '2020/12/14'    104       132     379.3
15        60  '2020/12/15'     98       123     275.0
16        60  '2020/12/16'     98       120     215.2
17        60  '2020/12/17'  

### Remplacer les valeurs vides
> Une autre façon de traiter les cellules vides est d'insérer une nouvelle valeur à la place.

> De cette manière, vous n'avez pas à supprimer des lignes entières simplement à cause de quelques cellules vides.

> La méthode fillna() nous permet de remplacer les cellules vides par une valeur :

In [22]:
df = pd.read_csv('data.csv')

df.fillna(0, inplace = True)
print(df.to_string())

    Duration          Date  Pulse  Maxpulse  Calories
0         60  '2020/12/01'    110       130     409.1
1         60  '2020/12/02'    117       145     479.0
2         60  '2020/12/03'    103       135     340.0
3         45  '2020/12/04'    109       175     282.4
4         45  '2020/12/05'    117       148     406.0
5         60  '2020/12/06'    102       127     300.0
6         60  '2020/12/07'    110       136     374.0
7        450  '2020/12/08'    104       134     253.3
8         30  '2020/12/09'    109       133     195.1
9         60  '2020/12/10'     98       124     269.0
10        60  '2020/12/11'    103       147     329.3
11        60  '2020/12/12'    100       120     250.7
12        60  '2020/12/12'    100       120     250.7
13        60  '2020/12/13'    106       128     345.3
14        60  '2020/12/14'    104       132     379.3
15        60  '2020/12/15'     98       123     275.0
16        60  '2020/12/16'     98       120     215.2
17        60  '2020/12/17'  

### Remplacer uniquement pour des colonnes spécifiées
> L'exemple ci-dessus remplace toutes les cellules vides dans l'ensemble du DataFrame.

> Pour ne remplacer que les valeurs vides d'une colonne, spécifiez le nom de la colonne du DataFrame :

#### Exemple
> Remplacez les valeurs NULL dans la colonne "Calories" par le nombre 130 :

In [24]:
df = pd.read_csv('data.csv')

df["Calories"].fillna(130, inplace = True)

Remplacer en utilisant la moyenne, la médiane ou le mode
Une manière courante de remplacer les cellules vides est de calculer la valeur moyenne, médiane ou mode de la colonne.

Pandas utilise les méthodes mean(), median() et mode() pour calculer les valeurs respectives pour une colonne spécifiée :

### Exemple
 > Calculez la Moyenne et remplacez toutes les valeurs vides par celle-ci 
 
 > Mean = la valeur moyenne (la somme de toutes les valeurs divisée par le nombre de valeurs).

In [26]:
df = pd.read_csv('data.csv')

x = df["Calories"].mean()

df["Calories"].fillna(x, inplace = True)

### Exemple
> Calculez la MÉDIANE et remplacez toutes les valeurs vides par celle-ci :

> Médiane = la valeur au milieu, une fois que vous avez trié toutes les valeurs par ordre croissant.

In [30]:
df = pd.read_csv('data.csv')

x = df["Calories"].median()

df["Calories"].fillna(x, inplace = True)


### Exemple
> Calculez le MODE et remplacez toutes les valeurs vides par celle-ci :

> MODE = Mode = la valeur qui apparaît le plus fréquemment.

In [33]:
df = pd.read_csv('data.csv')

x = df["Calories"].mode()[0]

df["Calories"].fillna(x, inplace = True)

### Données au format incorrect
> Les cellules avec des données au format incorrect peuvent rendre difficile, voire impossible, l'analyse des données.

> Pour résoudre ce problème, vous avez deux options : supprimer les lignes ou convertir toutes les cellules des colonnes dans le même format.

### Convertir en un format correct
> Dans notre DataFrame, nous avons deux cellules avec le format incorrect. Consultez les lignes 22 et 26, la colonne 'Date' devrait être une chaîne de caractères représentant une date :

In [34]:
df = pd.read_csv('data.csv')
df

Unnamed: 0,Duration,Date,Pulse,Maxpulse,Calories
0,60,'2020/12/01',110,130,409.1
1,60,'2020/12/02',117,145,479.0
2,60,'2020/12/03',103,135,340.0
3,45,'2020/12/04',109,175,282.4
4,45,'2020/12/05',117,148,406.0
5,60,'2020/12/06',102,127,300.0
6,60,'2020/12/07',110,136,374.0
7,450,'2020/12/08',104,134,253.3
8,30,'2020/12/09',109,133,195.1
9,60,'2020/12/10',98,124,269.0


> Essayons de convertir toutes les cellules de la colonne 'Date' en dates.

> Pandas dispose d'une méthode to_datetime() pour cela :

In [40]:
df = pd.read_csv('data.csv')

df['Date'] = pd.to_datetime(df['Date'])

print(df.to_string())

ValueError: time data "'2020/12/01'" doesn't match format "%Y%m%d", at position 0. You might want to try:
    - passing `format` if your strings have a consistent format;
    - passing `format='ISO8601'` if your strings are all ISO8601 but not necessarily in exactly the same format;
    - passing `format='mixed'`, and the format will be inferred for each element individually. You might want to use `dayfirst` alongside this.