# Pandas - Cleaning Data

## Nettoyage des données
> Le nettoyage des données consiste à corriger les données incorrectes dans votre ensemble de données.

### Les données incorrectes peuvent inclure :

- Cellules vides
- Données au format incorrect
- Données incorrectes
- Duplicatas
- Dans ce tutoriel, vous apprendrez comment traiter tous ces cas.

## Notre ensemble de données
> Dans les prochains , nous utiliserons cet ensemble de données.

In [3]:
import pandas as pd

df = pd.read_csv('data.csv')

print(df.head().to_string())

   Duration          Date  Pulse  Maxpulse  Calories
0        60  '2020/12/01'    110       130     409.1
1        60  '2020/12/02'    117       145     479.0
2        60  '2020/12/03'    103       135     340.0
3        45  '2020/12/04'    109       175     282.4
4        45  '2020/12/05'    117       148     406.0


### Cellules vides

> Les cellules vides peuvent potentiellement fausser les résultats de l'analyse des données.

### Supprimer les lignes

> Une façon de traiter les cellules vides est de supprimer les lignes qui les contiennent.
Cela est généralement acceptable, car les ensembles de données peuvent être très volumineux, et supprimer quelques lignes n'aura pas un impact significatif sur le résultat.

> Remarque : Par défaut, la méthode dropna() renvoie un nouveau DataFrame et ne modifie pas l'original.

In [4]:
new_df = df.dropna()
print(new_df.to_string())

    Duration          Date  Pulse  Maxpulse  Calories
0         60  '2020/12/01'    110       130     409.1
1         60  '2020/12/02'    117       145     479.0
2         60  '2020/12/03'    103       135     340.0
3         45  '2020/12/04'    109       175     282.4
4         45  '2020/12/05'    117       148     406.0
5         60  '2020/12/06'    102       127     300.0
6         60  '2020/12/07'    110       136     374.0
7        450  '2020/12/08'    104       134     253.3
8         30  '2020/12/09'    109       133     195.1
9         60  '2020/12/10'     98       124     269.0
10        60  '2020/12/11'    103       147     329.3
11        60  '2020/12/12'    100       120     250.7
12        60  '2020/12/12'    100       120     250.7
13        60  '2020/12/13'    106       128     345.3
14        60  '2020/12/14'    104       132     379.3
15        60  '2020/12/15'     98       123     275.0
16        60  '2020/12/16'     98       120     215.2
17        60  '2020/12/17'  

> Si vous souhaitez modifier le DataFrame d'origine, utilisez l'argument inplace=True

> Note : Maintenant, dropna(inplace=True) ne renverra PAS un nouveau DataFrame, mais il supprimera toutes les lignes contenant des valeurs NULL du DataFrame d'origine.

In [5]:
#df.dropna(inplace = True)

print(df.to_string())

    Duration          Date  Pulse  Maxpulse  Calories
0         60  '2020/12/01'    110       130     409.1
1         60  '2020/12/02'    117       145     479.0
2         60  '2020/12/03'    103       135     340.0
3         45  '2020/12/04'    109       175     282.4
4         45  '2020/12/05'    117       148     406.0
5         60  '2020/12/06'    102       127     300.0
6         60  '2020/12/07'    110       136     374.0
7        450  '2020/12/08'    104       134     253.3
8         30  '2020/12/09'    109       133     195.1
9         60  '2020/12/10'     98       124     269.0
10        60  '2020/12/11'    103       147     329.3
11        60  '2020/12/12'    100       120     250.7
12        60  '2020/12/12'    100       120     250.7
13        60  '2020/12/13'    106       128     345.3
14        60  '2020/12/14'    104       132     379.3
15        60  '2020/12/15'     98       123     275.0
16        60  '2020/12/16'     98       120     215.2
17        60  '2020/12/17'  

### Remplacer les valeurs vides
> Une autre façon de traiter les cellules vides est d'insérer une nouvelle valeur à la place.

> De cette manière, vous n'avez pas à supprimer des lignes entières simplement à cause de quelques cellules vides.

> La méthode fillna() nous permet de remplacer les cellules vides par une valeur :

In [6]:
df = pd.read_csv('data.csv')

df.fillna(0, inplace = True)
print(df.to_string())

    Duration          Date  Pulse  Maxpulse  Calories
0         60  '2020/12/01'    110       130     409.1
1         60  '2020/12/02'    117       145     479.0
2         60  '2020/12/03'    103       135     340.0
3         45  '2020/12/04'    109       175     282.4
4         45  '2020/12/05'    117       148     406.0
5         60  '2020/12/06'    102       127     300.0
6         60  '2020/12/07'    110       136     374.0
7        450  '2020/12/08'    104       134     253.3
8         30  '2020/12/09'    109       133     195.1
9         60  '2020/12/10'     98       124     269.0
10        60  '2020/12/11'    103       147     329.3
11        60  '2020/12/12'    100       120     250.7
12        60  '2020/12/12'    100       120     250.7
13        60  '2020/12/13'    106       128     345.3
14        60  '2020/12/14'    104       132     379.3
15        60  '2020/12/15'     98       123     275.0
16        60  '2020/12/16'     98       120     215.2
17        60  '2020/12/17'  

### Remplacer uniquement pour des colonnes spécifiées
> L'exemple ci-dessus remplace toutes les cellules vides dans l'ensemble du DataFrame.

> Pour ne remplacer que les valeurs vides d'une colonne, spécifiez le nom de la colonne du DataFrame :

#### Exemple
> Remplacez les valeurs NULL dans la colonne "Calories" par le nombre 130 :

In [7]:
df = pd.read_csv('data.csv')

df["Calories"].fillna(130, inplace = True)

Remplacer en utilisant la moyenne, la médiane ou le mode
Une manière courante de remplacer les cellules vides est de calculer la valeur moyenne, médiane ou mode de la colonne.

Pandas utilise les méthodes mean(), median() et mode() pour calculer les valeurs respectives pour une colonne spécifiée :

### Exemple
 > Calculez la Moyenne et remplacez toutes les valeurs vides par celle-ci 
 
 > Mean = la valeur moyenne (la somme de toutes les valeurs divisée par le nombre de valeurs).

In [8]:
df = pd.read_csv('data.csv')

x = df["Calories"].mean()

df["Calories"].fillna(x, inplace = True)

### Exemple
> Calculez la MÉDIANE et remplacez toutes les valeurs vides par celle-ci :

> Médiane = la valeur au milieu, une fois que vous avez trié toutes les valeurs par ordre croissant.

In [9]:
df = pd.read_csv('data.csv')

x = df["Calories"].median()

df["Calories"].fillna(x, inplace = True)


### Exemple
> Calculez le MODE et remplacez toutes les valeurs vides par celle-ci :

> MODE = Mode = la valeur qui apparaît le plus fréquemment.

In [10]:
df = pd.read_csv('data.csv')

x = df["Calories"].mode()[0]

df["Calories"].fillna(x, inplace = True)

### Données au format incorrect
> Les cellules avec des données au format incorrect peuvent rendre difficile, voire impossible, l'analyse des données.

> Pour résoudre ce problème, vous avez deux options : supprimer les lignes ou convertir toutes les cellules des colonnes dans le même format.

### Convertir en un format correct
> Dans notre DataFrame, nous avons deux cellules avec le format incorrect. Consultez les lignes 22 et 26, la colonne 'Date' devrait être une chaîne de caractères représentant une date :

In [11]:
df = pd.read_csv('data.csv')
df

Unnamed: 0,Duration,Date,Pulse,Maxpulse,Calories
0,60,'2020/12/01',110,130,409.1
1,60,'2020/12/02',117,145,479.0
2,60,'2020/12/03',103,135,340.0
3,45,'2020/12/04',109,175,282.4
4,45,'2020/12/05',117,148,406.0
5,60,'2020/12/06',102,127,300.0
6,60,'2020/12/07',110,136,374.0
7,450,'2020/12/08',104,134,253.3
8,30,'2020/12/09',109,133,195.1
9,60,'2020/12/10',98,124,269.0




**Suppression de lignes**

Le résultat de la conversion dans l'exemple ci-dessus nous a donné une valeur NaT, qui peut être traitée comme une valeur NULL, et nous pouvons supprimer la ligne en utilisant la méthode `dropna()`.

**Exemple**



In [12]:
df.dropna(subset=['Date'], inplace=True)
df

Unnamed: 0,Duration,Date,Pulse,Maxpulse,Calories
0,60,'2020/12/01',110,130,409.1
1,60,'2020/12/02',117,145,479.0
2,60,'2020/12/03',103,135,340.0
3,45,'2020/12/04',109,175,282.4
4,45,'2020/12/05',117,148,406.0
5,60,'2020/12/06',102,127,300.0
6,60,'2020/12/07',110,136,374.0
7,450,'2020/12/08',104,134,253.3
8,30,'2020/12/09',109,133,195.1
9,60,'2020/12/10',98,124,269.0


# Pandas - Correction des Données Incorrectes

**Données Incorrectes**

Le terme **"Données incorrectes"** ne se limite pas aux **"cellules vides"** ou au **"mauvais format"** ; cela peut simplement être une erreur, comme enregistrer **"199"** au lieu de **"1.99"**.

Parfois, vous pouvez repérer des données incorrectes en examinant l'ensemble de données, guidé par vos attentes de ce qu'elles devraient être.

En jetant un coup d'œil plus attentif à notre ensemble de données, nous remarquons qu'à la ligne 7, la durée est indiquée comme 450, alors que pour toutes les autres lignes, la durée se situe entre 30 et 60.

Cela ne doit pas nécessairement être incorrect, mais en considérant que cet ensemble de données représente les séances d'entraînement de quelqu'un, nous pouvons en déduire que cette personne n'a pas fait d'entraînement de 450 minutes.
> 7	450	'2020/12/08'	104	134	253.3

**Comment corriger des valeurs incorrectes, comme celle de "Durée" à la ligne 7?**

In [13]:
df = pd.read_csv('data.csv')
df

Unnamed: 0,Duration,Date,Pulse,Maxpulse,Calories
0,60,'2020/12/01',110,130,409.1
1,60,'2020/12/02',117,145,479.0
2,60,'2020/12/03',103,135,340.0
3,45,'2020/12/04',109,175,282.4
4,45,'2020/12/05',117,148,406.0
5,60,'2020/12/06',102,127,300.0
6,60,'2020/12/07',110,136,374.0
7,450,'2020/12/08',104,134,253.3
8,30,'2020/12/09',109,133,195.1
9,60,'2020/12/10',98,124,269.0


# Remplacement de Valeurs
Une manière de corriger des valeurs incorrectes est de les remplacer par autre chose.

Dans notre exemple, il s'agit probablement d'une faute de frappe, et la valeur devrait être "45" au lieu de "450". Nous pourrions simplement insérer "45" à la ligne 7 :

Définir "Durée" = 45 à la ligne 7 :


In [14]:
df = pd.read_csv('data.csv')
df.loc[7, 'Duration'] = 45
df

Unnamed: 0,Duration,Date,Pulse,Maxpulse,Calories
0,60,'2020/12/01',110,130,409.1
1,60,'2020/12/02',117,145,479.0
2,60,'2020/12/03',103,135,340.0
3,45,'2020/12/04',109,175,282.4
4,45,'2020/12/05',117,148,406.0
5,60,'2020/12/06',102,127,300.0
6,60,'2020/12/07',110,136,374.0
7,45,'2020/12/08',104,134,253.3
8,30,'2020/12/09',109,133,195.1
9,60,'2020/12/10',98,124,269.0


# Remplacement de Valeurs

Pour de petits ensembles de données, vous pouvez éventuellement remplacer les données incorrectes une par une, mais pas pour de grands ensembles de données.

Pour remplacer des données incorrectes dans des ensembles de données plus volumineux, vous pouvez créer des règles, par exemple, définir des limites pour les valeurs légales et remplacer toutes les valeurs qui se trouvent en dehors de ces limites.

**Exemple :**
Parcourez toutes les valeurs de la colonne "Durée".

Si la valeur est supérieure à 120, définissez-la à 120 :

        > 7	 120	 '2020/12/08'	 104	 134	253.3

In [16]:
df = pd.read_csv('data.csv')
for x in df.index:
  if df.loc[x, "Duration"] > 120:
    df.loc[x, "Duration"] = 120
df

Unnamed: 0,Duration,Date,Pulse,Maxpulse,Calories
0,60,'2020/12/01',110,130,409.1
1,60,'2020/12/02',117,145,479.0
2,60,'2020/12/03',103,135,340.0
3,45,'2020/12/04',109,175,282.4
4,45,'2020/12/05',117,148,406.0
5,60,'2020/12/06',102,127,300.0
6,60,'2020/12/07',110,136,374.0
7,120,'2020/12/08',104,134,253.3
8,30,'2020/12/09',109,133,195.1
9,60,'2020/12/10',98,124,269.0


# Suppression de Lignes

Une autre façon de traiter des données incorrectes est de supprimer les lignes qui les contiennent.

De cette manière, vous n'avez pas à chercher par quoi les remplacer, et il y a de fortes chances que vous n'en ayez pas besoin pour effectuer vos analyses.

**Exemple :**
Supprimez les lignes où la "Durée" est supérieure à 120 :

In [19]:
df = pd.read_csv('data.csv')
for x in df.index:
  if df.loc[x, "Duration"] > 120:
    df.drop(x, inplace=True)

Unnamed: 0,Duration,Date,Pulse,Maxpulse,Calories
0,60,'2020/12/01',110,130,409.1
1,60,'2020/12/02',117,145,479.0
2,60,'2020/12/03',103,135,340.0
3,45,'2020/12/04',109,175,282.4
4,45,'2020/12/05',117,148,406.0
5,60,'2020/12/06',102,127,300.0
6,60,'2020/12/07',110,136,374.0
8,30,'2020/12/09',109,133,195.1
9,60,'2020/12/10',98,124,269.0
10,60,'2020/12/11',103,147,329.3


# Pandas - Suppression des Doublons

## Découverte des Doublons

Les lignes en double sont des lignes qui ont été enregistrées plus d'une fois.

In [27]:
df = pd.read_csv('data.csv')
df.iloc[11:13]  

Unnamed: 0,Duration,Date,Pulse,Maxpulse,Calories
11,60,'2020/12/12',100,120,250.7
12,60,'2020/12/12',100,120,250.7


En examinant notre ensemble de données de test, nous pouvons supposer que les lignes 11 et 12 sont des doublons.

Pour découvrir les doublons, nous pouvons utiliser la méthode `duplicated()`.

La méthode `duplicated()` renvoie des valeurs booléennes pour chaque ligne :

**Exemple :**

Renvoie True pour chaque ligne qui est un doublon, sinon False :

In [28]:
print(df.duplicated())

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9     False
10    False
11    False
12     True
13    False
14    False
15    False
16    False
17    False
18    False
19    False
20    False
21    False
22    False
23    False
24    False
25    False
26    False
27    False
28    False
29    False
30    False
31    False
dtype: bool


# Suppression des Doublons

Pour supprimer les doublons, utilisez la méthode `drop_duplicates()`.

**Exemple :**
Supprimez tous les doublons :

In [39]:
df.drop_duplicates(inplace=True)
df.iloc[10:15] 

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
10,60,103,147,329.3
11,60,100,120,250.7
12,60,106,128,345.3
13,60,104,132,379.3
14,60,98,123,275.0


**Remarque :** Le paramètre `(inplace=True)` garantit que la méthode ne renvoie pas un nouveau DataFrame, mais supprime plutôt tous les doublons de l'DataFrame original.

# Pandas - Corrélations de Données

## Recherche de Relations

Un aspect puissant du module Pandas est la méthode `corr()`.

La méthode `corr()` calcule la relation entre chaque colonne de votre ensemble de données.

> **Note :** La méthode `corr()` ignore les colonnes "non numériques".

> Les exemples sur cette partie utilisent un fichier CSV appelé : 'data1.csv'.

**Exemple :**
Affichez la relation entre les colonnes :

In [40]:
df = pd.read_csv('data1.csv')
df.corr()

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
Duration,1.0,-0.155408,0.009403,0.922717
Pulse,-0.155408,1.0,0.786535,0.025121
Maxpulse,0.009403,0.786535,1.0,0.203813
Calories,0.922717,0.025121,0.203813,1.0


# Explication des Résultats

Le résultat de la méthode `corr()` est un tableau avec de nombreux chiffres représentant la force de la relation entre deux colonnes.

Les chiffres varient de -1 à 1.

- **1** signifie qu'il y a une relation 1 à 1 (une corrélation parfaite). Pour cet ensemble de données, chaque fois qu'une valeur augmente dans la première colonne, l'autre augmente également.
- **0.9** est également une bonne relation. Si vous augmentez une valeur, l'autre augmentera probablement aussi.
- **-0.9** serait une relation tout aussi bonne que 0.9, mais si vous augmentez une valeur, l'autre diminuera probablement.
- **0.2** signifie qu'il n'y a pas une bonne relation. Si une valeur augmente, cela ne signifie pas nécessairement que l'autre augmentera.

Quelle est une bonne corrélation ? Cela dépend de l'utilisation, mais il est probablement sûr de dire que vous devez avoir au moins **0.6** (ou **-0.6**) pour parler d'une bonne corrélation.

## Corrélation Parfaite :
Nous pouvons voir que "Durée" et "Durée" ont le nombre **1.000000**, ce qui a du sens, chaque colonne a toujours une relation parfaite avec elle-même.

## Bonne Corrélation :
"Durée" et "Calories" ont une corrélation de **0.922721**, ce qui est une très bonne corrélation. Nous pouvons prédire que plus vous faites de l'exercice, plus vous brûlez de calories, et vice versa : si vous avez brûlé beaucoup de calories, vous avez probablement fait un long exercice.

## Mauvaise Corrélation :
"Durée" et "Poulsmax" ont une corrélation de **0.009403**, ce qui est une très mauvaise corrélation. Cela signifie que nous ne pouvons pas prédire la fréquence cardiaque maximale en regardant simplement la durée de l'exercice, et vice versa.