# Analyse exploratoire et nettoyage des données :

## Introduction au DataFrames 

Le module pandas a été développé pour apporter à Python les outils nécessaires pour manipuler et analyser de gros volumes de données.

Pandas introduit la classe DataFrame, une structure de données qui s'apparente à un tableau et qui propose une manipulation et exploration de données plus avancées que les arrays NumPy.

Les principales fonctionnalités de pandas sont :
* la récupération des données depuis des fichiers (CSV, tableaux Excel, etc.)
* la manipulation de ces données (suppression/ajout, modification, visualisation statistique, etc.).

>## Let's start !
>* Importer le module pandas sous le nom pd.
>
> une option intéressante :
> ```python
pd.set_option('display.max_columns', False)  # display all columns of dataframe
```

In [18]:
import pandas as pd
pd.set_option('display.max_columns', False)

D'autres modules d'intéret pour ce TP
```python
import numpy as np              # linear algebra
import pandas as pd             # data processing, CSV file I/O (e.g. pd.read_csv)
import os                       # files handling
import matplotlib.pyplot as plt # plotting & dataviz

from IPython.display import display

%matplotlib inline
```

In [2]:
import numpy as np              # linear algebra
import pandas as pd             # data processing, CSV file I/O (e.g. pd.read_csv)
import os                       # files handling
import matplotlib.pyplot as plt # plotting & dataviz

from IPython.display import display


# Il est toujours intéressant de regarder ce que l'on a à disposition dans notre dossier.

> Consigne :
> * A l'aide de la bibliothèque ```os```, établir une liste de fichiers présents dans le dossier de travail.

In [19]:
os.listdir()

['.ipynb_checkpoints',
 'TP-TD_EDA_CNAM_vide_2022.ipynb',
 'Transactions_EDA_CNAM.csv',
 'winequality_red2_EDA_CNAM.csv']

# <font color='orange'>Fin partie</font>

# Format d'un DataFrame
Un DataFrame se présente sous forme d'une matrice dont chaque ligne et chaque colonne porte un indice. En général, les colonnes sont indexées par leur nom.

Un DataFrame sert à stocker des bases de données. Les différentes entrées de la base (individus, animaux, objets, etc.) sont les différentes lignes et leurs caractéristiques sont les différentes colonnes:

|   | Nom  |Sexe |Taille |Age|
|---|------|-----|-------|---|
|0	|Robert|M    |174    |23 |
|1	|Mark  |M    |182    |40 |
|2	|Aline |F    |169    |56 |

Le DataFrame ci-dessus regroupe des informations sur 3 individus : le tableau possède donc 3 lignes.
Pour chacun de ces individus, nous disposons de 4 variables (le nom, le sexe, la taille et l'âge) : le tableau possède donc 4 colonnes.
La colonne contenant les numérotations des lignes est appelée l'index et ne se gère pas de la même façon qu'une colonne du dataset.

On peut laisser l'index par défaut (numérotation des lignes), indexer avec une des colonnes du DataFrame ou indexer avec une liste que l'on définit nous-même.

Exemple : Indexation par défaut (numérotation des lignes):

|   |Nom   |Sexe|Taille|Age|
|---|------|----|------|---|
|0  |Robert|M   |174   |23 |
|1  |Mark  |M   |182   |40 |
|2  |Aline |F   |169   |56 |

Exemple : Indexation par la colonne 'Nom':

|      |Sexe	|Taille	|Age |
|------|--------|-------|----|
|Robert|	M	|174	|23  |
|Mark  |	M	|182	|40  |
|Aline |	F	|169	|56  |

Exemple : Indexation par la liste ```['personne_1', 'personne_2', 'personne_3']```:

|          |Nom	      |Sexe	|Taille	|Age|
|----------|----------|-----|-------|---|
|personne_1|	Robert|	M	|174	|23 |
|personne_2|	Mark  |	M	|182	|40 |
|personne_3|	Aline |	F	|169	|56 |

Nous détaillerons plus loin comment définir l'index lors de la création d'un DataFrame.

La classe DataFrame présente plusieurs avantages par rapport à un array Numpy:
* Visuellement, un DataFrame est beaucoup plus lisible grâce à une indexation des colonnes et des lignes plus explicite.
* Au sein d'une même colonne les éléments sont du même type mais d'une colonne à l'autre, le type des éléments peut varier, ce qui n'est pas le cas des arrays Numpy qui ne supportent que des données de même type.
* La classe DataFrame contient davantage de méthodes pour la manipulation et le pré-traitement de bases de données, tandis que NumPy se spécialise plutôt dans le calcul optimisé.



# Création d'un DataFrame : à partir d'un array NumPy

Il est possible de créer directement un DataFrame à partir d'un array NumPy grâce au constructeur DataFrame(). L'inconvénient de cette méthode est qu'elle n'est pas très pratique et le type des données est obligatoirement le même pour toutes les colonnes.

Regardons d'un peu plus près l'en-tête de ce constructeur.

pd.DataFrame(data, index, columns, ...)
Le paramètre data contient les données à mettre en forme (array NumPy, liste, dictionnaire ou un autre DataFrame).
Le paramètre index, si précisé, doit être une liste contenant les indices des entrées.
Le paramètre columns, si précisé, doit être une liste contenant le nom des colonnes.
   Pour les autres paramètres, vous pouvez consulter la documentation Python.

Exemple:

```python
# Création d'un array NumPy 
array = np.array([[1, 2, 3, 4], 
                  [5, 6, 7, 8], 
                  [9, 10, 11, 12]])
```



```python
# Instanciation d'un DataFrame 
df = pd.DataFrame(data = array,                 # Les données à mettre en forme
                  index = ['i_1', 'i_2', 'i_3'],  # Les indices de chaque entrée
                  columns = ['A', 'B', 'C', 'D']) # Le nom des colonnes

```

Ceci produit le DataFramesuivant :

|       |A	|B	|C	|D  |
|-------|---|---|---|---|
|i_1	|1	|2	|3	|4  |
|i_2	|5	|6	|7	|8  |
|i_3	|9	|10	|11	|12 |



# Création d'un DataFrame : à partir d'un dictionnaire


Une autre méthode pour créer un DataFrame est d'utiliser un dictionnaire. Grâce à cette technique, les colonnes peuvent être de type différent et sont déjà définie lors de la création du DataFrame.

Exemple:

```python
# Création d'un dictionnaire
dictionnaire = {'A': [1, 5, 9], 
                'B': [2, 6, 10],
                'C': [3, 7, 11],
                'D': [4, 8, 12]}
```

```python
# Instanciation d'un DataFrame 
df = pd.DataFrame(data = dictionnaire,
                  index = ['i_1', 'i_2', 'i_3'])
```

Ceci produit le même DataFrame que précédemment :

|       |A	|B	|C	|D  |
|-------|---|---|---|---|
|i_1	|1	|2	|3	|4  |
|i_2	|5	|6	|7	|8  |
|i_3	|9	|10	|11	|12 |





> Consignes :
> * Le directeur d'une épicerie recense les informations suivantes sur son stock de produits alimentaires :
>     * 100 pots de miel dont la date d'expiration est le 10/08/2025 et valant 2€ l'unité
>     * 55 paquets de farine expirant le 25/09/2024 coûtant chacun 3€.
>     * 1800 bouteilles de vin à 10€ l'unité expirant le 15/10/2023.
> 
> * À partir d'un dictionnaire, créer et afficher le DataFrame df qui pour chaque produit doit contenir de manière organisée:
>     - Son nom.
>     - Sa date d'expiration.
>     - Sa quantité.
>     - Son prix à l'unité.
> 
> * Choisissez des noms de colonne pertinents et l'index sera celui par défaut (dans ce cas on ne spécifie pas le paramètre index).

In [20]:
dictionnaire = {'Nom': ["Pot de miel", "Paquet de farine", "Bouteille de vin"],
                'Date_expiration': ["10/08/2025", "25/09/2024", "15/10/2023"],
                'Quantité': [100, 55, 1800], 
                'Prix_unitaire': [2, 3, 10]}

# Instanciation d'un DataFrame 
df = pd.DataFrame(data = dictionnaire)


# Création d'un DataFrame : à partir d'un fichier de données

Régulièrement, les DataFrame sont directement créés à partir de fichiers contenant les données d'intérêt. Cela peut être un fichier de format CSV, Excel, Texte etc...

Le format le plus courant est le format CSV, qui signifie Comma-Separated Values et désigne un fichier de type tableur dont les valeurs sont séparées par des virgules.

En voici un exemple :

```csv
A, B, C, D,
1, 2, 3, 4,
5, 6, 7, 8,
9, 10, 11, 12
```

Dans ce format:
* La première ligne contient le nom des colonnes, mais il arrive que le nom des colonnes ne soit pas renseigné.
* Chaque ligne correspond à une entrée de la base de données.
* Les valeurs sont séparées par un caractère de séparation. Dans cet exemple, il s'agit de ',' mais cela pourrait être un ';'.

Pour importer ces données dans un DataFrame, on utilise alors la fonction read_csv de pandas dont l'en-tête est la suivante :

```python
pd.read_csv(filepath_or_buffer , sep = ',', header = 0, index_col = 0 ... )
```

Les arguments essentiels de la fonction pd.read_csv à connaître sont:

* ```filepath_or_buffer```: Le chemin d'accès du fichier .csv relativement à l'environnement d'éxécution. Si le fichier se trouve dans le même dossier que l'environnement Python, il suffit de renseigner le nom du fichier. Ce chemin doit être renseigné sous forme de chaîne de caractères.
* ```sep```: Le caractère utilisé dans le fichier .csv pour séparer les différentes colonnes. Cet argument doit être specifié sous forme de caractère.
* ```header```: Le numéro de la ligne qui contient les noms des colonnes. Si par exemple les noms de colonnes sont renseignés dans la première ligne du fichier .csv, alors il faut spécifier header = 0. Si les noms ne sont pas renseignés, on mettra header = None.
* ```index_col``` : Le nom ou numéro de la colonne contenant les indices de la base de données. Si les entrées de la base sont indexées par la première colonne, il faudra renseigner index_col = 0. Alternativement, si les entrées sont indexées par une colonne qui porte le nom "Id", on pourra spécifier index_col = "Id".

Cette fonction retournera un objet de type DataFrame qui contient toutes les données du fichier.


Les données peuvent être trouvées à l'adresse :
https://www.kaggle.com/darpan25bajaj/retail-case-study-data/version/1?select=Customer.csv

(parmi le dataset disponibles, nous ne nous intéresserons qu'au dataset "transactions.csv")

> Consignes :
> Charger les données contenues dans le fichier transactions.csv dans un DataFrame nommé transactions:
> * Le fichier doit se trouver dans le même dossier.
> * Les colonnes sont séparées par une **virgule**.
> * Les **noms des colonnes** sont renseignés sur la **première ligne** du fichier.
> * Les **lignes de la base** sont indexées par la **colonne "transaction_id"** qui est aussi la première colonne.

In [74]:
transactions = pd.read_csv("Transactions_EDA_CNAM.csv", sep = ",", header = 0, index_col = 0)

## Première exploration d'un dataset grâce à la classe DataFrame
La suite de ce notebook présente brièvement les principales méthodes de la classe DataFrame qui vont nous permettre de faire une rapide analyse de notre jeu de données, c'est-à-dire :
* Avoir un bref aperçu des données (méthode ```head()```, attributs ```columns``` et ```shape```).
* Sélectionner des valeurs dans le DataFrame (méthodes ```loc()``` et ```iloc()```).
* Réaliser une rapide étude statistique de nos données (méthodes ```describe()``` et ```value_counts()```)

**Pour rappel, pour appliquer une méthode à un objet en Python (comme un DataFrame par exemple), il faut accoler la méthode en suffixe de l'objet. Exemple : mon_objet.ma_méthode()**

## Visualisation d'un DataFrame: méthode head, attributs columns et shape
Il est possible d'avoir un aperçu d'un jeu de données en affichant seulement les premières lignes du DataFrame.

Pour cela, il faut utiliser la méthode **head()** en lui spécifiant en argument le nombre de lignes que nous souhaitons afficher (par défaut 5).

Il est aussi possible d'avoir un aperçu des **dernières** lignes en utilisant la méthode **tail()** qui s'applique de la même manière:

```python
# Affichage des 10 premières lignes d'un DataFrame mon_dataframe
mon_dataframe.head(10)
```

* **Afficher les 20 premières lignes du DataFrame transactions.**

In [23]:
transactions.head(20)

Unnamed: 0_level_0,cust_id,tran_date,prod_subcat_code,prod_cat_code,Qty,Rate,Tax,total_amt,Store_type
transaction_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
80712190438,270351,28-02-2014,1,1,-5,-772,405.3,-4265.3,e-Shop
29258453508,270384,27-02-2014,5,3,-5,-1497,785.925,-8270.925,e-Shop
51750724947,273420,24-02-2014,6,5,-2,-791,166.11,-1748.11,TeleShop
93274880719,271509,24-02-2014,11,6,-3,-1363,429.345,-4518.345,e-Shop
51750724947,273420,23-02-2014,6,5,-2,-791,166.11,-1748.11,TeleShop
97439039119,272357,23-02-2014,8,3,-2,-824,173.04,-1821.04,TeleShop
45649838090,273667,22-02-2014,11,6,-1,-1450,152.25,-1602.25,e-Shop
22643667930,271489,22-02-2014,12,6,-1,-1225,128.625,-1353.625,TeleShop
79792372943,275108,22-02-2014,3,1,-3,-908,286.02,-3010.02,MBR
50076728598,269014,21-02-2014,8,3,-4,-581,244.02,-2568.02,e-Shop


Il est aussi possible de s'intéresser à un extrait de la base de donnée, et non pas les premières ou dernières lignes de cette dernière.
Pour cela, il suffit de faire appel à la méthode ```sample()``` plutot qu'aux méthodes ```head()``` ou ```tail()```.

>Consigne:
> * Afficher une échantillon de 10 enregistrements de notre dataframe ```transactions```

In [24]:
transactions.sample(10)

Unnamed: 0_level_0,cust_id,tran_date,prod_subcat_code,prod_cat_code,Qty,Rate,Tax,total_amt,Store_type
transaction_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
57857043547,268786,24-06-2011,1,1,1,729,76.545,805.545,Flagship store
25554803686,274014,22-10-2012,4,4,2,980,205.8,2165.8,TeleShop
55465102259,273077,22-10-2012,4,4,3,1030,324.45,3414.45,e-Shop
353261573,267646,8/3/2012,10,5,1,261,27.405,288.405,MBR
14325869491,267326,1/9/2012,12,6,5,414,217.35,2287.35,TeleShop
33904181275,272874,7/2/2014,12,5,5,556,291.9,3071.9,e-Shop
64725039922,267756,4/12/2011,9,3,1,293,30.765,323.765,TeleShop
96272226619,267099,21-04-2012,2,6,-3,-495,155.925,-1640.925,Flagship store
36557575535,273930,14-05-2013,8,3,3,993,312.795,3291.795,TeleShop
14111335238,268289,28-06-2011,5,3,1,1432,150.36,1582.36,Flagship store


Il est possible de récupérer le nom des colonnes d'un DataFrame grâce à son attribut columns.
```python
# Création d'un DataFrame df à partir d'un dictionnaire
dictionnaire = {'A': [1, 5, 9], 
                'B': [2, 6, 10],
                'C': [3, 7, 11],
                'D': [4, 8, 12]}

df = pd.DataFrame(data = dictionnaire, index = ['i_1', 'i_2', 'i_3'])
```
Ces instructions produisent le même DataFrame que précédemment :

|       |A	|B	|C	|D  |
|-------|---|---|---|---|
|i_1	|1	|2	|3	|4  |
|i_2	|5	|6	|7	|8  |
|i_3	|9	|10	|11	|12 |

```python
# Affichage des colonnes du DataFrame df
 print(df.columns)
>>> ['A', 'B', 'C', 'D']
```

La liste du nom des colonnes est utile pour parcourir les colonnes d'un DataFrame à l'aide d'une boucle.

Il peut être intéressant de savoir combien de transactions (lignes) et combien de caractéristiques (colonnes) le dataset contient.

Pour cela nous allons utiliser l'attribut shape du DataFrame qui affiche les dimensions de notre DataFrame sous la forme d'un tuple (nombre de lignes, nombre de colonnes):
```python
# Affichage des dimensions de mon_dataframe
print(mon_dataframe.shape)
>>> (3,4)
```

* **Afficher les dimensions du DataFrame transactions ainsi que le nom de la 5ème colonne. Rappelez-vous qu'en Python les indices commencent à 0.**

In [25]:
print(transactions.shape)

(23053, 9)


# <font color='orange'>Fin partie</font>

# Sélection de colonnes d'un DataFrame
L'extraction des colonnes d'un DataFrame est presque identique à l'extraction de données d'un dictionnaire.

Pour extraire une colonne d'un DataFrame, il suffit de renseigner entre crochets le nom de la colonne à extraire. Pour extraire plusieurs colonnes, il faut mettre entre crochets la liste des noms des colonnes à extraire:
```python
# Affichage de la colonne 'cust_id' 
print(transactions['cust_id'])

# Extraction des colonnes 'cust_id' et 'Qty' de transactions
cust_id_qty = transactions[["cust_id","Qty"]]
```

cust_id_qty est un nouveau DataFrame ne contenant que les colonnes 'cust_id' et 'Qty'. L'affichage des 3 premières lignes de cust_id_qty donne :

|transactions_id	|cust_id	|Qty|
|-------------------|-----------|---|
|80712190438        |	270351	|-5 |
|29258453508        |	270384	|-5 |
|51750724947        |	273420	|-2 |


Lorsque nous préparons un jeu de données pour l'exploiter plus tard, il est préférable de **séparer** les variables **catégorielles** des variables **quantitatives**:
* Une variable **catégorielle** est une variable qui ne prend qu'un **nombre fini** de modalités.
* Une variable **quantitative** est une variable qui mesure une quantité pouvant prendre une **infinité de valeurs**.

Cette distinction est faite parce que certaines opérations basiques comme le calcul d'une moyenne n'a de sens que pour les variables quantitatives.

Les variables catégorielles du DataFrame transactions sont: ```['cust_id', 'tran_date', 'prod_subcat_code', 'prod_cat_code', 'Store_type']```

Les variables quantitatives de transactions sont: ```['Qty', 'Rate', 'Tax', 'total_amt']```


>Consignes:
>* Dans un DataFrame nommé cat_vars, stocker les variables catégorielles de transactions.
>* Dans un DataFrame nommé num_vars, stocker les variables quantitatives de transactions.
>* Afficher les 5 premières lignes de chaque DataFrame.

cat_vars = transactions[['cust_id', 'tran_date', 'prod_subcat_code', 'prod_cat_code', 'Store_type']]

num_vars = transactions[['Qty', 'Rate', 'Tax', 'total_amt']]

display(cat_vars.head(5))

display(num_vars.head(5))

# Sélection de lignes d'un DataFrame: méthodes loc et iloc

## Pour extraire une ou plusieurs lignes d'un DataFrame, nous utilisons la méthode ```loc```. 
```loc``` est un type de méthode très spécial car les arguments sont renseignés entre **crochets** et non entre parenthèses. L'utilisation de cette méthode est très similaire à l'indexation des listes.

Afin de récupérer la ligne d'indice i d'un DataFrame, il suffit de renseigner i en argument de la méthode loc:

```python
# On récupère la ligne d'indice 80712190438 du DataFrame num_vars

print(num_vars.loc[80712190438])

>>>                 Rate    Tax  total_amt
>>> transaction_id                         
>>> 80712190438    -772.0  405.3    -4265.3
>>> 80712190438     772.0  405.3     4265.3
```

Afin de récupérer plusieurs lignes, nous pouvons soit:
* Renseigner une liste d'indices.
* Utiliser le slicing en précisant les indices de début et de fin de la plage. Pour l'utiliser, il faut que les indices soient uniques, ce qui n'est pas le cas pour transactions.

```python
# On récupère les lignes d'indice 80712190438, 29258453508 et 51750724947 du DataFrame transactions
transactions.loc[[80712190438, 29258453508, 51750724947]]
```

```loc``` peut aussi prendre en argument une colonne ou liste de colonnes afin d'affiner l'extraction de données:

```python
# On extrait les colonnes 'Tax' et 'total_amt' des lignes d'indices 80712190438 et 29258453508
transactions.loc[[80712190438, 29258453508], ['Tax', 'total_amt']]
```

Cette instruction produit le DataFrame suivant:

|transaction_id	|Tax    	|total_amt|
|---------------|-----------|---------|
|80712190438	|405.300	|-4265.300|
|80712190438	|405.300	|4265.300 |
|29258453508	|785.925	|-8270.925|
|29258453508	|785.925	|8270.925 |

## La méthode ```iloc()``` permet d'indexer un DataFrame exactement comme un array numpy, c'est-à-dire en ne renseignant que les indexes numériques des lignes et colonnes. Ceci permet d'utiliser le slicing sans contraintes`

```python
# Extraction des 4 premières lignes et des 3 premières colonnes de transactions
transactions.iloc[0:4, 0:3]
```

Cette instruction produit le DataFrame suivant:

|transaction_id	|cust_id	|tran_date	|prod_subcat_code|
|---------------|-----------|-----------|----------------|
|80712190438	|270351	    |28-02-2014	|1.0             |
|29258453508	|270384	    |27-02-2014	|5.0             |
|51750724947	|273420	    |24-02-2014	|6.0             |
|93274880719	|271509	    |24-02-2014	|11.0            |

Dans le cas où l'indexation des lignes est celle par défaut (numérotation des lignes), les méthodes loc et iloc sont équivalentes.

## Indexation Conditionelle d'un DataFrame
Comme pour les arrays Numpy, nous pouvons utiliser l'indexation conditionnelle pour extraire les lignes d'un Dataframe qui vérifient une condition donnée.

```python
# On séléctionne les lignes du DataFrame df pour lesquelles la colonne 'col 2' vaut 3. 
df[df['col 2'] == 3]

df.loc[df['col 2'] == 3]
```

Si nous souhaitons assigner une nouvelle valeur à ces entrées, il faut absolument utiliser la méthode loc. 
En effet, l'indexation avec la syntaxe ```df[df['col 2'] == 3``` ne renvoie qu'une copie de ces entrées et ne permet pas d'accéder à l'emplacement mémoire où se trouvent les données.

Le gérant des transactions répertoriées dans le DataFrame transactions souhaite avoir accès aux identifiants des clients ayant fait un achat en ligne (c'est-à-dire dans un "e-Shop") ainsi que la date de la transaction correspondante.

Nous avons les informations suivantes concernant les colonnes de transactions:

|Nom de la colonne	|Description                                     |
|:---               |                                            ---:|
|'cust_id'	        |Les identifiants des clients                    |
|'Store_type'	    |Le type de magasin où s'est faite la transaction|
|'tran_date'	    |La date des transactions                        |


>Consignes:
> * Dans un DataFrame nommé **transactions_eshop**, stocker les transactions qui ont lieu dans un magasin de type "e-Shop".
> * Dans un autre DataFrame nommé **transactions_id_date**, stocker les identifiants des clients et la date des transactions du DataFrame transactions_eshop.
> * Afficher les 5 premières lignes de transactions_id_date.

In [35]:
transactions_eshop = transactions[transactions["Store_type"] == "e-Shop"]

transactions_id_date = transactions_eshop[["cust_id","tran_date"]]

transactions_id_date.head(5)

Unnamed: 0_level_0,cust_id,tran_date
transaction_id,Unnamed: 1_level_1,Unnamed: 2_level_1
80712190438,270351,28-02-2014
29258453508,270384,27-02-2014
93274880719,271509,24-02-2014
45649838090,273667,22-02-2014
50076728598,269014,21-02-2014


À présent, le gérant voudrait avoir accès aux transactions effectuées par le client d'identifiant 268819.

>Consigne:
> * Dans un DataFrame nommé **transactions_client_268819**, stocker toutes les transactions dont l'identifiant du client est 268819.
> * Une colonne d'un DataFrame peut être parcourue comme une liste dans une boucle for. À l'aide d'une boucle for sur la colonne 'total_amt', calculer et afficher le montant total des transactions du client 268819.

In [40]:
transactions_client_268819 = transactions[transactions["cust_id"] == 268819]

print(transactions_client_268819["total_amt"].sum())

14911.974999999999


# <font color='orange'>Fin partie</font>

# Rapide étude statistique des données d'un DataFrame

La méthode ```describe()``` d'un DataFrame retourne un résumé des statistiques descriptives (min, max, moyenne, quantiles,..) de ses **variables quantitatives**. C'est donc un outil très utile pour une première visualisation du type et de la distribution ce ces variables.

Pour analyser les variables catégorielles, il est préférable de commencer par utiliser la méthode ```value_counts()``` qui renvoie le nombre d'occurrences pour chaque modalités de ces variables. La méthode ```value_counts()``` ne peut pas s'utiliser directement sur un DataFrame mais que sur les colonnes du DataFrame qui sont des objets de la classe pd.Series.


>Consignes :
>* Utiliser la méthode describe du DataFrame transactions.
>* Les variables quantitatives sont **'Qty', 'Rate', 'Tax' et total_amt**. Est-ce que par défaut les statistiques produites par la méthode describe ne sont calculées que sur les variables quantitatives?
>* Afficher le nombre d'occurences de chaque modalité que prend la variable Store_type à l'aide de la méthode value_counts.

In [46]:
display(transactions.describe(include = "all")) # Pour intégrer les variables qualitatives

print(transactions["Store_type"].value_counts())

Unnamed: 0,cust_id,tran_date,prod_subcat_code,prod_cat_code,Qty,Rate,Tax,total_amt,Store_type
count,23053.0,23053,23053.0,23053.0,23053.0,23053.0,23053.0,23053.0,23053
unique,,1129,,,,,,,4
top,,13-07-2011,,,,,,,e-Shop
freq,,35,,,,,,,9311
mean,271021.746497,,6.149091,3.763632,2.432395,636.369713,248.667192,2107.308002,
std,2431.692059,,3.726372,1.677016,2.268406,622.363498,187.177773,2507.561264,
min,266783.0,,1.0,1.0,-5.0,-1499.0,7.35,-8270.925,
25%,268935.0,,3.0,2.0,1.0,312.0,98.28,762.45,
50%,270980.0,,5.0,4.0,3.0,710.0,199.08,1754.74,
75%,273114.0,,10.0,5.0,4.0,1109.0,365.715,3569.15,


e-Shop            9311
MBR               4661
Flagship store    4577
TeleShop          4504
Name: Store_type, dtype: int64


La méthode ```describe()``` a calculé des statistiques sur les variables ```cust_id```, ```prod_subcat_code``` et ```prod_cat_code``` alors que celles-ci sont des **variables catégorielles**.

Bien sûr, ces statistiques n'ont aucun sens. La méthode ```describe()``` a traité ces variables comme **quantitatives** car les modalités qu'elles prennent sont de **type numérique**. C'est pourquoi il faut faire attention aux résultats retournés par la méthode describe et toujours prendre du recul sur ce que représentent les variables contenues dans le DataFrame.

>Consigne:
>Le gérant des transactions souhaite faire un rapport rapide sur les caractéristiques des transactions : il souhaite notamment connaître le montant moyen dépensé ainsi que la quantité maximale achetée.
>
>* Quel est le **montant total moyen** dépensé ? On s'intéressera à la colonne ```total_amt``` de transactions.
>* Quelle est la **quantité maximale** achetée? On s'intéressera à la colonne ```Qty``` de transactions.

In [49]:
print(transactions["total_amt"].mean())

print(transactions["Qty"].max())


2107.308001995402
5


Certaines transactions ont des montants négatifs. Il s'agit de transactions qui ont été annulées et remboursées au client. Ces montants vont perturber la distribution des montants ce qui nous donne de mauvaises estimations des moyennes et quantiles de la variable total_amt.

>Consigne:
> * Quelle est la moyenne du montant des transactions dont le montant est positif?

In [61]:
transactions[transactions["total_amt"] > 0]["total_amt"].mean()

2608.4443892508143

# S'informer sur les propriétés de la df

Il est souvent important de se renseigner sur le type des données sur lesquelles ont travaille.
Il est alors possible d'utiliser la méthode ```info()``` afin d'avoir un bref coup d'oeil sur les données.

> Consigne :
> * A l'aide de la méthode ```info()```, se renseigner sur la df transactions

In [62]:
transactions.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 23053 entries, 80712190438 to 77960931771
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   cust_id           23053 non-null  int64  
 1   tran_date         23053 non-null  object 
 2   prod_subcat_code  23053 non-null  int64  
 3   prod_cat_code     23053 non-null  int64  
 4   Qty               23053 non-null  int64  
 5   Rate              23053 non-null  int64  
 6   Tax               23053 non-null  float64
 7   total_amt         23053 non-null  float64
 8   Store_type        23053 non-null  object 
dtypes: float64(2), int64(5), object(2)
memory usage: 1.6+ MB


# <font color='orange'>Fin partie</font>

# Data cleaning : Nettoyage des Données et Gestion des NAs 

Le nettoyage des données et la bonne gestion des valeurs manquantes (appelées NaN ou NA) sont deux étapes essentielles avant toute analyse sur une base de données.

L'objectif est donc d'obtenir un DataFrame propre et facilement exploitable. En effet, les bases de données présentent très souvent ce genre de problèmes.


## Nettoyage d'un jeu de données
Les méthodes de la classe DataFrame utiles au nettoyage peuvent se regrouper dans trois catégories différentes:
* Gestion des doublons (méthodes ```duplicated``` et ```drop_duplicates```)
* Modification des éléments d'un DataFrame (méthodes ```replace```, ```rename``` et ```astype```)
* Opérations sur les valeurs d'un DataFrame (méthode apply et clause lambda)


### Gestion des doublons (méthodes ```duplicated``` et ```drop_duplicates```)
Les doublons sont des entrées identiques qui apparaissent plusieurs fois dans un dataset.

Quand nous découvrons un jeu de données il est très important de vérifier dès le départ qu'il n'y ait pas de doublons. La présence de doublons va générer des erreurs dans les calculs de statistiques ou le traçage de graphiques.

Soit df le DataFrame suivant :

|       |Age	|Sexe	|Taille|
|---    |---    |---    |---   |
|Robert	|56	    |M	    |174|
|Mark	|23	    |M	    |182|
|Alina	|32	    |F	    |169|
|Mark	|23	    |M	    |182|

La présence de doublons se vérifie à l'aide de la méthode duplicated d'un DataFrame:
```python
# On repère les lignes contenant des doublons
df.duplicated()

>>> 0  False
>>> 1  False
>>> 2  False
>>> 3  True
```

Cette méthode renvoie un objet de la classe Series de pandas, équivalente à une colonne d'un DataFrame, qui nous dit pour chaque ligne si elle est un doublon.

Dans cet exemple, le résultat de la méthode ```duplicated()``` nous informe que la ligne d'indice 3 est un doublon. C'est-à-dire que c'est la copie exacte d'une ligne précédente, dans ce cas la ligne 1.

Puisque la méthode duplicated nous renvoie un objet de la classe Series, nous pouvons lui appliquer la méthode sum pour compter le nombre de doublons:

```python
# Pour calculer la somme de booléens, on considère que True vaut 1 et False vaut 0.
print(df.duplicated().sum())
>>> 1
```

La méthode d'un DataFrame permettant de supprimer les doublons est ```drop_duplicates()```. Son en-tête est la suivante :
```python
drop_duplicates(subset, keep, inplace)
```

* Le paramètre ```subset``` indique la ou les colonnes à considérer pour identifier et supprimer les doublons. Par défaut, subset = None: on considère toutes les colonnes du DataFrame.
* Le paramètre ```keep``` indique quelle entrée doit être gardée :
    - *'first'*: On garde la première occurence.
    - *'last'* : On garde la dernière occurence
    - *'False'*: On ne garde aucune des occurences.
    Par défaut, keep = 'first'.
* Le paramètre ```inplace``` (très courant dans les méthodes de la classe DataFrame), précise si l'on modifie directement le DataFrame (dans ce cas inplace=True) ou si la méthode renvoie une copie du DataFrame (inplace=False). Une méthode appliquée avec l'argument inplace = True est irréversible. Par défaut, inplace = False.

**Il faut être très prudent avec l'utilisation du paramètre inplace. Une bonne pratique est d'oublier ce paramètre et d'affecter le DataFrame retourné par la méthode à un nouveau DataFrame.**

Le paramètre ```keep``` est celui qui est le plus souvent spécifié. En effet, une base de donnée peut avoir des doublons créés à des dates différentes. On spécifiera alors la valeur de l'argument keep pour ne garder que les entrées les plus récentes, par exemple.

Reprenons DataFrame df:

|       |Age	|Sexe	|Taille|
|-------|-------|-------|------|
|Robert	|56	    |M	    |174   |
|Mark	|23	    |M	    |182   |
|Alina	|32	    |F	    |169   |
|Mark	|23	    |M	    |182   |


Plusieurs exemples de la méthode ```drop_duplicates()``` en fonction de la valeur du paramètre keep:
```python
# On ne garde que la première occurence du doublon
df_first = df.drop_duplicates(keep = 'first')

# On ne garde que la dernière occurrence du doublon
df_last = df.drop_duplicates(keep = 'last')

# On ne garde aucun doublon
df_false = df.drop_duplicates(keep = 'False')


```

> Consigne:
> * Combien y a-t-il de doublons dans le DataFrame transactions ?

In [64]:
transactions.duplicated().sum()

13

Les transactions ont été enregistrée dans l'ordre antichronologique, c'est-à-dire que les premières lignes contiennent les transactions les plus récentes et les dernières lignes les transactions les plus anciennes.

>Consigne:
> * Éliminer les doublons de la base de données en ne gardant que la première occurrence.
> * À l'aide des paramètres ```subset``` et ```keep``` de la méthode ```drop_duplicate()``` de transactions, afficher la transaction la plus récente pour chaque catégorie de ```prod_cat_code```. Pour cela, vous pourrez enlever tousles premières occurrences.

In [198]:
transactions.drop_duplicates(keep = "first")

transactions.drop_duplicates(subset=["prod_cat_code"], keep = "first")

Unnamed: 0_level_0,cust_id,tran_date,prod_subcat_code,prod_cat_code,qty,rate,tax,total_amt,store_type
transaction_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
80712190438,270351,28-02-2014,1.0,1,-5,-772.0,405.3,-4265.3,e-Shop
29258453508,270384,27-02-2014,5.0,3,-5,-1497.0,785.925,-8270.925,e-Shop
51750724947,273420,24-02-2014,6.0,5,-2,-791.0,166.11,-1748.11,TeleShop
93274880719,271509,24-02-2014,11.0,6,-3,-1363.0,429.345,-4518.345,e-Shop
43134751727,268487,20-02-2014,3.0,2,-1,-611.0,64.155,-675.155,e-Shop
25963520987,274829,20-02-2014,4.0,4,3,502.0,158.13,1664.13,Flagship store


## Modification des éléments d'un DataFrame (méthodes replace, rename et astype)
La méthode ```replace()``` permet de remplacer une ou plusieurs valeurs d'une colonne d'un DataFrame.

Son en-tête est la suivante :
```python
replace(to_replace, value, ...)
```

Le paramètre ```to_replace``` contient la valeur ou la liste de valeurs à remplacer. Cela peut être une liste d'entiers, de chaînes de caractères, de booléens, etc.
Le paramètre ```value``` contient la valeur ou la liste de valeurs remplaçantes. Cela peut aussi être une liste d'entiers, de chaines de caractères, de booléens, etc.


## En plus de modifier les éléments d'un DataFrame, il est possible de renommer ses colonnes.

Cela est possible grâce à la méthode ```rename()``` qui prend en argument **un dictionnaire** dont les clés sont les **anciens noms** et les valeurs sont les **nouveaux noms**. Il faut aussi renseigner l'argument axis = 1 pour préciser que les noms à renommer sont ceux des colonnes.

```python
# Création du dictionnaire associant les anciens noms aux nouveaux noms de colonnes
dictionnaire = {'ancien_nom1': 'nouveau_nom1',
                'ancien_nom2': 'nouveau_nom2'}

# On renomme les variables grâce à la méthode rename
df = df.rename(dictionnaire, axis = 1)
```

## Il est parfois nécessaire de modifier non seulement le nom d'un colonne mais aussi son type.

Par exemple, il se peut que lors de l'importation d'une base de données une variable soit de type chaîne de caractères alors qu'elle est réellement de type numérique. Il suffit qu'une des entrées de la colonne soit mal reconnue et pandas considèrera que cette colonne est de type chaîne de caractères.

Cela est possible grâce à la méthode ```astype()```.

Les types que nous verrons le plus souvent sont:
* str : Chaîne de caractères ('Bonjour').
* float : Nombre à virgule flottante (1.0, 1.14123).
* int : Nombre entier (1, 1231)


Comme pour la méthode ```rename()```, ```astype()``` peut prendre en argument **un dictionnaire** dont les clés sont les noms des colonnes concernées et les valeurs sont les nouveaux types à assigner. Cela est pratique si l'on veut modifier le type de plusieurs colonnes en même temps.

Le plus souvent, on voudra directement sélectionner la colonne dont on veut modifier le type et l'écraser en lui appliquant la méthode astype.

```python
# Méthode 1 : Création d'un dictionnaire puis appel à la méthode astype du DataFrame
dictionnaire = {'col_1': 'int',
                'col_2': 'float'}
df = df.astype(dictionnaire)

# Méthode 2 : Séléction de la colonne puis appel à la méthode astype d'une Series
df['col_1'] = df['col_1'].astype('int')
```

**Ces méthodes disposent aussi du paramètre inplace pour effectuer l'opération directement sur le DataFrame. À utiliser avec grande prudence.**


>Consigne:
> * Importer ```numpy``` si ce n'est pas déjà fait (as np).
> * La valeur np.nan est celle qui encode une valeur manquante. Nous allons remplacer cette valeur par 0.
> * Remplacer les modalités ```['e-Shop', 'TeleShop', 'MBR', 'Flagship store',  np.nan]``` de la colonne **Store_type** par les modalités ```[1, 2, 3, 4, 0]```. On en profitera pour remplacer les ```nan``` de la colonne ```prod_subcat_code```.
> * La colonne ```tran-date```contient des dates sous format JJ-MM-AAAA et sous format JJ/MM/AAAA. Remplacer les ```/```par ```-```, afin d'uniformiser le contenu.
> * Convertir les colonnes ```Store_type``` et ```prod_subcat_code``` en type 'int'.
> * Renommer les colonnes ```Store_type```, ```Qty```, ```Rate``` et ```Tax``` avec ```store_type```, ```qty```, ```rate``` et ```tax```.

In [230]:
transactions[["Store_type","prod_cat_code"]] = transactions[["Store_type","prod_cat_code"]].replace(['e-Shop', 'TeleShop', 'MBR', 'Flagship store',  np.nan],[1, 2, 3, 4, 0])

transactions["tran_date"] = transactions["tran_date"].replace(r"/","-",regex = True)

dictionnaire = {'Store_type': 'int',
                'prod_subcat_code': 'int'}

transactions.astype(dictionnaire)

noms = {'Store_type': 'store_type',
        'Qty': 'qty',
        'Rate': 'rate',
        'Tax': 'tax'}

transactions = transactions.rename(noms, axis = 1)

KeyError: "['Store_type'] not in index"

En cas d'erreur, il faut vous pouvez réimporter refaire les premiers prétraitement :
```python
# Importation des données
transactions = pd.read_csv("Transactions_EDA_CNAM.csv", sep =',', index_col = "transaction_id")

# Suppression des doublons
transactions = transactions.drop_duplicates(keep = 'first')
```

# <font color='orange'>Fin partie</font>

# Opérations sur les valeurs d'un DataFrame (méthode apply et fonctions lambda)

Il intéressant de modifier ou agréger les informations des colonnes d'un DataFrame à l'aide d'une opération ou d'une fonction.

Ces opérations peuvent être tout type de fonction qui prend en argument une colonne. Ainsi, le module numpy est parfaitement adapté pour effectuer des opérations sur ce type d'objet.

La méthode permettant d'effectuer une opération sur une colonne est la méthode apply d'un DataFrame dont l'en-tête est:
```python
apply(func, axis, ...)
```
où :
* ```func``` est la fonction à appliquer à la colonne.
* ```axis``` est la dimension sur laquelle l'opération doit s'appliquer.

Pour chaque colonne de type numérique, nous voulons calculer la somme de toutes les lignes. La fonction sum de numpy effectue cette opération, ce qui nous permet de l'utiliser avec la méthode ```apply()```.

Puisque nous allons réaliser une opération sur les lignes, il faut donc préciser l'argument ```axis = 0``` dans la méthode ```apply()```.

```python
# Somme des lignes pour chaque COLONNE de df
df_lines = df.apply(np.sum, axis = 0)
```

Dans un second temps, nous voulons pour chaque ligne calculer la somme de toutes les colonnes.

Nous allons réaliser cette opération sur les colonnes, il faut donc préciser l'argument ```axis = 1``` dans la méthode ```appl`()```.

```python
# Somme des colonnes pour chaque LIGNE de df
df_columns = df.apply(np.sum, axis = 1)
```

Ces exemples illustrent l'utilisation de la méthode ```apply()```. Pour calculer une somme de lignes ou colonnes, il est préférable d'utiliser la méthode ```sum()``` d'un DataFrame ou d'une Series, qui se comporte exactement de la même façon que la méthode ```sum``` d'un array numpy.

La colonne ```tran_date``` de transactions contient les dates des transactions au format ('jour-mois-annee') (ex : '28-02-2014'). Ces dates sont de type chaîne de caractères: Il est impossible d'effectuer des statistiques sur cette variable pour l'instant.

Nous voudrions plutôt avoir dans 3 colonnes différentes pour les jours, mois et années de chaque transaction. Ceci nous permettrait par exemple d'analyser et détecter des tendances dans les dates de transaction.

La date '28-02-2014' est une chaîne de caractères. Le jour, le mois et l'année sont séparées par un tiret '-'. La classe des chaînes de caractères dispose de la méthode split pour découper une chaîne sur un caractère spécifique:

```python
date = '28-02-2014'

# Découpage de la chaîne sur le caractère '-'
print(date.split('-'))
>>> ['28', '02', '2014']
```

Cette méthode renvoie une liste contenant les découpes de la chaîne sur le caractère spécifié. Ainsi, pour récupérer le jour, il suffit de sélectionner le premier élément du découpage. Pour récupérer le mois, il faut prendre le deuxième élément et pour l'année le troisième.

>Consigne:
>* Définir une fonction ```get_day``` prenant en argument une chaîne de caractères et qui renvoie le premier élément de son découpage par le caractère '-'.
>* Définir les fonctions ```get_month``` et ```get_year``` qui font de même avec le deuxième et troisième élément du découpage.
>* Dans 3 variables ```days```, ```months``` et ```years```, stocker le résultat de la méthode ```apply()``` sur la colonne ```tran_date``` appliquée avec les fonctions ```get_day```, ```get_month``` et ```get_year```. Comme ces fonctions s'appliquent élément par élément, il n'est pas nécessaire de spécifier l'argument axis dans la méthode apply.
>* Créer les colonnes 'day', 'month' et 'year' dans le DataFrame et y stocker les valeurs de days, months et years. La création d'une nouvelle colonne se fait simplement en la déclarant:
>```python 
># Création d'une nouvelle colonne 'day' avec les valeurs contenue dans days.
>transactions['day'] = days
>```
>* Afficher les 5 premières lignes de transactions.

In [97]:
def get_day(date) :
    return(date.split("-")[0])

def get_month(date) :
    return(date.split("-")[1])

def get_year(date) :
    return(date.split("-")[2])

days = transactions["tran_date"].apply(lambda x : int(get_day(x)))

months = transactions["tran_date"].apply(lambda x : int(get_month(x)))

years = transactions["tran_date"].apply(lambda x : int(get_year(x)))

transactions['day'] = days

transactions['month'] = months

transactions['year'] = years

transactions.head(5)

Unnamed: 0_level_0,cust_id,tran_date,prod_subcat_code,prod_cat_code,qty,rate,tax,total_amt,store_type,day,month,year
transaction_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
80712190438,270351,28-02-2014,1,1,-5,-772,405.3,-4265.3,1,28,2,2014
29258453508,270384,27-02-2014,5,3,-5,-1497,785.925,-8270.925,1,27,2,2014
51750724947,273420,24-02-2014,6,5,-2,-791,166.11,-1748.11,2,24,2,2014
93274880719,271509,24-02-2014,11,6,-3,-1363,429.345,-4518.345,1,24,2,2014
51750724947,273420,23-02-2014,6,5,-2,-791,166.11,-1748.11,2,23,2,2014


# La méthode apply est très puissante lorsqu'elle est associée à une fonction lambda.

Les fonctions lambda permettent de définir des fonctions avec une syntaxe très courte.

La définition classique d'une fonction se fait avec la clause def:
```python
def increment(x): 
   return x+1
```

Il est aussi possible de définir une fonction avec la clause lambda:
```python
increment = lambda x: x+1
```

La première est très propre mais l'avantage de la seconde est de pouvoir être **définie directement** au sein de la méthode apply.

Ainsi, l'exercice précédent peut être fait avec une syntaxe très compacte:
```python
transactions['day'] = transactions['tran_date'].apply(lambda date: date.split('-')[0])
```

Ce genre de syntaxe est très pratique et très souvent utilisée pour le nettoyage de bases de données.

La colonne prod_subcat_code de transactions dépend de la colonne prod_cat_code car elle désigne une sous-catégorie de produit. Il serait plus logique d'avoir la catégorie et sous-catégorie d'un produit dans la même variable.

Pour cela, nous allons fusionner les valeurs de ces deux colonnes:
* Nous allons d'abord convertir les valeurs de ces deux colonnes en chaîne de caractères à l'aide de la méthode astype.
* Ensuite, nous allons concaténér ces chaînes pour avoir un unique code représentant la catégorie et sous-catégorie. Ceci peut se faire de la façon suivante:

```python
chaine1 = "Je pense"
chaine2 = "donc je suis."

# Concaténation des deux chaînes en les séparant par un espace
print(chaine1 + " " + chaine2)
>>> Je pense donc je suis.
```

Pour appliquer une fonction lambda sur une ligne entière, il faut spécifier l'argument ```axis = 1``` dans la méthode apply. Dans la fonction elle-même, les colonnes de la ligne peuvent être accédées comme sur un DataFrame:
```python
# Calcul du prix unitaire d'une produit
transactions.apply(lambda row: row['total_amt'] / row['qty'], axis = 1)
```


> Consigne:
> * À l'aide d'une fonction ```lambda``` appliquée sur transactions, créer une colonne ```'prod_cat'``` dans transactions contenant la concaténation des valeurs de ```prod_cat_code``` et ```prod_subcat_code``` séparées par un tiret '-'. *N'oubliez pas de convertir les valeurs en chaînes de caractères.*


In [231]:
transactions["prod_cat"] = transactions.astype("str").apply(lambda row: row["prod_cat_code"] + "-" + row["prod_subcat_code"], axis=1)
transactions.head(5)

Unnamed: 0_level_0,cust_id,tran_date,prod_subcat_code,prod_cat_code,qty,rate,tax,total_amt,store_type,prod_cat
transaction_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
80712190438,270351,28-02-2014,1.0,1,-5,-772.0,405.3,-4265.3,e-Shop,1-1.0
29258453508,270384,27-02-2014,5.0,3,-5,-1497.0,785.925,-8270.925,e-Shop,3-5.0
51750724947,273420,24-02-2014,6.0,5,-2,-791.0,166.11,-1748.11,TeleShop,5-6.0
93274880719,271509,24-02-2014,11.0,6,-3,-1363.0,429.345,-4518.345,e-Shop,6-11.0
51750724947,273420,23-02-2014,6.0,5,-2,-791.0,166.11,-1748.11,TeleShop,5-6.0


# <font color='orange'>Fin partie</font>

# Gestion des valeurs manquantes

Une valeur manquante est soit :
* Une valeur non renseignée.
* Une valeur qui n'existe pas. En général, elles sont issues de calculs mathématiques n'ayant pas de solution (une division par zéro par exemple).
* Une valeur manquante apparaît sous la dénomination NaN ("Not a Number") dans un DataFrame.

Il existe plusieurs méthodes pour:
* La détection des valeurs manquantes (méthodes ```isna()``` et ```any()```)
* Le remplacement de ces valeurs (méthode ```fillna()```)
* La suppression des valeurs manquantes (méthode ```dropna()```)

Précédemment nous avons utilisé la méthode replace de transactions pour remplacer les valeurs manquantes par 0. Cette approche manque de rigueur et il ne faut pas procéder de cette façon en pratique.

Pour cette raison, nous allons réimporter la version brute de transactions pour annuler les étapes que nous avons faites dans les exercices précédents.

Lancer la cellule suivante pour réimporter transactions, enlever les doublons et renommer ses colonnes.

In [143]:
transactions = pd.read_csv("Transactions_EDA_CNAM.csv", sep = ",", header = 0, index_col = 0)

transactions.drop_duplicates(keep="first")

noms = {'Store_type': 'store_type',
        'Qty': 'qty',
        'Rate': 'rate',
        'Tax': 'tax'}

transactions = transactions.rename(noms, axis = 1)


# Détection des valeurs manquantes (méthodes ```isna()``` et ```any()``` )

La méthode ```isna``` d'un DataFrame détecte ses valeurs manquantes. Cette méthode ne prend pas d'arguments.

Cette méthode retourne le même DataFrame dont les valeurs sont:

True si la case du tableau originale est une valeur manquante (np.nan)
False sinon.

Puisque la méthode ```isna``` renvoie un DataFrame, nousd'autres méthodes de la classe DataFrame pour avoir des informations plus précises:
* La méthode ```any()``` avec son argument ```axis``` permet de déterminer quelles colonnes (axis = 0) ou quelles lignes (axis = 1) contiennent au moins une valeur manquante.
* La méthode ```sum()``` compte le nombre de valeurs manquantes par colonne ou lignes (en spécifiant l'argument axis). Il est possible d'utiliser d'autres méthodes statistiques comme mean, max, argmax, etc..


On reprend le DataFrame df de l'illustration précédente:

|   |Nom	|Pays	    |Age|
|---|-------|-----------|---|
|0	|NaN	|Australie	|NaN|
|1	|Duchamp|France	    |25|
|2	|Hana	|Japon	    |54|

L'instruction ```df.isna()``` renvoie :

|   |Nom	|Pays	|Age|
|---|-------|-------|---|
|0	|True	|False	|True|
|1	|False	|False	|False|
|2	|False	|False	|False|

```python
# On détecte les COLONNES contenant au moins une valeur manquante
df.isna().any(axis = 0)
>>> Nom      True
>>> Pays     False
>>> Age      True

# On détecte les LIGNES contenant au moins une valeur manquante
df.isna().any(axis = 1)
>>> 0     True
>>> 1    False
>>> 2    False

# On utilise l'indexation conditionnelle pour afficher les entrées contenant des valeurs manquantes
df[df.isna().any(axis = 1)]

```
ce qui renvoie le DataFrame:

|   |Nom	|Pays	    |Age|
|---|-------|-----------|---|
|0	|NaN	|Australie	|NaN|

```python
# On compte le nombre de valeurs manquantes pour chaque COLONNE
df.isnull().sum(axis = 0) #Les fonctions isnull et isna sont strictement équivalentes
>>> Nom     1
>>> Pays    0
>>> Age     1

# On compte le nombre de valeurs manquantes pour chaque LIGNE
df.isnull().sum(axis = 1)
>>> 0    2
>>> 1    0
>>> 2    0
```

> Consigne :
> * Combien de colonnes du DataFrame transactions contiennent des valeurs manquantes?
> * Combien d'entrées de transactions contiennent des valeurs manquantes? Vous pourrez suivre la méthode any avec la méthode sum.
> * Quelle colonne de transactions contient le plus de valeurs manquantes?
> * Afficher les entrées de transactions qui contiennent au moins une valeur manquante dans les colonnes 'rate', 'tax' et 'total_amt'. Que remarquez-vous?

In [216]:
print("Nombre de colonnes avec des NaN : ", transactions.isna().any(axis = 0).sum())

print("Nombre de lignes avec des NaN : ",transactions.isna().any(axis = 1).sum())

display(transactions.isna().sum())

display(transactions[transactions[["rate","tax","total_amt"]].isna().any(axis=1)])

Nombre de colonnes avec des NaN :  2
Nombre de lignes avec des NaN :  34


cust_id              0
tran_date            0
prod_subcat_code     0
prod_cat_code        0
qty                  0
rate                19
tax                 15
total_amt            0
store_type           0
dtype: int64

Unnamed: 0_level_0,cust_id,tran_date,prod_subcat_code,prod_cat_code,qty,rate,tax,total_amt,store_type
transaction_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
6217331495,269763,1-12-2013,10.0,6,5,840.0,,4641.0,TeleShop
53803685570,272547,7-11-2013,1.0,4,3,,286.02,3010.02,TeleShop
2786744954,269586,22-10-2013,2.0,6,5,,166.425,1751.425,TeleShop
37441945287,269387,21-09-2013,9.0,3,-4,,593.88,-6249.88,e-Shop
61593722890,272497,12-9-2013,7.0,5,1,,132.51,1394.51,TeleShop
71429640542,270034,20-08-2013,11.0,6,3,1232.0,,4084.08,TeleShop
74440785354,270331,12-8-2013,4.0,2,3,,294.84,3102.84,e-Shop
85482309207,273711,5-7-2013,2.0,6,1,328.0,,362.44,e-Shop
90695576844,270328,24-06-2013,10.0,3,-2,-1298.0,,-2868.58,MBR
13876007674,273853,14-05-2013,3.0,1,4,838.0,,3703.96,MBR


# Remplacement des valeurs manquantes (méthode ```fillna()```)
La méthode ```fillna()``` permet de remplacer les valeurs manquantes d'un DataFrame par des valeurs de notre choix.

```python
# On remplace tous les NANs du DataFrame par des zéros
 df.fillna(0) 

# On remplace les NANs de chaque colonne numérique par la moyenne sur cette colonne
 df.fillna(df.mean())  # df.mean() peut être remplacée par n'importe quelle méthode statistique.
```

Il est courant de remplacer les valeurs manquantes d'une colonne de **type numérique** avec des statistiques comme :
* La moyenne: mean
* La médiane: median
* Le minimum/maximum : min/max.

Pour les colonnes de **type catégorielle**, on remplacera les valeurs manquantes avec :
* Le mode, *i.e. la modalité la plus fréquente*: ```mode```.
* Une constante ou catégorie arbitraire : 0, -1.

Pour éviter de faire des erreurs de remplacement, il est fortement conseillé de sélectionner les bonnes colonnes avant d'utiliser la méthode fillna.

En cas d'erreurs il faut instancer à nouveau transactions à l'aide de :
```python
# Importation des données
transactions = pd.read_csv("Transactions_EDA_CNAM.csv", sep =',', index_col = "transaction_id")

# Suppression des doublons, uniformisation de la date
transactions = transactions.drop_duplicates(keep = 'first')

transactions['tran_date'] = transactions['tran_date'].replace(r'/', '-', regex=True)

# Changement de nom des colonnes
new_names =  {'Store_type' : 'store_type',
              'Qty'        : 'qty',
              'Rate'       : 'rate',
              'Tax'        : 'tax'}

transactions = transactions.rename(new_names, axis = 1)

seed(423)
def add_nan(df, colname):
    for i in range(randint(0, 20)):
        nb = randint(0, len(transactions))
        df[colname].iloc[nb] = np.nan
    
add_nan(transactions, 'store_type')
add_nan(transactions, 'rate')
add_nan(transactions, 'prod_subcat_code')
add_nan(transactions, 'total_amt')
add_nan(transactions, 'tax')

```


> Consignes:
> * Remplacer les valeurs manquantes de la colonne ```prod_subcat_code``` de ```transactions``` par -1.
> * Déterminer la modalité la plus fréquente (le mode) de la colonne ```store_type``` de transactions.
> * Remplacer les valeurs manquantes de la colonne ```store_type``` par cette modalité. La valeur de cette modalité s'accède à l'indice 0 de la Series renvoyée par mode.
> * Vérifier que les colonnes ```prod_subcat_code``` et ```store_type``` de transactions ne contiennent plus de valeurs manquantes

In [207]:
from random import seed, randint

# Importation des données
transactions = pd.read_csv("Transactions_EDA_CNAM.csv", sep =',', index_col = "transaction_id")

# Suppression des doublons, uniformisation de la date
transactions = transactions.drop_duplicates(keep = 'first')

transactions['tran_date'] = transactions['tran_date'].replace(r'/', '-', regex=True)

# Changement de nom des colonnes
new_names =  {'Store_type' : 'store_type',
              'Qty'        : 'qty',
              'Rate'       : 'rate',
              'Tax'        : 'tax'}

transactions = transactions.rename(new_names, axis = 1)

seed(423)
def add_nan(df, colname):
    for i in range(randint(0, 20)):
        nb = randint(0, len(transactions))
        df[colname].iloc[nb] = np.nan
    
add_nan(transactions, 'store_type')
add_nan(transactions, 'rate')
add_nan(transactions, 'prod_subcat_code')
add_nan(transactions, 'total_amt')
add_nan(transactions, 'tax')

transactions["prod_subcat_code"] = transactions["prod_subcat_code"].fillna(-1)

mode = transactions["store_type"].mode()[0]

print("Mode de 'store_type' : ",mode, "\n")

transactions["store_type"] = transactions["store_type"].fillna(mode)

print(transactions[["prod_subcat_code","store_type"]].isna().sum())

Mode de 'store_type' :  e-Shop 

prod_subcat_code    0
store_type          0
dtype: int64


# Suppression des valeurs manquantes (méthode ```dropna()```)

La méthode ```dropna()``` permet de supprimer les lignes ou colonnes contenant des valeurs manquantes.

L'en-tête de la méthode est la suivante : ```dropna(axis, how, subset, ..)```
* Le paramètre ```axis``` précise si on doit supprimer des lignes ou des colonnes (0 pour les lignes, 1 pour les colonnes).
* Le paramètre ```how``` permet de préciser comment les lignes (ou les colonnes) sont supprimées :
    * *how = 'any'*: On supprime la ligne (ou colonne) si elle contient au moins une valeur manquante.
    * *how = 'all'* : On supprime la ligne (ou colonne) si elle ne contient que des valeurs manquantes.
* Le paramètre ```subset``` permet de préciser les colonnes/lignes sur lesquelles on effectue la recherche de valeurs manquantes.

Exemple :
```python
# On supprime toutes les lignes contenant au moins une valeur manquante
df = df.dropna(axis = 0, how = 'any')

# On supprime les colonnes vides 
df = df.dropna(axis = 1, how = 'all') 

# On supprime les lignes ayant des valeurs manquantes dans les 3 colonnes 'col2','col3' et 'col4'
 df.dropna(axis = 0, how = 'all', subset = ['col2','col3','col4'])
```

**Comme pour les autres méthodes de remplacement de valeurs d'un DataFrame, l'argument inplace peut être utilisé avec grande précaution pour effectuer la modification directement sans réassignation.**




> Consignes:
> * Les données de transactions pour lesquelles le montant de la transaction n'est pas renseigné ne sont pas intéressantes.
> * Supprimer les entrées de transactions pour lesquelles les colonnes ```rate```, ```tax``` et ```total_amt``` sont simultanément vides.
> * Vérifier que les colonnes de transactions ne contiennent plus de valeurs manquantes.

In [214]:
transactions = transactions.dropna(axis = 0, how = "all", subset = ["rate","tax","total_amt"])

transactions = transactions.dropna(axis = 0, how = "any", subset = ["total_amt"])

print(transactions.isna().sum())

cust_id              0
tran_date            0
prod_subcat_code     0
prod_cat_code        0
qty                  0
rate                19
tax                 15
total_amt            0
store_type           0
dtype: int64


# Résumons !

Nous avons vu les premières étapes du traitement de la donnée.
Il est important de se souvenir de ces étapes que vous retrouverez probablement très fréquemment dans vos missions futures. Ces premières étapes sont cruciales au bon déroulé de vos analyses à venir, que ce soit pour décrire vos données ou lancer vos premiers modèles.

> Consigne : Pour faciliter les premières étapes d'analyse, construisons une fonction qui retourne une dataframe dont qui prend chaque colonne de notre df original et qui retourne à chaque fois :
> * Utilise le nom des colonnes comme index.
> * Indique quel est le type de données (int, float....)
> * Compte le nombre de valeurs manquantes
> * Compte le nombre de valeurs uniques.
> * Retourne dans 3 colonnes les valeurs respectives des 3 premières lignes de la df originale

In [283]:

def desc_df(df) :
    print("Format de la base : {}".format(df.shape))
    index = df.columns

    cols = ["type","nb_nan","nb_unique","v1","v2","v3"]

    df_base = []

    for i in index :
        x = df[i]

        df_base.append([x.dtypes,x.isna().sum(),x.nunique(),x.iloc[0], x.iloc[1], x.iloc[2]])

    df_return = pd.DataFrame(df_base, columns=cols, index = index)

    return(df_return)

desc_df(transactions)

Format de la base : (23036, 10)


Unnamed: 0,type,nb_nan,nb_unique,v1,v2,v3
cust_id,int64,0,5506,270351,270384,273420
tran_date,object,0,1129,28-02-2014,27-02-2014,24-02-2014
prod_subcat_code,float64,0,13,1,5,6
prod_cat_code,int64,0,6,1,3,5
qty,int64,0,10,-5,-5,-2
rate,float64,19,2551,-772,-1497,-791
tax,float64,15,4194,405.3,785.925,166.11
total_amt,float64,0,5763,-4265.3,-8270.92,-1748.11
store_type,object,0,4,e-Shop,e-Shop,TeleShop
prod_cat,object,0,28,1-1.0,3-5.0,5-6.0
