---

<center>

# **Python pour la Science des Donn√©es**

### *Traitement des Donn√©es*

</center>

---

<center>

## **üìñ Introduction**

</center>

---


Le pr√©traitement des donn√©es peut se r√©sumer en 4 op√©rations essentielles : **filtrage, jointure, tri et regroupement**.

La structure **DataFrame** est devenue la norme pour la manipulation de donn√©es car, dans la plupart des cas, il suffit de r√©p√©ter ou de combiner ces quatre op√©rations.

Dans cet exercice, vous apprendrez √† utiliser ces 4 m√©thodes de pr√©traitement des donn√©es.

Avant de commencer ce notebook, ex√©cutez la cellule suivante afin de r√©cup√©rer le travail effectu√© dans les notebooks pr√©c√©dents.

In [1]:
### Import ###

import pandas as pd

# Importer le jeu de donn√©es
transactions = pd.read_csv("transactions.csv", sep=';', index_col="transaction_id")

# Supprimer les doublons
transactions = transactions.drop_duplicates(keep='first')

# Renommer les colonnes
nouveaux_noms = {'Store_type': 'type_magasin',
                 'Qty': 'quantite',
                 'Rate': 'prix',
                 'Tax': 'taxe'}

transactions = transactions.rename(nouveaux_noms, axis=1)

### Gestion des valeurs manquantes (NAs) ###

# Remplacer les NaN dans 'prod_subcat_code' par -1
transactions['prod_subcat_code'] = transactions['prod_subcat_code'].fillna(-1).astype("int")

# Obtenir la valeur la plus fr√©quente de 'store_type'
mode_type_magasin = transactions['type_magasin'].mode()

# Remplacer les NaN dans 'type_magasin' par sa valeur la plus fr√©quente
transactions['type_magasin'] = transactions['type_magasin'].fillna(transactions['type_magasin'].mode()[0])

# Supprimer les lignes o√π 'prix', 'taxe' et 'total_amt' sont tous manquants
transactions = transactions.dropna(axis=0, how='all', subset=['prix', 'taxe', 'total_amt'])

---

<center>

## **üìñ Filtrer un DataFrame avec des op√©rateurs binaires**

</center>

---


Le filtrage consiste √† s√©lectionner un sous-ensemble de lignes d'un DataFrame qui satisfont une condition.  
C'est ce que nous appelions pr√©c√©demment *indexation conditionnelle*, mais le terme *filtrage* est le plus couramment utilis√© en gestion de bases de donn√©es.  

Nous ne pouvons pas utiliser les op√©rateurs logiques `and` et `or` lors du filtrage avec plusieurs conditions.  
Ces op√©rateurs cr√©ent une ambigu√Øt√© que **pandas** ne peut pas g√©rer lors du filtrage des lignes.  

Les op√©rateurs adapt√©s au filtrage avec plusieurs conditions sont les **op√©rateurs binaires** :

- L'op√©rateur 'and' : `&`  
- L'op√©rateur 'or' : `|`  
- L'op√©rateur 'not' : `~`  

Ces op√©rateurs sont similaires aux op√©rateurs logiques, mais leurs m√©thodes d‚Äô√©valuation ne sont pas les m√™mes.  

---

### L'op√©rateur 'and' : `&`

L'op√©rateur `&` est utilis√© pour filtrer un DataFrame avec plusieurs conditions qui doivent toutes √™tre satisfaites simultan√©ment.  

**Exemple :**  

Consid√©rons le DataFrame `df` suivant contenant des informations sur des appartements √† Paris :

| neighborhood     | year  | surface |
|------------------|-------|---------|
| 'Champs-Elys√©es' | 1979  | 70      |
| 'Europe'         | 1850  | 110     |
| 'P√®re-Lachaise'  | 1935  | 55      |
| 'Bercy'          | 1991  | 30      |

Si nous voulons trouver un appartement construit en **1979** et ayant une surface sup√©rieure √† **60 m¬≤**, nous pouvons filtrer les lignes de `df` avec le code suivant :


```python
# Filtrer le DataFrame avec les 2 conditions pr√©c√©dentes
print(df[(df['year'] == 1979) & (df['surface'] > 60)])

>>>       neighborhood   year  surface
>>> 0   Champs-Elys√©es  1979       70
```
Les conditions doivent √™tre entour√©es de parenth√®ses pour √©viter toute ambigu√Øt√© dans l‚Äôordre d‚Äô√©valuation.  
En effet, si les conditions ne sont pas correctement s√©par√©es, nous obtiendrons l‚Äôerreur suivante :

```python
print(df[df['year'] == 1979 & df['surface'] > 60])

>>> ValueError: The truth value of a Series is ambiguous.
>>> Use a.empty, a.bool(), a.item(), a.any() or a.all().
```

### L'op√©rateur 'or' : `|`

L'op√©rateur `|` est utilis√© pour filtrer un DataFrame avec plusieurs conditions o√π au moins l'une d'elles doit √™tre satisfaite.  

**Exemple :**  

Prenons le m√™me DataFrame `df` :  

| neighborhood       | year | surface (m¬≤) |
|--------------------|------|--------------|
| 'Champs-Elys√©es'   | 1979 | 70           |
| 'Europe'           | 1850 | 110          |
| 'P√®re-Lachaise'    | 1935 | 55           |
| 'Bercy'            | 1991 | 30           |

Si nous voulons trouver un appartement construit **apr√®s 1900** ou situ√© dans le quartier **P√®re-Lachaise**, nous pouvons filtrer les lignes de `df` avec le code suivant :

```python
# Filtrer le DataFrame avec les 2 conditions pr√©c√©dentes
print(df[(df['year'] > 1900) | (df['neighborhood'] == 'P√®re-Lachaise')])

>>>     neighborhood    year  surface
>>> 0  Champs-Elys√©es   1979       70
>>> 2  P√®re-Lachaise    1935       55
>>> 3           Bercy   1991       30
````

### L'op√©rateur 'not' : `~`

L'op√©rateur `~` est utilis√© pour filtrer un DataFrame selon une condition dont la **n√©gation** doit √™tre satisfaite.  

**Exemple :**  

Prenons le m√™me DataFrame `df` :   

| neighborhood       | year | surface (m¬≤) |
|--------------------|------|--------------|
| 'Champs-Elys√©es'   | 1979 | 70           |
| 'Europe'           | 1850 | 110          |
| 'P√®re-Lachaise'    | 1935 | 55           |
| 'Bercy'            | 1991 | 30           |

Si nous voulons un appartement **qui n‚Äôest pas situ√© dans le quartier Bercy**, nous pouvons filtrer `df` comme suit :

```python
# Filtrer le DataFrame pour exclure le quartier Bercy
print(df[~(df['neighborhood'] == 'Bercy')])

>>>     neighborhood    year  surface
>>> 0  Champs-Elys√©es   1979       70
>>> 1          Europe   1850      110
>>> 2  P√®re-Lachaise    1935       55
```

<center>

### **üîç Exemple : Filtrage avec conditions**

</center>

---

- (a) Afficher les 5 premi√®res lignes du DataFrame `transactions`.  
- (b) √Ä partir de `transactions`, cr√©er un DataFrame nomm√© `e_shop` ne contenant que les transactions r√©alis√©es dans les magasins de type `'e-Shop'` avec un montant total sup√©rieur √† 5000 (colonnes : `store_type` et `total_amt`).  
- (c) De la m√™me mani√®re, cr√©er un DataFrame nomm√© `teleshop` ne contenant que les transactions r√©alis√©es dans les magasins de type `'TeleShop'` avec un montant total sup√©rieur √† 5000.  
- (d) Parmi ces deux types de magasins, lequel a le plus grand nombre de transactions sup√©rieures √† 5000 ‚Ç¨ ?

In [None]:
# TODO

<center>

### **üîç Exemple : Gestion des valeurs manquantes**

</center>

---

- (a) Importer les donn√©es des fichiers `'customer.csv'` et `'prod_cat_info.csv'` dans deux DataFrames nomm√©s respectivement `customer` et `prod_cat_info`.  

- (b) Les colonnes `Gender` et `city_code` dans `customer` contiennent chacune deux valeurs manquantes. Remplacez-les par leur mode en utilisant les m√©thodes `fillna` et `mode`.



In [None]:
# TODO

## Combiner des DataFrames avec `concat`

La fonction `concat` du module **pandas** permet de concat√©ner plusieurs DataFrames, c‚Äôest-√†-dire de les empiler **verticalement** ou **horizontalement**.  

La signature de la fonction est la suivante : `pandas.concat(objs, axis=...)`  

- Le param√®tre `objs` contient la liste des DataFrames √† concat√©ner.  
- Le param√®tre `axis` indique s‚Äôil faut concat√©ner **verticalement** (`axis=0`) ou **horizontalement** (`axis=1`).  

Lorsque le nombre de lignes ou de colonnes des DataFrames ne correspond pas, la fonction `concat` remplit les cellules manquantes avec `NaN`, comme illustr√© ci-dessous.

<center>

### **üîç Exemple : Concat√©ner des DataFrames**

</center>

---

- (a) S√©parer les variables (colonnes) du DataFrame `transactions` en deux, avec la moiti√© des colonnes dans un DataFrame nomm√© `part_1` et l‚Äôautre moiti√© dans un DataFrame nomm√© `part_2`.  
- (b) Reconstruire `transactions` dans un DataFrame nomm√© `union` en concat√©nant `part_1` et `part_2`.  
- (c) Que se passe-t-il si nous concat√©nons `part_1` et `part_2` en utilisant l‚Äôargument `axis=0` ?

In [None]:
# TODO

## Fusionner des DataFrames avec la m√©thode `merge`

Deux DataFrames peuvent √™tre fusionn√©s s'ils ont une colonne en commun.  
Cela se fait √† l'aide de la m√©thode `merge` d'un DataFrame, qui a la signature suivante :

`merge(right, on, how, ...)`

- Le param√®tre `right` est le DataFrame avec lequel fusionner le DataFrame appelant.  
- Le param√®tre `on` est le nom des colonnes des DataFrames qui serviront de r√©f√©rence pour la fusion. Ces colonnes doivent exister dans les deux DataFrames.  
- Le param√®tre `how` sp√©cifie le type de jointure √† effectuer pour fusionner les DataFrames. Ses valeurs sont bas√©es sur la syntaxe SQL des jointures.  

Le param√®tre `how` peut prendre 4 valeurs (`'inner'`, `'outer'`, `'left'`, `'right'`), illustr√©es avec les deux DataFrames suivants `Persons` et `Vehicle` :

**Persons**

| Name     | Car        |
|----------|------------|
| Lila     | Twingo     |
| Tiago    | Clio       |
| Berenice | C4 Cactus  |
| Joseph   | Twingo     |
| Kader    | Swift      |
| Romy     | Scenic     |

**Vehicle**

| Car       | Price  |
|-----------|--------|
| Twingo    | 11000  |
| Swift     | 14500  |
| C4 Cactus | 23000  |
| Clio      | 16000  |
| Prius     | 30000  |

- `'inner'` : C'est la valeur par d√©faut de `how`. Une jointure interne retourne uniquement les lignes o√π les valeurs des colonnes communes existent dans les deux DataFrames. Ce type de jointure est souvent d√©conseill√© car il peut g√©n√©rer beaucoup de valeurs manquantes, mais il produit **aucun NaN**.  

    Exemple : `Persons.merge(right=Vehicle, on='Car', how='inner')`  

- `'outer'` : Une jointure externe fusionne toutes les lignes des deux DataFrames. Aucune ligne n‚Äôest supprim√©e. Cette m√©thode peut g√©n√©rer beaucoup de NaN.  

    Exemple : `Persons.merge(right=Vehicle, on='Car', how='outer')`  

- `'left'` : Une jointure gauche retourne toutes les lignes du DataFrame de gauche et les compl√®te avec les lignes correspondantes du DataFrame de droite selon la colonne commune.  

    Exemple : `Persons.merge(right=Vehicle, on='Car', how='left')`  

- `'right'` : Une jointure droite retourne toutes les lignes du DataFrame de droite et les compl√®te avec les lignes correspondantes du DataFrame de gauche selon la colonne commune.  

    Exemple : `Persons.merge(right=Vehicle, on='Car', how='right')`  

Effectuer une jointure gauche, droite ou externe suivie de `dropna(how='any')` est √©quivalent √† une jointure interne.


<center>

### **üîç Example: Merging transactions with customer data**

</center>

---

The `customer` DataFrame contains information about clients corresponding to the `'cust_id'` column in `transactions`.  

The `'customer_Id'` column in the `customer` DataFrame will allow us to join `transactions` and `customer`.  
This will enrich the `transactions` dataset with additional information.  

- (a) Using the `rename` method and a dictionary, rename the `'customer_Id'` column in the `customer` DataFrame to `'cust_id'`.  
- (b) Using the `merge` method, perform a **left join** between `transactions` and `customer` on the `'cust_id'` column. Name the resulting DataFrame `fusion`.  
- (c) Did the merge produce any `NaN` values?  
- (d) Display the first rows of `fusion`. What are the new columns?

In [None]:
# TODO

## R√©initialiser et d√©finir l‚Äôindex d‚Äôun DataFrame

La fusion a r√©ussi et n‚Äôa produit aucun NaN. Cependant, l‚Äôindex du DataFrame obtenu n‚Äôest plus la colonne `'transaction_id'` et a √©t√© r√©initialis√© √† l‚Äôindex par d√©faut (0, 1, 2, ...).  

Il est possible de **red√©finir l‚Äôindex** d‚Äôun DataFrame en utilisant la m√©thode `set_index`.  

Cette m√©thode peut prendre en argument :

- Le nom d‚Äôune colonne √† utiliser comme index.  
- Un tableau Numpy ou une Series pandas ayant le m√™me nombre de lignes que le DataFrame appelant.  

**Exemple :**  

Soit le DataFrame `df` suivant :

| Name     | Car        |
|----------|------------|
| Lila     | Twingo     |
| Tiago    | Clio       |
| Berenice | C4 Cactus  |
| Joseph   | Twingo     |
| Kader    | Swift      |
| Romy     | Scenic     |

Nous pouvons d√©finir la colonne `'Name'` comme nouvel index :

```python
df = df.set_index('Name')
```

Cela produira le DataFrame suivant :

| Name     | Car        |
|----------|------------|
| Lila     | Twingo     |
| Tiago    | Clio       |
| Berenice | C4 Cactus  |
| Joseph   | Twingo     |
| Kader    | Swift      |
| Romy     | Scenic     |

Nous pouvons √©galement d√©finir l‚Äôindex √† l‚Äôaide d‚Äôun tableau Numpy, d‚Äôune Series, etc.

```python
# NOuveau index √† utiliser
new_index = ['10000' + str(i) for i in range(6)]
print(new_index)
>>> ['100000', '100001', '100002', '100003', '100004', '100005']

index_series = pd.Series(new_index)
df = df.set_index(index_series)
```

Cela produira le DataFrame suivant :

|       | Name     | Car        |
|-------|----------|------------|
| 100000| Lila     | Twingo     |
| 100001| Tiago    | Clio       |
| 100002| Berenice | C4 Cactus  |
| 100003| Joseph   | Twingo     |
| 100004| Kader    | Swift      |
| 100005| Romy     | Scenic     |

Pour revenir √† l‚Äôindexation num√©rique par d√©faut, utilisez la m√©thode `reset_index` du DataFrame :

```python
df = df.reset_index()
```

L‚Äôancien index n‚Äôest pas supprim√©. Une nouvelle colonne est cr√©√©e contenant l‚Äôancien index :

|       | index    |   Name     |   Car     |
|-------|----------|------------|-----------|
| 0     | 100000   | Lila       | Twingo    |
| 1     | 100001   | Tiago      | Clio      |
| 2     | 100002   | Berenice   | C4 Cactus |
| 3     | 100003   | Joseph     | Twingo    |
| 4     | 100004   | Kader      | Swift     |
| 5     | 100005   | Romy       | Scenic    |


<center>

### **üîç Exemple : R√©tablir l‚Äôindex apr√®s une fusion**

</center>

---

La fusion entre `transactions` et `customer` a supprim√© l‚Äôindex de `transactions`.  

L‚Äôindex d‚Äôun DataFrame peut √™tre r√©cup√©r√© gr√¢ce √† son attribut `.index`.  

- (a) R√©cup√©rer l‚Äôindex de `transactions` et l‚Äôutiliser pour d√©finir l‚Äôindex de `fusion`.

In [None]:
# TODO

## Trier un DataFrame : m√©thodes `sort_values` et `sort_index`

La m√©thode `sort_values` permet de trier les lignes d‚Äôun DataFrame en fonction des valeurs d‚Äôune ou plusieurs colonnes.  

La signature de la m√©thode est : `sort_values(by, ascending, ...)`

- Le param√®tre `by` sp√©cifie la ou les colonnes sur lesquelles effectuer le tri.  
- Le param√®tre `ascending` est un bool√©en (`True` ou `False`) qui d√©termine si le tri est croissant ou d√©croissant. Par d√©faut, il est √† `True`.  

**Exemple :**  

Consid√©rons le DataFrame `df` suivant d√©crivant des √©tudiants :

| FirstName | Grade | BonusPoints |
|-----------|-------|-------------|
| 'Amelie'  | A     | 1           |
| 'Marin'   | F     | 1           |
| 'Pierre'  | A     | 2           |
| 'Zoe'     | C     | 1           |

Tout d‚Äôabord, nous allons trier selon une seule colonne, par exemple la colonne `'BonusPoints'` :

```python
# Sort the DataFrame df by the 'BonusPoints' column
df_sorted = df.sort_values(by='BonusPoints', ascending=True)
```
Le r√©sultat sera le suivant :

| FirstName | Grade | BonusPoints |
|-----------|-------|-------------|
| 'Amelie'  | A     | 1           |
| 'Marin'   | F     | 1           |
| 'Zoe'     | C     | 1           |
| 'Pierre'  | A     | 2           |

Les lignes du DataFrame `df_sorted` sont donc tri√©es dans l‚Äôordre croissant de la colonne `'BonusPoints'`.  
Cependant, si l‚Äôon observe la colonne `'Grade'`, on remarque qu‚Äôelle n‚Äôest pas tri√©e alphab√©tiquement pour les lignes ayant la m√™me valeur de `'BonusPoints'`.  

Nous pouvons corriger cela en triant √©galement par la colonne `'Grade'` :


```python
# Trier le DataFrame df par 'BonusPoints' et, en cas d'√©galit√©, par 'Grade'
df_sorted = df.sort_values(by=['BonusPoints', 'Grade'], ascending=True)
```
Le r√©sultat sera le suivant :

La m√©thode `sort_index` permet de trier un DataFrame en fonction de son index.  
Lorsque l‚Äôindex est l‚Äôindex num√©rique par d√©faut, cette m√©thode n‚Äôest pas tr√®s utile.  
Elle est donc souvent combin√©e avec la m√©thode `set_index` de pandas, comme nous l‚Äôavons vu pr√©c√©demment.  

**Exemple :**

```python
# D√©finir la colonne 'Grade' comme index de df
df = df.set_index('Grade')

# Trier le DataFrame df selon son index
df = df.sort_index()
```

Cela produit le DataFrame suivant :

| Grade | FirstName | BonusPoints |
|-------|-----------|-------------|
| A     | 'Amelie'  | 1           |
| A     | 'Pierre'  | 2           |
| C     | 'Zoe'     | 1           |
| F     | 'Marin'   | 1           |

Consid√©rons les deux DataFrames suivants contenant des donn√©es de location de bateaux.  

**DataFrame des Bateaux (`boats`) :**

| BoatName   | Color  | ReservationNumber | NumberOfReservations |
|------------|--------|-----------------|--------------------|
| Julia      | blue   | 2               | 34                 |
| Siren      | green  | 3               | 10                 |
| Sea Sons   | red    | 6               | 20                 |
| Hercules   | blue   | 1               | 41                 |
| Cesar      | yellow | 4               | 12                 |
| Minerva    | green  | 5               | 16                 |

**DataFrame des Clients (`clients`) :**

| ClientID | ClientName | ReservationID |
|----------|------------|---------------|
| 91       | Marie      | 1             |
| 154      | Anna       | 2             |
| 124      | Yann       | 3             |
| 320      | Lea        | 7             |
| 87       | Marc       | 9             |
| 22       | Yassine    | 10            |



In [None]:
# Ex√©cuter la cellule suivante pour cr√©er ces DataFrames.
# D√©finir les dictionnaires
data_boats = {
    'BoatName': ['Julia', 'Siren', 'Sea Sons', 'Hercules', 'Cesar', 'Minerva'],
    'Color': ['blue', 'green', 'red', 'blue', 'yellow', 'green'],
    'ReservationNumber': [2, 3, 6, 1, 4, 5],
    'NumberOfReservations': [34, 10, 20, 41, 12, 16]
}

data_clients = {
    'ClientID': [91, 154, 124, 320, 87, 22],
    'ClientName': ['Marie', 'Anna', 'Yann', 'Lea', 'Marc', 'Yassine'],
    'ReservationID': [1, 2, 3, 7, 9, 10]
}

# Cr√©er les DataFrames
boats = pd.DataFrame(data_boats)
clients = pd.DataFrame(data_clients)

<center>

### **üîç Exemple : Joindre les donn√©es des bateaux et des clients**

</center>

---

Nous voulons d√©terminer facilement quel client a r√©serv√© les bateaux du DataFrame `bateaux`.  
Pour cela, il suffit de fusionner les DataFrames.  

- (a) Renommer la colonne `'ReservationNumber'` dans `bateaux` en `'ReservationID'` √† l‚Äôaide de la m√©thode `rename`.  
- (b) Dans un DataFrame nomm√© `bateaux_clients`, effectuer une **jointure gauche** entre `bateaux` et `clients`.  
- (c) D√©finir la colonne `'BoatName'` comme index du DataFrame `bateaux_clients`.  
- (d) √Ä l‚Äôaide de la m√©thode `loc`, qui permet d‚Äôindexer un DataFrame, d√©terminer qui a r√©serv√© les bateaux `'Julia'` et `'Siren'`.  
- (e) En utilisant la m√©thode `isna` appliqu√©e √† la colonne `'ClientName'`, d√©terminer quels bateaux n‚Äôont pas √©t√© r√©serv√©s.  
- (f) Le nombre de fois qu‚Äôun bateau a √©t√© r√©serv√© jusqu‚Äô√† pr√©sent est donn√© dans la colonne `'NumberOfReservations'`.  
En utilisant la m√©thode `sort_values`, d√©terminer le nom du client ayant r√©serv√© le **bateau bleu** avec le plus grand nombre de r√©servations.

In [None]:
# TODO

## Grouper les √©l√©ments d‚Äôun DataFrame : m√©thodes `groupby`, `agg` et `crosstab`

La m√©thode `groupby` permet de regrouper les lignes d‚Äôun DataFrame qui partagent une m√™me valeur dans une colonne.  

Cette m√©thode **ne** renvoie **pas** un DataFrame.  
L‚Äôobjet renvoy√© par `groupby` est de la classe `DataFrameGroupBy`.  

Cette classe permet d‚Äôeffectuer des op√©rations telles que le calcul de statistiques (somme, moyenne, maximum, etc.) pour chaque cat√©gorie de la colonne utilis√©e pour le regroupement.  

La structure g√©n√©rale d‚Äôune op√©ration `groupby` est la suivante :

1. S√©parer les donn√©es (Split).  
2. Appliquer une fonction (Apply).  
3. Combiner les r√©sultats (Combine).  

**Exemple :**  

Supposons que les bateaux du DataFrame `boats` soient tous identiques et aient le m√™me √¢ge.  
Nous voulons d√©terminer si la couleur d‚Äôun bateau influence son nombre de r√©servations.  
Pour cela, nous allons calculer le nombre moyen de r√©servations par bateau pour chaque couleur :

- S√©parer les bateaux par couleur.  
- Calculer le nombre moyen de r√©servations (`mean`).  
- Combiner les r√©sultats dans un DataFrame pour une comparaison facile.  

Nous pouvons utiliser `groupby` suivi de `mean` pour obtenir le r√©sultat.  

Toutes les m√©thodes statistiques courantes (`count`, `mean`, `max`, etc.) peuvent √™tre utilis√©es apr√®s `groupby`.  
Elles ne s‚Äôappliqueront qu‚Äôaux colonnes de types compatibles.  

Il est √©galement possible de sp√©cifier pour chaque colonne quelle fonction doit √™tre appliqu√©e √† l‚Äô√©tape "Apply" d‚Äôune op√©ration `groupby`.  
Pour cela, utilisez la m√©thode `agg` de l‚Äôobjet `DataFrameGroupBy`, en fournissant un dictionnaire o√π chaque cl√© est un nom de colonne et la valeur est la fonction √† appliquer.  

**Exemple :**  

Consid√©rons le DataFrame `transactions` :


| transaction_id | cust_id | tran_date  | prod_subcat_code | prod_cat_code | qty  | rate  | tax    | total_amt | store_type |
|----------------|---------|-----------|-----------------|---------------|------|-------|--------|-----------|------------|
| 80712190438    | 270351  | 28-02-14  | 1               | 1             | -5   | -772  | 405.3  | -4265.3   | e-Shop     |
| 29258453508    | 270384  | 27-02-14  | 5               | 3             | -5   | -1497 | 785.925| -8270.92  | e-Shop     |
| 51750724947    | 273420  | 24-02-14  | 6               | 5             | -2   | -791  | 166.11 | -1748.11  | TeleShop   |
| 93274880719    | 271509  | 24-02-14  | 11              | 6             | -3   | -1363 | 429.345| -4518.35  | e-Shop     |
| 51750724947    | 273420  | 23-02-14  | 6               | 5             | -2   | -791  | 166.11 | -1748.11  | TeleShop   |

Nous voulons, pour chaque client (`cust_id`) :

- Pour la colonne `total_amt` : le montant minimum, maximum et total d√©pens√©.  
- Pour la colonne `store_type` : le nombre de types de magasins diff√©rents dans lesquels le client a effectu√© une transaction.  

Nous pouvons effectuer ces calculs en utilisant une op√©ration `groupby` :

1. S√©parer les transactions par ID de client.  
2. Pour `total_amt`, calculer `min`, `max` et `sum`. Pour `store_type`, compter le nombre de cat√©gories uniques.  
3. Combiner les r√©sultats dans un DataFrame.

Pour trouver le nombre de cat√©gories uniques pour `store_type`, nous pouvons utiliser la fonction lambda suivante :

```python
import numpy as np

n_modalities = lambda store_type: len(np.unique(store_type))
```

- La fonction lambda doit prendre une colonne en argument et retourner un nombre.  
- La fonction `np.unique` d√©termine les valeurs uniques pr√©sentes dans une s√©quence.  
- La fonction `len` compte le nombre d‚Äô√©l√©ments dans une s√©quence.  

Ainsi, cette fonction nous permet de d√©terminer le nombre de cat√©gories uniques pour la colonne `store_type`.  

Pour appliquer ces fonctions dans une op√©ration `groupby`, nous utilisons un dictionnaire o√π les cl√©s sont les colonnes √† traiter et les valeurs sont les fonctions √† appliquer.

```python
functions_to_apply = {
   # Les m√©thodes statistiques standard peuvent √™tre sp√©cifi√©es sous forme de cha√Ænes de caract√®res
    'total_amt': ['min', 'max', 'sum'],
    'store_type': n_modalities
}
```

Ce dictionnaire peut maintenant √™tre utilis√© avec la m√©thode `agg` :


```python
transactions.groupby('cust_id').agg(functions_to_apply)
```

Cela produit le `DataFrameGroupBy` suivant :

            total_amount          store_type
| cust_id | min      | max     | sum     | lambda  |
|---------|----------|---------|---------|---------|
| 266783  | -5838.82 | 5838.82 | 3113.89 |   2     |
| 266784  | 442      | 4279.66 | 5694.07 |   3     |
| 266785  | -6828.9  | 6911.77 | 21613.8 |   3     |
| 266788  | 1312.74  | 1927.12 | 6092.97 |   3     |
| 266794  | -135.915 | 4610.06 | 27981.9 |   4     |
           


<center>

### **üîç Exemple : Grouper par client pour analyser les quantit√©s**

</center>

---

- (a) √Ä l‚Äôaide d‚Äôune op√©ration `groupby`, d√©terminer pour chaque client, en se basant sur la quantit√© d‚Äôarticles achet√©s dans une transaction (colonne `qty`) :

  - La quantit√© maximale.  
  - La quantit√© minimale.  
  - La quantit√© m√©diane.  

  Vous devez filtrer les transactions pour ne conserver que celles avec des quantit√©s positives.  
  Pour cela, vous pouvez utiliser l‚Äôindexation conditionnelle (`qty[qty > 0]`) dans une fonction lambda.

In [None]:
# TODO

Une autre mani√®re de regrouper et de r√©sumer les donn√©es est d‚Äôutiliser la fonction `crosstab` de pandas, qui, comme son nom l‚Äôindique, sert √† r√©aliser des tableaux crois√©s de colonnes d‚Äôun DataFrame.  

Elle permet de visualiser la fr√©quence d‚Äôoccurrence des paires de cat√©gories dans un DataFrame.  

**Exemple :**  

Dans le DataFrame `transactions`, nous voulons savoir quelles paires cat√©gorie / sous-cat√©gorie sont les plus fr√©quentes (colonnes `prod_cat_code` et `prod_subcat_code`).  

La fonction `crosstab` de pandas peut √™tre utilis√©e comme suit :

```python
colonne1 = transactions['prod_cat_code']
colonne2 = transactions['prod_subcat_code']
pd.crosstab(colonne1, colonne2)
```

Cette commande produit le DataFrame suivant :

prod_subcat_code

| prod_cat_code | -1 | 1   | 2   | 3   | 4   | 5   | 6   | 7   | 8   | 9   | 10  | 11  | 12  |
|---------------|----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|
| 1             | 4  | 1001| 0   | 981 | 958 | 0   | 0   | 0   | 0   | 0   | 0   | 0   | 0   |
| 2             | 4  | 934 | 0   | 1040|1005 | 0   | 0   | 0   | 0   | 0   | 0   | 0   | 0   |
| 3             | 11 | 0   | 0   | 0   |1020 | 950 | 0   | 0   | 966 | 976 | 945 | 0   | 0   |
| 4             | 5  | 993 | 0   | 0   | 988 | 0   | 0   | 0   | 0   | 0   | 0   | 0   | 0   |
| 5             | 3  | 0   | 0   |1023 | 0   | 0   | 984 |1037 | 0   | 0   | 998 |1029 | 962 |
| 6             | 5  | 0   |1002 | 0   | 0   | 0   | 0   | 0   | 0   | 0   |1025 |1013 |1057 |

La cellule (i, j) du DataFrame r√©sultant contient le nombre d‚Äô√©l√©ments du DataFrame ayant la cat√©gorie i pour la premi√®re colonne (`prod_cat_code`) et la cat√©gorie j pour la deuxi√®me colonne (`prod_subcat_code`).  

Ainsi, il est facile de d√©terminer, par exemple, que les sous-cat√©gories dominantes de la cat√©gorie 4 sont 1 et 4.  

L‚Äôargument `normalize` de `crosstab` permet d‚Äôafficher les fr√©quences sous forme de pourcentages.  
Par exemple, utiliser `normalize=1` normalise le tableau selon **l‚Äôaxe 1**, c‚Äôest-√†-dire par colonne :

```python
# Extract the year from the transaction date
column1 = transactions['tran_date'].apply(lambda x: int(x.split('-')[2]))
column2 = transactions['store_type']

pd.crosstab(column1,
            column2,
            normalize=1)
```

Cela produit le DataFrame suivant :

| tran_date | Flagship store | MBR     | TeleShop | e-Shop  |
|-----------|----------------|--------|----------|---------|
| 2011      | 0.291942       | 0.323173 | 0.283699 | 0.306947 |
| 2012      | 0.331792       | 0.322093 | 0.336767 | 0.322886 |
| 2013      | 0.335975       | 0.3115   | 0.332512 | 0.320194 |
| 2014      | 0.0402906      | 0.0432339| 0.0470219| 0.0499731|

Ce DataFrame permet d‚Äôaffirmer que 33,5975 % des transactions effectu√©es dans un ¬´¬†magasin phare¬†¬ª ont eu lieu en 2013.  

Inversement, en d√©finissant `normalize=0`, nous normalisons le tableau selon les **lignes** :

| tran_date | Flagship store | MBR     | TeleShop | e-Shop  |
|-----------|----------------|--------|----------|---------|
| 2011      | 0.191121       | 0.21548  | 0.182617 | 0.410781 |
| 2012      | 0.20096        | 0.198693 | 0.20056  | 0.399787 |
| 2013      | 0.205522       | 0.194074 | 0.2      | 0.400404 |
| 2014      | 0.173132       | 0.189215 | 0.198675 | 0.438978 |

La normalisation par ligne permet de d√©duire que les transactions effectu√©es dans un ¬´‚ÄØe-Shop‚ÄØ¬ª repr√©sentent 41,0781 % des transactions en 2011.  

Dans le fichier `covid_tests.csv`, nous disposons d‚Äôun jeu de donn√©es de 200 tests COVID-19. Les colonnes de ce jeu de donn√©es sont :

- `patient_id` : identifiant du patient test√©.  
- `test_result` : r√©sultat du test de d√©tection. 1 si le patient est test√© positif, 0 sinon.  
- `infected` : 1 si le patient √©tait r√©ellement infect√©, 0 sinon.


<center>

### **üîç Exemple : Analyse des tests COVID-19**

</center>

---

- (a) Charger le jeu de donn√©es √† partir du fichier `covid_tests.csv`. Le s√©parateur est `;`.  
- (b) √Ä l‚Äôaide de la fonction `pd.crosstab`, d√©terminer le nombre de **faux n√©gatifs** produits par ce test.  
Un faux n√©gatif se produit lorsque le test indique qu‚Äôun patient n‚Äôest pas infect√©, alors qu‚Äôil l‚Äôest r√©ellement.  
- (c) Quel est le **taux de faux positifs** du test ?  
Le taux de faux positifs correspond √† la proportion de faux positifs parmi tous les individus sains.  
Il faudra normaliser les r√©sultats pour pouvoir le calculer.

In [None]:
# TODO

---

<center>

## **üìñ Conclusion et r√©sum√©**

</center>

---

Dans ce notebook, vous avez appris √† :

- **Filtrer les lignes d‚Äôun DataFrame** avec plusieurs conditions en utilisant les op√©rateurs binaires `&`, `|` et `~` :

  ```python
  # Ann√©e √©gale √† 1979 et surface sup√©rieure √† 60
  df[(df['annee'] == 1979) & (df['surface'] > 60)]

  # Ann√©e sup√©rieure √† 1900 ou quartier √©gal √† 'P√®re-Lachaise'
  df[(df['ann√©e'] > 1900) | (df['quartier'] == 'P√®re-Lachaise')]
  ```

- **Fusionner des DataFrames** en utilisant la fonction `concat` et la m√©thode `merge` :

  ```python
  # Concat√©nation verticale
  pd.concat([df1, df2], axis=0)

  # Concat√©nation horizontale
  pd.concat([df1, df2], axis=1)

  # Diff√©rents types de jointures
  df1.merge(right=df2, on='column', how='inner')
  df1.merge(right=df2, on='column', how='outer')
  df1.merge(right=df2, on='column', how='left')
  df1.merge(right=df2, on='column', how='right')
  ```

- **Trier et ordonner les valeurs d‚Äôun DataFrame** en utilisant les m√©thodes `sort_values` et `sort_index` :

  ```python
  # Trier un DataFrame par la colonne 'column' dans l'ordre croissant
  df.sort_values(by='column', ascending=True)
  ```

- **Effectuer une op√©ration `groupby` complexe** en utilisant des fonctions lambda avec les m√©thodes `groupby` et `agg` :

  ```python
  functions_to_apply = {
      'column1': ['min', 'max'],
      'column2': [np.mean, np.std],
      'column3': lambda x: x.max() - x.min()
  }

  df.groupby('column_to_group_by').agg(functions_to_apply)
  ```