---

<center>

# **Python pour la Data Science**

### *Nettoyage des données : Gestion des valeurs manquantes (NA) et nettoyage des jeux de données*

</center>


---

<center>

## **📖 Introduction**

</center>

---


Le nettoyage des données et la gestion correcte des valeurs manquantes (appelées aussi **NaN** ou **NA**) sont deux étapes essentielles avant de réaliser toute analyse sur un jeu de données.  

L’objectif de ce notebook est de passer étape par étape à travers ces opérations de nettoyage afin d’obtenir un **DataFrame propre et fiable**.  
En effet, les jeux de données réels contiennent souvent des problèmes tels que des valeurs manquantes, des doublons ou des entrées incohérentes.  

Pour ce cours, nous continuerons à travailler avec le **DataFrame `transactions`** que nous avons importé dans l’exercice précédent.

<center>

### **🔍 Exemple : Chargement et inspection du jeu de données**

</center>

---

- (a) Importez le module `pandas` sous le nom `pd` et chargez le fichier **`transactions.csv`** dans un DataFrame nommé `transactions`.  
Le fichier utilise des points-virgules (`;`) comme séparateurs, et la colonne contenant les identifiants est `'transaction_id'`.  

- (b) Affichez les 10 premières lignes du DataFrame avec la méthode `.head()`.

In [None]:
# TODO

---

<center>

## **📖 Nettoyage d’un jeu de données**

</center>

---

Dans cette section, nous présentons les principales **méthodes de DataFrame** utiles pour nettoyer un jeu de données.  
Ces méthodes peuvent être regroupées en trois grandes catégories :

1. **Gestion des doublons**  
   - `duplicated` → détecte les lignes en double.  
   - `drop_duplicates` → supprime les lignes en double.  

2. **Modification des éléments d’un DataFrame**  
   - `replace` → remplace des valeurs spécifiques.  
   - `rename` → renomme des colonnes ou des index.  
   - `astype` → change le type de données des colonnes.  

3. **Opérations sur les valeurs d’un DataFrame**  
   - `apply` → applique une fonction aux lignes ou aux colonnes.  
   - `lambda` → permet d’écrire de petites fonctions anonymes pour les transformations.

## Gestion des doublons (méthodes `duplicated` et `drop_duplicates`)

Les doublons sont des lignes identiques qui apparaissent plusieurs fois dans un jeu de données.  

👉 Lorsqu’on travaille avec de nouvelles données, il est très important de **vérifier les doublons dès le départ**.  
La présence de doublons peut générer des erreurs dans les calculs statistiques ou lors de la création de graphiques.  

---

📊 Exemple de DataFrame :

| Nom    | Âge | Sexe | Taille |
|--------|-----|------|--------|
| Robert | 56  | M    | 174    |
| Mark   | 23  | M    | 182    |
| Alina  | 32  | F    | 169    |
| Mark   | 23  | M    | 182    |

---

✅ Pour vérifier la présence de doublons, nous utilisons la méthode **`duplicated`** :

```python
import pandas as pd

# Example DataFrame
df = pd.DataFrame({
    "Name": ["Robert", "Mark", "Alina", "Mark"],
    "Age": [56, 23, 32, 23],
    "Gender": ["M", "M", "F", "M"],
    "Height": [174, 182, 169, 182]
})

# Check for duplicates
df.duplicated()
>>>
False
False
False
True
```

## 📌 Understanding the `duplicated()` method

The **`duplicated()`** method returns a **Pandas Series** (similar to a column of a DataFrame).  
It tells us for each row whether it is a duplicate (`True`) or not (`False`).  

👉 In our example, the result of `duplicated()` indicates that row with index **3** is a duplicate,  
meaning it is an exact copy of a previous row (in this case, row **1**).

---

Since `duplicated()` returns a **Series**, we can apply the **`.sum()`** method to count the total number of duplicates.

```python
# Identify duplicates
print(df.duplicated())

# Count total number of duplicates
print("Number of duplicates:", df.duplicated().sum())
>>> 1
```

## 🧹 Suppression des doublons avec `drop_duplicates()`

La méthode d’un DataFrame utilisée pour **supprimer les doublons** est `drop_duplicates`.

Sa syntaxe est la suivante :

```python
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)
```
- **subset** : nom de colonne ou séquence de noms de colonnes  
  → Permet de spécifier quelles colonnes doivent être vérifiées pour les doublons.  
  → Par défaut, toutes les colonnes sont considérées.  

- **keep** : {'first', 'last', False}, par défaut `'first'`  
  → `'first'` : conserve la première occurrence et supprime les autres.  
  → `'last'` : conserve la dernière occurrence et supprime les autres.  
  → `False` : supprime *tous* les doublons.  

- **inplace** : booléen, par défaut `False`  
  → Si `True`, modifie directement le DataFrame sans en retourner un nouveau.  
  → Si `False`, retourne un nouveau DataFrame avec les doublons supprimés.

⚠️ **Attention** : soyez très prudent lors de l’utilisation du paramètre `inplace`.  

Une **bonne pratique** est d’**éviter** d’utiliser `inplace=True` et d’assigner plutôt le DataFrame retourné par la méthode à une nouvelle variable.  
De cette manière, vous ne risquez pas d’écraser vos données originales et vous gardez un meilleur contrôle sur vos transformations.

<center>

### **🔍 Exemple : Création d’un DataFrame à partir d’un dictionnaire**

</center>

---

- (a) Combien de doublons y a-t-il dans le DataFrame `transactions` ?  
- (b) Supprimez les doublons du jeu de données en conservant uniquement la **première occurrence**.  
- (c) En utilisant les paramètres `subset` et `keep` de la méthode `drop_duplicates` sur `transactions`, affichez la transaction la plus récente pour chaque `prod_cat_code`.

In [None]:
# TODO

## Modification des éléments d’un DataFrame (méthodes `replace`, `rename` et `astype`)

La méthode `replace` permet de substituer une ou plusieurs valeurs dans une colonne d’un DataFrame.

Signature de la méthode :

```python
replace(to_replace, value, ...)
```

- `to_replace` : La valeur ou la liste de valeurs à remplacer.  
→ Peut être des entiers, des chaînes de caractères, des booléens, etc.

- `value` : La valeur de remplacement ou la liste de valeurs.  
→ Peut également être des entiers, des chaînes de caractères, des booléens, etc.

💡 Cette méthode est très utile lorsque vous devez nettoyer ou standardiser les variables catégorielles de votre jeu de données.

**df**

| Nom      | Pays      | Âge |
|----------|-----------|-----|
| 'Brown'  | Australia | 33  |
| 'Dupont' | France    | 25  |
| 'Anna'   | Japan     | 54  |

**df_new**

| Nom      | Pays | Âge |
|----------|------|-----|
| 'Brown'  | AUS  | 33  |
| 'Dupont' | FRA  | 25  |
| 'Anna'   | JPN  | 54  |

```python
df_new = df.replace(to_replace=['Australia','France','Japan'], value=['AUS','FRA','JPN'])
```

## Renommer les colonnes d’un DataFrame

En plus de modifier les éléments d’un DataFrame, vous pouvez également renommer ses colonnes.

Cela se fait à l’aide de la méthode `rename`, qui prend un dictionnaire en argument : les clés sont les anciens noms de colonnes et les valeurs sont les nouveaux noms de colonnes.

Il est également nécessaire de spécifier `axis=1` (ou `columns=`) pour indiquer que vous renommez des colonnes et non des lignes.

```python
# Example DataFrame
import pandas as pd

df = pd.DataFrame({
    'Name': ['Brown', 'Dupont', 'Anna'],
    'Country': ['Australia', 'France', 'Japan'],
    'Age': [33, 25, 54]
})

# Renaming columns
df_renamed = df.rename(columns={'Name': 'Full_Name', 'Country': 'Nation', 'Age': 'Years'})

df_renamed
```

## Changer le type des colonnes avec `astype`

Parfois, il est nécessaire de changer non seulement le nom d’une colonne, mais aussi son type.

Par exemple, lors de l’importation d’un jeu de données, une variable peut être interprétée comme une chaîne de caractères (`str`) alors qu’elle est en réalité numérique. Cela peut arriver même si une seule entrée est mal lue.

Dans pandas, vous pouvez changer le type des colonnes avec la méthode `astype`.

Types courants que vous utiliserez :

- `str` : Chaîne de caractères ('Bonjour')  
- `float` : Nombre à virgule flottante (1.0, 3.1415)  
- `int` : Entier (1, 1234)  

`astype` peut prendre un dictionnaire dont les clés sont les noms de colonnes et les valeurs sont les nouveaux types. Ceci est pratique pour changer plusieurs colonnes en une seule opération.

La plupart du temps, vous sélectionnerez une seule colonne et la remplacerez par sa nouvelle version typée :

```python
# Method 1: Create a dictionary and apply astype to the entire DataFrame
type_dict = {'col_1': 'int',
             'col_2': 'float'}
df = df.astype(type_dict)

# Method 2: Select a single column and apply astype to the Series
df['col_1'] = df['col_1'].astype('int')
```

✅ Explication :

- La méthode 1 est utile lorsque vous souhaitez changer le type de plusieurs colonnes en une seule opération.  
- La méthode 2 est pratique lorsque vous devez changer le type d’une seule colonne.  

Les deux méthodes garantissent que la ou les colonnes ont le type correct pour les calculs ou pour d’autres manipulations de données.

In [None]:
import pandas as pd

# Importer le jeu de données
transactions = pd.read_csv("transactions.csv", sep=',', index_col="transaction_id")

# Supprimer les doublons
transactions = transactions.drop_duplicates(keep='first')

<center>

### **🔍 Exemple : Nettoyage et modification des colonnes**

</center>

---

- (a) Importez le module `numpy` sous le nom `np`.

- (b) Remplacez les valeurs ['e-Shop', 'TeleShop', 'MBR', 'Flagship store', np.nan] dans la colonne `Store_type` par [1, 2, 3, 4, 0]. En même temps, remplacez les valeurs manquantes (`np.nan`) dans la colonne `prod_subcat_code` par 0.

- (c) Convertissez les colonnes `Store_type` et `prod_subcat_code` en type `int`.

- (d) Renommez les colonnes `Store_type`, `Qty`, `Rate` et `Tax` en `store_type`, `qty`, `rate` et `tax`.

In [None]:
# TODO

## Opérations sur les valeurs d’un DataFrame (méthode `apply` et fonctions `lambda`)

Il est souvent utile de modifier ou d’agréger les informations contenues dans les colonnes d’un DataFrame à l’aide d’une opération ou d’une fonction.

Ces opérations peuvent être n’importe quel type de fonction prenant une colonne en entrée.  

La méthode utilisée pour appliquer une opération sur une colonne est la méthode **`apply`** d’un DataFrame, dont l’en-tête est :

```python
apply(func, axis, ...)
```
### Où :

- **func** est la fonction à appliquer sur la colonne.  
- **axis** spécifie la dimension sur laquelle l’opération doit être appliquée.  

### Exemple : `apply` avec `np.sum`

Supposons que nous souhaitions calculer la **somme de toutes les lignes** pour chaque colonne numérique.  
La fonction `sum` de NumPy effectue cette opération, ce qui la rend parfaite pour être utilisée avec la méthode `apply`.  

Puisque l’opération doit être effectuée **sur les lignes**, nous devons spécifier l’argument `axis=0` dans la méthode `apply`.

```python
import numpy as np
import pandas as pd

# Example DataFrame
df = pd.DataFrame({
    "A": [1, 2, 3],
    "B": [10, 20, 30],
    "C": [100, 200, 300]
})

# Apply np.sum on each column
df_columns = df.apply(np.sum, axis=0)
>>>
```
Résultat :
|     |     |
|-----|-----|
| 'A' | 6   |
| 'B' | 60  |
| 'C' | 600 |

```python
import numpy as np
import pandas as pd

# Example DataFrame
df = pd.DataFrame({
    "A": [1, 2, 3],
    "B": [10, 20, 30],
    "C": [100, 200, 300]
})

# Apply np.sum on each column
df_columns = df.apply(np.sum, axis=1)
>>>
```
Résultat :
|     |     |
|-----|-----|
| 'A' | 111 |
| 'B' | 222 |
| 'C' | 333 |

La colonne `tran_date` du DataFrame `transactions` contient les dates des transactions au format jour/mois/année (ex. : '28/02/2014').

Actuellement, ces dates sont stockées sous forme de chaînes de caractères, ce qui signifie que nous ne pouvons pas effectuer directement des calculs ou des opérations statistiques dessus.

👉 Une meilleure approche serait de séparer cette information en trois colonnes distinctes : jour, mois et année.  
Cela permettrait, par exemple, d’analyser les tendances saisonnières ou de détecter les changements de comportement des clients dans le temps.

Par exemple, la chaîne de caractères '28/02/2014' est séparée par le caractère `/` :

```python
date = '28/02/2014'
date.split('/')
>>> ['28', '02', '2014']
```

La méthode `split` renvoie une liste contenant les parties de la chaîne de caractères séparées par le caractère choisi.

Ainsi :  
- Le jour est le premier élément (`parts[0]`)  
- Le mois est le deuxième élément (`parts[1]`)  
- L’année est le troisième élément (`parts[2]`)

<center>

### **🔍 Exemple : Séparer les dates en jour, mois et année**

</center>

---
- (a) Définissez une fonction `get_day` qui prend une chaîne de caractères en entrée et renvoie le premier élément après l’avoir séparée avec `/`.

- (b) Définissez les fonctions `get_month` et `get_year` qui renvoient respectivement le deuxième et le troisième élément de la chaîne séparée.

- (c) Stockez les résultats de l’application de ces fonctions sur la colonne `tran_date` dans trois variables : `days`, `months` et `years`. Comme ces fonctions fonctionnent élément par élément, vous n’avez pas besoin de préciser l’argument `axis` dans la méthode `apply`.

- (d) Créez les colonnes `'day'`, `'month'` et `'year'` dans le DataFrame et assignez-leur les valeurs de `days`, `months` et `years`. Une nouvelle colonne peut être créée simplement en la déclarant.

In [None]:
# TODO

La méthode `apply` devient encore plus puissante lorsqu’elle est combinée avec une fonction `lambda`.

En Python, le mot-clé `lambda` est utilisé pour définir une fonction anonyme — c’est-à-dire une fonction sans nom.

Une fonction `lambda` peut prendre n’importe quel nombre d’arguments, mais elle ne doit contenir qu’une seule expression.

La syntaxe :

```python
lambda arguments: expression
```
Les fonctions `lambda` nous permettent de définir des opérations avec une syntaxe très compacte.

Elles sont particulièrement utiles lorsque l’opération est simple et que l’on ne souhaite pas définir une fonction séparée avec `def`.

```python
# Standard function
def square(x):
    return x**2

# Equivalent with lambda
square_lambda = lambda x: x**2

print(square(4))        # Output: 16
print(square_lambda(4)) # Output: 16
```
Ainsi, l’exercice précédent (extraction du jour, du mois et de l’année à partir de `tran_date`) peut être écrit de manière beaucoup plus compacte en utilisant des fonctions `lambda` à l’intérieur de `apply`.

```python
# Extract day, month, year using lambda inside apply
transactions['day'] = transactions['tran_date'].apply(lambda x: x.split('/')[0])
transactions['month'] = transactions['tran_date'].apply(lambda x: x.split('/')[1])
transactions['year'] = transactions['tran_date'].apply(lambda x: x.split('/')[2])

# Display the updated DataFrame
transactions[['tran_date', 'day', 'month', 'year']].head()
```
---
La colonne `prod_subcat_code` dans `transactions` dépend de la colonne `prod_cat_code` puisqu’elle représente une sous-catégorie d’un produit.

Il serait plus logique de combiner à la fois la catégorie et la sous-catégorie en une seule variable.

Étapes :  
- Convertir les deux colonnes en chaînes de caractères avec la méthode `astype(str)`.  
- Les concaténer pour créer un code unique représentant à la fois la catégorie et la sous-catégorie.

📌 Exemple avec la concaténation de chaînes :

```python
string1 = "I think"
string2 = "therefore I am."

# Concatenate the two strings with a space
print(string1 + " " + string2)
# >>> I think therefore I am.
```

Pour appliquer une fonction ligne par ligne, il faut définir `axis = 1` dans la méthode `apply`.

À l’intérieur de la fonction elle-même, chaque colonne peut être accédée comme une clé dans une ligne du DataFrame.

👉 Exemple : calcul du prix unitaire d’un produit :

```python
transactions.apply(lambda row: row['total_amt'] / row['qty'], axis=1)
```

<center>

### **🔍 Exemple : Séparer les dates en jour, mois et année**

</center>

---

- (a) En utilisant une **fonction lambda** appliquée sur le DataFrame **transactions**, créez une nouvelle colonne `prod_cat` contenant la concaténation de `prod_cat_code` et `prod_subcat_code` séparés par un tiret `'-'`.  
Assurez-vous de **convertir les deux valeurs** en chaînes de caractères avant la concaténation.

In [None]:
# TODO

---

<center>

## **📖 Gestion des valeurs manquantes**

</center>

---


Une **valeur manquante** peut être :

- Une valeur qui n’a pas été fournie.  
- Une valeur qui n’existe pas, souvent résultant d’opérations mathématiques sans solution (ex. : division par zéro).  

Dans un DataFrame, les valeurs manquantes apparaissent comme **NaN** ("Not a Number").  

Dans cette section, nous allons explorer plusieurs méthodes pour :

- **Détecter les valeurs manquantes** avec `isna` et `any`.  
- **Remplacer les valeurs manquantes** avec `fillna`.  
- **Supprimer les valeurs manquantes** avec `dropna`.  

Dans un exercice précédent, nous avons utilisé la méthode `replace` sur `transactions` pour remplacer les valeurs manquantes par `0`.  
Cette approche n’est **pas rigoureuse** et doit généralement être évitée en pratique.  

Pour cette raison, nous allons réimporter la version brute du DataFrame `transactions` afin d’annuler les transformations appliquées dans les exercices précédents.

<center>

### **🔍 Exemple : Réimporter et nettoyer les données des transactions**

</center>

---

- (a) Exécutez la cellule suivante pour **réimporter** le jeu de données `transactions`, **supprimer les doublons** et **renommer les colonnes** :


In [None]:
# Importer le jeu de données
transactions = pd.read_csv("transactions.csv", sep=',', index_col="transaction_id")

# Supprimer les lignes dupliquées
transactions = transactions.drop_duplicates(keep='first')

# Renommer les colonnes
nouveaux_noms = {
    'Store_type': 'store_type',
    'Qty': 'qty',
    'Rate': 'rate',
    'Tax': 'tax'
}

transactions = transactions.rename(nouveaux_noms, axis=1)

# Afficher les premières lignes du jeu de données
transactions.head()

## Détecter les valeurs manquantes (méthodes `isna` et `any`)

La méthode `isna` d’un DataFrame détecte les valeurs manquantes. Cette méthode ne prend aucun argument.

Elle renvoie un DataFrame de la même forme avec :

- `True` si la cellule contient une valeur manquante (`np.nan`).  
- `False` sinon.  

Puisque `isna` renvoie un DataFrame, nous pouvons la combiner avec d’autres méthodes de DataFrame pour obtenir des informations plus détaillées :

- La méthode `any` avec l’argument `axis` permet de déterminer quelles **colonnes** (`axis=0`) ou **lignes** (`axis=1`) contiennent au moins une valeur manquante.  
- La méthode `sum` compte le nombre de valeurs manquantes par colonne ou par ligne (en utilisant l’argument `axis`). D’autres méthodes statistiques comme `mean`, `max`, `argmax`, etc., peuvent également être appliquées.

Exemple avec le DataFrame précédent `df` :

| Nom      | Pays       | Âge |
|----------|------------|-----|
| NaN      | Australia  | NaN |
| Duchamp  | France     | 25  |
| Hana     | Japan      | 54  |

Exécuter `df.isna()` renvoie :

| Nom   | Pays    | Âge   |
|-------|---------|-------|
| True  | False   | True  |
| False | False   | False |
| False | False   | False |

```python
# Example: Detecting missing values in a DataFrame

# Detect COLUMNS that contain at least one missing value
df.isna().any(axis=0)

# Output:
# Nom      True
# Pays     False
# Age      True

# Detect ROWS that contain at least one missing value
df.isna().any(axis=1)

# Output:
# 0     True
# 1    False
# 2    False

# Use conditional indexing to display rows with at least one missing value
df[df.isna().any(axis=1)]
>>>
```
| Nom   | Pays      | Âge   |
|-------|-----------|-------|
| NaN   | Australia | NaN   |

```python
# Count missing values per COLUMN
df.isnull().sum(axis=0)  # isnull and isna are equivalent
>>>
Name    1
Country 0
Age     1

# Count missing values per ROW
df.isnull().sum(axis=1)
>>>
0  2
1  0
2  0
```


<center>

### **🔍 Exemple : Gestion des valeurs manquantes dans un DataFrame**

</center>

---

- (a) Combien de colonnes dans le DataFrame `transactions` contiennent des valeurs manquantes ?  
- (b) Combien de lignes dans `transactions` contiennent au moins une valeur manquante ? Vous pouvez utiliser la méthode `any` combinée avec `sum`.  
- (c) Quelle colonne de `transactions` a le plus grand nombre de valeurs manquantes ?  
- (d) Affichez les lignes de `transactions` qui ont au moins une valeur manquante dans les colonnes `'rate'`, `'tax'` et `'total_amt'`. Qu’observez-vous ?

In [None]:
# TODO

## Remplacement des valeurs manquantes (méthode `fillna`)

La méthode `fillna` permet de remplacer les valeurs manquantes (NaN) dans un DataFrame par une valeur de votre choix. Ceci est utile pour nettoyer le jeu de données avant une analyse ou des calculs statistiques.

Par exemple, nous pouvons remplacer les valeurs manquantes d’une colonne numérique par 0, ou dans une colonne catégorielle par une catégorie par défaut.

```python
# Replace all NaN values in the DataFrame with zeros
df.fillna(0)

# Replace NaN values in each numeric column with the column mean
df.fillna(df.mean())  # df.mean() can be replaced by any other statistical method
```

Il est courant de remplacer les valeurs manquantes dans une colonne numérique par des statistiques telles que :

- Moyenne : `mean`  
- Médiane : `median`  
- Minimum/Maximum : `min`/`max`  

Pour les colonnes catégorielles, les valeurs manquantes sont généralement remplacées par :

- La modalité, c’est-à-dire la catégorie la plus fréquente : `mode`  
- Une valeur constante ou arbitraire : 0, -1  

Pour éviter les erreurs lors du remplacement des valeurs manquantes, il est fortement recommandé de sélectionner les bonnes colonnes avant d’utiliser `fillna`.

Si vous faites des erreurs dans l’exercice suivant, vous pouvez réimporter le DataFrame `transactions` en utilisant la cellule suivante.

In [None]:
# Importer le jeu de données
transactions = pd.read_csv("transactions.csv", sep=',', index_col="transaction_id")

# Supprimer les lignes dupliquées
transactions = transactions.drop_duplicates(keep='first')

# Renommer les colonnes
nouveaux_noms = {
    'Store_type': 'store_type',
    'Qty': 'qty',
    'Rate': 'rate',
    'Tax': 'tax'
}

transactions = transactions.rename(nouveaux_noms, axis=1)

<center>

### **🔍 Exemple : Remplacement des valeurs manquantes dans un DataFrame**

</center>

---
- (a) Remplacez les valeurs manquantes dans la colonne `prod_subcat_code` de `transactions` par -1.

- (b) Déterminez la catégorie la plus fréquente (mode) de la colonne `store_type` dans `transactions`.

- (c) Remplacez les valeurs manquantes de la colonne `store_type` par ce mode. Vous pouvez accéder à la valeur du mode à l’index 0 de la Series retournée par `mode`.

- (d) Vérifiez que les colonnes `prod_subcat_code` et `store_type` dans `transactions` ne contiennent plus de valeurs manquantes.

In [None]:
# TODO

## Suppression des valeurs manquantes (méthode `dropna`)¶

La méthode `dropna` permet de supprimer les lignes ou les colonnes contenant des valeurs manquantes.

La signature de la méthode est la suivante : `dropna(axis, how, subset, ..)`

- **axis** spécifie s’il faut supprimer des lignes ou des colonnes (0 pour les lignes, 1 pour les colonnes).

- **how** spécifie la condition de suppression :  
    - `how='any'` : supprimer la ligne (ou colonne) si elle contient au moins une valeur manquante.  
    - `how='all'` : supprimer la ligne (ou colonne) seulement si toutes les valeurs sont manquantes.

- **subset** spécifie quelles colonnes/lignes considérer lors de la vérification des valeurs manquantes.

```python
# Remove all rows that contain at least one missing value
df = df.dropna(axis=0, how='any')

# Remove columns that are completely empty
df = df.dropna(axis=1, how='all')

# Remove rows where all values are missing in the specific columns 'col2', 'col3', and 'col4'
df = df.dropna(axis=0, how='all', subset=['col2','col3','col4'])
```


<center>

### **🔍 Exemple : Suppression des valeurs manquantes**

</center>

---
Certaines transactions pour lesquelles le montant de la transaction n’est pas renseigné ne sont pas pertinentes. Pour cette raison :

- (a) Supprimez les entrées du DataFrame `transactions` où les colonnes `rate`, `tax` et `total_amt` sont simultanément vides.

- (b) Vérifiez que les colonnes de `transactions` ne contiennent plus de valeurs manquantes.

In [None]:
# TODO

---

<center>

## **📖 Conclusion et résumé**

</center>

---


Dans ce chapitre, nous avons couvert les méthodes essentielles de `pandas` pour nettoyer un jeu de données et gérer les valeurs manquantes (`NaN`).

La préparation d’un jeu de données est toujours la première étape de tout projet de données.

- **Nettoyage des données** :  
  - Détecter et supprimer les doublons dans un `DataFrame` avec `duplicated` et `drop_duplicates`.  
  - Modifier les valeurs d’un DataFrame et leurs types avec `replace`, `rename` et `astype`.  
  - Appliquer une fonction à un DataFrame avec `apply` et les expressions `lambda`.  

- **Gestion des valeurs manquantes** :  
  - Les détecter avec `isna()` combiné à `any()` et `sum()`.  
  - Les remplacer avec `fillna()` et des fonctions statistiques.  
  - Les supprimer avec `dropna()`.  

Dans le prochain notebook, vous explorerez des manipulations plus avancées des `DataFrame` pour une analyse de données plus approfondie.

En pratique, les jeux de données sont rarement parfaitement propres : valeurs manquantes, doublons ou entrées incohérentes sont fréquents.  
Dans la section suivante, nous apprendrons comment nettoyer et prétraiter les jeux de données avec pandas, une étape cruciale avant toute analyse significative.