---

<center>

# **Python pour la Data Science**

### *Nettoyage des donn√©es : Gestion des valeurs manquantes (NA) et nettoyage des jeux de donn√©es*

</center>


---

<center>

## **üìñ Introduction**

</center>

---


Le nettoyage des donn√©es et la gestion correcte des valeurs manquantes (appel√©es aussi **NaN** ou **NA**) sont deux √©tapes essentielles avant de r√©aliser toute analyse sur un jeu de donn√©es.  

L‚Äôobjectif de ce notebook est de passer √©tape par √©tape √† travers ces op√©rations de nettoyage afin d‚Äôobtenir un **DataFrame propre et fiable**.  
En effet, les jeux de donn√©es r√©els contiennent souvent des probl√®mes tels que des valeurs manquantes, des doublons ou des entr√©es incoh√©rentes.  

Pour ce cours, nous continuerons √† travailler avec le **DataFrame `transactions`** que nous avons import√© dans l‚Äôexercice pr√©c√©dent.

<center>

### **üîç Exemple : Chargement et inspection du jeu de donn√©es**

</center>

---

- (a) Importez le module `pandas` sous le nom `pd` et chargez le fichier **`transactions.csv`** dans un DataFrame nomm√© `transactions`.  
Le fichier utilise des points-virgules (`;`) comme s√©parateurs, et la colonne contenant les identifiants est `'transaction_id'`.  

- (b) Affichez les 10 premi√®res lignes du DataFrame avec la m√©thode `.head()`.

In [None]:
# TODO

---

<center>

## **üìñ Nettoyage d‚Äôun jeu de donn√©es**

</center>

---

Dans cette section, nous pr√©sentons les principales **m√©thodes de DataFrame** utiles pour nettoyer un jeu de donn√©es.  
Ces m√©thodes peuvent √™tre regroup√©es en trois grandes cat√©gories :

1. **Gestion des doublons**  
   - `duplicated` ‚Üí d√©tecte les lignes en double.  
   - `drop_duplicates` ‚Üí supprime les lignes en double.  

2. **Modification des √©l√©ments d‚Äôun DataFrame**  
   - `replace` ‚Üí remplace des valeurs sp√©cifiques.  
   - `rename` ‚Üí renomme des colonnes ou des index.  
   - `astype` ‚Üí change le type de donn√©es des colonnes.  

3. **Op√©rations sur les valeurs d‚Äôun DataFrame**  
   - `apply` ‚Üí applique une fonction aux lignes ou aux colonnes.  
   - `lambda` ‚Üí permet d‚Äô√©crire de petites fonctions anonymes pour les transformations.

## Gestion des doublons (m√©thodes `duplicated` et `drop_duplicates`)

Les doublons sont des lignes identiques qui apparaissent plusieurs fois dans un jeu de donn√©es.  

üëâ Lorsqu‚Äôon travaille avec de nouvelles donn√©es, il est tr√®s important de **v√©rifier les doublons d√®s le d√©part**.  
La pr√©sence de doublons peut g√©n√©rer des erreurs dans les calculs statistiques ou lors de la cr√©ation de graphiques.  

---

üìä Exemple de DataFrame :

| Nom    | √Çge | Sexe | Taille |
|--------|-----|------|--------|
| Robert | 56  | M    | 174    |
| Mark   | 23  | M    | 182    |
| Alina  | 32  | F    | 169    |
| Mark   | 23  | M    | 182    |

---

‚úÖ Pour v√©rifier la pr√©sence de doublons, nous utilisons la m√©thode **`duplicated`** :

```python
import pandas as pd

# Example DataFrame
df = pd.DataFrame({
    "Name": ["Robert", "Mark", "Alina", "Mark"],
    "Age": [56, 23, 32, 23],
    "Gender": ["M", "M", "F", "M"],
    "Height": [174, 182, 169, 182]
})

# Check for duplicates
df.duplicated()
>>>
False
False
False
True
```

## üìå Understanding the `duplicated()` method

The **`duplicated()`** method returns a **Pandas Series** (similar to a column of a DataFrame).  
It tells us for each row whether it is a duplicate (`True`) or not (`False`).  

üëâ In our example, the result of `duplicated()` indicates that row with index **3** is a duplicate,  
meaning it is an exact copy of a previous row (in this case, row **1**).

---

Since `duplicated()` returns a **Series**, we can apply the **`.sum()`** method to count the total number of duplicates.

```python
# Identify duplicates
print(df.duplicated())

# Count total number of duplicates
print("Number of duplicates:", df.duplicated().sum())
>>> 1
```

## üßπ Suppression des doublons avec `drop_duplicates()`

La m√©thode d‚Äôun DataFrame utilis√©e pour **supprimer les doublons** est `drop_duplicates`.

Sa syntaxe est la suivante :

```python
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)
```
- **subset** : nom de colonne ou s√©quence de noms de colonnes  
  ‚Üí Permet de sp√©cifier quelles colonnes doivent √™tre v√©rifi√©es pour les doublons.  
  ‚Üí Par d√©faut, toutes les colonnes sont consid√©r√©es.  

- **keep** : {'first', 'last', False}, par d√©faut `'first'`  
  ‚Üí `'first'` : conserve la premi√®re occurrence et supprime les autres.  
  ‚Üí `'last'` : conserve la derni√®re occurrence et supprime les autres.  
  ‚Üí `False` : supprime *tous* les doublons.  

- **inplace** : bool√©en, par d√©faut `False`  
  ‚Üí Si `True`, modifie directement le DataFrame sans en retourner un nouveau.  
  ‚Üí Si `False`, retourne un nouveau DataFrame avec les doublons supprim√©s.

‚ö†Ô∏è **Attention** : soyez tr√®s prudent lors de l‚Äôutilisation du param√®tre `inplace`.  

Une **bonne pratique** est d‚Äô**√©viter** d‚Äôutiliser `inplace=True` et d‚Äôassigner plut√¥t le DataFrame retourn√© par la m√©thode √† une nouvelle variable.  
De cette mani√®re, vous ne risquez pas d‚Äô√©craser vos donn√©es originales et vous gardez un meilleur contr√¥le sur vos transformations.

<center>

### **üîç Exemple : Cr√©ation d‚Äôun DataFrame √† partir d‚Äôun dictionnaire**

</center>

---

- (a) Combien de doublons y a-t-il dans le DataFrame `transactions` ?  
- (b) Supprimez les doublons du jeu de donn√©es en conservant uniquement la **premi√®re occurrence**.  
- (c) En utilisant les param√®tres `subset` et `keep` de la m√©thode `drop_duplicates` sur `transactions`, affichez la transaction la plus r√©cente pour chaque `prod_cat_code`.

In [None]:
# TODO

## Modification des √©l√©ments d‚Äôun DataFrame (m√©thodes `replace`, `rename` et `astype`)

La m√©thode `replace` permet de substituer une ou plusieurs valeurs dans une colonne d‚Äôun DataFrame.

Signature de la m√©thode :

```python
replace(to_replace, value, ...)
```

- `to_replace` : La valeur ou la liste de valeurs √† remplacer.  
‚Üí Peut √™tre des entiers, des cha√Ænes de caract√®res, des bool√©ens, etc.

- `value` : La valeur de remplacement ou la liste de valeurs.  
‚Üí Peut √©galement √™tre des entiers, des cha√Ænes de caract√®res, des bool√©ens, etc.

üí° Cette m√©thode est tr√®s utile lorsque vous devez nettoyer ou standardiser les variables cat√©gorielles de votre jeu de donn√©es.

**df**

| Nom      | Pays      | √Çge |
|----------|-----------|-----|
| 'Brown'  | Australia | 33  |
| 'Dupont' | France    | 25  |
| 'Anna'   | Japan     | 54  |

**df_new**

| Nom      | Pays | √Çge |
|----------|------|-----|
| 'Brown'  | AUS  | 33  |
| 'Dupont' | FRA  | 25  |
| 'Anna'   | JPN  | 54  |

```python
df_new = df.replace(to_replace=['Australia','France','Japan'], value=['AUS','FRA','JPN'])
```

## Renommer les colonnes d‚Äôun DataFrame

En plus de modifier les √©l√©ments d‚Äôun DataFrame, vous pouvez √©galement renommer ses colonnes.

Cela se fait √† l‚Äôaide de la m√©thode `rename`, qui prend un dictionnaire en argument : les cl√©s sont les anciens noms de colonnes et les valeurs sont les nouveaux noms de colonnes.

Il est √©galement n√©cessaire de sp√©cifier `axis=1` (ou `columns=`) pour indiquer que vous renommez des colonnes et non des lignes.

```python
# Example DataFrame
import pandas as pd

df = pd.DataFrame({
    'Name': ['Brown', 'Dupont', 'Anna'],
    'Country': ['Australia', 'France', 'Japan'],
    'Age': [33, 25, 54]
})

# Renaming columns
df_renamed = df.rename(columns={'Name': 'Full_Name', 'Country': 'Nation', 'Age': 'Years'})

df_renamed
```

## Changer le type des colonnes avec `astype`

Parfois, il est n√©cessaire de changer non seulement le nom d‚Äôune colonne, mais aussi son type.

Par exemple, lors de l‚Äôimportation d‚Äôun jeu de donn√©es, une variable peut √™tre interpr√©t√©e comme une cha√Æne de caract√®res (`str`) alors qu‚Äôelle est en r√©alit√© num√©rique. Cela peut arriver m√™me si une seule entr√©e est mal lue.

Dans pandas, vous pouvez changer le type des colonnes avec la m√©thode `astype`.

Types courants que vous utiliserez :

- `str` : Cha√Æne de caract√®res ('Bonjour')  
- `float` : Nombre √† virgule flottante (1.0, 3.1415)  
- `int` : Entier (1, 1234)  

`astype` peut prendre un dictionnaire dont les cl√©s sont les noms de colonnes et les valeurs sont les nouveaux types. Ceci est pratique pour changer plusieurs colonnes en une seule op√©ration.

La plupart du temps, vous s√©lectionnerez une seule colonne et la remplacerez par sa nouvelle version typ√©e :

```python
# Method 1: Create a dictionary and apply astype to the entire DataFrame
type_dict = {'col_1': 'int',
             'col_2': 'float'}
df = df.astype(type_dict)

# Method 2: Select a single column and apply astype to the Series
df['col_1'] = df['col_1'].astype('int')
```

‚úÖ Explication :

- La m√©thode 1 est utile lorsque vous souhaitez changer le type de plusieurs colonnes en une seule op√©ration.  
- La m√©thode 2 est pratique lorsque vous devez changer le type d‚Äôune seule colonne.  

Les deux m√©thodes garantissent que la ou les colonnes ont le type correct pour les calculs ou pour d‚Äôautres manipulations de donn√©es.

In [None]:
import pandas as pd

# Importer le jeu de donn√©es
transactions = pd.read_csv("transactions.csv", sep=',', index_col="transaction_id")

# Supprimer les doublons
transactions = transactions.drop_duplicates(keep='first')

<center>

### **üîç Exemple : Nettoyage et modification des colonnes**

</center>

---

- (a) Importez le module `numpy` sous le nom `np`.

- (b) Remplacez les valeurs ['e-Shop', 'TeleShop', 'MBR', 'Flagship store', np.nan] dans la colonne `Store_type` par [1, 2, 3, 4, 0]. En m√™me temps, remplacez les valeurs manquantes (`np.nan`) dans la colonne `prod_subcat_code` par 0.

- (c) Convertissez les colonnes `Store_type` et `prod_subcat_code` en type `int`.

- (d) Renommez les colonnes `Store_type`, `Qty`, `Rate` et `Tax` en `store_type`, `qty`, `rate` et `tax`.

In [None]:
# TODO

## Op√©rations sur les valeurs d‚Äôun DataFrame (m√©thode `apply` et fonctions `lambda`)

Il est souvent utile de modifier ou d‚Äôagr√©ger les informations contenues dans les colonnes d‚Äôun DataFrame √† l‚Äôaide d‚Äôune op√©ration ou d‚Äôune fonction.

Ces op√©rations peuvent √™tre n‚Äôimporte quel type de fonction prenant une colonne en entr√©e.  

La m√©thode utilis√©e pour appliquer une op√©ration sur une colonne est la m√©thode **`apply`** d‚Äôun DataFrame, dont l‚Äôen-t√™te est :

```python
apply(func, axis, ...)
```
### O√π :

- **func** est la fonction √† appliquer sur la colonne.  
- **axis** sp√©cifie la dimension sur laquelle l‚Äôop√©ration doit √™tre appliqu√©e.  

### Exemple : `apply` avec `np.sum`

Supposons que nous souhaitions calculer la **somme de toutes les lignes** pour chaque colonne num√©rique.  
La fonction `sum` de NumPy effectue cette op√©ration, ce qui la rend parfaite pour √™tre utilis√©e avec la m√©thode `apply`.  

Puisque l‚Äôop√©ration doit √™tre effectu√©e **sur les lignes**, nous devons sp√©cifier l‚Äôargument `axis=0` dans la m√©thode `apply`.

```python
import numpy as np
import pandas as pd

# Example DataFrame
df = pd.DataFrame({
    "A": [1, 2, 3],
    "B": [10, 20, 30],
    "C": [100, 200, 300]
})

# Apply np.sum on each column
df_columns = df.apply(np.sum, axis=0)
>>>
```
R√©sultat :
|     |     |
|-----|-----|
| 'A' | 6   |
| 'B' | 60  |
| 'C' | 600 |

```python
import numpy as np
import pandas as pd

# Example DataFrame
df = pd.DataFrame({
    "A": [1, 2, 3],
    "B": [10, 20, 30],
    "C": [100, 200, 300]
})

# Apply np.sum on each column
df_columns = df.apply(np.sum, axis=1)
>>>
```
R√©sultat :
|     |     |
|-----|-----|
| 'A' | 111 |
| 'B' | 222 |
| 'C' | 333 |

La colonne `tran_date` du DataFrame `transactions` contient les dates des transactions au format jour/mois/ann√©e (ex. : '28/02/2014').

Actuellement, ces dates sont stock√©es sous forme de cha√Ænes de caract√®res, ce qui signifie que nous ne pouvons pas effectuer directement des calculs ou des op√©rations statistiques dessus.

üëâ Une meilleure approche serait de s√©parer cette information en trois colonnes distinctes : jour, mois et ann√©e.  
Cela permettrait, par exemple, d‚Äôanalyser les tendances saisonni√®res ou de d√©tecter les changements de comportement des clients dans le temps.

Par exemple, la cha√Æne de caract√®res '28/02/2014' est s√©par√©e par le caract√®re `/` :

```python
date = '28/02/2014'
date.split('/')
>>> ['28', '02', '2014']
```

La m√©thode `split` renvoie une liste contenant les parties de la cha√Æne de caract√®res s√©par√©es par le caract√®re choisi.

Ainsi :  
- Le jour est le premier √©l√©ment (`parts[0]`)  
- Le mois est le deuxi√®me √©l√©ment (`parts[1]`)  
- L‚Äôann√©e est le troisi√®me √©l√©ment (`parts[2]`)

<center>

### **üîç Exemple : S√©parer les dates en jour, mois et ann√©e**

</center>

---
- (a) D√©finissez une fonction `get_day` qui prend une cha√Æne de caract√®res en entr√©e et renvoie le premier √©l√©ment apr√®s l‚Äôavoir s√©par√©e avec `/`.

- (b) D√©finissez les fonctions `get_month` et `get_year` qui renvoient respectivement le deuxi√®me et le troisi√®me √©l√©ment de la cha√Æne s√©par√©e.

- (c) Stockez les r√©sultats de l‚Äôapplication de ces fonctions sur la colonne `tran_date` dans trois variables : `days`, `months` et `years`. Comme ces fonctions fonctionnent √©l√©ment par √©l√©ment, vous n‚Äôavez pas besoin de pr√©ciser l‚Äôargument `axis` dans la m√©thode `apply`.

- (d) Cr√©ez les colonnes `'day'`, `'month'` et `'year'` dans le DataFrame et assignez-leur les valeurs de `days`, `months` et `years`. Une nouvelle colonne peut √™tre cr√©√©e simplement en la d√©clarant.

In [None]:
# TODO

La m√©thode `apply` devient encore plus puissante lorsqu‚Äôelle est combin√©e avec une fonction `lambda`.

En Python, le mot-cl√© `lambda` est utilis√© pour d√©finir une fonction anonyme ‚Äî c‚Äôest-√†-dire une fonction sans nom.

Une fonction `lambda` peut prendre n‚Äôimporte quel nombre d‚Äôarguments, mais elle ne doit contenir qu‚Äôune seule expression.

La syntaxe :

```python
lambda arguments: expression
```
Les fonctions `lambda` nous permettent de d√©finir des op√©rations avec une syntaxe tr√®s compacte.

Elles sont particuli√®rement utiles lorsque l‚Äôop√©ration est simple et que l‚Äôon ne souhaite pas d√©finir une fonction s√©par√©e avec `def`.

```python
# Standard function
def square(x):
    return x**2

# Equivalent with lambda
square_lambda = lambda x: x**2

print(square(4))        # Output: 16
print(square_lambda(4)) # Output: 16
```
Ainsi, l‚Äôexercice pr√©c√©dent (extraction du jour, du mois et de l‚Äôann√©e √† partir de `tran_date`) peut √™tre √©crit de mani√®re beaucoup plus compacte en utilisant des fonctions `lambda` √† l‚Äôint√©rieur de `apply`.

```python
# Extract day, month, year using lambda inside apply
transactions['day'] = transactions['tran_date'].apply(lambda x: x.split('/')[0])
transactions['month'] = transactions['tran_date'].apply(lambda x: x.split('/')[1])
transactions['year'] = transactions['tran_date'].apply(lambda x: x.split('/')[2])

# Display the updated DataFrame
transactions[['tran_date', 'day', 'month', 'year']].head()
```
---
La colonne `prod_subcat_code` dans `transactions` d√©pend de la colonne `prod_cat_code` puisqu‚Äôelle repr√©sente une sous-cat√©gorie d‚Äôun produit.

Il serait plus logique de combiner √† la fois la cat√©gorie et la sous-cat√©gorie en une seule variable.

√âtapes :  
- Convertir les deux colonnes en cha√Ænes de caract√®res avec la m√©thode `astype(str)`.  
- Les concat√©ner pour cr√©er un code unique repr√©sentant √† la fois la cat√©gorie et la sous-cat√©gorie.

üìå Exemple avec la concat√©nation de cha√Ænes :

```python
string1 = "I think"
string2 = "therefore I am."

# Concatenate the two strings with a space
print(string1 + " " + string2)
# >>> I think therefore I am.
```

Pour appliquer une fonction ligne par ligne, il faut d√©finir `axis = 1` dans la m√©thode `apply`.

√Ä l‚Äôint√©rieur de la fonction elle-m√™me, chaque colonne peut √™tre acc√©d√©e comme une cl√© dans une ligne du DataFrame.

üëâ Exemple : calcul du prix unitaire d‚Äôun produit :

```python
transactions.apply(lambda row: row['total_amt'] / row['qty'], axis=1)
```

<center>

### **üîç Exemple : S√©parer les dates en jour, mois et ann√©e**

</center>

---

- (a) En utilisant une **fonction lambda** appliqu√©e sur le DataFrame **transactions**, cr√©ez une nouvelle colonne `prod_cat` contenant la concat√©nation de `prod_cat_code` et `prod_subcat_code` s√©par√©s par un tiret `'-'`.  
Assurez-vous de **convertir les deux valeurs** en cha√Ænes de caract√®res avant la concat√©nation.

In [None]:
# TODO

---

<center>

## **üìñ Gestion des valeurs manquantes**

</center>

---


Une **valeur manquante** peut √™tre :

- Une valeur qui n‚Äôa pas √©t√© fournie.  
- Une valeur qui n‚Äôexiste pas, souvent r√©sultant d‚Äôop√©rations math√©matiques sans solution (ex. : division par z√©ro).  

Dans un DataFrame, les valeurs manquantes apparaissent comme **NaN** ("Not a Number").  

Dans cette section, nous allons explorer plusieurs m√©thodes pour :

- **D√©tecter les valeurs manquantes** avec `isna` et `any`.  
- **Remplacer les valeurs manquantes** avec `fillna`.  
- **Supprimer les valeurs manquantes** avec `dropna`.  

Dans un exercice pr√©c√©dent, nous avons utilis√© la m√©thode `replace` sur `transactions` pour remplacer les valeurs manquantes par `0`.  
Cette approche n‚Äôest **pas rigoureuse** et doit g√©n√©ralement √™tre √©vit√©e en pratique.  

Pour cette raison, nous allons r√©importer la version brute du DataFrame `transactions` afin d‚Äôannuler les transformations appliqu√©es dans les exercices pr√©c√©dents.

<center>

### **üîç Exemple : R√©importer et nettoyer les donn√©es des transactions**

</center>

---

- (a) Ex√©cutez la cellule suivante pour **r√©importer** le jeu de donn√©es `transactions`, **supprimer les doublons** et **renommer les colonnes** :


In [None]:
# Importer le jeu de donn√©es
transactions = pd.read_csv("transactions.csv", sep=',', index_col="transaction_id")

# Supprimer les lignes dupliqu√©es
transactions = transactions.drop_duplicates(keep='first')

# Renommer les colonnes
nouveaux_noms = {
    'Store_type': 'store_type',
    'Qty': 'qty',
    'Rate': 'rate',
    'Tax': 'tax'
}

transactions = transactions.rename(nouveaux_noms, axis=1)

# Afficher les premi√®res lignes du jeu de donn√©es
transactions.head()

## D√©tecter les valeurs manquantes (m√©thodes `isna` et `any`)

La m√©thode `isna` d‚Äôun DataFrame d√©tecte les valeurs manquantes. Cette m√©thode ne prend aucun argument.

Elle renvoie un DataFrame de la m√™me forme avec :

- `True` si la cellule contient une valeur manquante (`np.nan`).  
- `False` sinon.  

Puisque `isna` renvoie un DataFrame, nous pouvons la combiner avec d‚Äôautres m√©thodes de DataFrame pour obtenir des informations plus d√©taill√©es :

- La m√©thode `any` avec l‚Äôargument `axis` permet de d√©terminer quelles **colonnes** (`axis=0`) ou **lignes** (`axis=1`) contiennent au moins une valeur manquante.  
- La m√©thode `sum` compte le nombre de valeurs manquantes par colonne ou par ligne (en utilisant l‚Äôargument `axis`). D‚Äôautres m√©thodes statistiques comme `mean`, `max`, `argmax`, etc., peuvent √©galement √™tre appliqu√©es.

Exemple avec le DataFrame pr√©c√©dent `df` :

| Nom      | Pays       | √Çge |
|----------|------------|-----|
| NaN      | Australia  | NaN |
| Duchamp  | France     | 25  |
| Hana     | Japan      | 54  |

Ex√©cuter `df.isna()` renvoie :

| Nom   | Pays    | √Çge   |
|-------|---------|-------|
| True  | False   | True  |
| False | False   | False |
| False | False   | False |

```python
# Example: Detecting missing values in a DataFrame

# Detect COLUMNS that contain at least one missing value
df.isna().any(axis=0)

# Output:
# Nom      True
# Pays     False
# Age      True

# Detect ROWS that contain at least one missing value
df.isna().any(axis=1)

# Output:
# 0     True
# 1    False
# 2    False

# Use conditional indexing to display rows with at least one missing value
df[df.isna().any(axis=1)]
>>>
```
| Nom   | Pays      | √Çge   |
|-------|-----------|-------|
| NaN   | Australia | NaN   |

```python
# Count missing values per COLUMN
df.isnull().sum(axis=0)  # isnull and isna are equivalent
>>>
Name    1
Country 0
Age     1

# Count missing values per ROW
df.isnull().sum(axis=1)
>>>
0  2
1  0
2  0
```


<center>

### **üîç Exemple : Gestion des valeurs manquantes dans un DataFrame**

</center>

---

- (a) Combien de colonnes dans le DataFrame `transactions` contiennent des valeurs manquantes ?  
- (b) Combien de lignes dans `transactions` contiennent au moins une valeur manquante ? Vous pouvez utiliser la m√©thode `any` combin√©e avec `sum`.  
- (c) Quelle colonne de `transactions` a le plus grand nombre de valeurs manquantes ?  
- (d) Affichez les lignes de `transactions` qui ont au moins une valeur manquante dans les colonnes `'rate'`, `'tax'` et `'total_amt'`. Qu‚Äôobservez-vous ?

In [None]:
# TODO

## Remplacement des valeurs manquantes (m√©thode `fillna`)

La m√©thode `fillna` permet de remplacer les valeurs manquantes (NaN) dans un DataFrame par une valeur de votre choix. Ceci est utile pour nettoyer le jeu de donn√©es avant une analyse ou des calculs statistiques.

Par exemple, nous pouvons remplacer les valeurs manquantes d‚Äôune colonne num√©rique par 0, ou dans une colonne cat√©gorielle par une cat√©gorie par d√©faut.

```python
# Replace all NaN values in the DataFrame with zeros
df.fillna(0)

# Replace NaN values in each numeric column with the column mean
df.fillna(df.mean())  # df.mean() can be replaced by any other statistical method
```

Il est courant de remplacer les valeurs manquantes dans une colonne num√©rique par des statistiques telles que :

- Moyenne : `mean`  
- M√©diane : `median`  
- Minimum/Maximum : `min`/`max`  

Pour les colonnes cat√©gorielles, les valeurs manquantes sont g√©n√©ralement remplac√©es par :

- La modalit√©, c‚Äôest-√†-dire la cat√©gorie la plus fr√©quente : `mode`  
- Une valeur constante ou arbitraire : 0, -1  

Pour √©viter les erreurs lors du remplacement des valeurs manquantes, il est fortement recommand√© de s√©lectionner les bonnes colonnes avant d‚Äôutiliser `fillna`.

Si vous faites des erreurs dans l‚Äôexercice suivant, vous pouvez r√©importer le DataFrame `transactions` en utilisant la cellule suivante.

In [None]:
# Importer le jeu de donn√©es
transactions = pd.read_csv("transactions.csv", sep=',', index_col="transaction_id")

# Supprimer les lignes dupliqu√©es
transactions = transactions.drop_duplicates(keep='first')

# Renommer les colonnes
nouveaux_noms = {
    'Store_type': 'store_type',
    'Qty': 'qty',
    'Rate': 'rate',
    'Tax': 'tax'
}

transactions = transactions.rename(nouveaux_noms, axis=1)

<center>

### **üîç Exemple : Remplacement des valeurs manquantes dans un DataFrame**

</center>

---
- (a) Remplacez les valeurs manquantes dans la colonne `prod_subcat_code` de `transactions` par -1.

- (b) D√©terminez la cat√©gorie la plus fr√©quente (mode) de la colonne `store_type` dans `transactions`.

- (c) Remplacez les valeurs manquantes de la colonne `store_type` par ce mode. Vous pouvez acc√©der √† la valeur du mode √† l‚Äôindex 0 de la Series retourn√©e par `mode`.

- (d) V√©rifiez que les colonnes `prod_subcat_code` et `store_type` dans `transactions` ne contiennent plus de valeurs manquantes.

In [None]:
# TODO

## Suppression des valeurs manquantes (m√©thode `dropna`)¬∂

La m√©thode `dropna` permet de supprimer les lignes ou les colonnes contenant des valeurs manquantes.

La signature de la m√©thode est la suivante : `dropna(axis, how, subset, ..)`

- **axis** sp√©cifie s‚Äôil faut supprimer des lignes ou des colonnes (0 pour les lignes, 1 pour les colonnes).

- **how** sp√©cifie la condition de suppression :  
    - `how='any'` : supprimer la ligne (ou colonne) si elle contient au moins une valeur manquante.  
    - `how='all'` : supprimer la ligne (ou colonne) seulement si toutes les valeurs sont manquantes.

- **subset** sp√©cifie quelles colonnes/lignes consid√©rer lors de la v√©rification des valeurs manquantes.

```python
# Remove all rows that contain at least one missing value
df = df.dropna(axis=0, how='any')

# Remove columns that are completely empty
df = df.dropna(axis=1, how='all')

# Remove rows where all values are missing in the specific columns 'col2', 'col3', and 'col4'
df = df.dropna(axis=0, how='all', subset=['col2','col3','col4'])
```


<center>

### **üîç Exemple : Suppression des valeurs manquantes**

</center>

---
Certaines transactions pour lesquelles le montant de la transaction n‚Äôest pas renseign√© ne sont pas pertinentes. Pour cette raison :

- (a) Supprimez les entr√©es du DataFrame `transactions` o√π les colonnes `rate`, `tax` et `total_amt` sont simultan√©ment vides.

- (b) V√©rifiez que les colonnes de `transactions` ne contiennent plus de valeurs manquantes.

In [None]:
# TODO

---

<center>

## **üìñ Conclusion et r√©sum√©**

</center>

---


Dans ce chapitre, nous avons couvert les m√©thodes essentielles de `pandas` pour nettoyer un jeu de donn√©es et g√©rer les valeurs manquantes (`NaN`).

La pr√©paration d‚Äôun jeu de donn√©es est toujours la premi√®re √©tape de tout projet de donn√©es.

- **Nettoyage des donn√©es** :  
  - D√©tecter et supprimer les doublons dans un `DataFrame` avec `duplicated` et `drop_duplicates`.  
  - Modifier les valeurs d‚Äôun DataFrame et leurs types avec `replace`, `rename` et `astype`.  
  - Appliquer une fonction √† un DataFrame avec `apply` et les expressions `lambda`.  

- **Gestion des valeurs manquantes** :  
  - Les d√©tecter avec `isna()` combin√© √† `any()` et `sum()`.  
  - Les remplacer avec `fillna()` et des fonctions statistiques.  
  - Les supprimer avec `dropna()`.  

Dans le prochain notebook, vous explorerez des manipulations plus avanc√©es des `DataFrame` pour une analyse de donn√©es plus approfondie.

En pratique, les jeux de donn√©es sont rarement parfaitement propres : valeurs manquantes, doublons ou entr√©es incoh√©rentes sont fr√©quents.  
Dans la section suivante, nous apprendrons comment nettoyer et pr√©traiter les jeux de donn√©es avec pandas, une √©tape cruciale avant toute analyse significative.