![Pandas](img/pandas.png)

Bienvenue dans ce notebook dédié à **Pandas**, l'une des bibliothèques les plus importantes pour manipuler des données en Python.

🎯 Objectif : Apprendre à manipuler des données tabulaires en étudiant les bases de **Pandas**.

---

## 📌 Sommaire :
1. Création d'une DataFrame  
2. Chargement de données (CSV)  
3. Exploration rapide des données  
4. Sélection et filtres  
5. Opérations sur les colonnes  
6. Nettoyage des données  
7. Groupement et agrégation  
8. Fusion de DataFrames

---


# Introduction

Pandas est une bibliothèque Python incontournable pour la **manipulation** et l’**analyse de données tabulaires** (comme les fichiers CSV, Excel, ou bases de données relationnelles).

Elle est largement utilisée en **data science**, **machine learning**, **finance**, et dans toute activité où l’on travaille avec des **données structurées**.

# 1. Créer une DataFrame manuellement

La DataFrame est la structure principale de Pandas. Elle représente un **tableau 2D** composé de **lignes** et de **colonnes nommées**, un peu comme une feuille Excel.

Dans cette première étape, nous allons créer une **DataFrame** à partir d’un dictionnaire Python. Chaque clé du dictionnaire représente le nom d’une colonne, et chaque valeur est une liste correspondant aux données de cette colonne.

In [44]:
# Chargement de la bibliothèque Pandas
import pandas as pd

In [45]:
# Dictionnaire contenant les données à transformer
data = {
    "Nom": ["Alice", "Bob", "Charlie"],
    "Âge": [25, 30, 35],
    "Ville": ["Paris", "Lyon", "Marseille"]
}

# Conversion du dictionnaire en DataFrame
df = pd.DataFrame(data)

display(df)

Unnamed: 0,Nom,Âge,Ville
0,Alice,25,Paris
1,Bob,30,Lyon
2,Charlie,35,Marseille


### 🧩 Exercice

> Créez votre propre DataFrame avec les colonnes : `Produit`, `Prix`, `Quantité`

In [46]:
data = {
    "Produit": ["Gel", "Dentifrice", "Savon"],
    "Prix": [7, 12, 8],
    "Quantité": [2, 16, 9]
}

df = pd.DataFrame(data)

display(df)

Unnamed: 0,Produit,Prix,Quantité
0,Gel,7,2
1,Dentifrice,12,16
2,Savon,8,9


# 2. 📂 Lire un fichier CSV

Dans la grande majorité des projets de data science, les données proviennent d’un fichier externe, souvent au format CSV (Comma-Separated Values).
Ce format est simple, lisible, et largement utilisé pour exporter des données depuis Excel, des bases de données ou des outils en ligne.

Avec Pandas, la fonction `pd.read_csv()` permet de charger rapidement un fichier CSV dans une DataFrame.


In [47]:
# Chargement d'un fichier CSV
df = pd.read_csv("data/employees.csv")

display(df)

Unnamed: 0,Nom_complet,Age,Ville,Salaire,Statut
0,Madeleine Lenoir,56,Lille,59778,Célibataire
1,Victor Picard,46,Lyon,31207,Célibataire
2,Daniel Chauvin,32,Bordeaux,76269,Marié(e)
3,Luce Renaud,60,Paris,45537,Marié(e)
4,Agathe Grégoire,25,Lille,55757,Marié(e)
...,...,...,...,...,...
995,Denise Munoz,22,Paris,43481,Divorcé(e)
996,Roger Launay,40,Marseille,38474,Divorcé(e)
997,Philippine Lucas,27,Bordeaux,66760,Célibataire
998,Isaac Turpin,61,Lyon,75718,Divorcé(e)


# 3. 🔍 Exploration rapide des données

Une fois le fichier chargé, la première étape consiste à explorer rapidement la structure et le contenu des données.
Cela permet de :
- vérifier que le fichier a bien été lu,
- repérer d’éventuels problèmes (valeurs manquantes, colonnes inutiles…),
- et mieux comprendre les variables disponibles.

Pandas fournit plusieurs méthodes très pratiques pour cette phase d’inspection : 

In [48]:
# Connaître les dimensions du tableau : (lignes, colonnes)
df.shape

(1000, 5)

In [49]:
# Affiche les premières lignes du DataFrame (5 ligne par défaut)
df.head()

Unnamed: 0,Nom_complet,Age,Ville,Salaire,Statut
0,Madeleine Lenoir,56,Lille,59778,Célibataire
1,Victor Picard,46,Lyon,31207,Célibataire
2,Daniel Chauvin,32,Bordeaux,76269,Marié(e)
3,Luce Renaud,60,Paris,45537,Marié(e)
4,Agathe Grégoire,25,Lille,55757,Marié(e)


In [50]:
# Affiche les 10 premières lignes du DataFrame
df.head(10)

Unnamed: 0,Nom_complet,Age,Ville,Salaire,Statut
0,Madeleine Lenoir,56,Lille,59778,Célibataire
1,Victor Picard,46,Lyon,31207,Célibataire
2,Daniel Chauvin,32,Bordeaux,76269,Marié(e)
3,Luce Renaud,60,Paris,45537,Marié(e)
4,Agathe Grégoire,25,Lille,55757,Marié(e)
5,Alix David,38,Paris,32040,Marié(e)
6,Christophe Dijoux,56,Paris,61986,Marié(e)
7,Virginie Baron,36,Paris,42612,Célibataire
8,Agathe Payet,40,Marseille,48441,Marié(e)
9,Maurice Rousset,28,Marseille,26471,Célibataire


In [51]:
# Résumé général : nombre de lignes, colonnes, types, valeurs nulles
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Nom_complet  1000 non-null   object
 1   Age          1000 non-null   int64 
 2   Ville        1000 non-null   object
 3   Salaire      1000 non-null   int64 
 4   Statut       1000 non-null   object
dtypes: int64(2), object(3)
memory usage: 39.2+ KB


In [52]:
# Statistiques descriptives pour les colonnes numériques
df.describe()

Unnamed: 0,Age,Salaire
count,1000.0,1000.0
mean,40.986,50625.023
std,13.497852,16937.69321
min,18.0,20145.0
25%,29.0,36144.0
50%,42.0,50380.5
75%,52.0,65008.25
max,64.0,79975.0


In [53]:
# Liste des noms de colonnes.
df.columns


Index(['Nom_complet', 'Age', 'Ville', 'Salaire', 'Statut'], dtype='object')

# 4. 🔎 Sélection et filtrage de données

Une fois les données chargées et explorées, vous allez souvent vouloir :
- accéder à une ou plusieurs colonnes spécifiques,
- ou filtrer les lignes selon des conditions (par exemple : age > 25, ville = "Paris", etc.).

### 4.1. Sélection

En Pandas, on accède à une colonne comme à une clé de dictionnaire. Cela retourne une **Series**, c’est-à-dire un vecteur contenant les valeurs de cette colonne.

In [54]:
# Accès à une colonne
selected_column = df["Nom_complet"]

selected_column

0      Madeleine Lenoir
1         Victor Picard
2        Daniel Chauvin
3           Luce Renaud
4       Agathe Grégoire
             ...       
995        Denise Munoz
996        Roger Launay
997    Philippine Lucas
998        Isaac Turpin
999    Claire Boulanger
Name: Nom_complet, Length: 1000, dtype: object

In [55]:
# Type du contenu retourné par la sélection (Series)
type(selected_column)

pandas.core.series.Series

### 4.2. Filtrage

Il est possible d'appliquer un masque ou des conditions directement sur les colonnes.

In [56]:
# Masque de filtrage
mask = df["Age"] > 25

# Aperçu du massque
display(mask)

# Retourne toutes les lignes où la colonne Age est strictement supérieure à 25.
# Ceci revient à dire : "Afficher toutes les lignes où mask vaut True".
df[mask]

0       True
1       True
2       True
3       True
4      False
       ...  
995    False
996     True
997     True
998     True
999    False
Name: Age, Length: 1000, dtype: bool

Unnamed: 0,Nom_complet,Age,Ville,Salaire,Statut
0,Madeleine Lenoir,56,Lille,59778,Célibataire
1,Victor Picard,46,Lyon,31207,Célibataire
2,Daniel Chauvin,32,Bordeaux,76269,Marié(e)
3,Luce Renaud,60,Paris,45537,Marié(e)
5,Alix David,38,Paris,32040,Marié(e)
...,...,...,...,...,...
992,Guillaume Hervé,50,Paris,53340,Célibataire
994,Susanne Duhamel,27,Paris,26171,Divorcé(e)
996,Roger Launay,40,Marseille,38474,Divorcé(e)
997,Philippine Lucas,27,Bordeaux,66760,Célibataire


# 5. ➕ Opérations sur les colonnes

Dans Pandas, on peut facilement **modifier**, **créer** ou **supprimer** des colonnes. Ces opérations sont très courantes lorsqu’on prépare des données pour l’analyse ou le machine learning.

### 5.1. Colonnes dérivées

Les opérations mathématiques sont vectorisées c'est à dire qu'elles s’appliquent à toute la colonne.

In [57]:
# Créer une nouvelle colonne pour le salaire mensuel
df["Salaire mensuel"] = df["Salaire"] / 12

df

Unnamed: 0,Nom_complet,Age,Ville,Salaire,Statut,Salaire mensuel
0,Madeleine Lenoir,56,Lille,59778,Célibataire,4981.500000
1,Victor Picard,46,Lyon,31207,Célibataire,2600.583333
2,Daniel Chauvin,32,Bordeaux,76269,Marié(e),6355.750000
3,Luce Renaud,60,Paris,45537,Marié(e),3794.750000
4,Agathe Grégoire,25,Lille,55757,Marié(e),4646.416667
...,...,...,...,...,...,...
995,Denise Munoz,22,Paris,43481,Divorcé(e),3623.416667
996,Roger Launay,40,Marseille,38474,Divorcé(e),3206.166667
997,Philippine Lucas,27,Bordeaux,66760,Célibataire,5563.333333
998,Isaac Turpin,61,Lyon,75718,Divorcé(e),6309.833333


### 🧩 Exercices

> Créez une colonne "Age/Salaire" qui représente le ratio entre l’âge et le salaire annuel.

In [58]:
df["Age/Salaire"] = df["Age"]/df["Salaire"]

df

Unnamed: 0,Nom_complet,Age,Ville,Salaire,Statut,Salaire mensuel,Age/Salaire
0,Madeleine Lenoir,56,Lille,59778,Célibataire,4981.500000,0.000937
1,Victor Picard,46,Lyon,31207,Célibataire,2600.583333,0.001474
2,Daniel Chauvin,32,Bordeaux,76269,Marié(e),6355.750000,0.000420
3,Luce Renaud,60,Paris,45537,Marié(e),3794.750000,0.001318
4,Agathe Grégoire,25,Lille,55757,Marié(e),4646.416667,0.000448
...,...,...,...,...,...,...,...
995,Denise Munoz,22,Paris,43481,Divorcé(e),3623.416667,0.000506
996,Roger Launay,40,Marseille,38474,Divorcé(e),3206.166667,0.001040
997,Philippine Lucas,27,Bordeaux,66760,Célibataire,5563.333333,0.000404
998,Isaac Turpin,61,Lyon,75718,Divorcé(e),6309.833333,0.000806


> 💰 Les employés qui gagnent moins de 60 000 € par an reçoivent une prime de 5 000 €, les autres 2 000 €.  
> Créez une colonne "Prime" avec la valeur appropriée selon le salaire.  
>
> 💡 indice : vous pouvez utiliser **Numpy** avec sa méthode **where** (ex : `np.where()`)

In [59]:
import numpy as np

df["Prime"] = np.where(df["Salaire"] < 60000, 5000, 2000)
df

Unnamed: 0,Nom_complet,Age,Ville,Salaire,Statut,Salaire mensuel,Age/Salaire,Prime
0,Madeleine Lenoir,56,Lille,59778,Célibataire,4981.500000,0.000937,5000
1,Victor Picard,46,Lyon,31207,Célibataire,2600.583333,0.001474,5000
2,Daniel Chauvin,32,Bordeaux,76269,Marié(e),6355.750000,0.000420,2000
3,Luce Renaud,60,Paris,45537,Marié(e),3794.750000,0.001318,5000
4,Agathe Grégoire,25,Lille,55757,Marié(e),4646.416667,0.000448,5000
...,...,...,...,...,...,...,...,...
995,Denise Munoz,22,Paris,43481,Divorcé(e),3623.416667,0.000506,5000
996,Roger Launay,40,Marseille,38474,Divorcé(e),3206.166667,0.001040,5000
997,Philippine Lucas,27,Bordeaux,66760,Célibataire,5563.333333,0.000404,2000
998,Isaac Turpin,61,Lyon,75718,Divorcé(e),6309.833333,0.000806,2000


### 5.2. Transformations personnalisées avec .apply()

Une colonne dérivée n’a pas besoin d’être un calcul numérique. On peut aussi :
- transformer du texte,
- extraire de l’information,
- ou catégoriser des données.

La méthode `.apply()` permet d’appliquer une **fonction** ou une **lambda** à chaque élément d’une colonne (ou d’une ligne).
C’est très utile lorsqu’on veut transformer les données d’une manière plus complexe qu’une simple opération mathématique.

Qu'est-ce qu'une lambda ? : [Lire cet article](https://www.w3schools.com/python/python_lambda.asp)

In [60]:
# Ajouter le suffixe (France) à chaque ville de chaque ligne
df["Ville_complétée"] = df["Ville"].apply(lambda v: v + " (France)")

df.Ville.value_counts()

df

Unnamed: 0,Nom_complet,Age,Ville,Salaire,Statut,Salaire mensuel,Age/Salaire,Prime,Ville_complétée
0,Madeleine Lenoir,56,Lille,59778,Célibataire,4981.500000,0.000937,5000,Lille (France)
1,Victor Picard,46,Lyon,31207,Célibataire,2600.583333,0.001474,5000,Lyon (France)
2,Daniel Chauvin,32,Bordeaux,76269,Marié(e),6355.750000,0.000420,2000,Bordeaux (France)
3,Luce Renaud,60,Paris,45537,Marié(e),3794.750000,0.001318,5000,Paris (France)
4,Agathe Grégoire,25,Lille,55757,Marié(e),4646.416667,0.000448,5000,Lille (France)
...,...,...,...,...,...,...,...,...,...
995,Denise Munoz,22,Paris,43481,Divorcé(e),3623.416667,0.000506,5000,Paris (France)
996,Roger Launay,40,Marseille,38474,Divorcé(e),3206.166667,0.001040,5000,Marseille (France)
997,Philippine Lucas,27,Bordeaux,66760,Célibataire,5563.333333,0.000404,2000,Bordeaux (France)
998,Isaac Turpin,61,Lyon,75718,Divorcé(e),6309.833333,0.000806,2000,Lyon (France)


### 🧩 Exercices

> Créez deux colonnes supplémentaires à partir du nom complet :
> - une colonne `Prénom`
> - une colonne `Nom_de_famille`
>
> 💡 indice : pensez à la méthode `.split()` d'un type `string`

In [63]:
print(df["Nom_complet"].get)

df["Prénom"] = df["Nom_complet"].str.split(" ").str[0]
df["Nom_de_famille"] = df["Nom_complet"].str.split(" ").str[1]

df

<bound method NDFrame.get of 0      Madeleine Lenoir
1         Victor Picard
2        Daniel Chauvin
3           Luce Renaud
4       Agathe Grégoire
             ...       
995        Denise Munoz
996        Roger Launay
997    Philippine Lucas
998        Isaac Turpin
999    Claire Boulanger
Name: Nom_complet, Length: 1000, dtype: object>


Unnamed: 0,Nom_complet,Age,Ville,Salaire,Statut,Salaire mensuel,Age/Salaire,Prime,Ville_complétée,Prénom,Nom_de_famille
0,Madeleine Lenoir,56,Lille,59778,Célibataire,4981.500000,0.000937,5000,Lille (France),Madeleine,Lenoir
1,Victor Picard,46,Lyon,31207,Célibataire,2600.583333,0.001474,5000,Lyon (France),Victor,Picard
2,Daniel Chauvin,32,Bordeaux,76269,Marié(e),6355.750000,0.000420,2000,Bordeaux (France),Daniel,Chauvin
3,Luce Renaud,60,Paris,45537,Marié(e),3794.750000,0.001318,5000,Paris (France),Luce,Renaud
4,Agathe Grégoire,25,Lille,55757,Marié(e),4646.416667,0.000448,5000,Lille (France),Agathe,Grégoire
...,...,...,...,...,...,...,...,...,...,...,...
995,Denise Munoz,22,Paris,43481,Divorcé(e),3623.416667,0.000506,5000,Paris (France),Denise,Munoz
996,Roger Launay,40,Marseille,38474,Divorcé(e),3206.166667,0.001040,5000,Marseille (France),Roger,Launay
997,Philippine Lucas,27,Bordeaux,66760,Célibataire,5563.333333,0.000404,2000,Bordeaux (France),Philippine,Lucas
998,Isaac Turpin,61,Lyon,75718,Divorcé(e),6309.833333,0.000806,2000,Lyon (France),Isaac,Turpin


> Créez une colonne `Position_ville` qui indique si la ville est située dans la moitié nord ou dans la moitié sud.  
> 💡 indice : on considère Lille et Paris au nord, Lyon et Marseille au sud.

In [83]:
sud = ["Bordeaux", "Lyon", "Marseille"]
nord = ["Lille", "Paris"]

df["Position_ville"] = np.where(df["Ville"].isin(sud), "Sud", "Nord")

df

Unnamed: 0,Nom_complet,Age,Ville,Salaire,Statut,Salaire mensuel,Age/Salaire,Prime,Ville_complétée,Prénom,Nom_de_famille,Position_ville
0,Madeleine Lenoir,56,Lille,59778,Célibataire,4981.500000,0.000937,5000,Lille (France),Madeleine,Lenoir,Nord
1,Victor Picard,46,Lyon,31207,Célibataire,2600.583333,0.001474,5000,Lyon (France),Victor,Picard,Sud
2,Daniel Chauvin,32,Bordeaux,76269,Marié(e),6355.750000,0.000420,2000,Bordeaux (France),Daniel,Chauvin,Sud
3,Luce Renaud,60,Paris,45537,Marié(e),3794.750000,0.001318,5000,Paris (France),Luce,Renaud,Nord
4,Agathe Grégoire,25,Lille,55757,Marié(e),4646.416667,0.000448,5000,Lille (France),Agathe,Grégoire,Nord
...,...,...,...,...,...,...,...,...,...,...,...,...
995,Denise Munoz,22,Paris,43481,Divorcé(e),3623.416667,0.000506,5000,Paris (France),Denise,Munoz,Nord
996,Roger Launay,40,Marseille,38474,Divorcé(e),3206.166667,0.001040,5000,Marseille (France),Roger,Launay,Sud
997,Philippine Lucas,27,Bordeaux,66760,Célibataire,5563.333333,0.000404,2000,Bordeaux (France),Philippine,Lucas,Sud
998,Isaac Turpin,61,Lyon,75718,Divorcé(e),6309.833333,0.000806,2000,Lyon (France),Isaac,Turpin,Sud


### 5.3. Renommer ou supprimer des colonnes

In [84]:
# Renommer en anglais les différentes colonnes
df = df.rename(columns={"Nom_complet": "Full_name", "Ville": "Location", "Salaire": "Income", "Statut": "Status"})

df


# 🧠 Équivalent avec une fonction 
#
#def ajouter_suffixe(ville):
#    return ville + " (France)"
#
#df["Ville complétée"] = df["Ville"].apply(ajouter_suffixe)

Unnamed: 0,Full_name,Age,Location,Income,Status,Salaire mensuel,Age/Salaire,Prime,Ville_complétée,Prénom,Nom_de_famille,Position_ville
0,Madeleine Lenoir,56,Lille,59778,Célibataire,4981.500000,0.000937,5000,Lille (France),Madeleine,Lenoir,Nord
1,Victor Picard,46,Lyon,31207,Célibataire,2600.583333,0.001474,5000,Lyon (France),Victor,Picard,Sud
2,Daniel Chauvin,32,Bordeaux,76269,Marié(e),6355.750000,0.000420,2000,Bordeaux (France),Daniel,Chauvin,Sud
3,Luce Renaud,60,Paris,45537,Marié(e),3794.750000,0.001318,5000,Paris (France),Luce,Renaud,Nord
4,Agathe Grégoire,25,Lille,55757,Marié(e),4646.416667,0.000448,5000,Lille (France),Agathe,Grégoire,Nord
...,...,...,...,...,...,...,...,...,...,...,...,...
995,Denise Munoz,22,Paris,43481,Divorcé(e),3623.416667,0.000506,5000,Paris (France),Denise,Munoz,Nord
996,Roger Launay,40,Marseille,38474,Divorcé(e),3206.166667,0.001040,5000,Marseille (France),Roger,Launay,Sud
997,Philippine Lucas,27,Bordeaux,66760,Célibataire,5563.333333,0.000404,2000,Bordeaux (France),Philippine,Lucas,Sud
998,Isaac Turpin,61,Lyon,75718,Divorcé(e),6309.833333,0.000806,2000,Lyon (France),Isaac,Turpin,Sud


In [85]:
# Supprimer des colonnes
df = df.drop(["Salaire mensuel", "Ville_complétée"], axis=1)

df

# 🧠 Comprendre les axes dans pandas : 
# On utilise `axis=0` lorsqu'on veut agir verticalement (lignes)
# On utilise `axis=1` lorsqu'on veut agir horizontalement (colonnes)

Unnamed: 0,Full_name,Age,Location,Income,Status,Age/Salaire,Prime,Prénom,Nom_de_famille,Position_ville
0,Madeleine Lenoir,56,Lille,59778,Célibataire,0.000937,5000,Madeleine,Lenoir,Nord
1,Victor Picard,46,Lyon,31207,Célibataire,0.001474,5000,Victor,Picard,Sud
2,Daniel Chauvin,32,Bordeaux,76269,Marié(e),0.000420,2000,Daniel,Chauvin,Sud
3,Luce Renaud,60,Paris,45537,Marié(e),0.001318,5000,Luce,Renaud,Nord
4,Agathe Grégoire,25,Lille,55757,Marié(e),0.000448,5000,Agathe,Grégoire,Nord
...,...,...,...,...,...,...,...,...,...,...
995,Denise Munoz,22,Paris,43481,Divorcé(e),0.000506,5000,Denise,Munoz,Nord
996,Roger Launay,40,Marseille,38474,Divorcé(e),0.001040,5000,Roger,Launay,Sud
997,Philippine Lucas,27,Bordeaux,66760,Célibataire,0.000404,2000,Philippine,Lucas,Sud
998,Isaac Turpin,61,Lyon,75718,Divorcé(e),0.000806,2000,Isaac,Turpin,Sud


# 6. 💊 Traitement de données manquantes

Lorsque l’on travaille avec des données réelles, il est très fréquent de rencontrer des **valeurs manquantes** : une case vide dans un fichier CSV, une valeur absente dans un formulaire, etc.

Avant de décider quoi faire avec ces valeurs, il faut les détecter, comprendre où elles sont, puis choisir une stratégie adaptée : **suppression**, **remplacement**, **interpolation**, etc.

### 6.1 Détection des valeurs manquantes

In [86]:
# Chargement du dataset du fichier employees_nulls.csv
df_employees_nulls = pd.read_csv("data/employees_nulls.csv")

df_employees_nulls.head()

Unnamed: 0,Nom_complet,Age,Ville,Salaire,Statut
0,Alain Brunet,40.0,Bordeaux,47405.0,Marié(e)
1,Julie Robert,42.0,Marseille,71533.0,Marié(e)
2,Thomas Schmitt,25.0,Lyon,56386.0,Divorcé(e)
3,Alexandre Hoareau,62.0,Marseille,45373.0,Célibataire
4,Jérôme Courtois,39.0,Marseille,40827.0,Divorcé(e)


#### a. Visualisation d'ensemble

Il est possible de repérer les valeurs manquantes dans chaque cellule du dataFrame. Les cellules marquées `True` indiquent une valeur manquante.

In [87]:
df_employees_nulls.isna()

Unnamed: 0,Nom_complet,Age,Ville,Salaire,Statut
0,False,False,False,False,False
1,False,False,False,False,False
2,False,False,False,False,False
3,False,False,False,False,False
4,False,False,False,False,False
...,...,...,...,...,...
995,False,False,False,True,False
996,False,False,False,False,False
997,False,False,False,False,False
998,False,True,False,False,False


#### b. Visualisation par colonne

Pour compter le nombre de valeurs manquantes par colonne, on utilise la combinaison de `.isna()` et `.sum()`.
La méthode `.isna()` identifie les cellules manquantes en retournant `True` ou `False`, et `.sum()` **additionne ensuite ces True**.

En effet, en Python (et donc dans Pandas), les valeurs booléennes ont une valeur numérique implicite :
- `True` vaut 1
- `False` vaut 0

Ainsi, `.sum()` appliqué à une série booléenne permet de compter les `True`, c’est-à-dire ici, les valeurs manquantes.

In [88]:
# Compter le nombre de valeurs manquantes par colonne
df_employees_nulls.isna().sum()

Nom_complet    44
Age            52
Ville          46
Salaire        46
Statut         58
dtype: int64

#### c. Comptage du nombre de lignes concernées

Pour compter le nombre de lignes contenant au moins une valeur manquante, on utilise la combinaison de `.isna()`, `.any(axis=1)`, `.sum()`:
- `.isna()` renvoie un DataFrame de booléens (True si la cellule est manquante, False sinon)
- `.any(axis=1)` parcourt chaque ligne (axis=1 signifie "le long des colonnes") et retourne True si au moins une des colonnes contient une valeur manquante sur cette ligne
- `.sum()` additionne les True (chaque True vaut 1), ce qui donne le nombre total de lignes concernées

In [89]:
# Voir le nombre de lignes contenant au moins une valeur manquante
df_employees_nulls.isna().any(axis=1).sum()

np.int64(226)

### 🧩 Exercices (sur le dataset **"data/employees_nulls_training.csv"**)

⚠️ Assurez-vous d’avoir préalablement chargé le fichier `data/employees_nulls_training.csv`

> 1. Utilisez une méthode pour vérifier s’il y a au moins une valeur manquante dans tout le DataFrame.
> 2. Affichez le nombre de valeurs manquantes pour chaque colonne
> 3. Affichez toutes les lignes contenant au moins une valeur manquante.
> 4. Affichez pour chaque colonne le pourcentage de valeurs manquantes,

In [104]:
data = pd.read_csv("data/employees_nulls_training.csv")
df_employees_nulls = pd.DataFrame(data)

print(any(df_employees_nulls.isna()))

df_employees_nulls.isna().sum()

df_employees_nulls[df_employees_nulls.isna().any(axis=1)]

df_employees_nulls.isna().sum() / len(df) * 100

df

True


Unnamed: 0,Nom_complet,Âge,Ville,Salaire,Statut
0,Isaac Maillot,56.0,Lille,59778.0,Célibataire
1,Arthur Guillon,46.0,Lyon,31207.0,Célibataire
2,Augustin Lecoq,32.0,Bordeaux,76269.0,Marié(e)
3,Benoît Da Silva,60.0,,45537.0,Marié(e)
4,Yves François,25.0,Lille,55757.0,Marié(e)
...,...,...,...,...,...
995,Michèle Toussaint,22.0,Paris,43481.0,Divorcé(e)
996,Véronique Perret,40.0,Marseille,38474.0,Divorcé(e)
997,Constance Deschamps,27.0,Bordeaux,66760.0,Célibataire
998,Gérard Fouquet,61.0,Lyon,75718.0,Divorcé(e)


### 6.2 Traitement des valeurs manquantes

#### a. Remplacement par une valeur statistique (ex: moyenne ou médiane)

In [105]:
# Exemple : remplacer les âges manquants par la moyenne des âges.
df_employees_nulls["Âge"] = df_employees_nulls["Âge"].fillna(df["Âge"].mean())

df_employees_nulls.isna().sum()

Nom_complet    53
Âge             0
Ville          54
Salaire        51
Statut         47
dtype: int64

#### b. Remplacement selon une logique conditionnelle ou métier

In [106]:
# Exemple : si la ville est manquante, on met "Non précisé"
df_employees_nulls["Ville"] = df_employees_nulls["Ville"].fillna("Non précisé")

df_employees_nulls.isna().sum()

Nom_complet    53
Âge             0
Ville           0
Salaire        51
Statut         47
dtype: int64

#### c. Supprimer les lignes contenant des valeurs manquantes

Cette technique est utilisée lorsque les lignes incomplètes sont peu nombreuses ou peu importantes car dans le cas contraire il y a des risques de perdre trop de données.

In [107]:
df_employees_nulls = df_employees_nulls.dropna()

df_employees_nulls.isna().sum()

Nom_complet    0
Âge            0
Ville          0
Salaire        0
Statut         0
dtype: int64

### 🧩 Exercices (sur le dataset **"data/employees_nulls_training.csv"**)

⚠️ Assurez-vous d’avoir préalablement chargé le fichier `data/employees_nulls_training.csv`

> 1. Supprimez toutes les lignes où le nom est manquant.
> 2. Remplacez les valeurs manquantes de la colonne `Salaire` par la médiane de cette colonne.
> 3. Remplacez les valeurs manquantes de la colonne `Age` par la moyenne de cette colonne.
> 4. Remplacez les valeurs manquantes de la colonne `Ville` par "Inconnu".
> 5. Si une colonne est indispensable à l’analys de données (ex. : `Statut`), propose une stratégie justifiée : suppression de la ligne ou remplacement.

In [None]:
data = pd.read_csv("data/employees_nulls_training.csv")
df_employees_nulls = pd.DataFrame(data)



df_employees_nulls = df_employees_nulls[df_employees_nulls["Nom_complet"].notna()]

df_employees_nulls["Salaire"] = df_employees_nulls["Salaire"].fillna(df_employees_nulls["Salaire"].median())
df_employees_nulls["Âge"] = df_employees_nulls["Âge"].fillna(df_employees_nulls["Âge"].mean())
df_employees_nulls["Ville"] = df_employees_nulls["Ville"].fillna("Inconnu")

df_employees_nulls

"""
Si on estime qu'une ligne sans statut est inexploitable, supprimer ces lignes
Si le reste des informations peut rester pertinentes, remplacer cette information par une mention claire de son manque (inconnu..) qui sera potentielement prise en compte dans les calculs ultérieurs
"""

Unnamed: 0,Nom_complet,Âge,Ville,Salaire,Statut
0,Isaac Maillot,56.0,Lille,59778.0,Célibataire
1,Arthur Guillon,46.0,Lyon,31207.0,Célibataire
2,Augustin Lecoq,32.0,Bordeaux,76269.0,Marié(e)
3,Benoît Da Silva,60.0,Inconnu,45537.0,Marié(e)
4,Yves François,25.0,Lille,55757.0,Marié(e)
...,...,...,...,...,...
995,Michèle Toussaint,22.0,Paris,43481.0,Divorcé(e)
996,Véronique Perret,40.0,Marseille,38474.0,Divorcé(e)
997,Constance Deschamps,27.0,Bordeaux,66760.0,Célibataire
998,Gérard Fouquet,61.0,Lyon,75718.0,Divorcé(e)


# 7. 📊 Groupement et agrégation

Le groupement permet de **segmenter** un jeu de données en **sous-ensembles** (par exemple par ville, par catégorie ou par client), puis d’appliquer une **fonction d’agrégation** à chaque groupe : somme, moyenne, maximum, etc.

C’est une opération très puissante en data science pour produire des résumés statistiques par groupe.

In [127]:
df = pd.read_csv("data/employees.csv")

# Sélectionner uniquement les colonnes qui nous intéressent
df_numeriques = df[["Ville", "Salaire"]]

# Regrouper par ville et faire une somme des salaire par ville
df_numeriques.groupby("Ville").sum()

Unnamed: 0_level_0,Salaire
Ville,Unnamed: 1_level_1
Bordeaux,9455569
Lille,10406475
Lyon,10558150
Marseille,9744753
Paris,10460076


D'autres opérations sont possibles comme l'affichage des statistiques descriptives avec `.describe()`

In [128]:
# Statistiques descriptives par ville
display(df_numeriques.groupby("Ville").describe())

# ℹ️ Il est possible d’accéder directement à une statistique spécifique
# comme le nombre de valeurs ou la moyenne, en utilisant des méthodes dédiées telles que .count() ou .mean().
display(df_numeriques.groupby("Ville").count()) # Nombre de salaire existant (non nulle) par ville
display(df_numeriques.groupby("Ville").mean())  # Moyenne des salaire par ville

Unnamed: 0_level_0,Salaire,Salaire,Salaire,Salaire,Salaire,Salaire,Salaire,Salaire
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Ville,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Bordeaux,186.0,50836.392473,17633.095666,20541.0,35489.25,51502.0,66365.75,79890.0
Lille,206.0,50516.868932,16769.129809,20163.0,36106.0,51786.0,63727.75,79945.0
Lyon,201.0,52528.109453,16492.726503,21177.0,38681.0,53400.0,67241.0,79975.0
Marseille,196.0,49718.127551,16227.430039,20161.0,36140.75,48442.5,62692.75,79792.0
Paris,211.0,49573.819905,17531.76378,20145.0,33235.5,48380.0,65665.0,79745.0


Unnamed: 0_level_0,Salaire
Ville,Unnamed: 1_level_1
Bordeaux,186
Lille,206
Lyon,201
Marseille,196
Paris,211


Unnamed: 0_level_0,Salaire
Ville,Unnamed: 1_level_1
Bordeaux,50836.392473
Lille,50516.868932
Lyon,52528.109453
Marseille,49718.127551
Paris,49573.819905


### 🧩 Exercices

> À partir du dataset `data/employees.csv`, répondez à ces questions :
> - Quelle est la moyenne des salaires annuels de plus de 35000€ par statut marital ?
> - Quel est le pourcentage d’employés mariés dans chaque ville ?

In [151]:
df_numeriques = df[["Statut", "Salaire"]]


print(df_numeriques[df_numeriques["Salaire"] > 35000].groupby("Statut").mean())


counts = df.groupby(["Ville", "Statut"]).size()
totals = df.groupby("Ville").size()

pourcentages = (counts / totals) * 100

resultat = pourcentages.unstack(fill_value=0)
print(resultat)

                  Salaire
Statut                   
Célibataire  57318.655556
Divorcé(e)   57391.885932
Marié(e)     58067.497854
Statut     Célibataire  Divorcé(e)   Marié(e)
Ville                                        
Bordeaux     31.182796   33.333333  35.483871
Lille        38.834951   31.553398  29.611650
Lyon         34.328358   34.825871  30.845771
Marseille    37.244898   32.142857  30.612245
Paris        33.175355   36.966825  29.857820


# 8. 🔗 Fusionner deux DataFrames

Lorsque les données sont réparties dans plusieurs tableaux (par exemple clients d’un côté, commandes de l’autre), il est souvent nécessaire de les fusionner.

Pandas propose deux grands types de fusions :
- fusion horizontale (alignement par colonne)
- fusion verticale (empilement de lignes) 

### a. Fusion horizontale (alignement par colonne) – `pd.merge()`

In [152]:
df_clients = pd.read_csv("data/clients.csv")
df_commandes = pd.read_csv("data/commandes.csv")

display(df_clients)
display(df_commandes)

# Fusion sur les identifiants : correspondance ligne à ligne
df_fusion = pd.merge(df_clients, df_commandes, left_on="ID", right_on="Client_ID")
display(df_fusion)

Unnamed: 0,ID,Nom
0,1,Alice
1,2,Bob
2,3,Charlie


Unnamed: 0,Client_ID,Montant
0,1,250
1,2,120
2,1,75
3,4,300


Unnamed: 0,ID,Nom,Client_ID,Montant
0,1,Alice,1,250
1,1,Alice,1,75
2,2,Bob,2,120


À l'instar de SQL, il est possible d'utliser d'autres jointures (`left`, `right`, `outer`).

In [153]:
# 🔁 Jointure gauche (LEFT JOIN) :
# Garde toutes les lignes du DataFrame de gauche (clients),
# même si aucun client n’a passé de commande (valeurs manquantes dans 'Montant').
display( pd.merge(df_clients, df_commandes, left_on="ID", right_on="Client_ID", how="left") )

# 🔁 Jointure droite (RIGHT JOIN) :
# Garde toutes les lignes du DataFrame de droite (commandes),
# même si certaines commandes n'ont pas de client correspondant (valeurs manquantes dans 'Nom').
display( pd.merge(df_clients, df_commandes, left_on="ID", right_on="Client_ID", how="right") )

# 🔁 Jointure externe complète (FULL OUTER JOIN) :
# Garde toutes les lignes des deux DataFrames,
# insère des NaN là où il n'y a pas de correspondance (côté client ou côté commande).
display( pd.merge(df_clients, df_commandes, left_on="ID", right_on="Client_ID", how="outer"))

Unnamed: 0,ID,Nom,Client_ID,Montant
0,1,Alice,1.0,250.0
1,1,Alice,1.0,75.0
2,2,Bob,2.0,120.0
3,3,Charlie,,


Unnamed: 0,ID,Nom,Client_ID,Montant
0,1.0,Alice,1,250
1,2.0,Bob,2,120
2,1.0,Alice,1,75
3,,,4,300


Unnamed: 0,ID,Nom,Client_ID,Montant
0,1.0,Alice,1.0,250.0
1,1.0,Alice,1.0,75.0
2,2.0,Bob,2.0,120.0
3,3.0,Charlie,,
4,,,4.0,300.0


### 🧩 Exercice

> Chargez les fichiers CSV `"data/students.csv"` et `"data/notes.csv"` dans deux DataFrames : `df_students` et `df_notes` puis répondez aux demandes suivantes :
> - Réalisez une jointure interne (inner) pour ne conserver que les étudiants ayant une note.
> - Réalisez une jointure gauche (left) pour conserver tous les étudiants, même ceux sans note.
> - Réalisez une jointure externe (outer) pour afficher tous les étudiants et toutes les notes, même sans correspondance.

In [156]:
data = pd.read_csv("data/students.csv")
df_students = pd.DataFrame(data)
data = pd.read_csv("data/notes.csv")
df_notes = pd.DataFrame(data)
display(df_students)
display(df_notes)

display(pd.merge(df_students, df_notes, left_on="ID", right_on="Etudiant_ID", how="inner"))
display(pd.merge(df_students, df_notes, left_on="ID", right_on="Etudiant_ID", how="left"))
display(pd.merge(df_students, df_notes, left_on="ID", right_on="Etudiant_ID", how="outer"))


Unnamed: 0,ID,Nom,Cursus
0,1,Arnaude Hubert-Charles,Mathématiques
1,2,Pauline Da Costa de la Gomez,Data Science
2,3,Michelle-Christine Bertin,Informatique
3,4,Henri Aubert,Data Science
4,5,Arnaude Deschamps,Data Science


Unnamed: 0,Etudiant_ID,Note
0,1,51
1,2,86
2,1,94
3,5,65
4,6,97


Unnamed: 0,ID,Nom,Cursus,Etudiant_ID,Note
0,1,Arnaude Hubert-Charles,Mathématiques,1,51
1,1,Arnaude Hubert-Charles,Mathématiques,1,94
2,2,Pauline Da Costa de la Gomez,Data Science,2,86
3,5,Arnaude Deschamps,Data Science,5,65


Unnamed: 0,ID,Nom,Cursus,Etudiant_ID,Note
0,1,Arnaude Hubert-Charles,Mathématiques,1.0,51.0
1,1,Arnaude Hubert-Charles,Mathématiques,1.0,94.0
2,2,Pauline Da Costa de la Gomez,Data Science,2.0,86.0
3,3,Michelle-Christine Bertin,Informatique,,
4,4,Henri Aubert,Data Science,,
5,5,Arnaude Deschamps,Data Science,5.0,65.0


Unnamed: 0,ID,Nom,Cursus,Etudiant_ID,Note
0,1.0,Arnaude Hubert-Charles,Mathématiques,1.0,51.0
1,1.0,Arnaude Hubert-Charles,Mathématiques,1.0,94.0
2,2.0,Pauline Da Costa de la Gomez,Data Science,2.0,86.0
3,3.0,Michelle-Christine Bertin,Informatique,,
4,4.0,Henri Aubert,Data Science,,
5,5.0,Arnaude Deschamps,Data Science,5.0,65.0
6,,,,6.0,97.0


### b. Fusion verticale (empilement de lignes) – `pd.concat()`

Ce type de fusion est utilisé pour concaténer des DataFrame similaires.

In [157]:
df_1 = pd.read_csv("data/sales_1.csv")
df_2 = pd.read_csv("data/sales_2.csv")
df_3 = pd.read_csv("data/sales_3.csv")

# Fusion verticale : les lignes des DataFrame sont empilées par ordre de lecture
df_sales = pd.concat([df_1, df_2, df_3])

df_sales.reset_index()  # On réinitialise les index après la fusion

Unnamed: 0,index,Date,Produit,Quantité
0,0,2024-01-01,A,1
1,1,2024-01-02,F,4
2,2,2024-01-03,E,5
3,3,2024-01-04,D,8
4,4,2024-01-05,F,2
5,0,2024-02-01,D,9
6,1,2024-02-02,E,1
7,2,2024-02-03,F,3
8,3,2024-02-04,E,2
9,4,2024-02-05,E,3


### 🧩 Exercices

> Chargez les fichiers CSV `"data/sessions_1.csv"`, `"data/sessions_2.csv"` et `"data/sessions_3.csv"` dans trois DataFrames puis répondez aux demandes suivantes :
> - Concatènez les trois dataset pour obtenir un historique complet. (Pensez à réindexer les lignes après la concaténation avec ignore_index=True)
> - Triez le DataFrame fusionné par date croissante.
> - Affichez le nombre total de participants par thème.
> - Identifie les participants qui sont venus plusieurs fois.

In [181]:
data = pd.read_csv("data/sessions_1.csv")
df1 = pd.DataFrame(data)
data = pd.read_csv("data/sessions_2.csv")
df2 = pd.DataFrame(data)
data = pd.read_csv("data/sessions_3.csv")
df3 = pd.DataFrame(data)

df = pd.concat([df1,df2,df3])
df.reset_index()
df.sort_values(by=["Date"], ascending=True)

df.groupby(["Thème"]).size()


data = pd.read_csv("data/custom_session.csv")
df = pd.DataFrame(data)
doublons = df.groupby(["Nom_complet"]).size()
doublons[doublons > 1]

Nom_complet
Alix Delannoy       2
Alphonse Richard    2
Noémi Rémy          2
Pénélope Pruvost    2
Timothée Laroche    2
dtype: int64

---
# ✅ Bravo !
Vous maîtrisez les bases de Pandas. Vous pouvez maintenant explorer, nettoyer et transformer des données !