![Pandas](img/pandas.png)

Bienvenue dans ce notebook dédié à **Pandas**, l'une des bibliothèques les plus importantes pour manipuler des données en Python.

🎯 Objectif : Apprendre à manipuler des données tabulaires en étudiant les bases de **Pandas**.

---

## 📌 Sommaire :
1. Création d'une DataFrame  
2. Chargement de données (CSV)  
3. Exploration rapide des données  
4. Sélection et filtres  
5. Opérations sur les colonnes  
6. Nettoyage des données  
7. Groupement et agrégation  
8. Fusion de DataFrames

---


# Introduction

Pandas est une bibliothèque Python incontournable pour la **manipulation** et l’**analyse de données tabulaires** (comme les fichiers CSV, Excel, ou bases de données relationnelles).

Elle est largement utilisée en **data science**, **machine learning**, **finance**, et dans toute activité où l’on travaille avec des **données structurées**.

# 1. Créer une DataFrame manuellement

La DataFrame est la structure principale de Pandas. Elle représente un **tableau 2D** composé de **lignes** et de **colonnes nommées**, un peu comme une feuille Excel.

Dans cette première étape, nous allons créer une **DataFrame** à partir d’un dictionnaire Python. Chaque clé du dictionnaire représente le nom d’une colonne, et chaque valeur est une liste correspondant aux données de cette colonne.

In [None]:
# Chargement de la bibliothèque Pandas et de numpy
import pandas as pd
import numpy as np

In [None]:
# Dictionnaire contenant les données à transformer
data = {
    "Nom": ["Alice", "Bob", "Charlie"],
    "Âge": [25, 30, 35],
    "Ville": ["Paris", "Lyon", "Marseille"]
}

# Conversion du dictionnaire en DataFrame
df = pd.DataFrame(data)

display(df)

### 🧩 Exercice

> Créez votre propre DataFrame avec les colonnes : `Produit`, `Prix`, `Quantité`

In [None]:
data = {
    'Produit': ['Tomate', 'Carotte', 'Poivron', 'Courgette', 'Aubergine'],
    'Prix': [2.5, 1.8, 3.2, 2.0, 2.7],
    'Quantité': [10, 15, 7, 12, 9]
}

df = pd.DataFrame(data)
display(df)

# 2. 📂 Lire un fichier CSV

Dans la grande majorité des projets de data science, les données proviennent d’un fichier externe, souvent au format CSV (Comma-Separated Values).
Ce format est simple, lisible, et largement utilisé pour exporter des données depuis Excel, des bases de données ou des outils en ligne.

Avec Pandas, la fonction `pd.read_csv()` permet de charger rapidement un fichier CSV dans une DataFrame.


In [None]:
# Chargement d'un fichier CSV
df = pd.read_csv("data/employees.csv")

display(df)

# 3. 🔍 Exploration rapide des données

Une fois le fichier chargé, la première étape consiste à explorer rapidement la structure et le contenu des données.
Cela permet de :
- vérifier que le fichier a bien été lu,
- repérer d’éventuels problèmes (valeurs manquantes, colonnes inutiles…),
- et mieux comprendre les variables disponibles.

Pandas fournit plusieurs méthodes très pratiques pour cette phase d’inspection : 

In [None]:
# Connaître les dimensions du tableau : (lignes, colonnes)
df.shape

In [None]:
# Affiche les premières lignes du DataFrame (5 ligne par défaut)
df.head()

In [None]:
# Affiche les 10 premières lignes du DataFrame
df.head(10)

In [None]:
# Résumé général : nombre de lignes, colonnes, types, valeurs nulles
df.info()

In [None]:
# Statistiques descriptives pour les colonnes numériques
df.describe()

In [None]:
# Liste des noms de colonnes.
df.columns


# 4. 🔎 Sélection et filtrage de données

Une fois les données chargées et explorées, vous allez souvent vouloir :
- accéder à une ou plusieurs colonnes spécifiques,
- ou filtrer les lignes selon des conditions (par exemple : age > 25, ville = "Paris", etc.).

### 4.1. Sélection

En Pandas, on accède à une colonne comme à une clé de dictionnaire. Cela retourne une **Series**, c’est-à-dire un vecteur contenant les valeurs de cette colonne.

In [None]:
# Accès à une colonne
selected_column = df["Nom_complet"]

selected_column

In [None]:
# Type du contenu retourné par la sélection (Series)
type(selected_column)

### 4.2. Filtrage

Il est possible d'appliquer un masque ou des conditions directement sur les colonnes.

In [None]:
# Masque de filtrage
mask = df["Age"] > 25

# Aperçu du massque
display(mask)

# Retourne toutes les lignes où la colonne Age est strictement supérieure à 25.
# Ceci revient à dire : "Afficher toutes les lignes où mask vaut True".
df[mask]

# 5. ➕ Opérations sur les colonnes

Dans Pandas, on peut facilement **modifier**, **créer** ou **supprimer** des colonnes. Ces opérations sont très courantes lorsqu’on prépare des données pour l’analyse ou le machine learning.

### 5.1. Colonnes dérivées

Les opérations mathématiques sont vectorisées c'est à dire qu'elles s’appliquent à toute la colonne.

In [None]:
# Créer une nouvelle colonne pour le salaire mensuel
df["Salaire mensuel"] = df["Salaire"] / 12

df

### 🧩 Exercices

> Créez une colonne "Age/Salaire" qui représente le ratio entre l’âge et le salaire annuel.

In [None]:
df["Age/Salaire"] = df["Age"] / df["Salaire"]
df.head()

> 💰 Les employés qui gagnent moins de 60 000 € par an reçoivent une prime de 5 000 €, les autres 2 000 €.  
> Créez une colonne "Prime" avec la valeur appropriée selon le salaire.  
>
> 💡 indice : vous pouvez utiliser **Numpy** avec sa méthode **where** (ex : `np.where()`)

In [None]:
df["Prime"] = np.where(df["Salaire"] < 60000, 5000, 2000)

df.head(15)

### 5.2. Transformations personnalisées avec .apply()

Une colonne dérivée n’a pas besoin d’être un calcul numérique. On peut aussi :
- transformer du texte,
- extraire de l’information,
- ou catégoriser des données.

La méthode `.apply()` permet d’appliquer une **fonction** ou une **lambda** à chaque élément d’une colonne (ou d’une ligne).
C’est très utile lorsqu’on veut transformer les données d’une manière plus complexe qu’une simple opération mathématique.

Qu'est-ce qu'une lambda ? : [Lire cet article](https://www.w3schools.com/python/python_lambda.asp)

In [None]:
# Ajouter le suffixe (France) à chaque ville de chaque ligne
df["Ville_complete"] = df["Ville"].apply(lambda v: v + " (France)")

df.Ville_complete.value_counts()

# 🧠 Équivalent avec une fonction 
#
#def ajouter_suffixe(ville):
#    return ville + " (France)"
#
#df["Ville_complete"] = df["Ville"].apply(ajouter_suffixe)

### 🧩 Exercices

> Créez deux colonnes supplémentaires à partir du nom complet :
> - une colonne `Prénom`
> - une colonne `Nom_de_famille`
>
> 💡 indice : pensez à la méthode `.split()` d'un type `string`

In [None]:
df["Prénom"] = df["Nom_complet"].str.split().str[0]
df["Nom_de_famille"] = df["Nom_complet"].str.split().str[1]

df.head()

> Créez une colonne `Position_ville` qui indique si la ville est située dans la moitié nord ou dans la moitié sud.  
> 💡 indice : on considère Lille et Paris au nord, Lyon et Marseille au sud.

In [None]:
df["Position_ville"] = df["Ville"].apply(lambda ville: "Nord" if ville in ["Lille", "Paris"] else "Sud")

df.head()

### 5.3. Renommer ou supprimer des colonnes

In [None]:
# Renommer en anglais les différentes colonnes
df = df.rename(columns={"Nom_complet": "Full_name", "Ville": "Location", "Salaire": "Income", "Statut": "Status"})

df

In [None]:
# Supprimer des colonnes
df = df.drop(["Salaire mensuel", "Ville_complete"], axis=1)

df

# 🧠 Comprendre les axes dans pandas : 
# On utilise `axis=0` lorsqu'on veut agir verticalement (lignes)
# On utilise `axis=1` lorsqu'on veut agir horizontalement (colonnes)

# 6. 💊 Traitement de données manquantes

Lorsque l’on travaille avec des données réelles, il est très fréquent de rencontrer des **valeurs manquantes** : une case vide dans un fichier CSV, une valeur absente dans un formulaire, etc.

Avant de décider quoi faire avec ces valeurs, il faut les détecter, comprendre où elles sont, puis choisir une stratégie adaptée : **suppression**, **remplacement**, **interpolation**, etc.

### 6.1 Détection des valeurs manquantes

In [None]:
# Chargement du dataset du fichier employees_nulls.csv
df_employees_nulls = pd.read_csv("data/employees_nulls.csv")

df_employees_nulls.head()

#### a. Visualisation d'ensemble

Il est possible de repérer les valeurs manquantes dans chaque cellule du dataFrame. Les cellules marquées `True` indiquent une valeur manquante.

In [None]:
df_employees_nulls.isna()

#### b. Visualisation par colonne

Pour compter le nombre de valeurs manquantes par colonne, on utilise la combinaison de `.isna()` et `.sum()`.
La méthode `.isna()` identifie les cellules manquantes en retournant `True` ou `False`, et `.sum()` **additionne ensuite ces True**.

En effet, en Python (et donc dans Pandas), les valeurs booléennes ont une valeur numérique implicite :
- `True` vaut 1
- `False` vaut 0

Ainsi, `.sum()` appliqué à une série booléenne permet de compter les `True`, c’est-à-dire ici, les valeurs manquantes.

In [None]:
# Compter le nombre de valeurs manquantes par colonne
df_employees_nulls.isna().sum()

#### c. Comptage du nombre de lignes concernées

Pour compter le nombre de lignes contenant au moins une valeur manquante, on utilise la combinaison de `.isna()`, `.any(axis=1)`, `.sum()`:
- `.isna()` renvoie un DataFrame de booléens (True si la cellule est manquante, False sinon)
- `.any(axis=1)` parcourt chaque ligne (axis=1 signifie "le long des colonnes") et retourne True si au moins une des colonnes contient une valeur manquante sur cette ligne
- `.sum()` additionne les True (chaque True vaut 1), ce qui donne le nombre total de lignes concernées

In [None]:
# Voir le nombre de lignes contenant au moins une valeur manquante
df_employees_nulls.isna().any(axis=1).sum()

### 🧩 Exercices (sur le dataset **"data/employees_nulls_training.csv"**)

⚠️ Assurez-vous d’avoir préalablement chargé le fichier `data/employees_nulls_training.csv`

> 1. Utilisez une méthode pour vérifier s’il y a au moins une valeur manquante dans tout le DataFrame.
> 2. Affichez le nombre de valeurs manquantes pour chaque colonne
> 3. Affichez toutes les lignes contenant au moins une valeur manquante.
> 4. Affichez pour chaque colonne le pourcentage de valeurs manquantes,

In [None]:
df = pd.read_csv("data/employees_nulls_training.csv")

# 1. 
display( df.isnull().any() )

# 2.
display( df.isnull().sum() )

# 3.
display( df[df.isnull().any(axis=1)] )

# 4.
display( df.isnull().mean() * 100 )

### 6.2 Traitement des valeurs manquantes

#### a. Remplacement par une valeur statistique (ex: moyenne ou médiane)

In [None]:
# Exemple : remplacer les âges manquants par la moyenne des âges.
df_employees_nulls["Age"] = df_employees_nulls["Age"].fillna(df["Age"].mean())

df_employees_nulls.isna().sum()

#### b. Remplacement selon une logique conditionnelle ou métier

In [None]:
# Exemple : si la ville est manquante, on met "Non précisé"
df_employees_nulls["Ville"] = df_employees_nulls["Ville"].fillna("Non précisé")

df_employees_nulls.isna().sum()

#### c. Supprimer les lignes contenant des valeurs manquantes

Cette technique est utilisée lorsque les lignes incomplètes sont peu nombreuses ou peu importantes car dans le cas contraire il y a des risques de perdre trop de données.

In [None]:
df_employees_nulls = df_employees_nulls.dropna()

df_employees_nulls.isna().sum()

### 🧩 Exercices (sur le dataset **"data/employees_nulls_training.csv"**)

⚠️ Assurez-vous d’avoir préalablement chargé le fichier `data/employees_nulls_training.csv`

> 1. Supprimez toutes les lignes où le nom est manquant.
> 2. Remplacez les valeurs manquantes de la colonne `Salaire` par la médiane de cette colonne.
> 3. Remplacez les valeurs manquantes de la colonne `Age` par la moyenne de cette colonne.
> 4. Remplacez les valeurs manquantes de la colonne `Ville` par "Inconnu".
> 5. Si une colonne est indispensable à l’analys de données (ex. : `Statut`), propose une stratégie justifiée : suppression de la ligne ou remplacement.

In [None]:
df.shape

In [None]:
df = pd.read_csv("data/employees_nulls_training.csv")

# 1.
df = df.dropna(subset=["Nom_complet"])

# 2.
df["Salaire"] = df["Salaire"].fillna(df["Salaire"].median())

# 3.
df["Age"] = df["Age"].fillna(df["Age"].mean())

# 4.
df["Ville"] = df["Ville"].fillna("Inconnu")

# 5. La colonne Statut étant essentielle pour notre analyse, nous avons choisi de supprimer les 46 lignes pour lesquelles cette information est manquante. 
# Cela représente 4,6 % du jeu de données (sur un total de 1000 lignes). 
# Bien que ce taux soit relativement faible, nous avons préféré cette approche à l’imputation, car inférer des valeurs manquantes pour une variable catégorielle comporte un risque élevé d’erreur ou de biais.
df["Statut"] = df["Statut"].dropna()

df.isnull().sum()

# 7. 📊 Groupement et agrégation

Le groupement permet de **segmenter** un jeu de données en **sous-ensembles** (par exemple par ville, par catégorie ou par client), puis d’appliquer une **fonction d’agrégation** à chaque groupe : somme, moyenne, maximum, etc.

C’est une opération très puissante en data science pour produire des résumés statistiques par groupe.

In [None]:
df = pd.read_csv("data/employees.csv")

# Sélectionner uniquement les colonnes qui nous intéressent
df_numeriques = df[["Ville", "Salaire"]]

# Regrouper par ville et faire une somme des salaire par ville
df_numeriques.groupby("Ville").sum()

D'autres opérations sont possibles comme l'affichage des statistiques descriptives avec `.describe()`

In [None]:
# Statistiques descriptives par ville
display(df_numeriques.groupby("Ville").describe())

# ℹ️ Il est possible d’accéder directement à une statistique spécifique
# comme le nombre de valeurs ou la moyenne, en utilisant des méthodes dédiées telles que .count() ou .mean().
display(df_numeriques.groupby("Ville").count()) # Nombre de salaire existant (non nulle) par ville
display(df_numeriques.groupby("Ville").mean())  # Moyenne des salaire par ville

### 🧩 Exercices

> À partir du dataset `data/employees.csv`, répondez à ces questions :
> - Quelle est la moyenne des salaires annuels de plus de 35000€ par statut marital ?
> - Quel est le pourcentage d’employés mariés dans chaque ville ?

In [None]:
df = pd.read_csv("data/employees.csv")

moyennes_salaire = df[df["Salaire"] > 35000].groupby("Statut")["Salaire"].mean()
display(moyennes_salaire)

df["Est_marié"] = df["Statut"] == "Marié(e)"
pourcentage_mariés = df.groupby("Ville")["Est_marié"].mean() * 100
display(pourcentage_mariés)

# 8. 🔗 Fusionner deux DataFrames

Lorsque les données sont réparties dans plusieurs tableaux (par exemple clients d’un côté, commandes de l’autre), il est souvent nécessaire de les fusionner.

Pandas propose deux grands types de fusions :
- fusion horizontale (alignement par colonne)
- fusion verticale (empilement de lignes) 

### a. Fusion horizontale (alignement par colonne) – `pd.merge()`

In [None]:
df_clients = pd.read_csv("data/clients.csv")
df_commandes = pd.read_csv("data/commandes.csv")

display(df_clients)
display(df_commandes)

# Fusion sur les identifiants : correspondance ligne à ligne
df_fusion = pd.merge(df_clients, df_commandes, left_on="ID", right_on="Client_ID")
display(df_fusion)

À l'instar de SQL, il est possible d'utliser d'autres jointures (`left`, `right`, `outer`).

In [None]:
# 🔁 Jointure gauche (LEFT JOIN) :
# Garde toutes les lignes du DataFrame de gauche (clients),
# même si aucun client n’a passé de commande (valeurs manquantes dans 'Montant').
display( pd.merge(df_clients, df_commandes, left_on="ID", right_on="Client_ID", how="left") )

# 🔁 Jointure droite (RIGHT JOIN) :
# Garde toutes les lignes du DataFrame de droite (commandes),
# même si certaines commandes n'ont pas de client correspondant (valeurs manquantes dans 'Nom').
display( pd.merge(df_clients, df_commandes, left_on="ID", right_on="Client_ID", how="right") )

# 🔁 Jointure externe complète (FULL OUTER JOIN) :
# Garde toutes les lignes des deux DataFrames,
# insère des NaN là où il n'y a pas de correspondance (côté client ou côté commande).
display( pd.merge(df_clients, df_commandes, left_on="ID", right_on="Client_ID", how="outer"))

### 🧩 Exercice

> Chargez les fichiers CSV `"data/students.csv"` et `"data/notes.csv"` dans deux DataFrames : `df_students` et `df_notes` puis répondez aux demandes suivantes :
> - Réalisez une jointure interne (inner) pour ne conserver que les étudiants ayant une note.
> - Réalisez une jointure gauche (left) pour conserver tous les étudiants, même ceux sans note.
> - Réalisez une jointure externe (outer) pour afficher tous les étudiants et toutes les notes, même sans correspondance.

In [None]:
df_students = pd.read_csv("data/students.csv")
df_notes = pd.read_csv("data/notes.csv")

inner_join = pd.merge(df_students, df_notes, left_on="ID", right_on="Etudiant_ID", how="inner")
display(inner_join)

left_join = pd.merge(df_students, df_notes, left_on="ID", right_on="Etudiant_ID", how="left")
display(inner_join)

outer_join = pd.merge(df_students, df_notes, left_on="ID", right_on="Etudiant_ID", how="outer")
display(inner_join)

### b. Fusion verticale (empilement de lignes) – `pd.concat()`

Ce type de fusion est utilisé pour concaténer des DataFrame similaires.

In [None]:
df_1 = pd.read_csv("data/sales_1.csv")
df_2 = pd.read_csv("data/sales_2.csv")
df_3 = pd.read_csv("data/sales_3.csv")

# Fusion verticale : les lignes des DataFrame sont empilées par ordre de lecture
df_sales = pd.concat([df_1, df_2, df_3])

df_sales.reset_index()  # On réinitialise les index après la fusion

### 🧩 Exercices

> Chargez les fichiers CSV `"data/sessions_1.csv"`, `"data/sessions_2.csv"` et `"data/sessions_3.csv"` dans trois DataFrames puis répondez aux demandes suivantes :
> - Concatènez les trois dataset pour obtenir un historique complet. (Pensez à réindexer les lignes après la concaténation avec ignore_index=True)
> - Triez le DataFrame fusionné par date croissante.
> - Affichez le nombre total de participants par thème.
> - Identifie les participants qui sont venus plusieurs fois.

In [None]:
df1 = pd.read_csv("data/sessions_1.csv")
df2 = pd.read_csv("data/sessions_2.csv")
df3 = pd.read_csv("data/sessions_3.csv")

df_all = pd.concat([df1, df2, df3], ignore_index=True)

df_all["Date"] = pd.to_datetime(df_all["Date"])
df_all = df_all.sort_values(by="Date")
display(df_all.head())

participants_par_theme = df_all["Thème"].value_counts()
display(participants_par_theme)

participants_frequents = df_all["Participant"].value_counts()
display(participants_frequents)
participants_recurrents = participants_frequents[participants_frequents > 1]
display(participants_recurrents)


---
# ✅ Bravo !
Vous maîtrisez les bases de Pandas. Vous pouvez maintenant explorer, nettoyer et transformer des données !