![Pandas](img/pandas.png)

Bienvenue dans ce notebook d√©di√© √† **Pandas**, l'une des biblioth√®ques les plus importantes pour manipuler des donn√©es en Python.

üéØ Objectif : Apprendre √† manipuler des donn√©es tabulaires en √©tudiant les bases de **Pandas**.

---

## üìå Sommaire :
1. Cr√©ation d'une DataFrame  
2. Chargement de donn√©es (CSV)  
3. Exploration rapide des donn√©es  
4. S√©lection et filtres  
5. Op√©rations sur les colonnes  
6. Nettoyage des donn√©es  
7. Groupement et agr√©gation  
8. Fusion de DataFrames

---


# Introduction

Pandas est une biblioth√®que Python incontournable pour la **manipulation** et l‚Äô**analyse de donn√©es tabulaires** (comme les fichiers CSV, Excel, ou bases de donn√©es relationnelles).

Elle est largement utilis√©e en **data science**, **machine learning**, **finance**, et dans toute activit√© o√π l‚Äôon travaille avec des **donn√©es structur√©es**.

# 1. Cr√©er une DataFrame manuellement

La DataFrame est la structure principale de Pandas. Elle repr√©sente un **tableau 2D** compos√© de **lignes** et de **colonnes nomm√©es**, un peu comme une feuille Excel.

Dans cette premi√®re √©tape, nous allons cr√©er une **DataFrame** √† partir d‚Äôun dictionnaire Python. Chaque cl√© du dictionnaire repr√©sente le nom d‚Äôune colonne, et chaque valeur est une liste correspondant aux donn√©es de cette colonne.

In [2]:
# Chargement de la biblioth√®que Pandas
import pandas as pd

In [3]:
# Dictionnaire contenant les donn√©es √† transformer
data = {
    "Nom": ["Alice", "Bob", "Charlie"],
    "√Çge": [25, 30, 35],
    "Ville": ["Paris", "Lyon", "Marseille"]
}

# Conversion du dictionnaire en DataFrame
df = pd.DataFrame(data)

display(df)

Unnamed: 0,Nom,√Çge,Ville
0,Alice,25,Paris
1,Bob,30,Lyon
2,Charlie,35,Marseille


### üß© Exercice

> Cr√©ez votre propre DataFrame avec les colonnes : `Produit`, `Prix`, `Quantit√©`

In [4]:
# Votre code ici

# 2. üìÇ Lire un fichier CSV

Dans la grande majorit√© des projets de data science, les donn√©es proviennent d‚Äôun fichier externe, souvent au format CSV (Comma-Separated Values).
Ce format est simple, lisible, et largement utilis√© pour exporter des donn√©es depuis Excel, des bases de donn√©es ou des outils en ligne.

Avec Pandas, la fonction `pd.read_csv()` permet de charger rapidement un fichier CSV dans une DataFrame.


In [5]:
# Chargement d'un fichier CSV
df = pd.read_csv("data/employees.csv")

display(df)

Unnamed: 0,Nom_complet,Age,Ville,Salaire,Statut
0,Madeleine Lenoir,56,Lille,59778,C√©libataire
1,Victor Picard,46,Lyon,31207,C√©libataire
2,Daniel Chauvin,32,Bordeaux,76269,Mari√©(e)
3,Luce Renaud,60,Paris,45537,Mari√©(e)
4,Agathe Gr√©goire,25,Lille,55757,Mari√©(e)
...,...,...,...,...,...
995,Denise Munoz,22,Paris,43481,Divorc√©(e)
996,Roger Launay,40,Marseille,38474,Divorc√©(e)
997,Philippine Lucas,27,Bordeaux,66760,C√©libataire
998,Isaac Turpin,61,Lyon,75718,Divorc√©(e)


# 3. üîç Exploration rapide des donn√©es

Une fois le fichier charg√©, la premi√®re √©tape consiste √† explorer rapidement la structure et le contenu des donn√©es.
Cela permet de :
- v√©rifier que le fichier a bien √©t√© lu,
- rep√©rer d‚Äô√©ventuels probl√®mes (valeurs manquantes, colonnes inutiles‚Ä¶),
- et mieux comprendre les variables disponibles.

Pandas fournit plusieurs m√©thodes tr√®s pratiques pour cette phase d‚Äôinspection : 

In [6]:
# Conna√Ætre les dimensions du tableau : (lignes, colonnes)
df.shape

(1000, 5)

In [7]:
# Affiche les premi√®res lignes du DataFrame (5 ligne par d√©faut)
df.head()

Unnamed: 0,Nom_complet,Age,Ville,Salaire,Statut
0,Madeleine Lenoir,56,Lille,59778,C√©libataire
1,Victor Picard,46,Lyon,31207,C√©libataire
2,Daniel Chauvin,32,Bordeaux,76269,Mari√©(e)
3,Luce Renaud,60,Paris,45537,Mari√©(e)
4,Agathe Gr√©goire,25,Lille,55757,Mari√©(e)


In [8]:
# Affiche les 10 premi√®res lignes du DataFrame
df.head(10)

Unnamed: 0,Nom_complet,Age,Ville,Salaire,Statut
0,Madeleine Lenoir,56,Lille,59778,C√©libataire
1,Victor Picard,46,Lyon,31207,C√©libataire
2,Daniel Chauvin,32,Bordeaux,76269,Mari√©(e)
3,Luce Renaud,60,Paris,45537,Mari√©(e)
4,Agathe Gr√©goire,25,Lille,55757,Mari√©(e)
5,Alix David,38,Paris,32040,Mari√©(e)
6,Christophe Dijoux,56,Paris,61986,Mari√©(e)
7,Virginie Baron,36,Paris,42612,C√©libataire
8,Agathe Payet,40,Marseille,48441,Mari√©(e)
9,Maurice Rousset,28,Marseille,26471,C√©libataire


In [9]:
# R√©sum√© g√©n√©ral : nombre de lignes, colonnes, types, valeurs nulles
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Nom_complet  1000 non-null   object
 1   Age          1000 non-null   int64 
 2   Ville        1000 non-null   object
 3   Salaire      1000 non-null   int64 
 4   Statut       1000 non-null   object
dtypes: int64(2), object(3)
memory usage: 39.2+ KB


In [10]:
# Statistiques descriptives pour les colonnes num√©riques
df.describe()

Unnamed: 0,Age,Salaire
count,1000.0,1000.0
mean,40.986,50625.023
std,13.497852,16937.69321
min,18.0,20145.0
25%,29.0,36144.0
50%,42.0,50380.5
75%,52.0,65008.25
max,64.0,79975.0


In [11]:
# Liste des noms de colonnes.
df.columns


Index(['Nom_complet', 'Age', 'Ville', 'Salaire', 'Statut'], dtype='object')

# 4. üîé S√©lection et filtrage de donn√©es

Une fois les donn√©es charg√©es et explor√©es, vous allez souvent vouloir :
- acc√©der √† une ou plusieurs colonnes sp√©cifiques,
- ou filtrer les lignes selon des conditions (par exemple : age > 25, ville = "Paris", etc.).

### 4.1. S√©lection

En Pandas, on acc√®de √† une colonne comme √† une cl√© de dictionnaire. Cela retourne une **Series**, c‚Äôest-√†-dire un vecteur contenant les valeurs de cette colonne.

In [12]:
# Acc√®s √† une colonne
selected_column = df["Nom_complet"]

selected_column

0      Madeleine Lenoir
1         Victor Picard
2        Daniel Chauvin
3           Luce Renaud
4       Agathe Gr√©goire
             ...       
995        Denise Munoz
996        Roger Launay
997    Philippine Lucas
998        Isaac Turpin
999    Claire Boulanger
Name: Nom_complet, Length: 1000, dtype: object

In [13]:
# Type du contenu retourn√© par la s√©lection (Series)
type(selected_column)

pandas.core.series.Series

### 4.2. Filtrage

Il est possible d'appliquer un masque ou des conditions directement sur les colonnes.

In [14]:
# Masque de filtrage
mask = df["Age"] > 25

# Aper√ßu du massque
display(mask)

# Retourne toutes les lignes o√π la colonne Age est strictement sup√©rieure √† 25.
# Ceci revient √† dire : "Afficher toutes les lignes o√π mask vaut True".
df[mask]

0       True
1       True
2       True
3       True
4      False
       ...  
995    False
996     True
997     True
998     True
999    False
Name: Age, Length: 1000, dtype: bool

Unnamed: 0,Nom_complet,Age,Ville,Salaire,Statut
0,Madeleine Lenoir,56,Lille,59778,C√©libataire
1,Victor Picard,46,Lyon,31207,C√©libataire
2,Daniel Chauvin,32,Bordeaux,76269,Mari√©(e)
3,Luce Renaud,60,Paris,45537,Mari√©(e)
5,Alix David,38,Paris,32040,Mari√©(e)
...,...,...,...,...,...
992,Guillaume Herv√©,50,Paris,53340,C√©libataire
994,Susanne Duhamel,27,Paris,26171,Divorc√©(e)
996,Roger Launay,40,Marseille,38474,Divorc√©(e)
997,Philippine Lucas,27,Bordeaux,66760,C√©libataire


# 5. ‚ûï Op√©rations sur les colonnes

Dans Pandas, on peut facilement **modifier**, **cr√©er** ou **supprimer** des colonnes. Ces op√©rations sont tr√®s courantes lorsqu‚Äôon pr√©pare des donn√©es pour l‚Äôanalyse ou le machine learning.

### 5.1. Colonnes d√©riv√©es

Les op√©rations math√©matiques sont vectoris√©es c'est √† dire qu'elles s‚Äôappliquent √† toute la colonne.

In [15]:
# Cr√©er une nouvelle colonne pour le salaire mensuel
df["Salaire mensuel"] = df["Salaire"] / 12

df

Unnamed: 0,Nom_complet,Age,Ville,Salaire,Statut,Salaire mensuel
0,Madeleine Lenoir,56,Lille,59778,C√©libataire,4981.500000
1,Victor Picard,46,Lyon,31207,C√©libataire,2600.583333
2,Daniel Chauvin,32,Bordeaux,76269,Mari√©(e),6355.750000
3,Luce Renaud,60,Paris,45537,Mari√©(e),3794.750000
4,Agathe Gr√©goire,25,Lille,55757,Mari√©(e),4646.416667
...,...,...,...,...,...,...
995,Denise Munoz,22,Paris,43481,Divorc√©(e),3623.416667
996,Roger Launay,40,Marseille,38474,Divorc√©(e),3206.166667
997,Philippine Lucas,27,Bordeaux,66760,C√©libataire,5563.333333
998,Isaac Turpin,61,Lyon,75718,Divorc√©(e),6309.833333


### üß© Exercices

> Cr√©ez une colonne "Age/Salaire" qui repr√©sente le ratio entre l‚Äô√¢ge et le salaire annuel.

In [16]:
# Votre code ici

> üí∞ Les employ√©s qui gagnent moins de 60‚ÄØ000 ‚Ç¨ par an re√ßoivent une prime de 5‚ÄØ000 ‚Ç¨, les autres 2‚ÄØ000 ‚Ç¨.  
> Cr√©ez une colonne "Prime" avec la valeur appropri√©e selon le salaire.  
>
> üí° indice : vous pouvez utiliser **Numpy** avec sa m√©thode **where** (ex : `np.where()`)

In [17]:
# Votre code ici

### 5.2. Transformations personnalis√©es avec .apply()

Une colonne d√©riv√©e n‚Äôa pas besoin d‚Äô√™tre un calcul num√©rique. On peut aussi :
- transformer du texte,
- extraire de l‚Äôinformation,
- ou cat√©goriser des donn√©es.

La m√©thode `.apply()` permet d‚Äôappliquer une **fonction** ou une **lambda** √† chaque √©l√©ment d‚Äôune colonne (ou d‚Äôune ligne).
C‚Äôest tr√®s utile lorsqu‚Äôon veut transformer les donn√©es d‚Äôune mani√®re plus complexe qu‚Äôune simple op√©ration math√©matique.

Qu'est-ce qu'une lambda ? : [Lire cet article](https://www.w3schools.com/python/python_lambda.asp)

In [18]:
# Ajouter le suffixe (France) √† chaque ville de chaque ligne
df["Ville_complete"] = df["Ville"].apply(lambda v: v + " (France)")

df.Ville_complete.value_counts()

# üß† √âquivalent avec une fonction 
#
#def ajouter_suffixe(ville):
#    return ville + " (France)"
#
#df["Ville_complete"] = df["Ville"].apply(ajouter_suffixe)

Ville_complete
Paris (France)        211
Lille (France)        206
Lyon (France)         201
Marseille (France)    196
Bordeaux (France)     186
Name: count, dtype: int64

### üß© Exercices

> Cr√©ez deux colonnes suppl√©mentaires √† partir du nom complet :
> - une colonne `Pr√©nom`
> - une colonne `Nom_de_famille`
>
> üí° indice : pensez √† la m√©thode `.split()` d'un type `string`

In [19]:
# Votre code ici

> Cr√©ez une colonne `Position_ville` qui indique si la ville est situ√©e dans la moiti√© nord ou dans la moiti√© sud.  
> üí° indice : on consid√®re Lille et Paris au nord, Lyon et Marseille au sud.

In [20]:
# Votre code ici

### 5.3. Renommer ou supprimer des colonnes

In [21]:
# Renommer en anglais les diff√©rentes colonnes
df = df.rename(columns={"Nom_complet": "Full_name", "Ville": "Location", "Salaire": "Income", "Statut": "Status"})

df

Unnamed: 0,Full_name,Age,Location,Income,Status,Salaire mensuel,Ville_complete
0,Madeleine Lenoir,56,Lille,59778,C√©libataire,4981.500000,Lille (France)
1,Victor Picard,46,Lyon,31207,C√©libataire,2600.583333,Lyon (France)
2,Daniel Chauvin,32,Bordeaux,76269,Mari√©(e),6355.750000,Bordeaux (France)
3,Luce Renaud,60,Paris,45537,Mari√©(e),3794.750000,Paris (France)
4,Agathe Gr√©goire,25,Lille,55757,Mari√©(e),4646.416667,Lille (France)
...,...,...,...,...,...,...,...
995,Denise Munoz,22,Paris,43481,Divorc√©(e),3623.416667,Paris (France)
996,Roger Launay,40,Marseille,38474,Divorc√©(e),3206.166667,Marseille (France)
997,Philippine Lucas,27,Bordeaux,66760,C√©libataire,5563.333333,Bordeaux (France)
998,Isaac Turpin,61,Lyon,75718,Divorc√©(e),6309.833333,Lyon (France)


In [22]:
# Supprimer des colonnes
df = df.drop(["Salaire mensuel", "Ville_complete"], axis=1)

df

# üß† Comprendre les axes dans pandas : 
# On utilise `axis=0` lorsqu'on veut agir verticalement (lignes)
# On utilise `axis=1` lorsqu'on veut agir horizontalement (colonnes)

Unnamed: 0,Full_name,Age,Location,Income,Status
0,Madeleine Lenoir,56,Lille,59778,C√©libataire
1,Victor Picard,46,Lyon,31207,C√©libataire
2,Daniel Chauvin,32,Bordeaux,76269,Mari√©(e)
3,Luce Renaud,60,Paris,45537,Mari√©(e)
4,Agathe Gr√©goire,25,Lille,55757,Mari√©(e)
...,...,...,...,...,...
995,Denise Munoz,22,Paris,43481,Divorc√©(e)
996,Roger Launay,40,Marseille,38474,Divorc√©(e)
997,Philippine Lucas,27,Bordeaux,66760,C√©libataire
998,Isaac Turpin,61,Lyon,75718,Divorc√©(e)


# 6. üíä Traitement de donn√©es manquantes

Lorsque l‚Äôon travaille avec des donn√©es r√©elles, il est tr√®s fr√©quent de rencontrer des **valeurs manquantes** : une case vide dans un fichier CSV, une valeur absente dans un formulaire, etc.

Avant de d√©cider quoi faire avec ces valeurs, il faut les d√©tecter, comprendre o√π elles sont, puis choisir une strat√©gie adapt√©e : **suppression**, **remplacement**, **interpolation**, etc.

### 6.1 D√©tection des valeurs manquantes

In [23]:
# Chargement du dataset du fichier employees_nulls.csv
df_employees_nulls = pd.read_csv("data/employees_nulls.csv")

df_employees_nulls.head()

Unnamed: 0,Nom_complet,Age,Ville,Salaire,Statut
0,Alain Brunet,40.0,Bordeaux,47405.0,Mari√©(e)
1,Julie Robert,42.0,Marseille,71533.0,Mari√©(e)
2,Thomas Schmitt,25.0,Lyon,56386.0,Divorc√©(e)
3,Alexandre Hoareau,62.0,Marseille,45373.0,C√©libataire
4,J√©r√¥me Courtois,39.0,Marseille,40827.0,Divorc√©(e)


#### a. Visualisation d'ensemble

Il est possible de rep√©rer les valeurs manquantes dans chaque cellule du dataFrame. Les cellules marqu√©es `True` indiquent une valeur manquante.

In [24]:
df_employees_nulls.isna()

Unnamed: 0,Nom_complet,Age,Ville,Salaire,Statut
0,False,False,False,False,False
1,False,False,False,False,False
2,False,False,False,False,False
3,False,False,False,False,False
4,False,False,False,False,False
...,...,...,...,...,...
995,False,False,False,True,False
996,False,False,False,False,False
997,False,False,False,False,False
998,False,True,False,False,False


#### b. Visualisation par colonne

Pour compter le nombre de valeurs manquantes par colonne, on utilise la combinaison de `.isna()` et `.sum()`.
La m√©thode `.isna()` identifie les cellules manquantes en retournant `True` ou `False`, et `.sum()` **additionne ensuite ces True**.

En effet, en Python (et donc dans Pandas), les valeurs bool√©ennes ont une valeur num√©rique implicite :
- `True` vaut 1
- `False` vaut 0

Ainsi, `.sum()` appliqu√© √† une s√©rie bool√©enne permet de compter les `True`, c‚Äôest-√†-dire ici, les valeurs manquantes.

In [25]:
# Compter le nombre de valeurs manquantes par colonne
df_employees_nulls.isna().sum()

Nom_complet    44
Age            52
Ville          46
Salaire        46
Statut         58
dtype: int64

#### c. Comptage du nombre de lignes concern√©es

Pour compter le nombre de lignes contenant au moins une valeur manquante, on utilise la combinaison de `.isna()`, `.any(axis=1)`, `.sum()`:
- `.isna()` renvoie un DataFrame de bool√©ens (True si la cellule est manquante, False sinon)
- `.any(axis=1)` parcourt chaque ligne (axis=1 signifie "le long des colonnes") et retourne True si au moins une des colonnes contient une valeur manquante sur cette ligne
- `.sum()` additionne les True (chaque True vaut 1), ce qui donne le nombre total de lignes concern√©es

In [26]:
# Voir le nombre de lignes contenant au moins une valeur manquante
df_employees_nulls.isna().any(axis=1).sum()

np.int64(226)

### üß© Exercices (sur le dataset **"data/employees_nulls_training.csv"**)

‚ö†Ô∏è Assurez-vous d‚Äôavoir pr√©alablement charg√© le fichier `data/employees_nulls_training.csv`

> 1. Utilisez une m√©thode pour v√©rifier s‚Äôil y a au moins une valeur manquante dans tout le DataFrame.
> 2. Affichez le nombre de valeurs manquantes pour chaque colonne
> 3. Affichez toutes les lignes contenant au moins une valeur manquante.
> 4. Affichez pour chaque colonne le pourcentage de valeurs manquantes,

In [27]:
# Votre code ici

### 6.2 Traitement des valeurs manquantes

#### a. Remplacement par une valeur statistique (ex: moyenne ou m√©diane)

In [28]:
# Exemple : remplacer les √¢ges manquants par la moyenne des √¢ges.
df_employees_nulls["Age"] = df_employees_nulls["Age"].fillna(df["Age"].mean())

df_employees_nulls.isna().sum()

Nom_complet    44
Age             0
Ville          46
Salaire        46
Statut         58
dtype: int64

#### b. Remplacement selon une logique conditionnelle ou m√©tier

In [29]:
# Exemple : si la ville est manquante, on met "Non pr√©cis√©"
df_employees_nulls["Ville"] = df_employees_nulls["Ville"].fillna("Non pr√©cis√©")

df_employees_nulls.isna().sum()

Nom_complet    44
Age             0
Ville           0
Salaire        46
Statut         58
dtype: int64

#### c. Supprimer les lignes contenant des valeurs manquantes

Cette technique est utilis√©e lorsque les lignes incompl√®tes sont peu nombreuses ou peu importantes car dans le cas contraire il y a des risques de perdre trop de donn√©es.

In [30]:
df_employees_nulls = df_employees_nulls.dropna()

df_employees_nulls.isna().sum()

Nom_complet    0
Age            0
Ville          0
Salaire        0
Statut         0
dtype: int64

### üß© Exercices (sur le dataset **"data/employees_nulls_training.csv"**)

‚ö†Ô∏è Assurez-vous d‚Äôavoir pr√©alablement charg√© le fichier `data/employees_nulls_training.csv`

> 1. Supprimez toutes les lignes o√π le nom est manquant.
> 2. Remplacez les valeurs manquantes de la colonne `Salaire` par la m√©diane de cette colonne.
> 3. Remplacez les valeurs manquantes de la colonne `Age` par la moyenne de cette colonne.
> 4. Remplacez les valeurs manquantes de la colonne `Ville` par "Inconnu".
> 5. Si une colonne est indispensable √† l‚Äôanalys de donn√©es (ex. : `Statut`), propose une strat√©gie justifi√©e : suppression de la ligne ou remplacement.

In [31]:
# Votre code ici

# 7. üìä Groupement et agr√©gation

Le groupement permet de **segmenter** un jeu de donn√©es en **sous-ensembles** (par exemple par ville, par cat√©gorie ou par client), puis d‚Äôappliquer une **fonction d‚Äôagr√©gation** √† chaque groupe : somme, moyenne, maximum, etc.

C‚Äôest une op√©ration tr√®s puissante en data science pour produire des r√©sum√©s statistiques par groupe.

In [32]:
df = pd.read_csv("data/employees.csv")

# S√©lectionner uniquement les colonnes qui nous int√©ressent
df_numeriques = df[["Ville", "Salaire"]]

# Regrouper par ville et faire une somme des salaire par ville
df_numeriques.groupby("Ville").sum()

Unnamed: 0_level_0,Salaire
Ville,Unnamed: 1_level_1
Bordeaux,9455569
Lille,10406475
Lyon,10558150
Marseille,9744753
Paris,10460076


D'autres op√©rations sont possibles comme l'affichage des statistiques descriptives avec `.describe()`

In [33]:
# Statistiques descriptives par ville
display(df_numeriques.groupby("Ville").describe())

# ‚ÑπÔ∏è Il est possible d‚Äôacc√©der directement √† une statistique sp√©cifique
# comme le nombre de valeurs ou la moyenne, en utilisant des m√©thodes d√©di√©es telles que .count() ou .mean().
display(df_numeriques.groupby("Ville").count()) # Nombre de salaire existant (non nulle) par ville
display(df_numeriques.groupby("Ville").mean())  # Moyenne des salaire par ville

Unnamed: 0_level_0,Salaire,Salaire,Salaire,Salaire,Salaire,Salaire,Salaire,Salaire
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Ville,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Bordeaux,186.0,50836.392473,17633.095666,20541.0,35489.25,51502.0,66365.75,79890.0
Lille,206.0,50516.868932,16769.129809,20163.0,36106.0,51786.0,63727.75,79945.0
Lyon,201.0,52528.109453,16492.726503,21177.0,38681.0,53400.0,67241.0,79975.0
Marseille,196.0,49718.127551,16227.430039,20161.0,36140.75,48442.5,62692.75,79792.0
Paris,211.0,49573.819905,17531.76378,20145.0,33235.5,48380.0,65665.0,79745.0


Unnamed: 0_level_0,Salaire
Ville,Unnamed: 1_level_1
Bordeaux,186
Lille,206
Lyon,201
Marseille,196
Paris,211


Unnamed: 0_level_0,Salaire
Ville,Unnamed: 1_level_1
Bordeaux,50836.392473
Lille,50516.868932
Lyon,52528.109453
Marseille,49718.127551
Paris,49573.819905


### üß© Exercices

> √Ä partir du dataset `data/employees.csv`, r√©pondez √† ces questions :
> - Quelle est la moyenne des salaires annuels de plus de 35000‚Ç¨ par statut marital ?
> - Quel est le pourcentage d‚Äôemploy√©s mari√©s dans chaque ville ?

In [34]:
# Votre code ici

# 8. üîó Fusionner deux DataFrames

Lorsque les donn√©es sont r√©parties dans plusieurs tableaux (par exemple clients d‚Äôun c√¥t√©, commandes de l‚Äôautre), il est souvent n√©cessaire de les fusionner.

Pandas propose deux grands types de fusions :
- fusion horizontale (alignement par colonne)
- fusion verticale (empilement de lignes) 

### a. Fusion horizontale (alignement par colonne) ‚Äì `pd.merge()`

In [35]:
df_clients = pd.read_csv("data/clients.csv")
df_commandes = pd.read_csv("data/commandes.csv")

display(df_clients)
display(df_commandes)

# Fusion sur les identifiants : correspondance ligne √† ligne
df_fusion = pd.merge(df_clients, df_commandes, left_on="ID", right_on="Client_ID")
display(df_fusion)

Unnamed: 0,ID,Nom
0,1,Alice
1,2,Bob
2,3,Charlie


Unnamed: 0,Client_ID,Montant
0,1,250
1,2,120
2,1,75
3,4,300


Unnamed: 0,ID,Nom,Client_ID,Montant
0,1,Alice,1,250
1,1,Alice,1,75
2,2,Bob,2,120


√Ä l'instar de SQL, il est possible d'utliser d'autres jointures (`left`, `right`, `outer`).

In [36]:
# üîÅ Jointure gauche (LEFT JOIN) :
# Garde toutes les lignes du DataFrame de gauche (clients),
# m√™me si aucun client n‚Äôa pass√© de commande (valeurs manquantes dans 'Montant').
display( pd.merge(df_clients, df_commandes, left_on="ID", right_on="Client_ID", how="left") )

# üîÅ Jointure droite (RIGHT JOIN) :
# Garde toutes les lignes du DataFrame de droite (commandes),
# m√™me si certaines commandes n'ont pas de client correspondant (valeurs manquantes dans 'Nom').
display( pd.merge(df_clients, df_commandes, left_on="ID", right_on="Client_ID", how="right") )

# üîÅ Jointure externe compl√®te (FULL OUTER JOIN) :
# Garde toutes les lignes des deux DataFrames,
# ins√®re des NaN l√† o√π il n'y a pas de correspondance (c√¥t√© client ou c√¥t√© commande).
display( pd.merge(df_clients, df_commandes, left_on="ID", right_on="Client_ID", how="outer"))

Unnamed: 0,ID,Nom,Client_ID,Montant
0,1,Alice,1.0,250.0
1,1,Alice,1.0,75.0
2,2,Bob,2.0,120.0
3,3,Charlie,,


Unnamed: 0,ID,Nom,Client_ID,Montant
0,1.0,Alice,1,250
1,2.0,Bob,2,120
2,1.0,Alice,1,75
3,,,4,300


Unnamed: 0,ID,Nom,Client_ID,Montant
0,1.0,Alice,1.0,250.0
1,1.0,Alice,1.0,75.0
2,2.0,Bob,2.0,120.0
3,3.0,Charlie,,
4,,,4.0,300.0


### üß© Exercice

> Chargez les fichiers CSV `"data/students.csv"` et `"data/notes.csv"` dans deux DataFrames : `df_students` et `df_notes` puis r√©pondez aux demandes suivantes :
> - R√©alisez une jointure interne (inner) pour ne conserver que les √©tudiants ayant une note.
> - R√©alisez une jointure gauche (left) pour conserver tous les √©tudiants, m√™me ceux sans note.
> - R√©alisez une jointure externe (outer) pour afficher tous les √©tudiants et toutes les notes, m√™me sans correspondance.

In [37]:
# Votre code ici

### b. Fusion verticale (empilement de lignes) ‚Äì `pd.concat()`

Ce type de fusion est utilis√© pour concat√©ner des DataFrame similaires.

In [38]:
df_1 = pd.read_csv("data/sales_1.csv")
df_2 = pd.read_csv("data/sales_2.csv")
df_3 = pd.read_csv("data/sales_3.csv")

# Fusion verticale : les lignes des DataFrame sont empil√©es par ordre de lecture
df_sales = pd.concat([df_1, df_2, df_3])

df_sales.reset_index()  # On r√©initialise les index apr√®s la fusion

Unnamed: 0,index,Date,Produit,Quantit√©
0,0,2024-01-01,A,1
1,1,2024-01-02,F,4
2,2,2024-01-03,E,5
3,3,2024-01-04,D,8
4,4,2024-01-05,F,2
5,0,2024-02-01,D,9
6,1,2024-02-02,E,1
7,2,2024-02-03,F,3
8,3,2024-02-04,E,2
9,4,2024-02-05,E,3


### üß© Exercices

> Chargez les fichiers CSV `"data/sessions_1.csv"`, `"data/sessions_2.csv"` et `"data/sessions_3.csv"` dans trois DataFrames puis r√©pondez aux demandes suivantes :
> - Concat√®nez les trois dataset pour obtenir un historique complet. (Pensez √† r√©indexer les lignes apr√®s la concat√©nation avec ignore_index=True)
> - Triez le DataFrame fusionn√© par date croissante.
> - Affichez le nombre total de participants par th√®me.
> - Identifie les participants qui sont venus plusieurs fois.

In [39]:
# Votre code ici

---
# ‚úÖ Bravo !
Vous ma√Ætrisez les bases de Pandas. Vous pouvez maintenant explorer, nettoyer et transformer des donn√©es !