# 📘 Introduction

Le **data wrangling** est un terme général souvent utilisé de façon informelle pour désigner le **processus qui consiste à transformer des données brutes en un format propre et organisé, prêt à être exploité**.

Dans notre cas, le data wrangling constitue une étape parmi d'autres dans le prétraitement des données, mais c’est une étape essentielle.

📊 Le rôle des DataFrames
La structure de données la plus couramment utilisée pour "manipuler" des données est le DataFrame, qui est à la fois intuitif et extrêmement polyvalent.
Un DataFrame est une structure tabulaire, comme dans une feuille de calcul, avec des lignes et des colonnes.

📌 Exemple : Passagers du Titanic



In [1]:
# Charger la bibliothèque
import pandas as pd

# Définir l'URL du fichier
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# Charger les données sous forme de DataFrame
dataframe = pd.read_csv(url)

# Afficher les cinq premières lignes
dataframe.head(5)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0



🔍 Trois éléments essentiels à noter
- Chaque ligne représente une observation (ex. un passager) et chaque colonne une variable (sexe, âge, classe, etc.).
Par exemple, pour la première ligne, on apprend que Miss Elisabeth Walton Allen était en première classe, âgée de 29 ans, de sexe féminin, et qu’elle a survécu au naufrage.
- Chaque colonne possède un nom (ex. Name, Age, Sex) et chaque ligne un index (ex. 0 pour Elisabeth Walton Allen).

Ces éléments sont cruciaux pour sélectionner et manipuler les données.
- Les colonnes Sex et SexCode contiennent la même information sous des formats différents :
  - Sex : chaîne de caractères (female, male)
  - SexCode : entier (1 pour femme, 0 pour homme)
  
Afin d’éviter la redondance, il est préférable de supprimer l’une de ces deux colonnes.

🎯 Dans ce chapitre, nous allons explorer de nombreuses techniques pour manipuler les DataFrames avec pandas, dans le but de créer un jeu de données propre, cohérent et prêt pour une analyse ou un entraînement en machine learning.

# 📋 Création d’un DataFrame

On souhaite créer un nouveau DataFrame dans Python.

La bibliothèque pandas propose donc plusieurs méthodes pour créer un DataFrame. Une façon simple consiste à utiliser un dictionnaire Python, où chaque clé représente le nom d’une colonne et chaque valeur est une liste contenant les données de chaque ligne :


In [2]:
# Charger la bibliothèque pandas
import pandas as pd

# Créer un dictionnaire
dictionary = {
    "Name": ['Jacky Jackson', 'Steven Stevenson'],
    "Age": [38, 25],
    "Driver": [True, False]
}

# Créer un DataFrame à partir du dictionnaire
dataframe = pd.DataFrame(dictionary)

# Afficher le DataFrame
print(dataframe)

               Name  Age  Driver
0     Jacky Jackson   38    True
1  Steven Stevenson   25   False


🟨 Ajouter une colonne facilement
Il est très facile d’ajouter une nouvelle colonne à un DataFrame à l’aide d’une simple liste :

In [3]:
# Ajouter une colonne pour la couleur des yeux
dataframe["Eyes"] = ["Brown", "Blue"]

# Afficher le DataFrame mis à jour
print(dataframe)

               Name  Age  Driver   Eyes
0     Jacky Jackson   38    True  Brown
1  Steven Stevenson   25   False   Blue


pandas offre une multitude de façons de créer un DataFrame, mais dans la pratique, on crée rarement un DataFrame vide qu'on remplit à la main.
✅ Les DataFrames proviennent le plus souvent de données externes, comme :
- des fichiers CSV
- des bases de données
- des API
- des fichiers Excel, JSON, etc.

# 🔎 Obtenir des informations sur un DataFrame

On souhaite explorer les caractéristiques de base d’un DataFrame.

L'une des premières choses à faire après avoir chargé des données est de consulter les premières lignes à l’aide de ``head()`` :

In [4]:
# Importer la bibliothèque
import pandas as pd

# Définir l’URL du dataset
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# Charger les données
dataframe = pd.read_csv(url)

# Afficher les deux premières lignes
dataframe.head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


✅ Méthodes utiles pour explorer un DataFrame

| Méthode | Description | 
|----------|-------------|
| ``head(n)`` | Affiche les n premières lignes (par défaut 5) | 
| ``tail(n)`` | Affiche les n dernières lignes | 
| ``shape`` | Donne les dimensions du DataFrame (lignes, colonnes) | 
| ``describe()`` | Calcule des statistiques descriptives sur les colonnes numériques | 
| ``info()`` | Affiche les types de données, le nombre de valeurs non nulles et l’utilisation mémoire | 

📊 Exemples supplémentaires

In [5]:
# Dimensions
print(dataframe.shape)

(1313, 6)


In [6]:
# Statistiques descriptives
print(dataframe.describe())

              Age     Survived      SexCode
count  756.000000  1313.000000  1313.000000
mean    30.397989     0.342727     0.351866
std     14.259049     0.474802     0.477734
min      0.170000     0.000000     0.000000
25%     21.000000     0.000000     0.000000
50%     28.000000     0.000000     0.000000
75%     39.000000     1.000000     1.000000
max     71.000000     1.000000     1.000000


In [7]:
# Informations générales
print(dataframe.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1313 entries, 0 to 1312
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Name      1313 non-null   object 
 1   PClass    1313 non-null   object 
 2   Age       756 non-null    float64
 3   Sex       1313 non-null   object 
 4   Survived  1313 non-null   int64  
 5   SexCode   1313 non-null   int64  
dtypes: float64(1), int64(2), object(3)
memory usage: 61.7+ KB
None


🧠 À retenir
Bien que ``describe()`` fournisse des statistiques numériques utiles, certaines colonnes comme ``Survived`` ou ``SexCode`` sont en réalité des **variables catégorielles** codées en chiffres. Ainsi, des mesures comme l’écart type peuvent ne pas être pertinentes dans ce contexte.

# ✂️ Découpage (slicing) d’un DataFrame

On souhaite sélectionner un sous-ensemble spécifique de données dans un DataFrame pandas.

✅ On utilise donc les méthodes ``.iloc[]`` ou ``.loc[]`` pour accéder aux lignes et valeurs :

In [8]:
# Charger la bibliothèque pandas
import pandas as pd

# Définir l'URL du jeu de données Titanic
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# Charger le DataFrame
dataframe = pd.read_csv(url)

# Sélectionner la première ligne par position
dataframe.iloc[0]

Name        Allen, Miss Elisabeth Walton
PClass                               1st
Age                                 29.0
Sex                               female
Survived                               1
SexCode                                1
Name: 0, dtype: object

🔹 Sélectionner un intervalle de lignes

In [9]:
# Sélectionner les lignes 1 à 3 (positions 1, 2 et 3)
dataframe.iloc[1:4]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1


In [10]:
# Sélectionner toutes les lignes jusqu’à la quatrième incluse
dataframe.iloc[:4]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1


🔹 Utiliser des index textuels avec .loc[]

On peut réindexer le DataFrame avec une colonne textuelle unique comme les noms des passagers :

In [11]:
# Définir l’index sur la colonne 'Name'
dataframe = dataframe.set_index(dataframe["Name"])
dataframe.head()

Unnamed: 0_level_0,Name,PClass,Age,Sex,Survived,SexCode
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
"Allen, Miss Elisabeth Walton","Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
"Allison, Miss Helen Loraine","Allison, Miss Helen Loraine",1st,2.0,female,0,1
"Allison, Mr Hudson Joshua Creighton","Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
"Allison, Mrs Hudson JC (Bessie Waldo Daniels)","Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
"Allison, Master Hudson Trevor","Allison, Master Hudson Trevor",1st,0.92,male,1,0


In [12]:
# Sélectionner une ligne par nom
dataframe.loc["Allen, Miss Elisabeth Walton"]

Name        Allen, Miss Elisabeth Walton
PClass                               1st
Age                                 29.0
Sex                               female
Survived                               1
SexCode                                1
Name: Allen, Miss Elisabeth Walton, dtype: object

- Toutes les lignes d’un DataFrame ont un index unique.
- Par défaut, l’index est numérique (0, 1, 2...), mais il peut être défini comme texte ou identifiant client.
- ``.iloc[]`` accède aux positions (index numériques)
- ``.loc[]`` accède aux étiquettes (index alphanumériques ou textuels)
💡 Savoir bien utiliser ``.iloc`` et ``.loc`` est essentiel pour tout travail de nettoyage ou de prétraitement de données avec pandas.

# 🧹 Sélection de lignes selon des conditions

On souhaiterais filtrer les lignes d’un DataFrame en fonction de certaines conditions.

✅ C’est très simple à faire avec pandas.

Par exemple, pour sélectionner toutes les femmes présentes sur le Titanic :



In [14]:
# Charger la bibliothèque
import pandas as pd

# Définir l'URL du jeu de données
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# Charger les données
dataframe = pd.read_csv(url)

# Sélectionner et afficher les deux premières lignes où la colonne 'Sex' vaut 'female'
dataframe[dataframe['Sex'] == 'female'].head()

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
6,"Andrews, Miss Kornelia Theodosia",1st,63.0,female,1,1
8,"Appleton, Mrs Edward Dale (Charlotte Lamson)",1st,58.0,female,1,1


🔍 Explication
La condition ``dataframe['Sex'] == 'female'`` produit une série de booléens

➡️ En l'encapsulant dans ``dataframe[...]``, on demande à pandas de retourner toutes les lignes où cette condition est vraie.

🔗 Conditions multiples
On peut aussi combiner plusieurs conditions avec & (et logique) ou | (ou logique).

➡️ Exemple : sélectionner les femmes âgées de 65 ans ou plus :

In [15]:
dataframe[
    (dataframe['Sex'] == 'female') &
    (dataframe['Age'] >= 65)
]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
73,"Crosby, Mrs Edward Gifford (Catherine Elizabet...",1st,69.0,female,1,1


📌 Filtrer conditionnellement les données est une des tâches les plus fréquentes en data wrangling.

On ne travaille presque jamais sur l'intégralité des données brutes — on s'intéresse généralement à un sous-ensemble pertinent.

✨ Exemples classiques :
- Sélectionner tous les clients d’un pays
- Isoler les patients de plus de 65 ans
- Filtrer les produits dont le stock est nul

# 🔢 Trier les valeurs dans un DataFrame

On souhaiterait trier un DataFrame selon les valeurs d'une ou plusieurs colonnes.

✅ On utilise la méthode ``sort_values()`` de pandas :

In [16]:
# Charger la bibliothèque
import pandas as pd

# Définir l'URL du jeu de données
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# Charger les données dans un DataFrame
dataframe = pd.read_csv(url)

# Trier les passagers par âge (du plus jeune au plus âgé) et afficher les deux premiers
dataframe.sort_values(by=["Age"]).head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
763,"Dean, Miss Elizabeth Gladys (Millvena)",3rd,0.17,female,1,1
751,"Danbom, Master Gilbert Sigvard Emanuel",3rd,0.33,male,0,0


✅ La méthode ``sort_values()`` permet de trier les lignes d’un DataFrame selon une ou plusieurs colonnes :
- Le paramètre ``by`` prend une liste de noms de colonnes.

👉 On peux trier par une seule colonne (``by="Age"``) ou plusieurs (``by=["PClass", "Age"]``).

- Le paramètre ``ascending`` (par défaut à True) détermine l’ordre de tri :
- ``True`` → du plus petit au plus grand
- ``False`` → du plus grand au plus petit

➡️ Exemple : pour trier du passager le plus âgé au plus jeune :


In [18]:
dataframe.sort_values(by="Age", ascending=False).head(6)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
9,"Artagaveytia, Mr Ramon",1st,71.0,male,0,0
505,"Mitchell, Mr Henry Michael",2nd,71.0,male,0,0
119,"Goldschmidt, Mr George B",1st,71.0,male,0,0
72,"Crosby, Captain Edward Gifford",1st,70.0,male,0,0
73,"Crosby, Mrs Edward Gifford (Catherine Elizabet...",1st,69.0,female,1,1
252,"Straus, Mr Isidor",1st,67.0,male,0,0


# 🔁 Remplacement de valeurs dans un DataFrame

On souhaite remplacer des valeurs spécifiques dans un DataFrame pandas.

✅ Solution : méthode ``replace()``

In [19]:
# Importer la bibliothèque pandas
import pandas as pd

# Définir l’URL du jeu de données Titanic
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# Charger les données dans un DataFrame
dataframe = pd.read_csv(url)

# Exemple 1 : Remplacer "female" par "Woman" dans la colonne 'Sex'
dataframe['Sex'].replace("female", "Woman").head(6)

0    Woman
1    Woman
2     male
3    Woman
4     male
5     male
Name: Sex, dtype: object

🔹 Remplacement multiple

In [20]:
# Remplacer "female" par "Woman" et "male" par "Man"
dataframe['Sex'].replace(["female", "male"], ["Woman", "Man"]).head(5)

0    Woman
1    Woman
2      Man
3    Woman
4      Man
Name: Sex, dtype: object

🔹 Remplacement global dans tout le DataFrame

In [21]:
# Remplacer toutes les occurrences de la valeur 1 par "One"
dataframe.replace(1, "One").head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,One,One
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,One


🔹 Utilisation d’expressions régulières

In [22]:
# Remplacer "1st" par "First" partout (y compris en partie de chaîne)
dataframe.replace(r"1st", "First", regex=True).head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",First,29.0,female,1,1
1,"Allison, Miss Helen Loraine",First,2.0,female,0,1


🔹 La méthode ``.replace()`` est :
- facile à utiliser
- flexible
- compatible avec les expressions régulières via ``regex=True``

💡 Elle est idéale pour :
- renommer des catégories
- corriger des erreurs de saisie
- harmoniser des formats

# 🏷️ Renommer des colonnes dans un DataFrame

On souhaite renommer une ou plusieurs colonnes dans un DataFrame pandas.

✅ Solution : méthode ``rename()``
Utiliser ``.rename(columns={...})``, où les clés du dictionnaire sont les anciens noms et les valeurs les nouveaux noms :


In [23]:
# Importer pandas
import pandas as pd

# Charger le jeu de données Titanic
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'
dataframe = pd.read_csv(url)

# Renommer une colonne
dataframe.rename(columns={'PClass': 'Passenger Class'}).head(2)

Unnamed: 0,Name,Passenger Class,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


🔹 Renommer plusieurs colonnes simultanément

In [24]:
dataframe.rename(columns={'PClass': 'Passenger Class', 'Sex': 'Gender'}).head(2)

Unnamed: 0,Name,Passenger Class,Age,Gender,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


✔️ ``rename()`` est une méthode élégante, compatible avec :
- des renommages partiels (une seule colonne)
- des renommages multiples via dictionnaire
- des opérations en chaîne (``.rename().drop()`` etc.)

📎 Bonnes pratiques :
- Garder les noms clairs et explicites (Sex → Gender, PClass → Passenger Class)
- Harmoniser le schéma de nommage (camelCase, snake_case, titres)

🔹 Renommer toutes les colonnes avec un dictionnaire généré dynamiquement

In [25]:
import collections

# Créer un dictionnaire avec les anciens noms comme clés et des chaînes vides comme valeurs
column_names = collections.defaultdict(str)
for name in dataframe.columns:
    column_names[name]

# Résultat :
print(column_names)

defaultdict(<class 'str'>, {'Name': '', 'PClass': '', 'Age': '', 'Sex': '', 'Survived': '', 'SexCode': ''})


💡 Cette méthode sert de base pour automatiser la transformation ou la suppression des noms (par exemple via boucles ou regex).

# 🧮 Trouver les minimums, maximums, moyennes, sommes et comptes

On souhaiterais obtenir des statistiques simples (min, max, somme, moyenne, etc.) à partir d'une colonne numérique d'un DataFrame.

✅ Solution avec pandas












In [26]:
# Charger la bibliothèque
import pandas as pd

# Définir l’URL du jeu de données Titanic
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# Charger le DataFrame
dataframe = pd.read_csv(url)

# Calculer les statistiques sur la colonne 'Age'
print("Maximum :", dataframe["Age"].max())
print("Minimum :", dataframe["Age"].min())
print("Moyenne :", dataframe["Age"].mean())
print("Somme   :", dataframe["Age"].sum())
print("Compte  :", dataframe["Age"].count())

Maximum : 71.0
Minimum : 0.17
Moyenne : 30.397989417989418
Somme   : 22980.88
Compte  : 756


📊 Discussion

La bibliothèque pandas offre un grand nombre de fonctions statistiques intégrées :

| Méthode | Description | 
|---------|-------------|
| ``.max()`` | Valeur maximale | 
| ``.min()`` | Valeur minimale | 
| ``.mean()`` | Moyenne | 
| ``.sum()`` | Somme | 
| ``.count()`` | Nombre de valeurs non nulles | 
| ``.std()`` | Écart type | 
| ``.var()`` | Variance | 
| ``.median()`` | Médiane | 
| ``.mode()`` | Mode | 
| ``.skew()`` | Asymétrie | 
| ``.kurt()`` | Kurtosis (applatissement) | 
| ``.sem()`` | Erreur standard de la moyenne | 
| ``.value_counts()`` | Fréquence de chaque valeur | 


➡️ Ces méthodes peuvent être appliquées :
- à une colonne spécifique
- à tout le DataFrame si plusieurs colonnes numériques sont présentes

🧠 Par exemple, pour compter les valeurs non nulles dans chaque colonne :

In [27]:
dataframe.count()

Name        1313
PClass      1313
Age          756
Sex         1313
Survived    1313
SexCode     1313
dtype: int64

# 🔍 Trouver les valeurs uniques dans une colonne

On souhaiterait obtenir toutes les valeurs distinctes (uniques) présentes dans une colonne de DataFrame.

✅ Solution
Utiliser la méthode ``.unique()`` pour afficher un tableau contenant toutes les valeurs uniques d'une colonne :


In [28]:
import pandas as pd

# Définir l’URL du fichier Titanic
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# Charger les données
dataframe = pd.read_csv(url)

# Afficher les valeurs uniques de la colonne 'Sex'
print(dataframe['Sex'].unique())

['female' 'male']


🔹 Compter les occurrences de chaque valeur
Utiliser ``.value_counts()`` pour afficher toutes les valeurs uniques avec le nombre d’occurrences :

In [29]:
print(dataframe['Sex'].value_counts())

Sex
male      851
female    462
Name: count, dtype: int64


🔸 Détection d’anomalies

Un bon exemple est la colonne PClass qui contient théoriquement 3 classes.

Mais en inspectant les valeurs :

In [30]:
print(dataframe['PClass'].value_counts())

PClass
3rd    711
1st    322
2nd    279
*        1
Name: count, dtype: int64


➡️ La valeur * est probablement une erreur ou un cas spécial.

Ce genre de “classe en trop” est courant dans les données catégorielles et doit être traité lors du nettoyage.

🔢 Nombre de valeurs uniques

Si l'on veut simplement connaître le nombre de classes distinctes, on utilise ``.nunique()`` :

In [31]:
print(dataframe['PClass'].nunique())  # Résultat : 4

4


🧠 En résumé :

| Méthode | Utilité | 
|---------|---------|
| ``.unique()`` | Liste des valeurs distinctes | 
| ``.value_counts()`` | Fréquence de chaque valeur | 
| ``.nunique()`` | Nombre total de valeurs uniques |

# 🧼 Gérer les valeurs manquantes dans un DataFrame

On  souhaiterait repérer et traiter les valeurs manquantes dans un DataFrame pandas.

✅ Solution

🔹 Détection des valeurs manquantes

In [33]:
import pandas as pd

# URL du jeu de données Titanic
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# Charger les données
dataframe = pd.read_csv(url)

# Sélectionner les lignes où 'Age' est manquant (NaN)
dataframe[dataframe['Age'].isnull()].head(6)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
12,"Aubert, Mrs Leontine Pauline",1st,,female,1,1
13,"Barkworth, Mr Algernon H",1st,,male,1,0
14,"Baumann, Mr John D",1st,,male,0,0
29,"Borebank, Mr John James",1st,,male,0,0
32,"Bradley, Mr George",1st,,male,1,0
35,"Brewe, Dr Arthur Jackson",1st,,male,0,0


🔹 Erreur courante avec NaN

In [34]:
# Remplacement incorrect : produit une erreur
dataframe['Sex'] = dataframe['Sex'].replace('male', NaN)

NameError: name 'NaN' is not defined

⛔ Cela renvoie :

NameError: name 'NaN' is not defined

🔹 Remplacement correct via NumPy

In [35]:
import numpy as np

# Remplacer toutes les valeurs 'male' par NaN
dataframe['Sex'] = dataframe['Sex'].replace('male', np.nan)

🔹 Définir les valeurs considérées comme "manquantes" lors du chargement

In [36]:
# Traiter certaines chaînes comme des valeurs manquantes
dataframe = pd.read_csv(url, na_values=[np.nan, 'NONE', -999])

💡 Cela peut inclure des symboles personnalisés que le dataset utilise pour désigner des données absentes.

🔹 Imputation avec une valeur (remplir les NaN)

Exemple : utiliser la moyenne des âges pour remplir les valeurs manquantes :

In [38]:
# Extraire 4 entrées manquantes pour démonstration
null_entry = dataframe[dataframe["Age"].isna()].head(4)

# Remplir les valeurs manquantes avec la moyenne des âges
null_entry_filled = null_entry.fillna(dataframe["Age"].mean())

print(null_entry_filled)

                            Name PClass        Age     Sex  Survived  SexCode
12  Aubert, Mrs Leontine Pauline    1st  30.397989  female         1        1
13      Barkworth, Mr Algernon H    1st  30.397989    male         1        0
14            Baumann, Mr John D    1st  30.397989    male         0        0
29       Borebank, Mr John James    1st  30.397989    male         0        0


🔍 Les valeurs manquantes (NaN) sont fréquentes, et leur mauvaise gestion peut entraîner des erreurs subtiles.

pandas s’appuie sur ``np.nan`` pour les représenter.

📌 Stratégies classiques :
- Supprimer les lignes ou colonnes incomplètes (``dropna()``)
- Imputer une valeur (moyenne, médiane, constante, etc.)
- Remplacer des codes comme 'NONE', -999, '' par np.nan

# 🗑️ Supprimer une colonne dans un DataFrame

On souhaiterait supprimer une ou plusieurs colonnes d’un DataFrame pandas.

✅ Solution avec ``drop()``

On utilise la méthode ``drop()`` en spécifiant ``axis=1`` pour supprimer des colonnes :


In [39]:
# Importer la bibliothèque
import pandas as pd

# Définir l’URL du jeu de données Titanic
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# Charger les données
dataframe = pd.read_csv(url)

# Supprimer une colonne ('Age') et afficher les 4 premières lignes
dataframe.drop('Age', axis=1).head(4)

Unnamed: 0,Name,PClass,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,female,1,1
1,"Allison, Miss Helen Loraine",1st,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,female,0,1


🔹 Supprimer plusieurs colonnes en une seule fois

In [40]:
dataframe.drop(['Age', 'Sex'], axis=1).head(2)

Unnamed: 0,Name,PClass,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,1,1
1,"Allison, Miss Helen Loraine",1st,0,1


🔹 Supprimer une colonne par son index

Parfois une colonne peut ne pas avoir de nom. 

On peut alors la supprimer via ``dataframe.columns`` :

In [None]:
# Supprimer la colonne en position 1 (index 1) ---> PClass
dataframe.drop(dataframe.columns[1], axis=1).head(2)

Unnamed: 0,Name,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",29.0,female,1,1
1,"Allison, Miss Helen Loraine",2.0,female,0,1


🧠

✅ ``drop()`` est la méthode idiomatique recommandée pour supprimer des colonnes dans pandas.

⚠️ Bien que ``del dataframe['Age']`` fonctionne généralement, cette syntaxe est moins propre et sujette à des problèmes internes dans pandas.

📛 À éviter : ``inplace=True``

Même si pandas propose l’option ``inplace=True``, il est conseillé de ne pas modifier un DataFrame en place, surtout dans des pipelines complexes.

Traiter les DataFrames comme des objets immuables :

In [43]:
# Créer un nouveau DataFrame sans la première colonne
dataframe_name_dropped = dataframe.drop(dataframe.columns[0], axis=1)
dataframe_name_dropped.head(2)

Unnamed: 0,PClass,Age,Sex,Survived,SexCode
0,1st,29.0,female,1,1
1,1st,2.0,female,0,1


🧘‍♂️ Cette pratique nous évitera bien des erreurs difficiles à déboguer !

# 🗑️ Supprimer une ou plusieurs lignes dans un DataFrame

On souhaite supprimer des lignes spécifiques d’un DataFrame pandas.

✅ Solution : utiliser une condition booléenne

🔹 Supprimer toutes les lignes où Sex vaut "male"

In [44]:
import pandas as pd

# URL du dataset Titanic
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# Charger les données
dataframe = pd.read_csv(url)

# Supprimer les hommes et afficher les 3 premières lignes
dataframe[dataframe['Sex'] != 'male'].head(3)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1


🔹 Supprimer une ligne correspondant à une valeur unique dans une colonne

In [45]:
dataframe[dataframe['Name'] != 'Allison, Miss Helen Loraine'].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0


🔹 Supprimer une ligne par son index

In [46]:
dataframe[dataframe.index != 0].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0


🧠 

✔️ La méthode idiomatique pour "supprimer" une ligne consiste à filtrer les lignes que l’on souhaite garder, en utilisant une condition logique.

Bien que ``.drop()`` soit possible (ex : ``dataframe.drop([0, 1], axis=0)``), cela devient vite imprécis et moins flexible.

💡 Les conditions sont utiles pour :
- supprimer une ligne ciblée
- exclure une catégorie entière
- préparer des sous-ensembles de données

# 🗃️ Suppression des doublons dans un DataFrame

On souhaite supprimer les lignes dupliquées dans un DataFrame pandas.

✅ Solution avec ``drop_duplicates()``

In [53]:
import pandas as pd

# Charger le jeu de données Titanic
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'
dataframe = pd.read_csv(url)

# Supprimer les doublons (sur toutes les colonnes)
dataframe.drop_duplicates().head(4)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1


🔍 Vérification : y a-t-il eu des doublons supprimés ?

In [54]:
print("Nombre de lignes originales :", len(dataframe))
print("Après suppression des doublons :", len(dataframe.drop_duplicates()))

Nombre de lignes originales : 1313
Après suppression des doublons : 1313


➡️ Conclusion : aucune ligne n’a été supprimée, car aucune ligne n’est strictement identique sur toutes les colonnes.


🔹 Suppression sur une sous-partie des colonnes

On peut utiliser le paramètre subset pour comparer uniquement certaines colonnes :


In [55]:
dataframe.drop_duplicates(subset=['Sex'])

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0


🧠 pandas garde par défaut la première apparition de chaque groupe dupliqué.

🔸 Changer ce comportement avec keep


In [56]:
dataframe.drop_duplicates(subset=['Sex'], keep='last')

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1307,"Zabour, Miss Tamini",3rd,,female,0,1
1312,"Zimmerman, Leo",3rd,29.0,male,0,0


✔️ Ici, pandas garde la dernière apparition au lieu de la première.

🧪 Méthode associée : ``duplicated()``

In [57]:
dataframe.duplicated()

0       False
1       False
2       False
3       False
4       False
        ...  
1308    False
1309    False
1310    False
1311    False
1312    False
Length: 1313, dtype: bool

🔎 Cela retourne une série booléenne indiquant si chaque ligne est une duplication d’une ligne précédente.

💡 Astuces supplémentaires
- Pour supprimer toutes les duplications d’un DataFrame :
``dataframe[~dataframe.duplicated()]``
- Pour ne garder que les doublons :
``dataframe[dataframe.duplicated()]``

In [58]:
dataframe[~dataframe.duplicated()].head(4)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1


In [59]:
dataframe[dataframe.duplicated()].head(4)  

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode


# 👥 Grouper des lignes selon une valeur

On souhaite regrouper des lignes d’un DataFrame en fonction d’une valeur commune (ex : genre, classe, résultat…).

✅ Solution avec groupby

La méthode ``groupby`` est l’un des outils les plus puissants de pandas. Exemple :



In [62]:
import pandas as pd

# Charger le jeu de données Titanic
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'
dataframe = pd.read_csv(url)

# Grouper par colonne 'Sex' et calculer les moyennes par groupe
dataframe.groupby('Sex').mean(numeric_only=True)

Unnamed: 0_level_0,Age,Survived,SexCode
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,29.396424,0.666667,1.0
male,31.014338,0.166863,0.0


📚 

Le regroupement (groupby) permet de structurer les données pour appliquer des statistiques par sous-groupe.

Chaque groupe est défini par une valeur partagée dans une colonne (ex : "female" ou "male").

🔎 Attention : groupby seul ne retourne pas les données

In [63]:
dataframe.groupby('Sex')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001564DDB1A70>

✏️ C’est normal ! Il faut appliquer une fonction sur le regroupement :
- ``mean()`` → moyenne
- ``sum()`` → somme
- ``count()`` → nombre
- etc.

🔹 Exemple : compter les passagers selon leur survie

In [64]:
dataframe.groupby('Survived')['Name'].count()

Survived
0    863
1    450
Name: Name, dtype: int64

💡 Ici, on compte le nombre de noms (passagers) par valeur de la colonne Survived.

🔸 Regroupement par plusieurs colonnes

In [65]:
dataframe.groupby(['Sex','Survived'])['Age'].mean()

Sex     Survived
female  0           24.901408
        1           30.867143
male    0           32.320780
        1           25.951875
Name: Age, dtype: float64

💭 Cela permet de connaître l’âge moyen pour chaque combinaison ``Sex`` x ``Survived``.

🧠 En résumé

| Méthode | Description | 
|---------|-------------|
| ``.groupby('colonne')`` | Regroupe les lignes par valeur de la colonne | 
| ``.groupby(...).mean()`` | Calcule la moyenne par groupe | 
| ``.groupby(...).count()`` | Compte les occurrences par groupe | 
| ``.groupby([...])`` | Regroupe selon plusieurs colonnes | 
| ``groupby(...)[...].agg()`` | Applique plusieurs fonctions d’agrégation à la fois | 

# 🕒 Regrouper des lignes par périodes temporelles

On souhaite regrouper des lignes individuelles d’un DataFrame selon des intervalles de temps.

✅ Solution avec ``resample()``


In [81]:
# Importer les bibliothèques
import pandas as pd
import numpy as np

# Créer une série de dates espacées toutes les 30 secondes
time_index = pd.date_range('06/06/2017', periods=100000, freq='30s')
time_index

DatetimeIndex(['2017-06-06 00:00:00', '2017-06-06 00:00:30',
               '2017-06-06 00:01:00', '2017-06-06 00:01:30',
               '2017-06-06 00:02:00', '2017-06-06 00:02:30',
               '2017-06-06 00:03:00', '2017-06-06 00:03:30',
               '2017-06-06 00:04:00', '2017-06-06 00:04:30',
               ...
               '2017-07-10 17:15:00', '2017-07-10 17:15:30',
               '2017-07-10 17:16:00', '2017-07-10 17:16:30',
               '2017-07-10 17:17:00', '2017-07-10 17:17:30',
               '2017-07-10 17:18:00', '2017-07-10 17:18:30',
               '2017-07-10 17:19:00', '2017-07-10 17:19:30'],
              dtype='datetime64[ns]', length=100000, freq='30s')

In [74]:
# Créer un DataFrame indexé par ce temps
dataframe = pd.DataFrame(index=time_index)
dataframe.head(7)

2017-06-06 00:00:00
2017-06-06 00:00:30
2017-06-06 00:01:00
2017-06-06 00:01:30
2017-06-06 00:02:00
2017-06-06 00:02:30
2017-06-06 00:03:00


In [72]:
dataframe.shape

(100000, 1)

In [75]:
# Générer une colonne de montants de vente aléatoires
dataframe['Sale_Amount'] = np.random.randint(1, 10, 100000)
dataframe.head(7)

Unnamed: 0,Sale_Amount
2017-06-06 00:00:00,1
2017-06-06 00:00:30,2
2017-06-06 00:01:00,3
2017-06-06 00:01:30,6
2017-06-06 00:02:00,6
2017-06-06 00:02:30,1
2017-06-06 00:03:00,3


In [76]:
dataframe.shape

(100000, 1)

In [77]:
# Regrouper par semaine et calculer la somme par semaine
dataframe.resample('W').sum()

Unnamed: 0,Sale_Amount
2017-06-11,86222
2017-06-18,101251
2017-06-25,100428
2017-07-02,100978
2017-07-09,100446
2017-07-16,10326


📚 

🧠 Le regroupement par temps est très utile pour :
- des séries temporelles
- des événements ou ventes espacés dans le temps
- des agrégations mensuelles, hebdomadaires ou horaires

⚠️ Pour utiliser resample, l’index du DataFrame doit être de type datetime.

🔹 Autres exemples de regroupements temporels

🔸 Regrouper par 2 semaines et calculer la moyenne :

In [78]:
dataframe.resample('2W').mean()

Unnamed: 0,Sale_Amount
2017-06-11,4.989699
2017-06-25,5.001959
2017-07-09,4.995635
2017-07-23,4.964423


🔸 Regrouper par mois et compter le nombre de ventes :

In [80]:
dataframe.resample('ME').count()

Unnamed: 0,Sale_Amount
2017-06-30,72000
2017-07-31,28000


🧾 Personnaliser le label de chaque groupe

Par défaut, le label de chaque intervalle est le bord droit (label='right').

Pour utiliser le bord gauche, ajoutez le paramètre :

In [83]:
dataframe.resample('ME', label='left').count()

Unnamed: 0,Sale_Amount
2017-05-31,72000
2017-06-30,28000


# 📊 Opérations d’agrégation et statistiques dans un DataFrame

On souhaite appliquer des fonctions statistiques globales sur tout ou partie d’un DataFrame pandas.

✅ Solution : la méthode ``.agg()``

🔹 Obtenir les valeurs minimales de chaque colonne


In [84]:
import pandas as pd

# Charger le jeu de données Titanic
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'
dataframe = pd.read_csv(url)

# Obtenir le minimum de chaque colonne
dataframe.agg("min")

Name        Abbing, Mr Anthony
PClass                       *
Age                       0.17
Sex                     female
Survived                     0
SexCode                      0
dtype: object

🔹 Appliquer des fonctions spécifiques à des colonnes précises

In [85]:
dataframe.agg({
    "Age": ["mean"],
    "SexCode": ["min", "max"]
})

Unnamed: 0,Age,SexCode
mean,30.397989,
min,,0.0
max,,1.0


🧑‍🤝‍🧑 Statistiques d’agrégation sur des groupes (groupby + agg)

🔸 Compter le nombre de survivants et de non-survivants selon la classe

In [86]:
dataframe.groupby(["PClass", "Survived"]).agg({
    "Survived": ["count"]
}).reset_index()

Unnamed: 0_level_0,PClass,Survived,Survived
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,count
0,*,0,1
1,1st,0,129
2,1st,1,193
3,2nd,0,160
4,2nd,1,119
5,3rd,0,573
6,3rd,1,138


🧠

Les fonctions d’agrégation sont extrêmement utiles pour :
- Résumer les données rapidement
- Identifier des patrons par sous-groupes
- Faciliter la phase de feature engineering en machine learning

Elles permettent d’obtenir des statistiques riches et descriptives sans écrire de boucles, et se combinent bien avec groupby ou pivot_table.

# 🔄 Boucler sur une colonne d’un DataFrame

On souhaite appliquer une action à chaque élément d’une colonne dans un DataFrame.

✅ Solution simple avec une boucle for


In [87]:
# Importer pandas
import pandas as pd

# URL du dataset Titanic
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# Charger les données
dataframe = pd.read_csv(url)

# Afficher les deux premiers noms en majuscules
for name in dataframe['Name'][0:2]:
    print(name.upper())

ALLEN, MISS ELISABETH WALTON
ALLISON, MISS HELEN LORAINE


🔹 Alternative avec la compréhension de liste

In [88]:
[name.upper() for name in dataframe['Name'][0:2]]

['ALLEN, MISS ELISABETH WALTON', 'ALLISON, MISS HELEN LORAINE']

🧠 Conseil Pythonique

➡️ Bien qu’une boucle for fonctionne parfaitement, une solution plus idiomatique avec pandas est d’utiliser ``.apply()`` :

In [91]:
# Appliquer une fonction à tous les éléments de la colonne 'Name'
dataframe['Name'].apply(str.upper).head(2)

0    ALLEN, MISS ELISABETH WALTON
1     ALLISON, MISS HELEN LORAINE
Name: Name, dtype: object

📦 Cela fonctionne aussi avec n’importe quelle fonction personnalisée — idéale pour le nettoyage ou la transformation de données.

# 🔧 Appliquer une fonction à tous les éléments d’une colonne

On souhaite appliquer une fonction personnalisée ou intégrée à chaque valeur d'une colonne d’un DataFrame.

✅ Solution avec apply

La méthode ``.apply()`` permet d’appliquer une fonction à chaque élément d’une colonne :


In [93]:
# Importer la bibliothèque pandas
import pandas as pd

# Définir l'URL du dataset Titanic
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# Charger les données
dataframe = pd.read_csv(url)

# Créer une fonction simple
def uppercase(x):
    return x.upper()

# Appliquer la fonction à la colonne 'Name'
dataframe['Name'].apply(uppercase)[0:10]

0                     ALLEN, MISS ELISABETH WALTON
1                      ALLISON, MISS HELEN LORAINE
2              ALLISON, MR HUDSON JOSHUA CREIGHTON
3    ALLISON, MRS HUDSON JC (BESSIE WALDO DANIELS)
4                    ALLISON, MASTER HUDSON TREVOR
5                               ANDERSON, MR HARRY
6                 ANDREWS, MISS KORNELIA THEODOSIA
7                           ANDREWS, MR THOMAS, JR
8     APPLETON, MRS EDWARD DALE (CHARLOTTE LAMSON)
9                           ARTAGAVEYTIA, MR RAMON
Name: Name, dtype: object

🧠 

La méthode ``apply()`` est idéale pour le nettoyage des données et les transformations personnalisées.

💡 Exemples courants :
- séparer prénom/nom
- nettoyer des dates
- convertir des chaînes en formats numériques
- détecter ou marquer certains motifs (ex : noms contenant "Mrs")

⚙️ On pout appliquer :
- une fonction native Python (str.upper, float, etc.)
- une fonction définie par vous
- une lambda (lambda x: ...)

# 🧠 Appliquer une fonction à des groupes dans un DataFrame

On a regroupé les lignes avec groupby et on souhaite appliquer une fonction à chaque groupe.

✅ Solution : ``groupby`` + ``apply``

In [95]:
# Importer la bibliothèque
import pandas as pd

# URL du jeu de données Titanic
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# Charger les données
dataframe = pd.read_csv(url)

# Grouper les lignes par 'Sex', puis appliquer une fonction (ici count par colonne)
dataframe.groupby('Sex').apply(lambda x: x.count(), include_groups=False)

Unnamed: 0_level_0,Name,PClass,Age,Survived,SexCode
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
female,462,462,288,462,462
male,851,851,468,851,851


🧠 

La méthode ``.apply()`` permet d’appliquer n’importe quelle fonction personnalisée à chaque groupe séparément.

C’est extrêmement utile pour :
- Calculer des statistiques sur mesure
- Extraire ou transformer des sous-ensembles
- Effectuer des opérations de nettoyage par catégorie

👀 Par exemple, vous pouvez :
- Calculer des moyennes conditionnelles
- Appliquer des fonctions sur des lignes de chaque groupe
- Créer des indicateurs ou des métriques par groupe

🔍 Astuce bonus : combiner ``groupby`` + ``apply()`` +`` fonction personnalisée``


In [97]:
# Exemple : afficher la première ligne de chaque groupe
dataframe.groupby('Sex').apply(lambda x: x.head(1), include_groups=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,Name,PClass,Age,Survived,SexCode
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
female,0,"Allen, Miss Elisabeth Walton",1st,29.0,1,1
male,2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,0,0


# 🔗 Concaténer deux DataFrames avec pandas

On souhaite fusionner ou empiler deux DataFrames l’un au-dessus de l’autre ou côte à côte.

✅ Solution avec ``pd.concat()``

🔹 1. Concaténation par les lignes (axe 0)

In [98]:
import pandas as pd

# Créer le premier DataFrame
data_a = {
    'id': ['1', '2', '3'],
    'first': ['Alex', 'Amy', 'Allen'],
    'last': ['Anderson', 'Ackerman', 'Ali']
}
dataframe_a = pd.DataFrame(data_a)

# Créer le second DataFrame
data_b = {
    'id': ['4', '5', '6'],
    'first': ['Billy', 'Brian', 'Bran'],
    'last': ['Bonder', 'Black', 'Balwner']
}
dataframe_b = pd.DataFrame(data_b)

# Concaténer par les lignes (empiler verticalement)
pd.concat([dataframe_a, dataframe_b], axis=0)

Unnamed: 0,id,first,last
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
0,4,Billy,Bonder
1,5,Brian,Black
2,6,Bran,Balwner


💡 Les index ne sont pas réinitialisés par défaut. Pour un nouvel index continu :

In [99]:
pd.concat([dataframe_a, dataframe_b], axis=0, ignore_index=True)

Unnamed: 0,id,first,last
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
3,4,Billy,Bonder
4,5,Brian,Black
5,6,Bran,Balwner


🔹 2. Concaténation par les colonnes (axe 1)

In [100]:
pd.concat([dataframe_a, dataframe_b], axis=1)

Unnamed: 0,id,first,last,id.1,first.1,last.1
0,1,Alex,Anderson,4,Billy,Bonder
1,2,Amy,Ackerman,5,Brian,Black
2,3,Allen,Ali,6,Bran,Balwner


🧠 

🔧 Le mot concaténer signifie simplement “coller” deux objets ensemble.
- Utilisez ``axis=0`` pour empiler verticalement (ligne après ligne)
- Utilisez ``axis=1`` pour ajouter des colonnes (côte à côte)

📌 ``pd.concat()`` est particulièrement pratique pour :
- fusionner des données de même structure
- réunir des résultats partiels
- étendre dynamiquement un tableau

# 🔗 Fusionner deux DataFrames avec pandas (merge)

On souhaite combiner deux DataFrames selon une colonne commune.

✅ Solution : utiliser ``merge()``

🔹 Jointure interne (inner join) : ne garder que les correspondances

In [101]:
import pandas as pd

# Créer un DataFrame employés
employee_data = {
    'employee_id': ['1', '2', '3', '4'],
    'name': ['Amy Jones', 'Allen Keys', 'Alice Bees', 'Tim Horton']
}
dataframe_employees = pd.DataFrame(employee_data)

# Créer un DataFrame ventes
sales_data = {
    'employee_id': ['3', '4', '5', '6'],
    'total_sales': [23456, 2512, 2345, 1455]
}
dataframe_sales = pd.DataFrame(sales_data)

# Fusionner les DataFrames par clé commune
pd.merge(dataframe_employees, dataframe_sales, on='employee_id')

Unnamed: 0,employee_id,name,total_sales
0,3,Alice Bees,23456
1,4,Tim Horton,2512


🔸 Jointure externe (outer join) : garder toutes les lignes

In [102]:
pd.merge(dataframe_employees, dataframe_sales, on='employee_id', how='outer')

Unnamed: 0,employee_id,name,total_sales
0,1,Amy Jones,
1,2,Allen Keys,
2,3,Alice Bees,23456.0
3,4,Tim Horton,2512.0
4,5,,2345.0
5,6,,1455.0


🔸 Jointure à gauche (left join) : prioriser les données du DataFrame de gauche

In [103]:
pd.merge(dataframe_employees, dataframe_sales, on='employee_id', how='left')

Unnamed: 0,employee_id,name,total_sales
0,1,Amy Jones,
1,2,Allen Keys,
2,3,Alice Bees,23456.0
3,4,Tim Horton,2512.0


🔸 Jointure à droite (right join) : prioriser les données du DataFrame de droite

In [104]:
pd.merge(dataframe_employees, dataframe_sales, on='employee_id', how='right')

Unnamed: 0,employee_id,name,total_sales
0,3,Alice Bees,23456
1,4,Tim Horton,2512
2,5,,2345
3,6,,1455


🔁 Fusion avec colonnes différentes (mais correspondantes)

In [105]:
pd.merge(
    dataframe_employees,
    dataframe_sales,
    left_on='employee_id',
    right_on='employee_id'
)

Unnamed: 0,employee_id,name,total_sales
0,3,Alice Bees,23456
1,4,Tim Horton,2512


✔️ Même résultat que on="employee_id" si les noms de colonnes sont identiques.

🧱 Fusion sur les index plutôt que sur les colonnes

In [106]:
pd.merge(
    dataframe_employees.set_index('employee_id'),
    dataframe_sales.set_index('employee_id'),
    left_index=True,
    right_index=True
)

Unnamed: 0_level_0,name,total_sales
employee_id,Unnamed: 1_level_1,Unnamed: 2_level_1
3,Alice Bees,23456
4,Tim Horton,2512


🧠 

La fusion avec ``merge()`` est essentielle pour :
- Rassembler des données provenant de sources différentes
- Simuler des opérations de jointure SQL dans pandas
- Gérer des cas de correspondances partielles ou complètes

| Type de jointure | Ce que vous obtenez | 
|-----------------|----------------------|
| ``inner`` | Seulement les valeurs communes | 
|``outer`` | Toutes les lignes avec des NaN pour les absents | 
| ``left`` | Toutes les lignes du DataFrame gauche | 
| ``right`` | Toutes les lignes du DataFrame droit | 