# üìò Introduction

Le **data wrangling** est un terme g√©n√©ral souvent utilis√© de fa√ßon informelle pour d√©signer le **processus qui consiste √† transformer des donn√©es brutes en un format propre et organis√©, pr√™t √† √™tre exploit√©**.

Dans notre cas, le data wrangling constitue une √©tape parmi d'autres dans le pr√©traitement des donn√©es, mais c‚Äôest une √©tape essentielle.

üìä Le r√¥le des DataFrames
La structure de donn√©es la plus couramment utilis√©e pour "manipuler" des donn√©es est le DataFrame, qui est √† la fois intuitif et extr√™mement polyvalent.
Un DataFrame est une structure tabulaire, comme dans une feuille de calcul, avec des lignes et des colonnes.

üìå Exemple : Passagers du Titanic



In [1]:
# Charger la biblioth√®que
import pandas as pd

# D√©finir l'URL du fichier
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# Charger les donn√©es sous forme de DataFrame
dataframe = pd.read_csv(url)

# Afficher les cinq premi√®res lignes
dataframe.head(5)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
4,"Allison, Master Hudson Trevor",1st,0.92,male,1,0



üîç Trois √©l√©ments essentiels √† noter
- Chaque ligne repr√©sente une observation (ex. un passager) et chaque colonne une variable (sexe, √¢ge, classe, etc.).
Par exemple, pour la premi√®re ligne, on apprend que Miss Elisabeth Walton Allen √©tait en premi√®re classe, √¢g√©e de 29 ans, de sexe f√©minin, et qu‚Äôelle a surv√©cu au naufrage.
- Chaque colonne poss√®de un nom (ex. Name, Age, Sex) et chaque ligne un index (ex. 0 pour Elisabeth Walton Allen).

Ces √©l√©ments sont cruciaux pour s√©lectionner et manipuler les donn√©es.
- Les colonnes Sex et SexCode contiennent la m√™me information sous des formats diff√©rents :
  - Sex : cha√Æne de caract√®res (female, male)
  - SexCode : entier (1 pour femme, 0 pour homme)
  
Afin d‚Äô√©viter la redondance, il est pr√©f√©rable de supprimer l‚Äôune de ces deux colonnes.

üéØ Dans ce chapitre, nous allons explorer de nombreuses techniques pour manipuler les DataFrames avec pandas, dans le but de cr√©er un jeu de donn√©es propre, coh√©rent et pr√™t pour une analyse ou un entra√Ænement en machine learning.

# üìã Cr√©ation d‚Äôun DataFrame

On souhaite cr√©er un nouveau DataFrame dans Python.

La biblioth√®que pandas propose donc plusieurs m√©thodes pour cr√©er un DataFrame. Une fa√ßon simple consiste √† utiliser un dictionnaire Python, o√π chaque cl√© repr√©sente le nom d‚Äôune colonne et chaque valeur est une liste contenant les donn√©es de chaque ligne :


In [2]:
# Charger la biblioth√®que pandas
import pandas as pd

# Cr√©er un dictionnaire
dictionary = {
    "Name": ['Jacky Jackson', 'Steven Stevenson'],
    "Age": [38, 25],
    "Driver": [True, False]
}

# Cr√©er un DataFrame √† partir du dictionnaire
dataframe = pd.DataFrame(dictionary)

# Afficher le DataFrame
print(dataframe)

               Name  Age  Driver
0     Jacky Jackson   38    True
1  Steven Stevenson   25   False


üü® Ajouter une colonne facilement
Il est tr√®s facile d‚Äôajouter une nouvelle colonne √† un DataFrame √† l‚Äôaide d‚Äôune simple liste :

In [3]:
# Ajouter une colonne pour la couleur des yeux
dataframe["Eyes"] = ["Brown", "Blue"]

# Afficher le DataFrame mis √† jour
print(dataframe)

               Name  Age  Driver   Eyes
0     Jacky Jackson   38    True  Brown
1  Steven Stevenson   25   False   Blue


pandas offre une multitude de fa√ßons de cr√©er un DataFrame, mais dans la pratique, on cr√©e rarement un DataFrame vide qu'on remplit √† la main.
‚úÖ Les DataFrames proviennent le plus souvent de donn√©es externes, comme :
- des fichiers CSV
- des bases de donn√©es
- des API
- des fichiers Excel, JSON, etc.

# üîé Obtenir des informations sur un DataFrame

On souhaite explorer les caract√©ristiques de base d‚Äôun DataFrame.

L'une des premi√®res choses √† faire apr√®s avoir charg√© des donn√©es est de consulter les premi√®res lignes √† l‚Äôaide de ``head()`` :

In [4]:
# Importer la biblioth√®que
import pandas as pd

# D√©finir l‚ÄôURL du dataset
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# Charger les donn√©es
dataframe = pd.read_csv(url)

# Afficher les deux premi√®res lignes
dataframe.head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


‚úÖ M√©thodes utiles pour explorer un DataFrame

| M√©thode | Description | 
|----------|-------------|
| ``head(n)`` | Affiche les n premi√®res lignes (par d√©faut 5) | 
| ``tail(n)`` | Affiche les n derni√®res lignes | 
| ``shape`` | Donne les dimensions du DataFrame (lignes, colonnes) | 
| ``describe()`` | Calcule des statistiques descriptives sur les colonnes num√©riques | 
| ``info()`` | Affiche les types de donn√©es, le nombre de valeurs non nulles et l‚Äôutilisation m√©moire | 

üìä Exemples suppl√©mentaires

In [5]:
# Dimensions
print(dataframe.shape)

(1313, 6)


In [6]:
# Statistiques descriptives
print(dataframe.describe())

              Age     Survived      SexCode
count  756.000000  1313.000000  1313.000000
mean    30.397989     0.342727     0.351866
std     14.259049     0.474802     0.477734
min      0.170000     0.000000     0.000000
25%     21.000000     0.000000     0.000000
50%     28.000000     0.000000     0.000000
75%     39.000000     1.000000     1.000000
max     71.000000     1.000000     1.000000


In [7]:
# Informations g√©n√©rales
print(dataframe.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1313 entries, 0 to 1312
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Name      1313 non-null   object 
 1   PClass    1313 non-null   object 
 2   Age       756 non-null    float64
 3   Sex       1313 non-null   object 
 4   Survived  1313 non-null   int64  
 5   SexCode   1313 non-null   int64  
dtypes: float64(1), int64(2), object(3)
memory usage: 61.7+ KB
None


üß† √Ä retenir
Bien que ``describe()`` fournisse des statistiques num√©riques utiles, certaines colonnes comme ``Survived`` ou ``SexCode`` sont en r√©alit√© des **variables cat√©gorielles** cod√©es en chiffres. Ainsi, des mesures comme l‚Äô√©cart type peuvent ne pas √™tre pertinentes dans ce contexte.

# ‚úÇÔ∏è D√©coupage (slicing) d‚Äôun DataFrame

On souhaite s√©lectionner un sous-ensemble sp√©cifique de donn√©es dans un DataFrame pandas.

‚úÖ On utilise donc les m√©thodes ``.iloc[]`` ou ``.loc[]`` pour acc√©der aux lignes et valeurs :

In [8]:
# Charger la biblioth√®que pandas
import pandas as pd

# D√©finir l'URL du jeu de donn√©es Titanic
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# Charger le DataFrame
dataframe = pd.read_csv(url)

# S√©lectionner la premi√®re ligne par position
dataframe.iloc[0]

Name        Allen, Miss Elisabeth Walton
PClass                               1st
Age                                 29.0
Sex                               female
Survived                               1
SexCode                                1
Name: 0, dtype: object

üîπ S√©lectionner un intervalle de lignes

In [9]:
# S√©lectionner les lignes 1 √† 3 (positions 1, 2 et 3)
dataframe.iloc[1:4]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1


In [10]:
# S√©lectionner toutes les lignes jusqu‚Äô√† la quatri√®me incluse
dataframe.iloc[:4]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1


üîπ Utiliser des index textuels avec .loc[]

On peut r√©indexer le DataFrame avec une colonne textuelle unique comme les noms des passagers :

In [11]:
# D√©finir l‚Äôindex sur la colonne 'Name'
dataframe = dataframe.set_index(dataframe["Name"])
dataframe.head()

Unnamed: 0_level_0,Name,PClass,Age,Sex,Survived,SexCode
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
"Allen, Miss Elisabeth Walton","Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
"Allison, Miss Helen Loraine","Allison, Miss Helen Loraine",1st,2.0,female,0,1
"Allison, Mr Hudson Joshua Creighton","Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
"Allison, Mrs Hudson JC (Bessie Waldo Daniels)","Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
"Allison, Master Hudson Trevor","Allison, Master Hudson Trevor",1st,0.92,male,1,0


In [12]:
# S√©lectionner une ligne par nom
dataframe.loc["Allen, Miss Elisabeth Walton"]

Name        Allen, Miss Elisabeth Walton
PClass                               1st
Age                                 29.0
Sex                               female
Survived                               1
SexCode                                1
Name: Allen, Miss Elisabeth Walton, dtype: object

- Toutes les lignes d‚Äôun DataFrame ont un index unique.
- Par d√©faut, l‚Äôindex est num√©rique (0, 1, 2...), mais il peut √™tre d√©fini comme texte ou identifiant client.
- ``.iloc[]`` acc√®de aux positions (index num√©riques)
- ``.loc[]`` acc√®de aux √©tiquettes (index alphanum√©riques ou textuels)
üí° Savoir bien utiliser ``.iloc`` et ``.loc`` est essentiel pour tout travail de nettoyage ou de pr√©traitement de donn√©es avec pandas.

# üßπ S√©lection de lignes selon des conditions

On souhaiterais filtrer les lignes d‚Äôun DataFrame en fonction de certaines conditions.

‚úÖ C‚Äôest tr√®s simple √† faire avec pandas.

Par exemple, pour s√©lectionner toutes les femmes pr√©sentes sur le Titanic :



In [14]:
# Charger la biblioth√®que
import pandas as pd

# D√©finir l'URL du jeu de donn√©es
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# Charger les donn√©es
dataframe = pd.read_csv(url)

# S√©lectionner et afficher les deux premi√®res lignes o√π la colonne 'Sex' vaut 'female'
dataframe[dataframe['Sex'] == 'female'].head()

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1
6,"Andrews, Miss Kornelia Theodosia",1st,63.0,female,1,1
8,"Appleton, Mrs Edward Dale (Charlotte Lamson)",1st,58.0,female,1,1


üîç Explication
La condition ``dataframe['Sex'] == 'female'`` produit une s√©rie de bool√©ens

‚û°Ô∏è En l'encapsulant dans ``dataframe[...]``, on demande √† pandas de retourner toutes les lignes o√π cette condition est vraie.

üîó Conditions multiples
On peut aussi combiner plusieurs conditions avec & (et logique) ou | (ou logique).

‚û°Ô∏è Exemple : s√©lectionner les femmes √¢g√©es de 65 ans ou plus :

In [15]:
dataframe[
    (dataframe['Sex'] == 'female') &
    (dataframe['Age'] >= 65)
]

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
73,"Crosby, Mrs Edward Gifford (Catherine Elizabet...",1st,69.0,female,1,1


üìå Filtrer conditionnellement les donn√©es est une des t√¢ches les plus fr√©quentes en data wrangling.

On ne travaille presque jamais sur l'int√©gralit√© des donn√©es brutes ‚Äî on s'int√©resse g√©n√©ralement √† un sous-ensemble pertinent.

‚ú® Exemples classiques :
- S√©lectionner tous les clients d‚Äôun pays
- Isoler les patients de plus de 65 ans
- Filtrer les produits dont le stock est nul

# üî¢ Trier les valeurs dans un DataFrame

On souhaiterait trier un DataFrame selon les valeurs d'une ou plusieurs colonnes.

‚úÖ On utilise la m√©thode ``sort_values()`` de pandas :

In [16]:
# Charger la biblioth√®que
import pandas as pd

# D√©finir l'URL du jeu de donn√©es
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# Charger les donn√©es dans un DataFrame
dataframe = pd.read_csv(url)

# Trier les passagers par √¢ge (du plus jeune au plus √¢g√©) et afficher les deux premiers
dataframe.sort_values(by=["Age"]).head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
763,"Dean, Miss Elizabeth Gladys (Millvena)",3rd,0.17,female,1,1
751,"Danbom, Master Gilbert Sigvard Emanuel",3rd,0.33,male,0,0


‚úÖ La m√©thode ``sort_values()`` permet de trier les lignes d‚Äôun DataFrame selon une ou plusieurs colonnes :
- Le param√®tre ``by`` prend une liste de noms de colonnes.

üëâ On peux trier par une seule colonne (``by="Age"``) ou plusieurs (``by=["PClass", "Age"]``).

- Le param√®tre ``ascending`` (par d√©faut √† True) d√©termine l‚Äôordre de tri :
- ``True`` ‚Üí du plus petit au plus grand
- ``False`` ‚Üí du plus grand au plus petit

‚û°Ô∏è Exemple : pour trier du passager le plus √¢g√© au plus jeune :


In [18]:
dataframe.sort_values(by="Age", ascending=False).head(6)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
9,"Artagaveytia, Mr Ramon",1st,71.0,male,0,0
505,"Mitchell, Mr Henry Michael",2nd,71.0,male,0,0
119,"Goldschmidt, Mr George B",1st,71.0,male,0,0
72,"Crosby, Captain Edward Gifford",1st,70.0,male,0,0
73,"Crosby, Mrs Edward Gifford (Catherine Elizabet...",1st,69.0,female,1,1
252,"Straus, Mr Isidor",1st,67.0,male,0,0


# üîÅ Remplacement de valeurs dans un DataFrame

On souhaite remplacer des valeurs sp√©cifiques dans un DataFrame pandas.

‚úÖ Solution : m√©thode ``replace()``

In [19]:
# Importer la biblioth√®que pandas
import pandas as pd

# D√©finir l‚ÄôURL du jeu de donn√©es Titanic
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# Charger les donn√©es dans un DataFrame
dataframe = pd.read_csv(url)

# Exemple 1 : Remplacer "female" par "Woman" dans la colonne 'Sex'
dataframe['Sex'].replace("female", "Woman").head(6)

0    Woman
1    Woman
2     male
3    Woman
4     male
5     male
Name: Sex, dtype: object

üîπ Remplacement multiple

In [20]:
# Remplacer "female" par "Woman" et "male" par "Man"
dataframe['Sex'].replace(["female", "male"], ["Woman", "Man"]).head(5)

0    Woman
1    Woman
2      Man
3    Woman
4      Man
Name: Sex, dtype: object

üîπ Remplacement global dans tout le DataFrame

In [21]:
# Remplacer toutes les occurrences de la valeur 1 par "One"
dataframe.replace(1, "One").head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,One,One
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,One


üîπ Utilisation d‚Äôexpressions r√©guli√®res

In [22]:
# Remplacer "1st" par "First" partout (y compris en partie de cha√Æne)
dataframe.replace(r"1st", "First", regex=True).head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",First,29.0,female,1,1
1,"Allison, Miss Helen Loraine",First,2.0,female,0,1


üîπ La m√©thode ``.replace()`` est :
- facile √† utiliser
- flexible
- compatible avec les expressions r√©guli√®res via ``regex=True``

üí° Elle est id√©ale pour :
- renommer des cat√©gories
- corriger des erreurs de saisie
- harmoniser des formats

# üè∑Ô∏è Renommer des colonnes dans un DataFrame

On souhaite renommer une ou plusieurs colonnes dans un DataFrame pandas.

‚úÖ Solution : m√©thode ``rename()``
Utiliser ``.rename(columns={...})``, o√π les cl√©s du dictionnaire sont les anciens noms et les valeurs les nouveaux noms :


In [23]:
# Importer pandas
import pandas as pd

# Charger le jeu de donn√©es Titanic
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'
dataframe = pd.read_csv(url)

# Renommer une colonne
dataframe.rename(columns={'PClass': 'Passenger Class'}).head(2)

Unnamed: 0,Name,Passenger Class,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


üîπ Renommer plusieurs colonnes simultan√©ment

In [24]:
dataframe.rename(columns={'PClass': 'Passenger Class', 'Sex': 'Gender'}).head(2)

Unnamed: 0,Name,Passenger Class,Age,Gender,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1


‚úîÔ∏è ``rename()`` est une m√©thode √©l√©gante, compatible avec :
- des renommages partiels (une seule colonne)
- des renommages multiples via dictionnaire
- des op√©rations en cha√Æne (``.rename().drop()`` etc.)

üìé Bonnes pratiques :
- Garder les noms clairs et explicites (Sex ‚Üí Gender, PClass ‚Üí Passenger Class)
- Harmoniser le sch√©ma de nommage (camelCase, snake_case, titres)

üîπ Renommer toutes les colonnes avec un dictionnaire g√©n√©r√© dynamiquement

In [25]:
import collections

# Cr√©er un dictionnaire avec les anciens noms comme cl√©s et des cha√Ænes vides comme valeurs
column_names = collections.defaultdict(str)
for name in dataframe.columns:
    column_names[name]

# R√©sultat :
print(column_names)

defaultdict(<class 'str'>, {'Name': '', 'PClass': '', 'Age': '', 'Sex': '', 'Survived': '', 'SexCode': ''})


üí° Cette m√©thode sert de base pour automatiser la transformation ou la suppression des noms (par exemple via boucles ou regex).

# üßÆ Trouver les minimums, maximums, moyennes, sommes et comptes

On souhaiterais obtenir des statistiques simples (min, max, somme, moyenne, etc.) √† partir d'une colonne num√©rique d'un DataFrame.

‚úÖ Solution avec pandas












In [26]:
# Charger la biblioth√®que
import pandas as pd

# D√©finir l‚ÄôURL du jeu de donn√©es Titanic
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# Charger le DataFrame
dataframe = pd.read_csv(url)

# Calculer les statistiques sur la colonne 'Age'
print("Maximum :", dataframe["Age"].max())
print("Minimum :", dataframe["Age"].min())
print("Moyenne :", dataframe["Age"].mean())
print("Somme   :", dataframe["Age"].sum())
print("Compte  :", dataframe["Age"].count())

Maximum : 71.0
Minimum : 0.17
Moyenne : 30.397989417989418
Somme   : 22980.88
Compte  : 756


üìä Discussion

La biblioth√®que pandas offre un grand nombre de fonctions statistiques int√©gr√©es :

| M√©thode | Description | 
|---------|-------------|
| ``.max()`` | Valeur maximale | 
| ``.min()`` | Valeur minimale | 
| ``.mean()`` | Moyenne | 
| ``.sum()`` | Somme | 
| ``.count()`` | Nombre de valeurs non nulles | 
| ``.std()`` | √âcart type | 
| ``.var()`` | Variance | 
| ``.median()`` | M√©diane | 
| ``.mode()`` | Mode | 
| ``.skew()`` | Asym√©trie | 
| ``.kurt()`` | Kurtosis (applatissement) | 
| ``.sem()`` | Erreur standard de la moyenne | 
| ``.value_counts()`` | Fr√©quence de chaque valeur | 


‚û°Ô∏è Ces m√©thodes peuvent √™tre appliqu√©es :
- √† une colonne sp√©cifique
- √† tout le DataFrame si plusieurs colonnes num√©riques sont pr√©sentes

üß† Par exemple, pour compter les valeurs non nulles dans chaque colonne :

In [27]:
dataframe.count()

Name        1313
PClass      1313
Age          756
Sex         1313
Survived    1313
SexCode     1313
dtype: int64

# üîç Trouver les valeurs uniques dans une colonne

On souhaiterait obtenir toutes les valeurs distinctes (uniques) pr√©sentes dans une colonne de DataFrame.

‚úÖ Solution
Utiliser la m√©thode ``.unique()`` pour afficher un tableau contenant toutes les valeurs uniques d'une colonne :


In [28]:
import pandas as pd

# D√©finir l‚ÄôURL du fichier Titanic
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# Charger les donn√©es
dataframe = pd.read_csv(url)

# Afficher les valeurs uniques de la colonne 'Sex'
print(dataframe['Sex'].unique())

['female' 'male']


üîπ Compter les occurrences de chaque valeur
Utiliser ``.value_counts()`` pour afficher toutes les valeurs uniques avec le nombre d‚Äôoccurrences :

In [29]:
print(dataframe['Sex'].value_counts())

Sex
male      851
female    462
Name: count, dtype: int64


üî∏ D√©tection d‚Äôanomalies

Un bon exemple est la colonne PClass qui contient th√©oriquement 3 classes.

Mais en inspectant les valeurs :

In [30]:
print(dataframe['PClass'].value_counts())

PClass
3rd    711
1st    322
2nd    279
*        1
Name: count, dtype: int64


‚û°Ô∏è La valeur * est probablement une erreur ou un cas sp√©cial.

Ce genre de ‚Äúclasse en trop‚Äù est courant dans les donn√©es cat√©gorielles et doit √™tre trait√© lors du nettoyage.

üî¢ Nombre de valeurs uniques

Si l'on veut simplement conna√Ætre le nombre de classes distinctes, on utilise ``.nunique()`` :

In [31]:
print(dataframe['PClass'].nunique())  # R√©sultat : 4

4


üß† En r√©sum√© :

| M√©thode | Utilit√© | 
|---------|---------|
| ``.unique()`` | Liste des valeurs distinctes | 
| ``.value_counts()`` | Fr√©quence de chaque valeur | 
| ``.nunique()`` | Nombre total de valeurs uniques |

# üßº G√©rer les valeurs manquantes dans un DataFrame

On  souhaiterait rep√©rer et traiter les valeurs manquantes dans un DataFrame pandas.

‚úÖ Solution

üîπ D√©tection des valeurs manquantes

In [33]:
import pandas as pd

# URL du jeu de donn√©es Titanic
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# Charger les donn√©es
dataframe = pd.read_csv(url)

# S√©lectionner les lignes o√π 'Age' est manquant (NaN)
dataframe[dataframe['Age'].isnull()].head(6)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
12,"Aubert, Mrs Leontine Pauline",1st,,female,1,1
13,"Barkworth, Mr Algernon H",1st,,male,1,0
14,"Baumann, Mr John D",1st,,male,0,0
29,"Borebank, Mr John James",1st,,male,0,0
32,"Bradley, Mr George",1st,,male,1,0
35,"Brewe, Dr Arthur Jackson",1st,,male,0,0


üîπ Erreur courante avec NaN

In [34]:
# Remplacement incorrect : produit une erreur
dataframe['Sex'] = dataframe['Sex'].replace('male', NaN)

NameError: name 'NaN' is not defined

‚õî Cela renvoie :

NameError: name 'NaN' is not defined

üîπ Remplacement correct via NumPy

In [35]:
import numpy as np

# Remplacer toutes les valeurs 'male' par NaN
dataframe['Sex'] = dataframe['Sex'].replace('male', np.nan)

üîπ D√©finir les valeurs consid√©r√©es comme "manquantes" lors du chargement

In [36]:
# Traiter certaines cha√Ænes comme des valeurs manquantes
dataframe = pd.read_csv(url, na_values=[np.nan, 'NONE', -999])

üí° Cela peut inclure des symboles personnalis√©s que le dataset utilise pour d√©signer des donn√©es absentes.

üîπ Imputation avec une valeur (remplir les NaN)

Exemple : utiliser la moyenne des √¢ges pour remplir les valeurs manquantes :

In [38]:
# Extraire 4 entr√©es manquantes pour d√©monstration
null_entry = dataframe[dataframe["Age"].isna()].head(4)

# Remplir les valeurs manquantes avec la moyenne des √¢ges
null_entry_filled = null_entry.fillna(dataframe["Age"].mean())

print(null_entry_filled)

                            Name PClass        Age     Sex  Survived  SexCode
12  Aubert, Mrs Leontine Pauline    1st  30.397989  female         1        1
13      Barkworth, Mr Algernon H    1st  30.397989    male         1        0
14            Baumann, Mr John D    1st  30.397989    male         0        0
29       Borebank, Mr John James    1st  30.397989    male         0        0


üîç Les valeurs manquantes (NaN) sont fr√©quentes, et leur mauvaise gestion peut entra√Æner des erreurs subtiles.

pandas s‚Äôappuie sur ``np.nan`` pour les repr√©senter.

üìå Strat√©gies classiques :
- Supprimer les lignes ou colonnes incompl√®tes (``dropna()``)
- Imputer une valeur (moyenne, m√©diane, constante, etc.)
- Remplacer des codes comme 'NONE', -999, '' par np.nan

# üóëÔ∏è Supprimer une colonne dans un DataFrame

On souhaiterait supprimer une ou plusieurs colonnes d‚Äôun DataFrame pandas.

‚úÖ Solution avec ``drop()``

On utilise la m√©thode ``drop()`` en sp√©cifiant ``axis=1`` pour supprimer des colonnes :


In [39]:
# Importer la biblioth√®que
import pandas as pd

# D√©finir l‚ÄôURL du jeu de donn√©es Titanic
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# Charger les donn√©es
dataframe = pd.read_csv(url)

# Supprimer une colonne ('Age') et afficher les 4 premi√®res lignes
dataframe.drop('Age', axis=1).head(4)

Unnamed: 0,Name,PClass,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,female,1,1
1,"Allison, Miss Helen Loraine",1st,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,female,0,1


üîπ Supprimer plusieurs colonnes en une seule fois

In [40]:
dataframe.drop(['Age', 'Sex'], axis=1).head(2)

Unnamed: 0,Name,PClass,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,1,1
1,"Allison, Miss Helen Loraine",1st,0,1


üîπ Supprimer une colonne par son index

Parfois une colonne peut ne pas avoir de nom. 

On peut alors la supprimer via ``dataframe.columns`` :

In [None]:
# Supprimer la colonne en position 1 (index 1) ---> PClass
dataframe.drop(dataframe.columns[1], axis=1).head(2)

Unnamed: 0,Name,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",29.0,female,1,1
1,"Allison, Miss Helen Loraine",2.0,female,0,1


üß†

‚úÖ ``drop()`` est la m√©thode idiomatique recommand√©e pour supprimer des colonnes dans pandas.

‚ö†Ô∏è Bien que ``del dataframe['Age']`` fonctionne g√©n√©ralement, cette syntaxe est moins propre et sujette √† des probl√®mes internes dans pandas.

üìõ √Ä √©viter : ``inplace=True``

M√™me si pandas propose l‚Äôoption ``inplace=True``, il est conseill√© de ne pas modifier un DataFrame en place, surtout dans des pipelines complexes.

Traiter les DataFrames comme des objets immuables :

In [43]:
# Cr√©er un nouveau DataFrame sans la premi√®re colonne
dataframe_name_dropped = dataframe.drop(dataframe.columns[0], axis=1)
dataframe_name_dropped.head(2)

Unnamed: 0,PClass,Age,Sex,Survived,SexCode
0,1st,29.0,female,1,1
1,1st,2.0,female,0,1


üßò‚Äç‚ôÇÔ∏è Cette pratique nous √©vitera bien des erreurs difficiles √† d√©boguer !

# üóëÔ∏è Supprimer une ou plusieurs lignes dans un DataFrame

On souhaite supprimer des lignes sp√©cifiques d‚Äôun DataFrame pandas.

‚úÖ Solution : utiliser une condition bool√©enne

üîπ Supprimer toutes les lignes o√π Sex vaut "male"

In [44]:
import pandas as pd

# URL du dataset Titanic
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# Charger les donn√©es
dataframe = pd.read_csv(url)

# Supprimer les hommes et afficher les 3 premi√®res lignes
dataframe[dataframe['Sex'] != 'male'].head(3)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1


üîπ Supprimer une ligne correspondant √† une valeur unique dans une colonne

In [45]:
dataframe[dataframe['Name'] != 'Allison, Miss Helen Loraine'].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0


üîπ Supprimer une ligne par son index

In [46]:
dataframe[dataframe.index != 0].head(2)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0


üß† 

‚úîÔ∏è La m√©thode idiomatique pour "supprimer" une ligne consiste √† filtrer les lignes que l‚Äôon souhaite garder, en utilisant une condition logique.

Bien que ``.drop()`` soit possible (ex : ``dataframe.drop([0, 1], axis=0)``), cela devient vite impr√©cis et moins flexible.

üí° Les conditions sont utiles pour :
- supprimer une ligne cibl√©e
- exclure une cat√©gorie enti√®re
- pr√©parer des sous-ensembles de donn√©es

# üóÉÔ∏è Suppression des doublons dans un DataFrame

On souhaite supprimer les lignes dupliqu√©es dans un DataFrame pandas.

‚úÖ Solution avec ``drop_duplicates()``

In [53]:
import pandas as pd

# Charger le jeu de donn√©es Titanic
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'
dataframe = pd.read_csv(url)

# Supprimer les doublons (sur toutes les colonnes)
dataframe.drop_duplicates().head(4)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1


üîç V√©rification : y a-t-il eu des doublons supprim√©s ?

In [54]:
print("Nombre de lignes originales :", len(dataframe))
print("Apr√®s suppression des doublons :", len(dataframe.drop_duplicates()))

Nombre de lignes originales : 1313
Apr√®s suppression des doublons : 1313


‚û°Ô∏è Conclusion : aucune ligne n‚Äôa √©t√© supprim√©e, car aucune ligne n‚Äôest strictement identique sur toutes les colonnes.


üîπ Suppression sur une sous-partie des colonnes

On peut utiliser le param√®tre subset pour comparer uniquement certaines colonnes :


In [55]:
dataframe.drop_duplicates(subset=['Sex'])

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0


üß† pandas garde par d√©faut la premi√®re apparition de chaque groupe dupliqu√©.

üî∏ Changer ce comportement avec keep


In [56]:
dataframe.drop_duplicates(subset=['Sex'], keep='last')

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
1307,"Zabour, Miss Tamini",3rd,,female,0,1
1312,"Zimmerman, Leo",3rd,29.0,male,0,0


‚úîÔ∏è Ici, pandas garde la derni√®re apparition au lieu de la premi√®re.

üß™ M√©thode associ√©e : ``duplicated()``

In [57]:
dataframe.duplicated()

0       False
1       False
2       False
3       False
4       False
        ...  
1308    False
1309    False
1310    False
1311    False
1312    False
Length: 1313, dtype: bool

üîé Cela retourne une s√©rie bool√©enne indiquant si chaque ligne est une duplication d‚Äôune ligne pr√©c√©dente.

üí° Astuces suppl√©mentaires
- Pour supprimer toutes les duplications d‚Äôun DataFrame :
``dataframe[~dataframe.duplicated()]``
- Pour ne garder que les doublons :
``dataframe[dataframe.duplicated()]``

In [58]:
dataframe[~dataframe.duplicated()].head(4)

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode
0,"Allen, Miss Elisabeth Walton",1st,29.0,female,1,1
1,"Allison, Miss Helen Loraine",1st,2.0,female,0,1
2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,male,0,0
3,"Allison, Mrs Hudson JC (Bessie Waldo Daniels)",1st,25.0,female,0,1


In [59]:
dataframe[dataframe.duplicated()].head(4)  

Unnamed: 0,Name,PClass,Age,Sex,Survived,SexCode


# üë• Grouper des lignes selon une valeur

On souhaite regrouper des lignes d‚Äôun DataFrame en fonction d‚Äôune valeur commune (ex : genre, classe, r√©sultat‚Ä¶).

‚úÖ Solution avec groupby

La m√©thode ``groupby`` est l‚Äôun des outils les plus puissants de pandas. Exemple :



In [62]:
import pandas as pd

# Charger le jeu de donn√©es Titanic
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'
dataframe = pd.read_csv(url)

# Grouper par colonne 'Sex' et calculer les moyennes par groupe
dataframe.groupby('Sex').mean(numeric_only=True)

Unnamed: 0_level_0,Age,Survived,SexCode
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,29.396424,0.666667,1.0
male,31.014338,0.166863,0.0


üìö 

Le regroupement (groupby) permet de structurer les donn√©es pour appliquer des statistiques par sous-groupe.

Chaque groupe est d√©fini par une valeur partag√©e dans une colonne (ex : "female" ou "male").

üîé Attention : groupby seul ne retourne pas les donn√©es

In [63]:
dataframe.groupby('Sex')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001564DDB1A70>

‚úèÔ∏è C‚Äôest normal ! Il faut appliquer une fonction sur le regroupement :
- ``mean()`` ‚Üí moyenne
- ``sum()`` ‚Üí somme
- ``count()`` ‚Üí nombre
- etc.

üîπ Exemple : compter les passagers selon leur survie

In [64]:
dataframe.groupby('Survived')['Name'].count()

Survived
0    863
1    450
Name: Name, dtype: int64

üí° Ici, on compte le nombre de noms (passagers) par valeur de la colonne Survived.

üî∏ Regroupement par plusieurs colonnes

In [65]:
dataframe.groupby(['Sex','Survived'])['Age'].mean()

Sex     Survived
female  0           24.901408
        1           30.867143
male    0           32.320780
        1           25.951875
Name: Age, dtype: float64

üí≠ Cela permet de conna√Ætre l‚Äô√¢ge moyen pour chaque combinaison ``Sex`` x ``Survived``.

üß† En r√©sum√©

| M√©thode | Description | 
|---------|-------------|
| ``.groupby('colonne')`` | Regroupe les lignes par valeur de la colonne | 
| ``.groupby(...).mean()`` | Calcule la moyenne par groupe | 
| ``.groupby(...).count()`` | Compte les occurrences par groupe | 
| ``.groupby([...])`` | Regroupe selon plusieurs colonnes | 
| ``groupby(...)[...].agg()`` | Applique plusieurs fonctions d‚Äôagr√©gation √† la fois | 

# üïí Regrouper des lignes par p√©riodes temporelles

On souhaite regrouper des lignes individuelles d‚Äôun DataFrame selon des intervalles de temps.

‚úÖ Solution avec ``resample()``


In [81]:
# Importer les biblioth√®ques
import pandas as pd
import numpy as np

# Cr√©er une s√©rie de dates espac√©es toutes les 30 secondes
time_index = pd.date_range('06/06/2017', periods=100000, freq='30s')
time_index

DatetimeIndex(['2017-06-06 00:00:00', '2017-06-06 00:00:30',
               '2017-06-06 00:01:00', '2017-06-06 00:01:30',
               '2017-06-06 00:02:00', '2017-06-06 00:02:30',
               '2017-06-06 00:03:00', '2017-06-06 00:03:30',
               '2017-06-06 00:04:00', '2017-06-06 00:04:30',
               ...
               '2017-07-10 17:15:00', '2017-07-10 17:15:30',
               '2017-07-10 17:16:00', '2017-07-10 17:16:30',
               '2017-07-10 17:17:00', '2017-07-10 17:17:30',
               '2017-07-10 17:18:00', '2017-07-10 17:18:30',
               '2017-07-10 17:19:00', '2017-07-10 17:19:30'],
              dtype='datetime64[ns]', length=100000, freq='30s')

In [74]:
# Cr√©er un DataFrame index√© par ce temps
dataframe = pd.DataFrame(index=time_index)
dataframe.head(7)

2017-06-06 00:00:00
2017-06-06 00:00:30
2017-06-06 00:01:00
2017-06-06 00:01:30
2017-06-06 00:02:00
2017-06-06 00:02:30
2017-06-06 00:03:00


In [72]:
dataframe.shape

(100000, 1)

In [75]:
# G√©n√©rer une colonne de montants de vente al√©atoires
dataframe['Sale_Amount'] = np.random.randint(1, 10, 100000)
dataframe.head(7)

Unnamed: 0,Sale_Amount
2017-06-06 00:00:00,1
2017-06-06 00:00:30,2
2017-06-06 00:01:00,3
2017-06-06 00:01:30,6
2017-06-06 00:02:00,6
2017-06-06 00:02:30,1
2017-06-06 00:03:00,3


In [76]:
dataframe.shape

(100000, 1)

In [77]:
# Regrouper par semaine et calculer la somme par semaine
dataframe.resample('W').sum()

Unnamed: 0,Sale_Amount
2017-06-11,86222
2017-06-18,101251
2017-06-25,100428
2017-07-02,100978
2017-07-09,100446
2017-07-16,10326


üìö 

üß† Le regroupement par temps est tr√®s utile pour :
- des s√©ries temporelles
- des √©v√©nements ou ventes espac√©s dans le temps
- des agr√©gations mensuelles, hebdomadaires ou horaires

‚ö†Ô∏è Pour utiliser resample, l‚Äôindex du DataFrame doit √™tre de type datetime.

üîπ Autres exemples de regroupements temporels

üî∏ Regrouper par 2 semaines et calculer la moyenne :

In [78]:
dataframe.resample('2W').mean()

Unnamed: 0,Sale_Amount
2017-06-11,4.989699
2017-06-25,5.001959
2017-07-09,4.995635
2017-07-23,4.964423


üî∏ Regrouper par mois et compter le nombre de ventes :

In [80]:
dataframe.resample('ME').count()

Unnamed: 0,Sale_Amount
2017-06-30,72000
2017-07-31,28000


üßæ Personnaliser le label de chaque groupe

Par d√©faut, le label de chaque intervalle est le bord droit (label='right').

Pour utiliser le bord gauche, ajoutez le param√®tre :

In [83]:
dataframe.resample('ME', label='left').count()

Unnamed: 0,Sale_Amount
2017-05-31,72000
2017-06-30,28000


# üìä Op√©rations d‚Äôagr√©gation et statistiques dans un DataFrame

On souhaite appliquer des fonctions statistiques globales sur tout ou partie d‚Äôun DataFrame pandas.

‚úÖ Solution : la m√©thode ``.agg()``

üîπ Obtenir les valeurs minimales de chaque colonne


In [84]:
import pandas as pd

# Charger le jeu de donn√©es Titanic
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'
dataframe = pd.read_csv(url)

# Obtenir le minimum de chaque colonne
dataframe.agg("min")

Name        Abbing, Mr Anthony
PClass                       *
Age                       0.17
Sex                     female
Survived                     0
SexCode                      0
dtype: object

üîπ Appliquer des fonctions sp√©cifiques √† des colonnes pr√©cises

In [85]:
dataframe.agg({
    "Age": ["mean"],
    "SexCode": ["min", "max"]
})

Unnamed: 0,Age,SexCode
mean,30.397989,
min,,0.0
max,,1.0


üßë‚Äçü§ù‚Äçüßë Statistiques d‚Äôagr√©gation sur des groupes (groupby + agg)

üî∏ Compter le nombre de survivants et de non-survivants selon la classe

In [86]:
dataframe.groupby(["PClass", "Survived"]).agg({
    "Survived": ["count"]
}).reset_index()

Unnamed: 0_level_0,PClass,Survived,Survived
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,count
0,*,0,1
1,1st,0,129
2,1st,1,193
3,2nd,0,160
4,2nd,1,119
5,3rd,0,573
6,3rd,1,138


üß†

Les fonctions d‚Äôagr√©gation sont extr√™mement utiles pour :
- R√©sumer les donn√©es rapidement
- Identifier des patrons par sous-groupes
- Faciliter la phase de feature engineering en machine learning

Elles permettent d‚Äôobtenir des statistiques riches et descriptives sans √©crire de boucles, et se combinent bien avec groupby ou pivot_table.

# üîÑ Boucler sur une colonne d‚Äôun DataFrame

On souhaite appliquer une action √† chaque √©l√©ment d‚Äôune colonne dans un DataFrame.

‚úÖ Solution simple avec une boucle for


In [87]:
# Importer pandas
import pandas as pd

# URL du dataset Titanic
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# Charger les donn√©es
dataframe = pd.read_csv(url)

# Afficher les deux premiers noms en majuscules
for name in dataframe['Name'][0:2]:
    print(name.upper())

ALLEN, MISS ELISABETH WALTON
ALLISON, MISS HELEN LORAINE


üîπ Alternative avec la compr√©hension de liste

In [88]:
[name.upper() for name in dataframe['Name'][0:2]]

['ALLEN, MISS ELISABETH WALTON', 'ALLISON, MISS HELEN LORAINE']

üß† Conseil Pythonique

‚û°Ô∏è Bien qu‚Äôune boucle for fonctionne parfaitement, une solution plus idiomatique avec pandas est d‚Äôutiliser ``.apply()`` :

In [91]:
# Appliquer une fonction √† tous les √©l√©ments de la colonne 'Name'
dataframe['Name'].apply(str.upper).head(2)

0    ALLEN, MISS ELISABETH WALTON
1     ALLISON, MISS HELEN LORAINE
Name: Name, dtype: object

üì¶ Cela fonctionne aussi avec n‚Äôimporte quelle fonction personnalis√©e ‚Äî id√©ale pour le nettoyage ou la transformation de donn√©es.

# üîß Appliquer une fonction √† tous les √©l√©ments d‚Äôune colonne

On souhaite appliquer une fonction personnalis√©e ou int√©gr√©e √† chaque valeur d'une colonne d‚Äôun DataFrame.

‚úÖ Solution avec apply

La m√©thode ``.apply()`` permet d‚Äôappliquer une fonction √† chaque √©l√©ment d‚Äôune colonne :


In [93]:
# Importer la biblioth√®que pandas
import pandas as pd

# D√©finir l'URL du dataset Titanic
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# Charger les donn√©es
dataframe = pd.read_csv(url)

# Cr√©er une fonction simple
def uppercase(x):
    return x.upper()

# Appliquer la fonction √† la colonne 'Name'
dataframe['Name'].apply(uppercase)[0:10]

0                     ALLEN, MISS ELISABETH WALTON
1                      ALLISON, MISS HELEN LORAINE
2              ALLISON, MR HUDSON JOSHUA CREIGHTON
3    ALLISON, MRS HUDSON JC (BESSIE WALDO DANIELS)
4                    ALLISON, MASTER HUDSON TREVOR
5                               ANDERSON, MR HARRY
6                 ANDREWS, MISS KORNELIA THEODOSIA
7                           ANDREWS, MR THOMAS, JR
8     APPLETON, MRS EDWARD DALE (CHARLOTTE LAMSON)
9                           ARTAGAVEYTIA, MR RAMON
Name: Name, dtype: object

üß† 

La m√©thode ``apply()`` est id√©ale pour le nettoyage des donn√©es et les transformations personnalis√©es.

üí° Exemples courants :
- s√©parer pr√©nom/nom
- nettoyer des dates
- convertir des cha√Ænes en formats num√©riques
- d√©tecter ou marquer certains motifs (ex : noms contenant "Mrs")

‚öôÔ∏è On pout appliquer :
- une fonction native Python (str.upper, float, etc.)
- une fonction d√©finie par vous
- une lambda (lambda x: ...)

# üß† Appliquer une fonction √† des groupes dans un DataFrame

On a regroup√© les lignes avec groupby et on souhaite appliquer une fonction √† chaque groupe.

‚úÖ Solution : ``groupby`` + ``apply``

In [95]:
# Importer la biblioth√®que
import pandas as pd

# URL du jeu de donn√©es Titanic
url = 'https://raw.githubusercontent.com/chrisalbon/sim_data/master/titanic.csv'

# Charger les donn√©es
dataframe = pd.read_csv(url)

# Grouper les lignes par 'Sex', puis appliquer une fonction (ici count par colonne)
dataframe.groupby('Sex').apply(lambda x: x.count(), include_groups=False)

Unnamed: 0_level_0,Name,PClass,Age,Survived,SexCode
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
female,462,462,288,462,462
male,851,851,468,851,851


üß† 

La m√©thode ``.apply()`` permet d‚Äôappliquer n‚Äôimporte quelle fonction personnalis√©e √† chaque groupe s√©par√©ment.

C‚Äôest extr√™mement utile pour :
- Calculer des statistiques sur mesure
- Extraire ou transformer des sous-ensembles
- Effectuer des op√©rations de nettoyage par cat√©gorie

üëÄ Par exemple, vous pouvez :
- Calculer des moyennes conditionnelles
- Appliquer des fonctions sur des lignes de chaque groupe
- Cr√©er des indicateurs ou des m√©triques par groupe

üîç Astuce bonus : combiner ``groupby`` + ``apply()`` +`` fonction personnalis√©e``


In [97]:
# Exemple : afficher la premi√®re ligne de chaque groupe
dataframe.groupby('Sex').apply(lambda x: x.head(1), include_groups=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,Name,PClass,Age,Survived,SexCode
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
female,0,"Allen, Miss Elisabeth Walton",1st,29.0,1,1
male,2,"Allison, Mr Hudson Joshua Creighton",1st,30.0,0,0


# üîó Concat√©ner deux DataFrames avec pandas

On souhaite fusionner ou empiler deux DataFrames l‚Äôun au-dessus de l‚Äôautre ou c√¥te √† c√¥te.

‚úÖ Solution avec ``pd.concat()``

üîπ 1. Concat√©nation par les lignes (axe 0)

In [98]:
import pandas as pd

# Cr√©er le premier DataFrame
data_a = {
    'id': ['1', '2', '3'],
    'first': ['Alex', 'Amy', 'Allen'],
    'last': ['Anderson', 'Ackerman', 'Ali']
}
dataframe_a = pd.DataFrame(data_a)

# Cr√©er le second DataFrame
data_b = {
    'id': ['4', '5', '6'],
    'first': ['Billy', 'Brian', 'Bran'],
    'last': ['Bonder', 'Black', 'Balwner']
}
dataframe_b = pd.DataFrame(data_b)

# Concat√©ner par les lignes (empiler verticalement)
pd.concat([dataframe_a, dataframe_b], axis=0)

Unnamed: 0,id,first,last
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
0,4,Billy,Bonder
1,5,Brian,Black
2,6,Bran,Balwner


üí° Les index ne sont pas r√©initialis√©s par d√©faut. Pour un nouvel index continu :

In [99]:
pd.concat([dataframe_a, dataframe_b], axis=0, ignore_index=True)

Unnamed: 0,id,first,last
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
3,4,Billy,Bonder
4,5,Brian,Black
5,6,Bran,Balwner


üîπ 2. Concat√©nation par les colonnes (axe 1)

In [100]:
pd.concat([dataframe_a, dataframe_b], axis=1)

Unnamed: 0,id,first,last,id.1,first.1,last.1
0,1,Alex,Anderson,4,Billy,Bonder
1,2,Amy,Ackerman,5,Brian,Black
2,3,Allen,Ali,6,Bran,Balwner


üß† 

üîß Le mot concat√©ner signifie simplement ‚Äúcoller‚Äù deux objets ensemble.
- Utilisez ``axis=0`` pour empiler verticalement (ligne apr√®s ligne)
- Utilisez ``axis=1`` pour ajouter des colonnes (c√¥te √† c√¥te)

üìå ``pd.concat()`` est particuli√®rement pratique pour :
- fusionner des donn√©es de m√™me structure
- r√©unir des r√©sultats partiels
- √©tendre dynamiquement un tableau

# üîó Fusionner deux DataFrames avec pandas (merge)

On souhaite combiner deux DataFrames selon une colonne commune.

‚úÖ Solution : utiliser ``merge()``

üîπ Jointure interne (inner join) : ne garder que les correspondances

In [101]:
import pandas as pd

# Cr√©er un DataFrame employ√©s
employee_data = {
    'employee_id': ['1', '2', '3', '4'],
    'name': ['Amy Jones', 'Allen Keys', 'Alice Bees', 'Tim Horton']
}
dataframe_employees = pd.DataFrame(employee_data)

# Cr√©er un DataFrame ventes
sales_data = {
    'employee_id': ['3', '4', '5', '6'],
    'total_sales': [23456, 2512, 2345, 1455]
}
dataframe_sales = pd.DataFrame(sales_data)

# Fusionner les DataFrames par cl√© commune
pd.merge(dataframe_employees, dataframe_sales, on='employee_id')

Unnamed: 0,employee_id,name,total_sales
0,3,Alice Bees,23456
1,4,Tim Horton,2512


üî∏ Jointure externe (outer join) : garder toutes les lignes

In [102]:
pd.merge(dataframe_employees, dataframe_sales, on='employee_id', how='outer')

Unnamed: 0,employee_id,name,total_sales
0,1,Amy Jones,
1,2,Allen Keys,
2,3,Alice Bees,23456.0
3,4,Tim Horton,2512.0
4,5,,2345.0
5,6,,1455.0


üî∏ Jointure √† gauche (left join) : prioriser les donn√©es du DataFrame de gauche

In [103]:
pd.merge(dataframe_employees, dataframe_sales, on='employee_id', how='left')

Unnamed: 0,employee_id,name,total_sales
0,1,Amy Jones,
1,2,Allen Keys,
2,3,Alice Bees,23456.0
3,4,Tim Horton,2512.0


üî∏ Jointure √† droite (right join) : prioriser les donn√©es du DataFrame de droite

In [104]:
pd.merge(dataframe_employees, dataframe_sales, on='employee_id', how='right')

Unnamed: 0,employee_id,name,total_sales
0,3,Alice Bees,23456
1,4,Tim Horton,2512
2,5,,2345
3,6,,1455


üîÅ Fusion avec colonnes diff√©rentes (mais correspondantes)

In [105]:
pd.merge(
    dataframe_employees,
    dataframe_sales,
    left_on='employee_id',
    right_on='employee_id'
)

Unnamed: 0,employee_id,name,total_sales
0,3,Alice Bees,23456
1,4,Tim Horton,2512


‚úîÔ∏è M√™me r√©sultat que on="employee_id" si les noms de colonnes sont identiques.

üß± Fusion sur les index plut√¥t que sur les colonnes

In [106]:
pd.merge(
    dataframe_employees.set_index('employee_id'),
    dataframe_sales.set_index('employee_id'),
    left_index=True,
    right_index=True
)

Unnamed: 0_level_0,name,total_sales
employee_id,Unnamed: 1_level_1,Unnamed: 2_level_1
3,Alice Bees,23456
4,Tim Horton,2512


üß† 

La fusion avec ``merge()`` est essentielle pour :
- Rassembler des donn√©es provenant de sources diff√©rentes
- Simuler des op√©rations de jointure SQL dans pandas
- G√©rer des cas de correspondances partielles ou compl√®tes

| Type de jointure | Ce que vous obtenez | 
|-----------------|----------------------|
| ``inner`` | Seulement les valeurs communes | 
|``outer`` | Toutes les lignes avec des NaN pour les absents | 
| ``left`` | Toutes les lignes du DataFrame gauche | 
| ``right`` | Toutes les lignes du DataFrame droit | 