# Exercises XP
Last Updated: October 16th, 2024

## What you will learn
Identify and remove duplicate entries in the Titanic dataset.
Explore various techniques for handling missing values in the Titanic dataset.
Perform feature engineering on the Titanic dataset to create new meaningful attributes.
Standardize and normalize numerical columns in the Titanic dataset for consistent scale.
Transform the Age feature in the Titanic dataset for better representation and analysis.


## What you will create
A cleaned version of the Titanic dataset with duplicate rows removed.
A version of the Titanic dataset where missing values have been addressed using various strategies like removal, imputation, and constant value filling.
A Titanic dataset with standardized and normalized numerical columns.A Titanic dataset with passengers categorized into different age groups and these groups encoded into binary features.
A Titanic dataset with encoded categorical features using one-hot and label encoding techniques.


For all of the below exercises, you will use the Titanic dataset (train.csv), so load it beforehand on your notebook.
You will notice in the following exercises that the dataset is already pretty clean but try and understand all of the functions used for preprocessing the data.
Optionally, if you have time and willing to, you can redo the exercises with a less clean dataset : Weather Data Munich 1954-2022.

# 🌟 Exercice 1 : Détection et suppression des doublons
Instructions
Objectif : identifier et supprimer les entrées en double dans l’ensemble de données Titanic.

Charger l'ensemble de données Titanic.
Identifiez s’il existe des lignes en double en fonction de toutes les colonnes.
Supprimez toutes les lignes en double trouvées dans l’ensemble de données.
Vérifiez la suppression des doublons en vérifiant le nombre de lignes avant et après la suppression des doublons.
Astuce : utilisez les fonctions duplicated()et drop_duplicates()dans Pandas.

## 1️⃣ Charger l'ensemble de données Titanic

In [None]:
import pandas as pd

# Charger le fichier Titanic
url = "train.csv"
df = pd.read_csv(url)

# Afficher les 5 premières lignes pour voir à quoi ressemble le jeu de données
df.head()


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## 2️⃣ Identifier s’il existe des lignes en double (sur toutes les colonnes)


In [2]:
# .duplicated() renvoie True si une ligne est un doublon de la précédente (toutes colonnes confondues)
# On compte le nombre total de doublons
nb_doublons = df.duplicated().sum()

print(f"Nombre de doublons trouvés : {nb_doublons}")


Nombre de doublons trouvés : 0


## 3️⃣ Supprimer toutes les lignes en double

In [None]:
# Supprimer les doublons avec drop_duplicates(), inplace=True modifie directement df
df_sans_doublons = df.drop_duplicates()

# Afficher le nouveau DataFrame (5 premières lignes pour vérifier)
df_sans_doublons.head()


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## 4️⃣ Vérifier le nombre de lignes avant et après la suppression

In [4]:
# Nombre de lignes avant
nb_lignes_avant = df.shape[0]
# Nombre de lignes après
nb_lignes_apres = df_sans_doublons.shape[0]

print(f"Nombre de lignes avant suppression : {nb_lignes_avant}")
print(f"Nombre de lignes après suppression : {nb_lignes_apres}")
print(f"Nombre de lignes supprimées : {nb_lignes_avant - nb_lignes_apres}")


Nombre de lignes avant suppression : 891
Nombre de lignes après suppression : 891
Nombre de lignes supprimées : 0


# 🌟 Exercice 2 : Gestion des valeurs manquantes
Instructions
Identifiez les colonnes de l’ensemble de données Titanic avec des valeurs manquantes.
Explorez différentes stratégies de gestion des données manquantes, telles que la suppression, l’imputation et le remplissage avec une valeur constante.
Appliquez chaque stratégie à différentes colonnes en fonction de la nature des données.
Astuce : passez en revue les méthodes telles que dropna(), fillna(), et SimpleImputerde scikit-learn.

## 1️⃣ Identifier les colonnes avec des valeurs manquantes

In [None]:
# Afficher le nombre de valeurs manquantes par colonne
valeurs_manquantes = df.isnull().sum()

# Afficher uniquement les colonnes où il manque au moins une valeur
colonnes_manquantes = valeurs_manquantes[valeurs_manquantes > 0]
print("Colonnes avec des valeurs manquantes :")
print(colonnes_manquantes)


Colonnes avec des valeurs manquantes :
Age         177
Cabin       687
Embarked      2
dtype: int64


## 2️⃣ Stratégie 1 : Suppression des lignes avec valeurs manquantes (dropna())

In [None]:
# Créer une copie du DataFrame pour cette stratégie
df_dropna = df.dropna()

print(f"Nombre de lignes après suppression : {df_dropna.shape[0]}")


Nombre de lignes après suppression : 183


## 3️⃣ Stratégie 2 : Remplir avec une valeur constante (fillna())

In [None]:
# Remplir les valeurs manquantes de la colonne 'Embarked' avec 'U' (pour 'Unknown')
df_fillna = df.copy()
df_fillna['Embarked'] = df_fillna['Embarked'].fillna('U')

# Remplir les valeurs manquantes de la colonne 'Age' avec 0 (mauvaise pratique, mais démonstration)
df_fillna['Age'] = df_fillna['Age'].fillna(0)

# Vérification rapide
print("Valeurs manquantes après remplissage :")
print(df_fillna.isnull().sum())


Valeurs manquantes après remplissage :
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         0
dtype: int64


## 4️⃣ Stratégie 3 : Imputation avec la moyenne ou la médiane (SimpleImputer de scikit-learn)

In [None]:
from sklearn.impute import SimpleImputer

# Créer une copie pour cette stratégie
df_impute = df.copy()

# Imputater la colonne 'Age' avec la moyenne
imputer_age = SimpleImputer(strategy='mean')
df_impute['Age'] = imputer_age.fit_transform(df_impute[['Age']])

# Imputater la colonne 'Fare' avec la médiane
imputer_fare = SimpleImputer(strategy='median')
df_impute['Fare'] = imputer_fare.fit_transform(df_impute[['Fare']])

# Vérification rapide
print("Valeurs manquantes après imputation :")
print(df_impute.isnull().sum())


Valeurs manquantes après imputation :
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64


# 🌟 Exercice 3 : Ingénierie des fonctionnalités
Instructions
Créez de nouvelles fonctionnalités, telles que Family Sizefrom SibSpet Parch, et Titleextraites de la Namecolonne.
Convertissez les variables catégorielles en forme numérique à l'aide de techniques telles que l'encodage one-hot ou l'encodage d'étiquettes.
Normaliser ou standardiser les caractéristiques numériques si nécessaire.
Astuce : utilisez Pandas pour la manipulation des données et le module de prétraitement de scikit-learn pour l'encodage.

## 1️⃣ Créer une nouvelle colonne : FamilySize à partir de SibSp et Parch

In [9]:
# FamilySize = nombre de frères/soeurs/conjoints à bord + nombre de parents/enfants à bord + 1 (pour soi-même)
df['FamilySize'] = df['SibSp'] + df['Parch'] + 1

# Vérification
df[['SibSp', 'Parch', 'FamilySize']].head()


Unnamed: 0,SibSp,Parch,FamilySize
0,1,0,2
1,1,0,2
2,0,0,1
3,1,0,2
4,0,0,1


## 2️⃣ Extraire le Title (Monsieur, Miss, etc.) depuis la colonne Name

In [None]:
# Titre est entre la virgule et le point dans Name
df['Title'] = df['Name'].str.extract(', (\w+)\.')

# Vérification
df[['Name', 'Title']].head()


Unnamed: 0,Name,Title
0,"Braund, Mr. Owen Harris",Mr
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Mrs
2,"Heikkinen, Miss. Laina",Miss
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Mrs
4,"Allen, Mr. William Henry",Mr


## 3️⃣ Encodage des variables catégorielles (one-hot ou label encoding)

In [None]:
from sklearn.preprocessing import LabelEncoder

# Label Encoding sur 'Sex' (homme/femme)
le_sex = LabelEncoder()
df['Sex_encoded'] = le_sex.fit_transform(df['Sex'])

# One-Hot Encoding sur 'Embarked'
df_onehot = pd.get_dummies(df, columns=['Embarked'], prefix='Embarked')

# Vérification
print(df[['Sex', 'Sex_encoded']].head())
print(df_onehot.filter(like='Embarked_').head())


      Sex  Sex_encoded
0    male            1
1  female            0
2  female            0
3  female            0
4    male            1
   Embarked_C  Embarked_Q  Embarked_S
0       False       False        True
1        True       False       False
2       False       False        True
3       False       False        True
4       False       False        True


## 4️⃣ Normalisation/Standardisation des caractéristiques numériques

In [12]:
from sklearn.preprocessing import StandardScaler

# Exemple : Standardisation de 'Age' et 'Fare'
scaler = StandardScaler()
df[['Age_scaled', 'Fare_scaled']] = scaler.fit_transform(df[['Age', 'Fare']])

# Vérification
df[['Age', 'Age_scaled', 'Fare', 'Fare_scaled']].head()


Unnamed: 0,Age,Age_scaled,Fare,Fare_scaled
0,22.0,-0.530377,7.25,-0.502445
1,38.0,0.571831,71.2833,0.786845
2,26.0,-0.254825,7.925,-0.488854
3,35.0,0.365167,53.1,0.42073
4,35.0,0.365167,8.05,-0.486337


# 🌟 Exercice 4 : Détection et traitement des valeurs aberrantes
Instructions
Utilisez des méthodes statistiques pour détecter les valeurs aberrantes dans des colonnes telles que Fareet Age.
Décidez d’une stratégie pour gérer les valeurs aberrantes identifiées, telles que le plafonnement, la transformation ou la suppression.
Mettre en œuvre la stratégie choisie et évaluer son impact sur l’ensemble de données.
Astuce : explorez des méthodes telles que l’IQR (écart interquartile) et le score Z pour la détection des valeurs aberrantes.

## 1️⃣ Détection des valeurs aberrantes avec l'IQR (InterQuartile Range) pour les colonnes Age et Fare

In [13]:
# Calculer l'IQR pour Age
Q1_age = df['Age'].quantile(0.25)
Q3_age = df['Age'].quantile(0.75)
IQR_age = Q3_age - Q1_age

# Seuils pour détecter les valeurs aberrantes (outliers)
seuil_bas_age = Q1_age - 1.5 * IQR_age
seuil_haut_age = Q3_age + 1.5 * IQR_age

# Afficher le nombre d'outliers pour Age
outliers_age = df[(df['Age'] < seuil_bas_age) | (df['Age'] > seuil_haut_age)]
print(f"Valeurs aberrantes pour 'Age' : {outliers_age.shape[0]}")

# Idem pour Fare
Q1_fare = df['Fare'].quantile(0.25)
Q3_fare = df['Fare'].quantile(0.75)
IQR_fare = Q3_fare - Q1_fare
seuil_bas_fare = Q1_fare - 1.5 * IQR_fare
seuil_haut_fare = Q3_fare + 1.5 * IQR_fare
outliers_fare = df[(df['Fare'] < seuil_bas_fare) | (df['Fare'] > seuil_haut_fare)]
print(f"Valeurs aberrantes pour 'Fare' : {outliers_fare.shape[0]}")


Valeurs aberrantes pour 'Age' : 11
Valeurs aberrantes pour 'Fare' : 116


## 2️⃣ Traitement des outliers : plafonnement (capping)

In [None]:
# Plafonner les valeurs trop faibles/élevées au seuil IQR

df_capped = df.copy()
# Pour 'Age'
df_capped['Age'] = df_capped['Age'].clip(lower=seuil_bas_age, upper=seuil_haut_age)
# Pour 'Fare'
df_capped['Fare'] = df_capped['Fare'].clip(lower=seuil_bas_fare, upper=seuil_haut_fare)

# Vérification : plus de valeurs au-dessus/en-dessous des seuils
print(f"Valeurs 'Age' hors seuil après capping : {(df_capped['Age'] < seuil_bas_age).sum() + (df_capped['Age'] > seuil_haut_age).sum()}")
print(f"Valeurs 'Fare' hors seuil après capping : {(df_capped['Fare'] < seuil_bas_fare).sum() + (df_capped['Fare'] > seuil_haut_fare).sum()}")


Valeurs 'Age' hors seuil après capping : 0
Valeurs 'Fare' hors seuil après capping : 0


## 3️⃣ Évaluer l’impact du traitement sur les colonnes

In [None]:
# Comparer des statistiques avant/après traitement
print("Statistiques avant capping (Age et Fare) :")
print(df[['Age', 'Fare']].describe())

print("\nStatistiques après capping (Age et Fare) :")
print(df_capped[['Age', 'Fare']].describe())


Statistiques avant capping (Age et Fare) :
              Age        Fare
count  714.000000  891.000000
mean    29.699118   32.204208
std     14.526497   49.693429
min      0.420000    0.000000
25%     20.125000    7.910400
50%     28.000000   14.454200
75%     38.000000   31.000000
max     80.000000  512.329200

Statistiques après capping (Age et Fare) :
              Age        Fare
count  714.000000  891.000000
mean    29.622700   24.046813
std     14.316665   20.481625
min      0.420000    0.000000
25%     20.125000    7.910400
50%     28.000000   14.454200
75%     38.000000   31.000000
max     64.812500   65.634400


# 🌟 Exercice 5 : Standardisation et normalisation des données
Instructions
Évaluer l’échelle et la distribution des colonnes numériques dans l’ensemble de données.
Appliquer la normalisation aux fonctionnalités avec une large gamme de valeurs.
Normaliser les données qui nécessitent une plage délimitée, comme [0, 1].
Astuce : pensez à utiliser StandardScaler et MinMaxScaler du module de prétraitement de scikit-learn.

## 1️⃣ Évaluer l’échelle et la distribution des colonnes numériques

In [None]:
# Liste des colonnes numériques principales
colonnes_numeriques = ['Age', 'Fare', 'SibSp', 'Parch', 'FamilySize']

# Afficher les statistiques de base pour repérer les écarts d’échelle
print(df[colonnes_numeriques].describe())


              Age        Fare       SibSp       Parch  FamilySize
count  714.000000  891.000000  891.000000  891.000000  891.000000
mean    29.699118   32.204208    0.523008    0.381594    1.904602
std     14.526497   49.693429    1.102743    0.806057    1.613459
min      0.420000    0.000000    0.000000    0.000000    1.000000
25%     20.125000    7.910400    0.000000    0.000000    1.000000
50%     28.000000   14.454200    0.000000    0.000000    1.000000
75%     38.000000   31.000000    1.000000    0.000000    2.000000
max     80.000000  512.329200    8.000000    6.000000   11.000000


## 2️⃣ Standardisation avec StandardScaler (moyenne = 0, écart-type = 1)

In [17]:
from sklearn.preprocessing import StandardScaler

# Initialiser le scaler
scaler_standard = StandardScaler()

# Appliquer la transformation
df_standard = df.copy()
df_standard[[col + '_std' for col in colonnes_numeriques]] = scaler_standard.fit_transform(df[colonnes_numeriques])

# Afficher un extrait pour vérifier
print(df_standard[[col + '_std' for col in colonnes_numeriques]].head())


    Age_std  Fare_std  SibSp_std  Parch_std  FamilySize_std
0 -0.530377 -0.502445   0.432793  -0.473674        0.059160
1  0.571831  0.786845   0.432793  -0.473674        0.059160
2 -0.254825 -0.488854  -0.474545  -0.473674       -0.560975
3  0.365167  0.420730   0.432793  -0.473674        0.059160
4  0.365167 -0.486337  -0.474545  -0.473674       -0.560975


## 3️⃣ Normalisation avec MinMaxScaler (toutes les valeurs entre 0 et 1)

In [18]:
from sklearn.preprocessing import MinMaxScaler

# Initialiser le scaler
scaler_minmax = MinMaxScaler()

# Appliquer la transformation
df_minmax = df.copy()
df_minmax[[col + '_minmax' for col in colonnes_numeriques]] = scaler_minmax.fit_transform(df[colonnes_numeriques])

# Afficher un extrait pour vérifier
print(df_minmax[[col + '_minmax' for col in colonnes_numeriques]].head())


   Age_minmax  Fare_minmax  SibSp_minmax  Parch_minmax  FamilySize_minmax
0    0.271174     0.014151         0.125           0.0                0.1
1    0.472229     0.139136         0.125           0.0                0.1
2    0.321438     0.015469         0.000           0.0                0.0
3    0.434531     0.103644         0.125           0.0                0.1
4    0.434531     0.015713         0.000           0.0                0.0


# Exercice 6 : Encodage des fonctionnalités
Instructions
Identifiez les colonnes catégorielles dans l'ensemble de données Titanic, telles que Sexet Embarked.
Utilisez le codage one-hot pour les variables nominales et le codage d'étiquette pour les variables ordinales.
Réintégrez les fonctionnalités codées dans l’ensemble de données principal.
Astuce : utilisez pandas.get_dummies() pour l’encodage à chaud et LabelEncoder de scikit-learn pour l’encodage des étiquettes.

## 1️⃣ Identifier les colonnes catégorielles

In [None]:
# Regarder les colonnes non numériques principales
colonnes_categorielle = ['Sex', 'Embarked', 'Title']
print("Colonnes catégorielles :", colonnes_categorielle)


Colonnes catégorielles : ['Sex', 'Embarked', 'Title']


## 2️⃣ Encodage one-hot pour les variables nominales (Sex, Embarked)

In [None]:
# Utiliser pd.get_dummies pour créer des colonnes binaires (0/1)
df_onehot = pd.get_dummies(df, columns=['Sex', 'Embarked'], prefix=['Sex', 'Embarked'])

# Vérification
print(df_onehot.filter(like='Sex_').head())
print(df_onehot.filter(like='Embarked_').head())


   Sex_encoded  Sex_female  Sex_male
0            1       False      True
1            0        True     False
2            0        True     False
3            0        True     False
4            1       False      True
   Embarked_C  Embarked_Q  Embarked_S
0       False       False        True
1        True       False       False
2       False       False        True
3       False       False        True
4       False       False        True


## 3️⃣ Encodage d'étiquette (label encoding) pour variable ordinale (exemple : Title)

In [None]:
from sklearn.preprocessing import LabelEncoder

# Supposons qu'on utilise 'Title' comme variable ordinale
le_title = LabelEncoder()
df_onehot['Title_encoded'] = le_title.fit_transform(df['Title'])

# Vérification
print(df[['Title']].drop_duplicates().assign(Encoded=le_title.transform(df[['Title']].drop_duplicates())))


        Title  Encoded
0          Mr       11
1         Mrs       12
2        Miss        8
7      Master        7
30        Don        2
149       Rev       14
245        Dr        3
369       Mme       10
443        Ms       13
449     Major        6
556      Lady        5
599       Sir       15
641      Mlle        9
647       Col        1
745      Capt        0
759       NaN       16
822  Jonkheer        4


  y = column_or_1d(y, dtype=self.classes_.dtype, warn=True)


## 4️⃣ Réintégration des fonctionnalités codées dans le jeu de données principal

In [21]:
# Les colonnes sont déjà intégrées dans df_onehot à l’étape précédente.
# On peut afficher les 5 premières lignes pour visualiser le résultat
print(df_onehot.head())


   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name   Age  SibSp  Parch  \
0                            Braund, Mr. Owen Harris  22.0      1      0   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  38.0      1      0   
2                             Heikkinen, Miss. Laina  26.0      0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  35.0      1      0   
4                           Allen, Mr. William Henry  35.0      0      0   

             Ticket     Fare Cabin  FamilySize Title  Sex_encoded  Age_scaled  \
0         A/5 21171   7.2500   NaN           2    Mr            1   -0.530377   
1          PC 17599  71.2833   C85           2   Mrs            0    0.571831   
2  STON/O2. 3101282   7.9250   NaN           1  Miss            0   -0.254825   
3 

# Exercice 7 : Transformation des données pour la fonction Âge
Instructions
Créez des groupes d'âge (bacs) à partir de la Agecolonne pour classer les passagers dans différentes catégories d'âge.
Appliquez un codage one-hot aux groupes d’âge pour les convertir en caractéristiques binaires.
Astuce : utilisez -le pd.cut()pour regrouper la Agecolonne et pd.get_dummies()pour l'encodage à chaud.

## 1️⃣ Créer des groupes d'âge (Age) avec pd.cut()

In [None]:
# Définir les bornes pour les groupes d'âge (en années)
bornes = [0, 12, 18, 35, 60, 100]
noms_groupes = ['Enfant', 'Adolescent', 'Jeune_Adulte', 'Adulte', 'Senior']

# Créer la colonne 'AgeGroup'
df['AgeGroup'] = pd.cut(df['Age'], bins=bornes, labels=noms_groupes, right=False)

# Vérification
print(df[['Age', 'AgeGroup']].head(10))


    Age      AgeGroup
0  22.0  Jeune_Adulte
1  38.0        Adulte
2  26.0  Jeune_Adulte
3  35.0        Adulte
4  35.0        Adulte
5   NaN           NaN
6  54.0        Adulte
7   2.0        Enfant
8  27.0  Jeune_Adulte
9  14.0    Adolescent


## 2️⃣ Appliquer un codage one-hot aux groupes d’âge avec pd.get_dummies()

In [None]:
# Créer les colonnes binaires pour chaque groupe d'âge
df_age_onehot = pd.get_dummies(df, columns=['AgeGroup'])

# Vérification : affiche les nouvelles colonnes liées à AgeGroup
print(df_age_onehot.filter(like='AgeGroup_').head(10))


   AgeGroup_Enfant  AgeGroup_Adolescent  AgeGroup_Jeune_Adulte  \
0            False                False                   True   
1            False                False                  False   
2            False                False                   True   
3            False                False                  False   
4            False                False                  False   
5            False                False                  False   
6            False                False                  False   
7             True                False                  False   
8            False                False                   True   
9            False                 True                  False   

   AgeGroup_Adulte  AgeGroup_Senior  
0            False            False  
1             True            False  
2            False            False  
3             True            False  
4             True            False  
5            False            False  
6      