Exercice 1 : Supprimer les doublons

In [1]:
import pandas as pd

# Charger les données
df = pd.read_csv('train.csv')

# Vérifier les doublons
print("Nombre de doublons avant :", df.duplicated().sum())

# Supprimer les doublons
df = df.drop_duplicates()

# Vérifier après suppression
print("Nombre de doublons après :", df.duplicated().sum())

Nombre de doublons avant : 0
Nombre de doublons après : 0


Exercice 2 : Gérer les valeurs manquantes

In [2]:
# Voir les valeurs manquantes
print("Valeurs manquantes par colonne :")
print(df.isnull().sum())

# Remplacer simplement :
df['Age'] = df['Age'].fillna(df['Age'].median())  # Âge médian
df['Embarked'] = df['Embarked'].fillna('S')       # 'S' est le plus fréquent
df['Cabin'] = df['Cabin'].fillna('Inconnu')      # Texte pour les cabines

# Vérifier après remplacement
print("\nAprès remplacement :")
print(df.isnull().sum())

Valeurs manquantes par colonne :
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

Après remplacement :
PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64


Exercice 3 : Créer de nouvelles colonnes

In [4]:


# Taille de la famille (parents + enfants + soi-même)
df['FamilySize'] = df['SibSp'] + df['Parch'] + 1

# Extraire le titre (Mr, Mrs, etc.) depuis le nom
df['Title'] = df['Name'].str.extract(' ([A-Za-z]+)\.', expand=False)

# Simplifier les titres
df['Title'] = df['Title'].replace(['Mlle', 'Ms'], 'Miss')
df['Title'] = df['Title'].replace('Mme', 'Mrs')

print("\nNouvelles colonnes :")
print(df[['FamilySize', 'Title']].head())


Nouvelles colonnes :
   FamilySize Title
0           2    Mr
1           2   Mrs
2           1  Miss
3           2   Mrs
4           1    Mr


Exercice 4 : Gérer les valeurs extrêmes

In [5]:
# Calculer les limites pour l'âge
Q1 = df['Age'].quantile(0.25)
Q3 = df['Age'].quantile(0.75)
IQR = Q3 - Q1
limite_basse = Q1 - 1.5 * IQR
limite_haute = Q3 + 1.5 * IQR

# Filtrer les âges extrêmes
df = df[(df['Age'] >= limite_basse) & (df['Age'] <= limite_haute)]

print("\nÂges après filtrage :")
print(df['Age'].describe())


Âges après filtrage :
count    825.000000
mean      28.515152
std       10.177256
min        3.000000
25%       22.000000
50%       28.000000
75%       34.000000
max       54.000000
Name: Age, dtype: float64


Exercice 5 : Normaliser les données

In [6]:

from sklearn.preprocessing import MinMaxScaler

# Normaliser l'âge entre 0 et 1
scaler = MinMaxScaler()
df['Age_normalized'] = scaler.fit_transform(df[['Age']])

print("\nÂge normalisé :")
print(df[['Age', 'Age_normalized']].head())


Âge normalisé :
    Age  Age_normalized
0  22.0        0.372549
1  38.0        0.686275
2  26.0        0.450980
3  35.0        0.627451
4  35.0        0.627451


Exercice 6 : Encoder les catégories

In [8]:
# Convertir le sexe en 0/1
df['Sex'] = df['Sex'].map({'female': 0, 'male': 1})

# Encoder les ports d'embarquement (S=0, C=1, Q=2)
df['Embarked'] = df['Embarked'].map({'S': 0, 'C': 1, 'Q': 2})

print("\nColonnes encodées :")
print(df[['Sex', 'Embarked']].head())


Colonnes encodées :
   Sex  Embarked
0  NaN       NaN
1  NaN       NaN
2  NaN       NaN
3  NaN       NaN
4  NaN       NaN


Exercice 7 : Grouper les âges

In [9]:
# Créer des groupes d'âge
bins = [0, 18, 30, 50, 100]
labels = ['Jeune', 'Jeune Adulte', 'Adulte', 'Senior']
df['AgeGroup'] = pd.cut(df['Age'], bins=bins, labels=labels)

# Afficher la répartition
print("\nRépartition par âge :")
print(df['AgeGroup'].value_counts())




Répartition par âge :
AgeGroup
Jeune Adulte    447
Adulte          241
Jeune           115
Senior           22
Name: count, dtype: int64


Résultat Final

In [10]:


print("\nDataFrame final :")
print(df.head())


DataFrame final :
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name  Sex   Age  SibSp  Parch  \
0                            Braund, Mr. Owen Harris  NaN  22.0      1      0   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  NaN  38.0      1      0   
2                             Heikkinen, Miss. Laina  NaN  26.0      0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  NaN  35.0      1      0   
4                           Allen, Mr. William Henry  NaN  35.0      0      0   

             Ticket     Fare    Cabin  Embarked  FamilySize Title  \
0         A/5 21171   7.2500  Inconnu       NaN           2    Mr   
1          PC 17599  71.2833      C85       NaN           2   Mrs   
2  STON/O2. 3101282   7.9250  Inconnu       NaN           1  Miss   
3