# 🚢 Titanic Data Analysis (Pandas 101)

Dans ce notebook, nous allons pratiquer **toutes les méthodes fondamentales de manipulation de données** avec **Pandas**, étape par étape, sur le dataset **Titanic**.



## 📌 1️⃣ Importer les librairies et le dataset

# 📑 Définition des colonnes — Titanic Dataset

| Colonne | Description |
|----------------|------------------------------------------------------------------|
| **PassengerId** | Identifiant unique du passager. |
| **Survived** | Statut de survie (0 = Non, 1 = Oui). |
| **Pclass** | Classe du billet (1 = 1ère, 2 = 2ème, 3 = 3ème). |
| **Name** | Nom complet du passager. |
| **Sex** | Sexe du passager (male / female). |
| **Age** | Âge du passager en années (peut contenir des valeurs manquantes). |
| **SibSp** | Nombre de frères/sœurs ou conjoints à bord. |
| **Parch** | Nombre de parents/enfants à bord. |
| **Ticket** | Numéro du billet. |
| **Fare** | Prix du billet payé (en livres sterling). |
| **Cabin** | Numéro de cabine (souvent manquant). |
| **Embarked** | Port d’embarquement (C = Cherbourg, Q = Queenstown, S = Southampton). |


## 🗂️ Détails

- **SibSp** : Frères, sœurs, conjoints.
- **Parch** : Parents, enfants.
- **Embarked** : Port où le passager est monté à bord.
- **Cabin** : Souvent manquant — certains passagers n’avaient pas de cabine attribuée ou enregistrée.
- **Fare** : Peut varier même pour la même classe en fonction de la cabine, du point d’embarquement et du statut de réservation.


👉 **Référence** : Ce dataset est tiré des archives originales du Titanic, largement utilisé pour apprendre la classification binaire et les méthodes d’exploration de données.



In [2]:
import pandas as pd

# Charger Titanic
df = pd.read_csv('titanic_final.csv')

# Afficher les 5 premières lignes
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked,Description,AgeGroup,SexInitial
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,S,Lower,Adult,M
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C,Upper,Adult,F
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,S,Lower,Adult,F
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,S,Upper,Adult,F
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,S,Lower,Adult,M


## 📌 2️⃣ Inspection de base

In [4]:
# Informations générales
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 14 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Embarked     889 non-null    object 
 11  Description  891 non-null    object 
 12  AgeGroup     891 non-null    object 
 13  SexInitial   891 non-null    object 
dtypes: float64(2), int64(5), object(7)
memory usage: 97.6+ KB


In [5]:
# Statistiques descriptives
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [6]:
# Vérifier les valeurs manquantes
df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Embarked         2
Description      0
AgeGroup         0
SexInitial       0
dtype: int64

## 📌 3️⃣ Sélections : loc & iloc


- **`loc`** : Sélectionne des lignes et colonnes **par leurs étiquettes** (noms).
  - Ex. : `df.loc[2, 'Name']` → valeur de la colonne *Name* pour l’index 2.
- **`iloc`** : Sélectionne des lignes et colonnes **par position numérique**.
  - Ex. : `df.iloc[2, 3]` → même chose si *Name* est la 4ᵉ colonne.



In [8]:
# loc : par étiquette
df.loc[:4, ['Name', 'Age', 'Sex']]

Unnamed: 0,Name,Age,Sex
0,"Braund, Mr. Owen Harris",22.0,male
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0,female
2,"Heikkinen, Miss. Laina",26.0,female
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0,female
4,"Allen, Mr. William Henry",35.0,male


In [9]:
# iloc : par position
df.iloc[:5, [3, 5, 4]]

Unnamed: 0,Name,Age,Sex
0,"Braund, Mr. Owen Harris",22.0,male
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0,female
2,"Heikkinen, Miss. Laina",26.0,female
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0,female
4,"Allen, Mr. William Henry",35.0,male


## 📌 4️⃣ Filtrer : conditions et query


- **Filtrage** : Extraire un sous-ensemble selon une **condition logique**.
  - Ex. : `df[df['Age'] > 30]` → lignes où l’âge est > 30.
- **`query`** : Équivalent SQL, plus lisible pour des conditions complexes.
  - Ex. : `df.query("Sex == 'female' & Age < 20")`.


In [10]:
# Filtrer les passagers adultes
adults = df[df['Age'] >= 18]

# Même filtrage avec query
adults_q = df.query("Age >= 18")


## 📌 5️⃣ Nettoyage : drop & drop_duplicates

- **`drop`** : Supprime des colonnes ou lignes.
  - Ex. : `df.drop(['Cabin'], axis=1)` → supprime la colonne *Cabin*.
- **`drop_duplicates`** : Supprime les lignes en double pour éviter les doublons.


In [12]:
# Supprimer une colonne inutile
df = df.drop(['Cabin'], axis=1)


KeyError: "['Cabin'] not found in axis"

In [13]:
# Vérifier doublons
df.duplicated().sum()

np.int64(0)

In [14]:
# Supprimer doublons s'il y en a
df = df.drop_duplicates()

## 📌 6️⃣ Trier : sort_values

- Trie les données par une ou plusieurs colonnes.
  - Ex. : `df.sort_values(by='Age', ascending=False)` → trie du plus vieux au plus jeune.


In [15]:
# Trier par Age décroissant
df_sorted = df.sort_values(by='Age', ascending=False)
df_sorted.head()


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked,Description,AgeGroup,SexInitial
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0,S,Upper,Adult,M
851,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,347060,7.775,S,Lower,Adult,M
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,C,Upper,Adult,M
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,C,Upper,Adult,M
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,Q,Lower,Adult,M


## 📌 7️⃣ Grouper : groupby

- Regroupe les données **par une ou plusieurs colonnes clés** pour effectuer des opérations par groupe.
  - Ex. : `df.groupby(['Pclass', 'Sex'])` → regroupe par *classe* et *sexe*.



In [19]:
# Grouper par classe et sexe
grouped = df.groupby(['Pclass', 'Sex'])
grouped.size()


Pclass  Sex   
1       female     94
        male      122
2       female     76
        male      108
3       female    144
        male      347
dtype: int64

## 📌 8️⃣ Agrégations : agg & aggregate

- Applique **une ou plusieurs fonctions d’agrégation** sur chaque groupe créé par `groupby`.
  - Ex. : `agg(['mean', 'median'])` → calcule la moyenne et la médiane.
  - Ex. : `agg({'Age': 'mean', 'Fare': 'max'})` → moyenne sur *Age*, max sur *Fare*.


In [17]:
# Moyenne et médiane de l'âge
agg_age = grouped['Age'].agg(['mean', 'median'])
agg_age

# Agrégations multiples
agg_multi = grouped.agg({
    'Age': ['mean', 'std'],
    'Fare': ['mean', 'max']
})
agg_multi


Unnamed: 0_level_0,Unnamed: 1_level_0,Age,Age,Fare,Fare
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,std,mean,max
Pclass,Sex,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
1,female,34.611765,13.612052,106.125798,512.3292
1,male,41.281386,15.13957,67.226127,512.3292
2,female,28.722973,12.872702,21.970121,65.0
2,male,30.740707,14.793894,19.741782,73.5
3,female,21.75,12.729964,16.11881,69.55
3,male,26.507589,12.159514,12.661633,69.55


## 📌 9️⃣ Table pivot : pivot_table

- **`pivot`** : Transforme les données en **tableau croisé** (index, colonnes, valeurs).
  - Simple mais nécessite que l’index/colonnes soient uniques.
- **`pivot_table`** : Plus flexible, permet de gérer plusieurs valeurs par groupe avec une fonction d’agrégation.
  - Ex. : `pivot_table(values='Fare', index='Pclass', columns='Sex', aggfunc='mean')`.


In [None]:
# Survie par classe et sexe
pivot = df.pivot_table(
    values='PassengerId',
    index='Pclass',
    columns='Sex',
    aggfunc='count'
)
pivot


## 📌 🔀 1️⃣0️⃣ Format long : melt

- **Inverse de `pivot`** : Passe d’un format large à un format **long**.
  - Ex. : Plusieurs colonnes → une seule colonne *variable*, une *valeur*.


In [12]:
pivot_reset = pivot.reset_index()
melted = pivot_reset.melt(id_vars=['Pclass'], var_name='Sex', value_name='Count')
melted


Unnamed: 0,Pclass,Sex,Count
0,1,female,94
1,2,female,76
2,3,female,144
3,1,male,122
4,2,male,108
5,3,male,347


## 📌 🔗 1️⃣1️⃣ Fusionner : merge
- Combine plusieurs DataFrames **sur une clé commune** (équivalent SQL `JOIN`).
  - Ex. : `df.merge(df2, on='Pclass')`.


In [13]:
# Exemple : DataFrame des classes
df_classes = pd.DataFrame({
    'Pclass': [1, 2, 3],
    'Description': ['Upper', 'Middle', 'Lower']
})
df = df.merge(df_classes, on='Pclass', how='left')
df[['Pclass', 'Description']].drop_duplicates()


Unnamed: 0,Pclass,Description
0,3,Lower
1,1,Upper
9,2,Middle


## 📌 🧮 1️⃣2️⃣ Appliquer une fonction : apply et map
- **`apply`** : Applique une fonction sur chaque élément ou ligne/colonne.
  - Ex. : `df['Age'].apply(lambda x: x*2)`.
- **`map`** : Remplace ou transforme **chaque valeur individuelle** d’une série.
  - Ex. : `df['Sex'].map({'male': 'M', 'female': 'F'})`.



In [None]:
# Exemple : créer groupe d'âge
df['AgeGroup'] = df['Age'].apply(lambda x: 'Child' if x < 18 else 'Adult')

# Remplacer Sexe par initiale (map)
df['SexInitial'] = df['Sex'].map({'male': 'M', 'female': 'F'})

df[['Name', 'Age', 'AgeGroup', 'Sex', 'SexInitial']].head()


## 📌 📊 1️⃣3️⃣ Compter valeurs : value_counts

In [None]:
df['Survived'].value_counts()


## ✅ ✔️ Sauvegarde finale

In [16]:
df.to_csv('titanic_final.csv', index=False)
