# üö¢ Titanic Data Analysis (Pandas 101)

Dans ce notebook, nous allons pratiquer **toutes les m√©thodes fondamentales de manipulation de donn√©es** avec **Pandas**, √©tape par √©tape, sur le dataset **Titanic**.



## üìå 1Ô∏è‚É£ Importer les librairies et le dataset

# üìë D√©finition des colonnes ‚Äî Titanic Dataset

| Colonne | Description |
|----------------|------------------------------------------------------------------|
| **PassengerId** | Identifiant unique du passager. |
| **Survived** | Statut de survie (0 = Non, 1 = Oui). |
| **Pclass** | Classe du billet (1 = 1√®re, 2 = 2√®me, 3 = 3√®me). |
| **Name** | Nom complet du passager. |
| **Sex** | Sexe du passager (male / female). |
| **Age** | √Çge du passager en ann√©es (peut contenir des valeurs manquantes). |
| **SibSp** | Nombre de fr√®res/s≈ìurs ou conjoints √† bord. |
| **Parch** | Nombre de parents/enfants √† bord. |
| **Ticket** | Num√©ro du billet. |
| **Fare** | Prix du billet pay√© (en livres sterling). |
| **Cabin** | Num√©ro de cabine (souvent manquant). |
| **Embarked** | Port d‚Äôembarquement (C = Cherbourg, Q = Queenstown, S = Southampton). |


## üóÇÔ∏è D√©tails

- **SibSp** : Fr√®res, s≈ìurs, conjoints.
- **Parch** : Parents, enfants.
- **Embarked** : Port o√π le passager est mont√© √† bord.
- **Cabin** : Souvent manquant ‚Äî certains passagers n‚Äôavaient pas de cabine attribu√©e ou enregistr√©e.
- **Fare** : Peut varier m√™me pour la m√™me classe en fonction de la cabine, du point d‚Äôembarquement et du statut de r√©servation.


üëâ **R√©f√©rence** : Ce dataset est tir√© des archives originales du Titanic, largement utilis√© pour apprendre la classification binaire et les m√©thodes d‚Äôexploration de donn√©es.



In [None]:
import pandas as pd

# Charger Titanic
df = pd.read_csv('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv')

# Afficher les 5 premi√®res lignes
df.head()

## üìå 2Ô∏è‚É£ Inspection de base

In [None]:
# Informations g√©n√©rales
df.info()

# Statistiques descriptives
df.describe()

# V√©rifier les valeurs manquantes
df.isnull().sum()


## üìå 3Ô∏è‚É£ S√©lections : loc & iloc


- **`loc`** : S√©lectionne des lignes et colonnes **par leurs √©tiquettes** (noms).
  - Ex. : `df.loc[2, 'Name']` ‚Üí valeur de la colonne *Name* pour l‚Äôindex 2.
- **`iloc`** : S√©lectionne des lignes et colonnes **par position num√©rique**.
  - Ex. : `df.iloc[2, 3]` ‚Üí m√™me chose si *Name* est la 4·µâ colonne.



In [None]:
# loc : par √©tiquette
df.loc[:4, ['Name', 'Age', 'Sex']]

# iloc : par position
df.iloc[:5, [3, 5, 4]]


## üìå 4Ô∏è‚É£ Filtrer : conditions et query


- **Filtrage** : Extraire un sous-ensemble selon une **condition logique**.
  - Ex. : `df[df['Age'] > 30]` ‚Üí lignes o√π l‚Äô√¢ge est > 30.
- **`query`** : √âquivalent SQL, plus lisible pour des conditions complexes.
  - Ex. : `df.query("Sex == 'female' & Age < 20")`.


In [6]:
# Filtrer les passagers adultes
adults = df[df['Age'] >= 18]

# M√™me filtrage avec query
adults_q = df.query("Age >= 18")


## üìå 5Ô∏è‚É£ Nettoyage : drop & drop_duplicates

- **`drop`** : Supprime des colonnes ou lignes.
  - Ex. : `df.drop(['Cabin'], axis=1)` ‚Üí supprime la colonne *Cabin*.
- **`drop_duplicates`** : Supprime les lignes en double pour √©viter les doublons.


In [7]:
# Supprimer une colonne inutile
df = df.drop(['Cabin'], axis=1)

# V√©rifier doublons
df.duplicated().sum()

# Supprimer doublons s'il y en a
df = df.drop_duplicates()


## üìå 6Ô∏è‚É£ Trier : sort_values

- Trie les donn√©es par une ou plusieurs colonnes.
  - Ex. : `df.sort_values(by='Age', ascending=False)` ‚Üí trie du plus vieux au plus jeune.


In [None]:
# Trier par Age d√©croissant
df_sorted = df.sort_values(by='Age', ascending=False)
df_sorted.head()


## üìå 7Ô∏è‚É£ Grouper : groupby

- Regroupe les donn√©es **par une ou plusieurs colonnes cl√©s** pour effectuer des op√©rations par groupe.
  - Ex. : `df.groupby(['Pclass', 'Sex'])` ‚Üí regroupe par *classe* et *sexe*.



In [None]:
# Grouper par classe et sexe
grouped = df.groupby(['Pclass', 'Sex'])
grouped.size()


## üìå 8Ô∏è‚É£ Agr√©gations : agg & aggregate

- Applique **une ou plusieurs fonctions d‚Äôagr√©gation** sur chaque groupe cr√©√© par `groupby`.
  - Ex. : `agg(['mean', 'median'])` ‚Üí calcule la moyenne et la m√©diane.
  - Ex. : `agg({'Age': 'mean', 'Fare': 'max'})` ‚Üí moyenne sur *Age*, max sur *Fare*.


In [None]:
# Moyenne et m√©diane de l'√¢ge
agg_age = grouped['Age'].agg(['mean', 'median'])
agg_age

# Agr√©gations multiples
agg_multi = grouped.agg({
    'Age': ['mean', 'std'],
    'Fare': ['mean', 'max']
})
agg_multi


## üìå 9Ô∏è‚É£ Table pivot : pivot_table

- **`pivot`** : Transforme les donn√©es en **tableau crois√©** (index, colonnes, valeurs).
  - Simple mais n√©cessite que l‚Äôindex/colonnes soient uniques.
- **`pivot_table`** : Plus flexible, permet de g√©rer plusieurs valeurs par groupe avec une fonction d‚Äôagr√©gation.
  - Ex. : `pivot_table(values='Fare', index='Pclass', columns='Sex', aggfunc='mean')`.


In [None]:
# Survie par classe et sexe
pivot = df.pivot_table(
    values='PassengerId',
    index='Pclass',
    columns='Sex',
    aggfunc='count'
)
pivot


## üìå üîÄ 1Ô∏è‚É£0Ô∏è‚É£ Format long : melt

- **Inverse de `pivot`** : Passe d‚Äôun format large √† un format **long**.
  - Ex. : Plusieurs colonnes ‚Üí une seule colonne *variable*, une *valeur*.


In [12]:
pivot_reset = pivot.reset_index()
melted = pivot_reset.melt(id_vars=['Pclass'], var_name='Sex', value_name='Count')
melted


Unnamed: 0,Pclass,Sex,Count
0,1,female,94
1,2,female,76
2,3,female,144
3,1,male,122
4,2,male,108
5,3,male,347


## üìå üîó 1Ô∏è‚É£1Ô∏è‚É£ Fusionner : merge
- Combine plusieurs DataFrames **sur une cl√© commune** (√©quivalent SQL `JOIN`).
  - Ex. : `df.merge(df2, on='Pclass')`.


In [13]:
# Exemple : DataFrame des classes
df_classes = pd.DataFrame({
    'Pclass': [1, 2, 3],
    'Description': ['Upper', 'Middle', 'Lower']
})
df = df.merge(df_classes, on='Pclass', how='left')
df[['Pclass', 'Description']].drop_duplicates()


Unnamed: 0,Pclass,Description
0,3,Lower
1,1,Upper
9,2,Middle


## üìå üßÆ 1Ô∏è‚É£2Ô∏è‚É£ Appliquer une fonction : apply et map
- **`apply`** : Applique une fonction sur chaque √©l√©ment ou ligne/colonne.
  - Ex. : `df['Age'].apply(lambda x: x*2)`.
- **`map`** : Remplace ou transforme **chaque valeur individuelle** d‚Äôune s√©rie.
  - Ex. : `df['Sex'].map({'male': 'M', 'female': 'F'})`.



In [None]:
# Exemple : cr√©er groupe d'√¢ge
df['AgeGroup'] = df['Age'].apply(lambda x: 'Child' if x < 18 else 'Adult')

# Remplacer Sexe par initiale (map)
df['SexInitial'] = df['Sex'].map({'male': 'M', 'female': 'F'})

df[['Name', 'Age', 'AgeGroup', 'Sex', 'SexInitial']].head()


## üìå üìä 1Ô∏è‚É£3Ô∏è‚É£ Compter valeurs : value_counts

In [None]:
df['Survived'].value_counts()


## ‚úÖ ‚úîÔ∏è Sauvegarde finale

In [16]:
df.to_csv('titanic_final.csv', index=False)
