# Analyse Pratique du Dataset Titanic

Dans ce notebook, nous allons explorer le célèbre dataset Titanic. Vous réaliserez les étapes suivantes :
- Importation et affichage du dataset
- Nettoyage des données (traitement des valeurs manquantes)
- Analyse exploratoire univariée et bivariée
- Visualisations (histogrammes, boxplots, countplots, scatter plots)
- Réponses à quelques questions de validation

Ce notebook vous permettra de mettre en œuvre vos compétences en Data Science sur un jeu de données célèbre.

In [None]:
# Importation des bibliothèques nécessaires
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

sns.set(style="whitegrid")

## 1. Importation du Dataset Titanic

Nous allons charger le dataset Titanic (présumé être dans le dossier `data/` sous le nom `titanic.csv`).

In [None]:
# Chargement du dataset
titanic = pd.read_csv('data/titanic.csv')
print("Aperçu du dataset Titanic:")
print(titanic.head())

## 2. Nettoyage des Données

Vérifions les valeurs manquantes et effectuons un nettoyage simple.

Nous allons :
- Afficher les informations générales du DataFrame
- Remplacer les valeurs manquantes de la colonne 'Age' par la médiane
- Supprimer les lignes manquantes pour la colonne 'Embarked' (si nécessaire)

In [None]:
# Informations générales
titanic.info()

# Valeurs manquantes par colonne
print("\nValeurs manquantes par colonne:")
print(titanic.isnull().sum())

# Remplissage des valeurs manquantes pour 'Age'
titanic['Age'] = titanic['Age'].fillna(titanic['Age'].median())

# Suppression des lignes avec valeurs manquantes dans 'Embarked'
titanic = titanic.dropna(subset=['Embarked'])

print("\nAprès nettoyage:")
print(titanic.isnull().sum())

## 3. Analyse Exploratoire Univariée

### Variables Quantitatives

Obtenez les statistiques descriptives et visualisez la distribution de 'Age' et 'Fare'.

In [None]:
# Statistiques descriptives
print("Statistiques pour 'Age':")
print(titanic['Age'].describe())

print("\nStatistiques pour 'Fare':")
print(titanic['Fare'].describe())

In [None]:
# Histogramme pour 'Age'
plt.figure(figsize=(6,4))
plt.hist(titanic['Age'], bins=20, edgecolor='black', color='skyblue')
plt.xlabel('Age')
plt.ylabel('Fréquence')
plt.title('Distribution de l\'Age')
plt.show()

# Boxplot pour 'Fare'
plt.figure(figsize=(6,4))
sns.boxplot(y=titanic['Fare'], color='lightgreen')
plt.ylabel('Fare')
plt.title('Boxplot du Fare')
plt.show()

### Variables Qualitatives

Visualisez la répartition des variables 'Sex' et 'Embarked'.

In [None]:
print("Répartition des sexes:")
print(titanic['Sex'].value_counts())

plt.figure(figsize=(5,4))
sns.countplot(x='Sex', data=titanic, palette='pastel')
plt.title('Répartition par Sex')
plt.xlabel('Sex')
plt.ylabel('Nombre')
plt.show()

print("Répartition des embarquements:")
print(titanic['Embarked'].value_counts())

plt.figure(figsize=(5,4))
sns.countplot(x='Embarked', data=titanic, palette='pastel')
plt.title('Répartition par Embarked')
plt.xlabel('Embarked')
plt.ylabel('Nombre')
plt.show()

## 4. Analyse Bivariée

Examinez les relations entre deux variables :
- **Quantitative vs Quantitative :** Relation entre 'Age' et 'Fare' (scatter plot)
- **Quantitative vs Qualitative :** Distribution de 'Fare' selon 'Sex' (boxplot)
- **Qualitative vs Qualitative :** Répartition des survivants par classe ('Pclass') si disponible

In [None]:
# Scatter plot : Age vs Fare, coloré par Sex
plt.figure(figsize=(6,4))
sns.scatterplot(x='Age', y='Fare', hue='Sex', data=titanic, s=80)
plt.xlabel('Age')
plt.ylabel('Fare')
plt.title('Relation entre Age et Fare par Sex')
plt.show()

# Boxplot : Fare par Sex
plt.figure(figsize=(6,4))
sns.boxplot(x='Sex', y='Fare', data=titanic, palette='Set2')
plt.title('Distribution de Fare par Sex')
plt.xlabel('Sex')
plt.ylabel('Fare')
plt.show()

# (Optionnel) Count plot : Nombre de survivants par Pclass
# if 'Pclass' in titanic.columns and 'Survived' in titanic.columns:
#     plt.figure(figsize=(6,4))
#     sns.countplot(x='Pclass', hue='Survived', data=titanic, palette='viridis')
#     plt.title('Survie selon la Classe')
#     plt.xlabel('Pclass')
#     plt.ylabel('Nombre d\'Observations')
#     plt.show()

## 5. QCM

1. Quel est l'avantage principal du nettoyage des données avant l'analyse ?
   - A. Augmenter la taille du dataset
   - B. Améliorer la qualité des modèles et des insights
   - C. Créer plus de graphiques
   - D. Aucun

2. Quel graphique est idéal pour visualiser la distribution d'une variable quantitative ?
   - A. Histogramme
   - B. Boxplot
   - C. Scatter plot
   - D. Barplot

*Réponses attendues : 1 → B, 2 → A (ou B selon le contexte)*