# Exercice Pratique : Analyse Avancée du Dataset Titanic

## Objectifs
Dans cet exercice, vous allez :
1. **Explorer** le dataset Titanic en profondeur (EDA)
2. **Appliquer** une validation croisée pour évaluer les modèles
3. **Créer** de nouvelles features pour améliorer les performances

## Instructions
- Complétez les sections marquées `# TODO`
- Suivez les guides fournis
- Analysez vos résultats et tirez des conclusions

In [None]:
# Configuration de l'environnement
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, cross_val_score, StratifiedKFold
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.metrics import confusion_matrix, classification_report

# Les 4 algorithmes
from sklearn.naive_bayes import GaussianNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier

import warnings
warnings.filterwarnings('ignore')

# Configuration graphique
plt.style.use('default')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 6)

print("Environnement configuré")

## 1. Chargement et Premier Aperçu des Données

In [None]:
# Chargement du dataset
url = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
df = pd.read_csv(url)

print("Dataset chargé avec succès")
print(f"Dimensions: {df.shape}")

# Premier aperçu
print("\nPremier aperçu:")
print(df.head())

print("\nInformations générales:")
print(df.info())

## 2. Analyse Exploratoire des Données (EDA)

### Question 1: Analyse des valeurs manquantes
Analysez les valeurs manquantes dans le dataset. Quelles colonnes ont des valeurs manquantes et dans quelles proportions ?

In [None]:
# TODO: Analysez les valeurs manquantes
# Guide: Utilisez df.isnull().sum() et calculez les pourcentages
# Créez une visualisation si nécessaire

# Votre code ici:
missing_data = None  # Remplacez par votre analyse

# TODO: Affichez les résultats de manière claire
print("Analyse des valeurs manquantes:")
# Votre code d'affichage ici

### Question 2: Distribution de la variable cible
Analysez la distribution de la variable 'Survived'. Le dataset est-il équilibré ?

In [None]:
# TODO: Analysez la distribution de 'Survived'
# Guide: Utilisez value_counts() et créez un graphique

# Votre code ici:
survival_distribution = None  # Remplacez par votre analyse

# TODO: Créez une visualisation
# Guide: Utilisez plt.subplot() pour créer des graphiques côte à côte

# Votre code de visualisation ici

### Question 3: Analyse par caractéristiques
Analysez la relation entre la survie et les différentes caractéristiques (Sexe, Classe, Age, etc.)

In [None]:
# TODO: Analysez la survie par sexe
# Guide: Utilisez groupby() et créez un graphique en barres

print("Analyse de la survie par sexe:")
# Votre code ici

# TODO: Analysez la survie par classe
print("\nAnalyse de la survie par classe:")
# Votre code ici

# TODO: Analysez la distribution des âges par survie
print("\nAnalyse de la survie par âge:")
# Guide: Utilisez des histogrammes ou boxplots
# Votre code ici

### Question 4: Corrélations
Analysez les corrélations entre les variables numériques.

In [None]:
# TODO: Calculez et visualisez la matrice de corrélation
# Guide: Utilisez df.corr() et sns.heatmap()

# Sélectionnez d'abord les colonnes numériques
numeric_cols = None  # Identifiez les colonnes numériques

# Votre code de corrélation ici

### Question 5: Insights de l'EDA
Basé sur votre analyse, quels sont les facteurs les plus importants pour la survie ?
Rédigez vos observations ci-dessous.

**Vos observations:**
- 
- 
- 

## 3. Préparation des Données

In [None]:
# Nettoyage des données basé sur votre EDA
df_clean = df.copy()

# TODO: Gérez les valeurs manquantes basé sur votre analyse EDA
# Guide: Utilisez les insights de votre EDA pour décider comment traiter chaque variable

# Age
if 'Age' in df_clean.columns and df_clean['Age'].isnull().sum() > 0:
    # TODO: Choisissez une stratégie (médiane, moyenne, ou plus sophistiqué)
    # Votre code ici
    pass

# Embarked
if 'Embarked' in df_clean.columns and df_clean['Embarked'].isnull().sum() > 0:
    # TODO: Gérez les valeurs manquantes
    # Votre code ici
    pass

# Fare
if 'Fare' in df_clean.columns and df_clean['Fare'].isnull().sum() > 0:
    # TODO: Gérez les valeurs manquantes
    # Votre code ici
    pass

# Suppression des colonnes non nécessaires
columns_to_drop = ['PassengerId', 'Name', 'Ticket', 'Cabin']
df_clean = df_clean.drop(columns=[col for col in columns_to_drop if col in df_clean.columns])

print("Données nettoyées")
print(f"Nouvelles dimensions: {df_clean.shape}")

## 4. Feature Engineering

### Question 6: Création de nouvelles features
Créez de nouvelles variables qui pourraient améliorer les performances des modèles.

In [None]:
# TODO: Créez de nouvelles features basées sur votre EDA
# Voici quelques suggestions, implémentez celles qui vous semblent pertinentes:

# 1. Taille de la famille
# Guide: Combinez SibSp et Parch
# Votre code ici

# 2. Catégorie d'âge
# Guide: Créez des groupes d'âge (enfant, adulte, senior)
# Votre code ici

# 3. Titre extrait du nom (si vous voulez être créatif)
# Guide: Extrayez Mr., Mrs., Miss., etc. du nom original
# Votre code ici (optionnel)

# 4. Prix par personne (si voyage en groupe)
# Guide: Divisez Fare par la taille de la famille
# Votre code ici

# 5. Autres features créatives basées sur votre EDA
# Votre code ici

print("Features créées")
print(f"Nouvelles colonnes: {df_clean.columns.tolist()}")

## 5. Préparation pour la Modélisation

In [None]:
# Encodage des variables catégorielles
# TODO: Encodez les variables catégorielles
# Guide: Utilisez LabelEncoder ou get_dummies selon le cas

# Votre code d'encodage ici

# Sélection des features et de la cible
# TODO: Sélectionnez vos features finales
features = []  # Listez vos features ici
target = 'Survived'

X = df_clean[features]
y = df_clean[target]

print(f"Features sélectionnées: {features}")
print(f"Dimensions finales: X={X.shape}, y={y.shape}")

## 6. Validation Croisée

### Question 7: Implémentation de la validation croisée
Implémentez une validation croisée pour évaluer vos modèles de manière plus robuste.

In [None]:
# TODO: Configurez la validation croisée
# Guide: Utilisez StratifiedKFold avec 5 ou 10 folds

cv_strategy = None  # Configurez votre stratégie de CV ici

# Initialisation des modèles
models = {
    'Naive Bayes': GaussianNB(),
    'Decision Tree': DecisionTreeClassifier(random_state=42, max_depth=5),
    'Logistic Regression': LogisticRegression(random_state=42, max_iter=1000),
    'KNN': KNeighborsClassifier(n_neighbors=5)
}

# TODO: Appliquez la validation croisée à chaque modèle
# Guide: Utilisez cross_val_score avec différentes métriques

cv_results = {}

for name, model in models.items():
    print(f"\nÉvaluation de {name}:")
    
    # TODO: Calculez les scores de validation croisée
    # Utilisez différentes métriques: accuracy, precision, recall, f1
    
    # Accuracy
    accuracy_scores = None  # Votre code ici
    
    # Precision
    precision_scores = None  # Votre code ici
    
    # Recall
    recall_scores = None  # Votre code ici
    
    # F1-score
    f1_scores = None  # Votre code ici
    
    # TODO: Stockez et affichez les résultats
    cv_results[name] = {
        'accuracy': accuracy_scores,
        'precision': precision_scores,
        'recall': recall_scores,
        'f1': f1_scores
    }
    
    # Affichez les moyennes et écarts-types
    # Votre code d'affichage ici

### Question 8: Comparaison des résultats
Comparez les résultats de la validation croisée avec ceux du cours (simple train/test split).

In [None]:
# TODO: Créez une visualisation comparative des résultats CV
# Guide: Utilisez des boxplots ou des barres avec barres d'erreur

# Votre code de visualisation ici

# TODO: Calculez les moyennes pour comparaison
print("Résultats moyens de la validation croisée:")
# Votre code de calcul et affichage ici

## 7. Test Final avec Train/Test Split

### Question 9: Comparaison avec le cours
Entraînez vos modèles avec vos nouvelles features sur un simple train/test split et comparez avec les résultats du cours.

In [None]:
# TODO: Divisez les données en train/test
# Guide: Utilisez le même random_state que dans le cours pour la comparaison

X_train, X_test, y_train, y_test = None, None, None, None  # Votre code ici

# TODO: Standardisez les données si nécessaire
scaler = StandardScaler()
# Votre code de standardisation ici

# TODO: Entraînez et évaluez chaque modèle
final_results = {}

for name, model in models.items():
    print(f"\nÉvaluation finale de {name}:")
    
    # TODO: Entraînez le modèle
    # Votre code d'entraînement ici
    
    # TODO: Faites des prédictions
    # Votre code de prédiction ici
    
    # TODO: Calculez les métriques
    # Votre code de calcul des métriques ici
    
    # TODO: Stockez les résultats
    final_results[name] = {
        'accuracy': None,  # Vos résultats ici
        'precision': None,
        'recall': None,
        'f1': None
    }

### Question 10: Analyse des améliorations
Comparez vos résultats avec ceux du cours. Avez-vous réussi à améliorer les performances ?

In [None]:
# TODO: Créez un tableau comparatif
# Résultats du cours (à remplir après avoir exécuté le notebook principal)
course_results = {
    'Naive Bayes': {'accuracy': 0.0},  # À remplir
    'Decision Tree': {'accuracy': 0.0},  # À remplir
    'Logistic Regression': {'accuracy': 0.0},  # À remplir
    'KNN': {'accuracy': 0.0}  # À remplir
}

# TODO: Créez une visualisation comparative
# Votre code de comparaison ici

print("Comparaison avec les résultats du cours:")
# Votre code d'affichage ici

## 8. Conclusions et Apprentissages

### Question 11: Réflexion finale
Répondez aux questions suivantes basées sur votre travail :

1. **Quels insights avez-vous tirés de l'EDA ?**
2. **Quelles features créées ont été les plus utiles ?**
3. **La validation croisée a-t-elle donné des résultats différents du simple train/test split ?**
4. **Avez-vous réussi à améliorer les performances par rapport au cours ?**
5. **Quelles sont les prochaines étapes pour améliorer encore les modèles ?**

**Vos réponses:**

1. **Insights de l'EDA:**
   - 
   - 
   - 

2. **Features les plus utiles:**
   - 
   - 
   - 

3. **Validation croisée vs Train/Test:**
   - 
   - 

4. **Améliorations obtenues:**
   - 
   - 

5. **Prochaines étapes:**
   - 
   - 
   - 

## Félicitations !
Vous avez terminé l'exercice d'analyse avancée du dataset Titanic. Vous avez maintenant une expérience pratique de l'EDA, de la validation croisée, et du feature engineering.