# Analyse Exploratoire des Données (EDA) - Challenge Titanic

Ce notebook vous guide à travers une analyse exploratoire complète des données du Titanic. L'objectif est de comprendre les relations entre les variables et d'identifier les facteurs qui ont influencé la survie des passagers.

## Objectifs de cette analyse exploratoire:
- Comprendre la structure et les caractéristiques des données
- Identifier les valeurs manquantes et comprendre leur distribution
- Explorer la relation entre chaque variable et la survie
- Visualiser les distributions et corrélations entre variables
- Détecter des patterns qui pourraient être utiles pour la modélisation

In [1]:
# Importation des bibliothèques nécessaires
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuration de l'affichage
plt.style.use('seaborn-v0_8-whitegrid')
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12
sns.set(font_scale=1.2)

# Pour afficher les graphiques dans le notebook
%matplotlib inline

# Pour afficher toutes les colonnes
pd.set_option('display.max_columns', None)

## 1. Chargement des données

Commençons par charger les données d'entraînement et de test.

In [2]:
# Charger les données
train_data = pd.read_csv('/workspaces/titanicML/Data/train.csv')
test_data = pd.read_csv('/workspaces/titanicML/Data/test.csv')

# Afficher les dimensions des ensembles de données
print(f"Données d'entraînement: {train_data.shape[0]} lignes et {train_data.shape[1]} colonnes")
print(f"Données de test: {test_data.shape[0]} lignes et {test_data.shape[1]} colonnes")

# Aperçu des données d'entraînement
print("\nAperçu des premières lignes des données d'entraînement:")
display(train_data.head())

Données d'entraînement: 891 lignes et 12 colonnes
Données de test: 418 lignes et 11 colonnes

Aperçu des premières lignes des données d'entraînement:


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


## 2. Comprendre la structure des données

Analysons les informations sur les colonnes et les types de données.

In [3]:
# Informations sur les types de données
print("Informations sur les types de données (ensemble d'entraînement):")
train_data.info()

# Statistiques descriptives
print("\nStatistiques descriptives pour les variables numériques:")
display(train_data.describe())

# Statistiques pour les variables catégorielles
print("\nStatistiques pour les variables catégorielles:")
display(train_data.describe(include=['O']))

Informations sur les types de données (ensemble d'entraînement):
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB

Statistiques descriptives pour les variables numériques:


Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292



Statistiques pour les variables catégorielles:


Unnamed: 0,Name,Sex,Ticket,Cabin,Embarked
count,891,891,891,204,889
unique,891,2,681,147,3
top,"Braund, Mr. Owen Harris",male,347082,G6,S
freq,1,577,7,4,644


### Explication des variables:

- **PassengerId**: Identifiant unique pour chaque passager
- **Survived**: Variable cible (0 = Non survécu, 1 = Survécu)
- **Pclass**: Classe du billet (1 = 1ère classe, 2 = 2ème classe, 3 = 3ème classe)
- **Name**: Nom du passager
- **Sex**: Sexe (male/female)
- **Age**: Âge en années
- **SibSp**: Nombre de frères/sœurs/conjoints à bord
- **Parch**: Nombre de parents/enfants à bord
- **Ticket**: Numéro de billet
- **Fare**: Prix du billet
- **Cabin**: Numéro de cabine
- **Embarked**: Port d'embarquement (C = Cherbourg, Q = Queenstown, S = Southampton)

Vérifions maintenant les valeurs manquantes dans les données.

In [None]:
# Analyse des valeurs manquantes
missing_train = train_data.isnull().sum()
missing_test = test_data.isnull().sum()

# Calculer le pourcentage de valeurs manquantes
missing_train_percent = (missing_train / len(train_data)) * 100
missing_test_percent = (missing_test / len(test_data)) * 100

# Créer un DataFrame pour afficher les informations sur les valeurs manquantes
missing_df = pd.DataFrame({
    'Train - Valeurs manquantes': missing_train,
    'Train - Pourcentage (%)': missing_train_percent,
    'Test - Valeurs manquantes': missing_test,
    'Test - Pourcentage (%)': missing_test_percent
})

# Afficher uniquement les colonnes avec des valeurs manquantes
display(missing_df[(missing_df['Train - Valeurs manquantes'] > 0) | 
                 (missing_df['Test - Valeurs manquantes'] > 0)].sort_values('Train - Pourcentage (%)', ascending=False))

# Visualisation des valeurs manquantes
plt.figure(figsize=(12, 6))

plt.subplot(1, 2, 1)
plt.title('Valeurs manquantes - Données d\'entraînement')
sns.heatmap(train_data.isnull(), cbar=False, cmap='viridis', yticklabels=False)

plt.subplot(1, 2, 2)
plt.title('Valeurs manquantes - Données de test')
sns.heatmap(test_data.isnull(), cbar=False, cmap='viridis', yticklabels=False)

plt.tight_layout()
plt.show()

## 3. Distribution de la variable cible (Survived)

Analysons la distribution de la variable cible "Survived" dans notre ensemble d'entraînement.

In [None]:
# Distribution de la variable cible
survived_counts = train_data['Survived'].value_counts()
survival_rate = survived_counts[1] / len(train_data) * 100

plt.figure(figsize=(10, 6))
ax = sns.countplot(x='Survived', data=train_data, palette=['#FF5252', '#4CAF50'])
plt.title('Distribution des passagers par statut de survie', fontsize=16)
plt.xlabel('Survécu (0 = Non, 1 = Oui)')
plt.ylabel('Nombre de passagers')

# Ajouter les pourcentages sur les barres
for i, count in enumerate(survived_counts):
    percentage = count / len(train_data) * 100
    ax.text(i, count + 5, f'{count} ({percentage:.1f}%)', ha='center')

plt.annotate(f'Taux de survie global: {survival_rate:.1f}%', 
             xy=(0.5, 0.9), xycoords='axes fraction', 
             fontsize=14, ha='center',
             bbox=dict(boxstyle="round,pad=0.3", fc='#EFEFEF', ec="black", alpha=0.8))

plt.show()

print(f"Taux de survie: {survival_rate:.2f}%")
print(f"Nombre de survivants: {survived_counts[1]} sur {len(train_data)} passagers")

## 4. Analyse univariée: Explorer chaque variable individuellement

Analysons la distribution de chaque variable et sa relation avec le taux de survie.

### 4.1 Classe (Pclass)

La classe du passager était-elle un facteur déterminant pour la survie?

In [None]:
# Distribution des passagers par classe
plt.figure(figsize=(14, 6))

# Distribution des classes
plt.subplot(1, 2, 1)
sns.countplot(x='Pclass', data=train_data, palette='Blues_r')
plt.title('Distribution des passagers par classe')
plt.xlabel('Classe')
plt.ylabel('Nombre de passagers')

# Taux de survie par classe
plt.subplot(1, 2, 2)
sns.barplot(x='Pclass', y='Survived', data=train_data, palette='Blues_r')
plt.title('Taux de survie par classe')
plt.xlabel('Classe')
plt.ylabel('Taux de survie')

plt.tight_layout()
plt.show()

# Afficher les statistiques par classe
class_stats = train_data.groupby('Pclass')['Survived'].agg(['count', 'sum', 'mean'])
class_stats.columns = ['Nombre de passagers', 'Nombre de survivants', 'Taux de survie']
class_stats['Taux de survie'] = class_stats['Taux de survie'] * 100

display(class_stats)

### 4.2 Sexe (Sex)

Le sexe était-il un facteur déterminant pour la survie?

In [None]:
# Distribution des passagers par sexe et taux de survie
plt.figure(figsize=(14, 6))

# Distribution par sexe
plt.subplot(1, 2, 1)
sns.countplot(x='Sex', data=train_data, palette=['#FF69B4', '#4682B4'])
plt.title('Distribution des passagers par sexe')
plt.xlabel('Sexe')
plt.ylabel('Nombre de passagers')

# Taux de survie par sexe
plt.subplot(1, 2, 2)
sns.barplot(x='Sex', y='Survived', data=train_data, palette=['#FF69B4', '#4682B4'])
plt.title('Taux de survie par sexe')
plt.xlabel('Sexe')
plt.ylabel('Taux de survie')

plt.tight_layout()
plt.show()

# Afficher les statistiques par sexe
sex_stats = train_data.groupby('Sex')['Survived'].agg(['count', 'sum', 'mean'])
sex_stats.columns = ['Nombre de passagers', 'Nombre de survivants', 'Taux de survie']
sex_stats['Taux de survie'] = sex_stats['Taux de survie'] * 100

display(sex_stats)

### 4.3 Âge (Age)

Comment l'âge a-t-il influencé les chances de survie?

In [None]:
# Distribution de l'âge et relation avec la survie
plt.figure(figsize=(16, 12))

# Distribution de l'âge
plt.subplot(2, 2, 1)
sns.histplot(data=train_data, x='Age', kde=True, bins=30)
plt.title('Distribution des âges')
plt.xlabel('Âge')
plt.ylabel('Nombre de passagers')

# Distribution de l'âge par statut de survie
plt.subplot(2, 2, 2)
sns.histplot(data=train_data, x='Age', hue='Survived', multiple='stack', palette=['#FF5252', '#4CAF50'], bins=30)
plt.title('Distribution des âges par statut de survie')
plt.xlabel('Âge')
plt.ylabel('Nombre de passagers')

# Taux de survie par groupe d'âge
plt.subplot(2, 2, 3)
# Créer des groupes d'âge
train_data['AgeGroup'] = pd.cut(train_data['Age'], bins=[0, 5, 12, 18, 35, 60, 100], 
                               labels=['0-5', '6-12', '13-18', '19-35', '36-60', '60+'])
sns.barplot(x='AgeGroup', y='Survived', data=train_data, palette='viridis')
plt.title('Taux de survie par groupe d\'âge')
plt.xlabel('Groupe d\'âge')
plt.ylabel('Taux de survie')

# Violin plot de l'âge par statut de survie
plt.subplot(2, 2, 4)
sns.violinplot(x='Survived', y='Age', data=train_data, palette=['#FF5252', '#4CAF50'], split=True)
plt.title('Distribution de l\'âge par statut de survie')
plt.xlabel('Survécu (0 = Non, 1 = Oui)')
plt.ylabel('Âge')

plt.tight_layout()
plt.show()

# Afficher les statistiques par groupe d'âge
age_stats = train_data.groupby('AgeGroup')['Survived'].agg(['count', 'sum', 'mean'])
age_stats.columns = ['Nombre de passagers', 'Nombre de survivants', 'Taux de survie']
age_stats['Taux de survie'] = age_stats['Taux de survie'] * 100
age_stats['Pourcentage des passagers'] = age_stats['Nombre de passagers'] / age_stats['Nombre de passagers'].sum() * 100

display(age_stats)

### 4.4 Membres de la famille à bord (SibSp et Parch)

Analysons l'impact du nombre de membres de la famille à bord sur la survie.

In [None]:
# Créer une nouvelle variable pour représenter la taille de la famille
train_data['FamilySize'] = train_data['SibSp'] + train_data['Parch'] + 1  # +1 pour inclure le passager
test_data['FamilySize'] = test_data['SibSp'] + test_data['Parch'] + 1

# Visualiser la relation entre la taille de la famille et la survie
plt.figure(figsize=(16, 6))

# Distribution de la taille de la famille
plt.subplot(1, 2, 1)
sns.countplot(x='FamilySize', data=train_data, palette='viridis')
plt.title('Distribution de la taille de la famille')
plt.xlabel('Nombre de membres de la famille (incluant le passager)')
plt.ylabel('Nombre de passagers')

# Taux de survie par taille de famille
plt.subplot(1, 2, 2)
sns.barplot(x='FamilySize', y='Survived', data=train_data, palette='viridis')
plt.title('Taux de survie par taille de famille')
plt.xlabel('Nombre de membres de la famille (incluant le passager)')
plt.ylabel('Taux de survie')

plt.tight_layout()
plt.show()

# Afficher les statistiques par taille de famille
family_stats = train_data.groupby('FamilySize')['Survived'].agg(['count', 'sum', 'mean'])
family_stats.columns = ['Nombre de passagers', 'Nombre de survivants', 'Taux de survie']
family_stats['Taux de survie'] = family_stats['Taux de survie'] * 100
family_stats['Pourcentage des passagers'] = family_stats['Nombre de passagers'] / family_stats['Nombre de passagers'].sum() * 100

display(family_stats)

### 4.5 Tarif (Fare)

Existe-t-il une relation entre le prix payé pour le billet et le taux de survie?

In [None]:
# Analyse du tarif du billet
plt.figure(figsize=(16, 8))

# Distribution du tarif
plt.subplot(1, 2, 1)
sns.histplot(data=train_data, x='Fare', kde=True, bins=30)
plt.title('Distribution des tarifs')
plt.xlabel('Tarif (£)')
plt.ylabel('Nombre de passagers')

# Utiliser une échelle logarithmique pour mieux visualiser
plt.subplot(1, 2, 2)
sns.histplot(data=train_data, x='Fare', kde=True, bins=30, log_scale=True)
plt.title('Distribution des tarifs (échelle logarithmique)')
plt.xlabel('Tarif (£) - échelle logarithmique')
plt.ylabel('Nombre de passagers')

plt.tight_layout()
plt.show()

# Créer des groupes de tarifs
train_data['FareGroup'] = pd.qcut(train_data['Fare'], q=5, labels=['Très bas', 'Bas', 'Moyen', 'Élevé', 'Très élevé'])

# Visualiser le taux de survie par groupe de tarif
plt.figure(figsize=(12, 6))
sns.barplot(x='FareGroup', y='Survived', data=train_data, palette='viridis')
plt.title('Taux de survie par groupe de tarif')
plt.xlabel('Groupe de tarif')
plt.ylabel('Taux de survie')
plt.show()

# Afficher les statistiques par groupe de tarif
fare_stats = train_data.groupby('FareGroup')['Survived'].agg(['count', 'sum', 'mean'])
fare_stats.columns = ['Nombre de passagers', 'Nombre de survivants', 'Taux de survie']
fare_stats['Taux de survie'] = fare_stats['Taux de survie'] * 100

display(fare_stats)

### 4.6 Port d'embarquement (Embarked)

Le port d'embarquement a-t-il eu un impact sur la survie?

In [None]:
# Analyse du port d'embarquement
plt.figure(figsize=(14, 6))

# Distribution des passagers par port d'embarquement
plt.subplot(1, 2, 1)
sns.countplot(x='Embarked', data=train_data, palette='Set2')
plt.title('Distribution des passagers par port d\'embarquement')
plt.xlabel('Port d\'embarquement')
plt.ylabel('Nombre de passagers')

# Taux de survie par port d'embarquement
plt.subplot(1, 2, 2)
sns.barplot(x='Embarked', y='Survived', data=train_data, palette='Set2')
plt.title('Taux de survie par port d\'embarquement')
plt.xlabel('Port d\'embarquement')
plt.ylabel('Taux de survie')

plt.tight_layout()
plt.show()

# Afficher les statistiques par port d'embarquement
embarked_stats = train_data.groupby('Embarked')['Survived'].agg(['count', 'sum', 'mean'])
embarked_stats.columns = ['Nombre de passagers', 'Nombre de survivants', 'Taux de survie']
embarked_stats['Taux de survie'] = embarked_stats['Taux de survie'] * 100

# Ajouter le tarif moyen par port d'embarquement
embarked_fare = train_data.groupby('Embarked')['Fare'].mean().round(2)
embarked_stats['Tarif moyen'] = embarked_fare

display(embarked_stats)

## 5. Analyse multivariée: Explorer les relations entre variables

Analysons maintenant les relations entre plusieurs variables.

### 5.1 Sexe et Classe

Comment le sexe et la classe interagissent-ils pour influencer la survie?

In [None]:
# Analyse combinée de la classe et du sexe
plt.figure(figsize=(12, 8))

# Créer un tableau croisé pour la visualisation
crosstab = pd.crosstab(
    train_data['Sex'], 
    train_data['Pclass'],
    values=train_data['Survived'],
    aggfunc='mean'
).round(3) * 100

# Heatmap des taux de survie par sexe et classe
sns.heatmap(crosstab, annot=True, cmap='YlGnBu', fmt='.1f', cbar_kws={'label': 'Taux de survie (%)'})
plt.title('Taux de survie (%) par sexe et classe', fontsize=16)
plt.xlabel('Classe', fontsize=14)
plt.ylabel('Sexe', fontsize=14)
plt.show()

# Affichage du tableau croisé
display(crosstab)

# Visualisation par barres groupées
plt.figure(figsize=(14, 8))
sns.barplot(x='Pclass', y='Survived', hue='Sex', data=train_data, palette=['#FF69B4', '#4682B4'])
plt.title('Taux de survie par classe et sexe', fontsize=16)
plt.xlabel('Classe', fontsize=14)
plt.ylabel('Taux de survie', fontsize=14)
plt.legend(title='Sexe')
plt.show()

# Afficher les statistiques détaillées
class_sex_stats = train_data.groupby(['Pclass', 'Sex'])['Survived'].agg(['count', 'sum', 'mean'])
class_sex_stats.columns = ['Nombre de passagers', 'Nombre de survivants', 'Taux de survie']
class_sex_stats['Taux de survie'] = class_sex_stats['Taux de survie'] * 100

display(class_sex_stats)

### 5.2 Âge, Sexe et Classe

Analysons comment l'âge interagit avec le sexe et la classe pour influencer la survie.

In [None]:
# Créer une palette de couleurs pour les visualisations
palette = {'male': '#4682B4', 'female': '#FF69B4'}

# Visualiser la distribution de l'âge par classe et sexe
plt.figure(figsize=(18, 10))

for i, pclass in enumerate([1, 2, 3]):
    plt.subplot(1, 3, i+1)
    for sex in ['male', 'female']:
        sns.kdeplot(
            data=train_data[(train_data['Pclass'] == pclass) & (train_data['Sex'] == sex)], 
            x='Age', 
            hue='Survived',
            palette=['#FF5252', '#4CAF50'],
            label=f"{sex.capitalize()} - Classe {pclass}"
        )
    plt.title(f'Distribution de l\'âge pour la classe {pclass}', fontsize=14)
    plt.xlabel('Âge', fontsize=12)
    plt.ylabel('Densité', fontsize=12)
    plt.legend()

plt.tight_layout()
plt.show()

# Visualiser le taux de survie par âge, sexe et classe
plt.figure(figsize=(18, 12))

# Définir des groupes d'âge pour la visualisation
train_data['AgeGroup'] = pd.cut(train_data['Age'], bins=[0, 12, 18, 35, 60, 100], 
                               labels=['Enfant (0-12)', 'Adolescent (13-18)', 'Jeune adulte (19-35)', 'Adulte (36-60)', 'Senior (60+)'])

# Visualiser le taux de survie par groupe d'âge et classe
for sex, title in zip(['male', 'female'], ['Hommes', 'Femmes']):
    plt.figure(figsize=(16, 6))
    sns.barplot(
        data=train_data[train_data['Sex'] == sex], 
        x='AgeGroup', 
        y='Survived', 
        hue='Pclass', 
        palette=['#1A237E', '#303F9F', '#7986CB']
    )
    plt.title(f'Taux de survie par groupe d\'âge et classe pour les {title}', fontsize=16)
    plt.xlabel('Groupe d\'âge', fontsize=14)
    plt.ylabel('Taux de survie', fontsize=14)
    plt.legend(title='Classe')
    plt.xticks(rotation=45)
    plt.tight_layout()
    plt.show()

### 5.3 Corrélation entre les variables

Examinons la matrice de corrélation pour voir les relations entre les variables numériques.

In [None]:
# Calculer la matrice de corrélation pour les variables numériques
numeric_cols = ['Survived', 'Pclass', 'Age', 'SibSp', 'Parch', 'Fare', 'FamilySize']
correlation_matrix = train_data[numeric_cols].corr().round(2)

# Visualiser la matrice de corrélation
plt.figure(figsize=(12, 10))
mask = np.triu(correlation_matrix)
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt='.2f', mask=mask)
plt.title('Matrice de corrélation des variables numériques', fontsize=16)
plt.show()

# Afficher la corrélation avec la variable cible (Survived)
survival_correlation = correlation_matrix['Survived'].sort_values(ascending=False)
print("Corrélation avec la variable cible (Survived):")
display(pd.DataFrame(survival_correlation))

## 6. Analyse des cabines et titres des passagers

Les cabines et les titres des passagers peuvent contenir des informations importantes.

In [None]:
# Analyse des cabines
cabin_data = train_data[['Cabin', 'Survived']].copy()
cabin_data['HasCabin'] = cabin_data['Cabin'].notnull().astype(int)

# Taux de survie en fonction de la présence d'un numéro de cabine
plt.figure(figsize=(10, 6))
sns.barplot(x='HasCabin', y='Survived', data=cabin_data, palette=['#FFC107', '#009688'])
plt.title('Taux de survie selon la présence d\'un numéro de cabine', fontsize=16)
plt.xlabel('Numéro de cabine disponible (0 = Non, 1 = Oui)', fontsize=14)
plt.ylabel('Taux de survie', fontsize=14)
plt.show()

# Statistiques sur la présence de cabine
cabin_stats = cabin_data.groupby('HasCabin')['Survived'].agg(['count', 'sum', 'mean'])
cabin_stats.columns = ['Nombre de passagers', 'Nombre de survivants', 'Taux de survie']
cabin_stats['Taux de survie'] = cabin_stats['Taux de survie'] * 100
display(cabin_stats)

# Analyse du pont de la cabine (première lettre)
# On extrait la première lettre du numéro de cabine qui correspond au pont
train_data['Deck'] = train_data['Cabin'].str.slice(0, 1)
train_data['Deck'].fillna('U', inplace=True)  # U pour "Unknown" (inconnu)

# Distribution des ponts
plt.figure(figsize=(12, 8))

plt.subplot(2, 1, 1)
deck_counts = train_data['Deck'].value_counts().sort_index()
sns.barplot(x=deck_counts.index, y=deck_counts.values, palette='viridis')
plt.title('Distribution des passagers par pont', fontsize=14)
plt.xlabel('Pont', fontsize=12)
plt.ylabel('Nombre de passagers', fontsize=12)

plt.subplot(2, 1, 2)
deck_survival = train_data.groupby('Deck')['Survived'].mean().sort_index() * 100
sns.barplot(x=deck_survival.index, y=deck_survival.values, palette='viridis')
plt.title('Taux de survie par pont', fontsize=14)
plt.xlabel('Pont', fontsize=12)
plt.ylabel('Taux de survie (%)', fontsize=12)

plt.tight_layout()
plt.show()

### Analyse des titres des passagers

Extrayons les titres des noms des passagers pour voir s'ils ont un impact sur la survie.

In [None]:
# Extraction du titre à partir du nom
train_data['Title'] = train_data['Name'].str.extract(' ([A-Za-z]+)\.', expand=False)
test_data['Title'] = test_data['Name'].str.extract(' ([A-Za-z]+)\.', expand=False)

# Afficher les titres uniques
print("Titres uniques trouvés:", train_data['Title'].unique())
print("\nFréquence des titres:")
display(train_data['Title'].value_counts())

# Regrouper les titres moins fréquents
title_mapping = {
    'Mr': 'Mr',
    'Miss': 'Miss',
    'Mrs': 'Mrs',
    'Master': 'Master',
    'Dr': 'Rare',
    'Rev': 'Rare',
    'Col': 'Rare',
    'Major': 'Rare',
    'Mlle': 'Miss',
    'Countess': 'Rare',
    'Ms': 'Miss',
    'Lady': 'Rare',
    'Jonkheer': 'Rare',
    'Don': 'Rare',
    'Dona': 'Rare',
    'Mme': 'Mrs',
    'Capt': 'Rare',
    'Sir': 'Rare'
}
train_data['Title'] = train_data['Title'].map(title_mapping)
test_data['Title'] = test_data['Title'].map(title_mapping)

# Visualiser le taux de survie par titre
plt.figure(figsize=(12, 6))
sns.barplot(x='Title', y='Survived', data=train_data, palette='Set3')
plt.title('Taux de survie par titre', fontsize=16)
plt.xlabel('Titre', fontsize=14)
plt.ylabel('Taux de survie', fontsize=14)
plt.show()

# Statistiques par titre
title_stats = train_data.groupby('Title')['Survived'].agg(['count', 'sum', 'mean'])
title_stats.columns = ['Nombre de passagers', 'Nombre de survivants', 'Taux de survie']
title_stats['Taux de survie'] = title_stats['Taux de survie'] * 100
display(title_stats.sort_values('Taux de survie', ascending=False))

## 7. Conclusions de l'analyse exploratoire

Suite à notre analyse approfondie, nous pouvons tirer plusieurs conclusions importantes:

### Facteurs qui semblent influencer fortement la survie:
1. **Sexe**: Les femmes avaient un taux de survie nettement supérieur aux hommes
2. **Classe**: Les passagers de première classe avaient plus de chances de survivre que ceux des classes inférieures
3. **Âge**: Les enfants (surtout ceux de moins de 12 ans) avaient un taux de survie plus élevé
4. **Titre**: Le titre extrait du nom est un bon indicateur du statut social et du sexe, avec des différences marquées dans les taux de survie
5. **Cabine**: Les passagers avec un numéro de cabine enregistré (probablement de classe supérieure) avaient plus de chances de survivre
6. **Taille de la famille**: Les passagers voyageant seuls ou avec de très grandes familles avaient des taux de survie plus faibles

### Prochaines étapes pour le prétraitement des données:
1. **Gestion des valeurs manquantes**: Imputer les valeurs manquantes pour l'âge, la cabine et le port d'embarquement
2. **Création de nouvelles caractéristiques**: 
   - Taille de la famille 
   - Indicateur pour les passagers voyageant seuls
   - Titre extrait du nom
   - Pont de la cabine
3. **Encodage des variables catégorielles**: Convertir les variables comme le sexe, l'embarquement et le titre en format numérique
4. **Normalisation des variables numériques**: Mettre à l'échelle des variables comme l'âge et le tarif

Ces informations nous seront précieuses pour créer un modèle de prédiction efficace.