# Analyse Exploratoire des Données

Ce notebook est dédié à l'analyse exploratoire des données du challenge Titanic. Nous allons visualiser et explorer les relations entre les variables pour mieux comprendre les données.

In [None]:
# Importation des bibliothèques nécessaires
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuration des styles de visualisation
sns.set(style='whitegrid')

# Chargement des données
data_dir = '../Data/'
train_data = pd.read_csv(data_dir + 'train.csv')
test_data = pd.read_csv(data_dir + 'test.csv')

# Aperçu des données d'entraînement
train_data.head()

In [None]:
# Visualisation de la distribution des âges
plt.figure(figsize=(10, 6))
sns.histplot(train_data['Age'], bins=30, kde=True)
plt.title('Distribution des âges des passagers')
plt.xlabel('Âge')
plt.ylabel('Fréquence')
plt.show()

In [None]:
# Visualisation de la survie par classe
plt.figure(figsize=(10, 6))
sns.countplot(data=train_data, x='Pclass', hue='Survived')
plt.title('Survie par classe de passagers')
plt.xlabel('Classe')
plt.ylabel('Nombre de passagers')
plt.legend(title='Survécu', loc='upper right', labels=['Non', 'Oui'])
plt.show()

In [None]:
# Visualisation de la corrélation entre les variables
plt.figure(figsize=(12, 8))
correlation_matrix = train_data.corr()
sns.heatmap(correlation_matrix, annot=True, fmt='.2f', cmap='coolwarm', square=True)
plt.title('Matrice de corrélation des variables')
plt.show()

## Conclusion

Dans ce notebook, nous avons effectué une analyse exploratoire des données du challenge Titanic. Nous avons visualisé la distribution des âges, examiné la survie par classe de passagers et analysé la corrélation entre les différentes variables. Ces informations seront utiles pour le prétraitement et la modélisation des données.