# Modélisation

Dans ce notebook, nous allons tester différents algorithmes de classification pour prédire la survie des passagers du Titanic. Nous allons également évaluer les performances de chaque modèle.

In [None]:
# Importation des bibliothèques nécessaires
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import seaborn as sns
import matplotlib.pyplot as plt

# Configuration des styles de visualisation
sns.set(style='whitegrid')

In [None]:
# Chargement des données d'entraînement
data_dir = '../Data/'
train_data = pd.read_csv(data_dir + 'train.csv')

# Affichage des premières lignes des données
train_data.head()

In [None]:
# Préparation des données
# Sélection des caractéristiques et de la cible
features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare']
X = train_data[features]
y = train_data['Survived']

# Traitement des variables catégorielles
X = pd.get_dummies(X, columns=['Sex'], drop_first=True)

# Gestion des valeurs manquantes
X['Age'].fillna(X['Age'].median(), inplace=True)
X['Fare'].fillna(X['Fare'].median(), inplace=True)

In [None]:
# Division des données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Entraînement du modèle Random Forest
rf_model = RandomForestClassifier(random_state=42)
rf_model.fit(X_train, y_train)

# Prédictions sur l'ensemble de test
y_pred = rf_model.predict(X_test)

In [None]:
# Évaluation des performances du modèle
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')

# Rapport de classification
print(classification_report(y_test, y_pred))

# Matrice de confusion
conf_matrix = confusion_matrix(y_test, y_pred)
sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues')
plt.xlabel('Prédictions')
plt.ylabel('Vérités')
plt.title('Matrice de confusion')
plt.show()

## Conclusion

Dans ce notebook, nous avons testé un modèle de classification Random Forest pour prédire la survie des passagers du Titanic. Nous avons évalué les performances du modèle à l'aide de l'exactitude, d'un rapport de classification et d'une matrice de confusion. D'autres modèles peuvent être testés pour améliorer les performances.