## TITANIC 

# 1. Introduction et Contexte

Dans ce projet, nous nous attaquons à la compétition Titanic - Machine Learning from Disaster sur Kaggle. L'objectif principal est de prédire si un passager a survécu ou non au naufrage du Titanic en fonction de certaines caractéristiques des passagers (comme l'âge, le sexe, la classe, etc.). Le but est d'appliquer des techniques de machine learning pour construire un modèle prédictif performant.

Le cadre d'analyse se situe dans le contexte de l'apprentissage supervisé, où les données d'entraînement sont utilisées pour prédire la variable cible Survived (0 pour la survie, 1 pour la non-survie).

# 2. Préparation des données

Exploration des données initiales
Les données initiales sont fournies sous forme de fichiers CSV :

train.csv : contient les données d'entraînement (caractéristiques des passagers et le résultat de leur survie).
test.csv : contient les caractéristiques des passagers, mais sans la variable cible.
gender_submission.csv : fournit un exemple de format de soumission pour Kaggle.
Changement de type de colonnes
Nous devons nous assurer que les types des colonnes sont corrects pour une analyse efficace. Par exemple, nous devons nous assurer que la colonne Age est de type numérique et que Survived est une variable binaire.

Traitement des valeurs manquantes
Certaines colonnes, comme Age ou Fare, peuvent contenir des valeurs manquantes. Nous devons les traiter, soit par suppression, soit en les remplissant avec des valeurs comme la médiane ou la moyenne.

Modification et création de nouvelles variables
Nous pouvons créer de nouvelles variables pour enrichir le modèle. Par exemple :

Créer une variable qui indique si le passager est un enfant ou un adulte.
Transformer les variables catégorielles en variables numériques (par exemple, Sex -> 0 pour "male" et 1 pour "female").
Normalisation ou transformation des données
Certaines variables numériques, comme Fare, peuvent être normalisées pour être comprises dans une échelle similaire.

# 3. Exploration des données (EDA)

Visualisation des données
La visualisation est essentielle pour comprendre la distribution des variables et les relations entre elles. Utilisez des histogrammes pour les distributions, des diagrammes en boîte pour détecter les valeurs aberrantes, et des graphiques de dispersion pour explorer les relations entre les variables.

Analyse statistique descriptive
Calculez des statistiques de base, comme la moyenne, la médiane, l'écart-type, et analysez les valeurs extrêmes (outliers).

# 4. Analyse de la Corrélation

Calcul de la corrélation entre les variables
Une matrice de corrélation vous aidera à comprendre comment les variables sont liées les unes aux autres et à la variable cible.

python
Copy
Edit
corr_matrix = train_data.corr()
print(corr_matrix)
Visualisation de la matrice de corrélation
Une carte thermique (heatmap) de la matrice de corrélation permet de mieux visualiser ces relations.

python
Copy
Edit
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 8))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt='.2f')
plt.show()
5. Préparation finale des données
Séparation des données d’entraînement et de test
Avant de construire le modèle, nous devons séparer les données en deux ensembles : un ensemble pour l'entraînement et un autre pour les tests.

python
Copy
Edit
from sklearn.model_selection import train_test_split

X = train_data.drop(['Survived'], axis=1)  # Variables explicatives
y = train_data['Survived']  # Variable cible

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
Création des variables cible et explicatives
Les variables explicatives sont toutes les colonnes sauf Survived, tandis que la variable cible est Survived.

# 6. Modélisation et Evaluation

Choix et entraînement des modèles
On peut tester plusieurs modèles de machine learning pour prédire la survie des passagers. Un bon point de départ serait d'utiliser un modèle de régression logistique ou un forêt aléatoire.

python
Copy
Edit
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression

model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)
Évaluation des performances
Une fois le modèle entraîné, il faut évaluer sa performance en utilisant la précision, la rappel, et la F1-score.

python
Copy
Edit
from sklearn.metrics import accuracy_score, classification_report

y_pred = model.predict(X_test)
print("Accuracy: ", accuracy_score(y_test, y_pred))
print(classification_report(y_test, y_pred))

# 7. Conclusion

Synthèse des résultats et des observations
Le modèle choisi a montré une précision de 0.7989, ce qui est un bon point de départ pour cette compétition.
En fonction des résultats, vous pouvez explorer d'autres modèles, comme le Gradient Boosting ou le XGBoost, ou même ajuster les hyperparamètres du modèle choisi pour améliorer les performances.

## CODE 


In [29]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Charger les données depuis les chemins Kaggle
train_data = pd.read_csv(train.csv')
test_data = pd.read_csv(test.csv')
gender_submission = pd.read_csv('/kaggle/input/titgender_submission.csv')

# Prétraitement des données d'entraînement
train_data = train_data[['Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare']]
train_data['Age'] = train_data['Age'].fillna(train_data['Age'].median())
train_data['Fare'] = train_data['Fare'].fillna(train_data['Fare'].median())

# Convertir la variable catégorielle 'Sex' en numérique
train_data['Sex'] = train_data['Sex'].map({'male': 0, 'female': 1})

# Séparer les caractéristiques et la cible
X = train_data.drop('Survived', axis=1)
y = train_data['Survived']

# Diviser les données en train et test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Normalisation des données
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Entraînement du modèle
model = LogisticRegression()
model.fit(X_train, y_train)

# Prédictions
y_pred = model.predict(X_test)

# Évaluation du modèle
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.4f}')

# Prétraitement des données de test
test_data = test_data[['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare']]
test_data['Age'] = test_data['Age'].fillna(test_data['Age'].median())
test_data['Fare'] = test_data['Fare'].fillna(test_data['Fare'].median())
test_data['Sex'] = test_data['Sex'].map({'male': 0, 'female': 1})

X_test_data = scaler.transform(test_data)

# Vérifier la colonne PassengerId dans test_data
if 'PassengerId' not in test_data.columns:
    test_data['PassengerId'] = range(1, len(test_data) + 1)  # Si la colonne PassengerId manque, on la recrée

# Prédictions sur les données de test
predictions = model.predict(X_test_data)

# Sauvegarder les prédictions dans un fichier de soumission
submission = pd.DataFrame({
    'PassengerId': test_data['PassengerId'],
    'Survived': predictions
})

# Sauvegarder le fichier de soumission sous 'submission.csv'
submission.to_csv('/kaggle/working/submission.csv', index=False)

print("Submission file has been saved successfully!")


FileNotFoundError: [Errno 2] No such file or directory: '/kaggle/input/titanic/train.csv'