# La tragédie du titanic
![](https://www.guide-irlande.com/wp-content/uploads/2020/02/titanic-1024x500.jpg)

### Objectif
**prédire les survivants du Titanic**
### Planification
* Définir le problème
* Collecte des données
* Analyse exploratoire des données (EDA)
* « Feature engineering »
* Modélisation
* Test

## 1. Définition du problème
Prédire les survivants du Titanic

## 2. collecte des données
Nous avons besoin de deux fichiers CSV -> train.csv et test.csv


In [1]:
import pandas as pd

# Nous allons lire les données
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')

## 3. Analyse exploratoire des données (EDA)
Notre objectif est de mieux comprendre les jeux de données

In [None]:
# Imprimer les 20 premières observations du jeux de données pour Train
train.head(20)

### Dictionnaire de données
* Survived : 0 = Oui, 1 = Non
* Pclass : 1 = première classe, 2 = deuxième classe, 3 = troisième classe
* SibSp : le nombre de frères, soeurs et conjointe à bord
* Parch : le nombre de parents et d'enfants à bord
* Ticket : le numéro de billet
* Cabin : le numéro de cabine
* Embarked : le port d'embarquement C = Cherbourg, Q = Queenstown, S = Southampton

In [None]:
# Nombre de lignes et de colonnes pour le jeux de données Train
train.shape

In [None]:
# Nombre de lignes et de colonnes pour le jeux de données Test
test.shape

In [None]:
# Informtions de chaque colonne (Feature) pour Train
train.info()

In [None]:
# Informtions de chaque colonne (Feature) pour Test
test.info()

### Notes
* On peut constater que la colonne **Age** comporte de nombreuses valeurs manquantes (NaN)
* On peut également constater que la colonne **Cabin** comporte de nombreuses valeurs manquantes (NaN)

### Les valeurs manquants (NaN)

In [None]:
# Les valeurs manquants pour Train
train.isnull().sum()

In [None]:
# Les valeurs manquants pour Test
test.isnull().sum()

In [None]:
# Modules pour la visualisation des données
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
# Définir Seaborn par défaut pour les visualisations
sns.set()

### Barchart
Nous allons utiliser un « Barchart » pour les colonnes (features) **catégorielles** :
* Sex (Homme ou Femme)
* Pclass (Première, Deuxième ou Troisième)
* SibSp (# de frères, soeurs et conjointe)
* Parch (# de parents ou enfants)
* Embarked (Cherbourg, Queenstown, Southampton)

In [None]:
# Définir une fonction pour créer un Barchart
def bar_chart(feature):
    survived = train[train['Survived'] == 1][feature].value_counts()
    dead = train[train['Survived'] == 0][feature].value_counts()
    df = pd.DataFrame([survived, dead])
    df.index = ['A survécu', 'Est mort']
    df.plot(kind = 'bar', stacked = True, figsize = (10, 5))

### Sex
Note : les femmes avaient plus de chances de survivre

In [None]:
bar_chart('Sex')

### Première classe, deuxième classe et troisième classe
Note : les passagers de 1ère classe avaient plus de chances de survivre

In [None]:
bar_chart('Pclass')

### Nombre de frères, soeurs et conjointe
Note : une personne qui est montée à bord sans ses frères, sœurs ou conjointe avait plus de probabilité de mourir à bord

In [None]:
bar_chart('SibSp')

### Nombre de parents ou enfants
Note : une personne qui est montée à bord sans parents ou enfants avait plus de probabilité de mourir à bord

In [None]:
bar_chart('Parch')

### Port d'embarquement C = Cherbourg, Q = Queenstown, S = Southampton
Note : une personne qui est montée à bord à partir de C(Cherbourg) avait légèrement plus de chances de survivre.

In [None]:
bar_chart('Embarked')

## 4. « Feature Engineering »

In [None]:
# La première chose à faire est de combiner les jeux de données Train et Test
train_test_data = [train, test]
train.head()

### Nom et prénom
Note : nous pouvons identifier que chaque personne à bord a des titres différents (Mr., Miss., Mrs., etc.)

In [None]:
for dataset in train_test_data:
    dataset['Title'] = dataset['Name'].str.extract(' ([A-Za-z]+)\.', expand = False)
    
train['Title'].value_counts()

##### Map du Titre
* **Mr.** : 0
* **Miss.** : 1
* **Mrs.** : 2
* **Others** : 3

In [None]:
title_mapping = {"Mr": 0, "Miss": 1, "Mrs": 2, 
                 "Master": 3, "Dr": 3, "Rev": 3, "Col": 3, "Major": 3, "Mlle": 3,"Countess": 3,
                 "Ms": 3, "Lady": 3, "Jonkheer": 3, "Don": 3, "Dona" : 3, "Mme": 3,"Capt": 3,"Sir": 3 }

for dataset in train_test_data:
    dataset['Title'] = dataset['Title'].map(title_mapping)

In [None]:
train.head()

Note : nous n'avons plus besoin de la colonne **Name**, donc nous allons la supprimer

In [None]:
# Supprimer la colonne (feature) Name
train.drop('Name', axis = 1, inplace = True)
test.drop('Name', axis = 1, inplace = True)

In [None]:
train.head()

### Sex
Note : 
* Homme = 0
* Femme = 1

In [None]:
# Changer male = 0 et female = 1
sex_mapping = {'male': 0, 'female': 1}

for dataset in train_test_data:
    dataset['Sex'] = dataset['Sex'].map(sex_mapping)
    
train.head()

### Âge
Note : de nombreuses valeurs de la colonne **Age** sont manquantes. Nous allons utiliser l'âge médian de la colonne **Title** pour les âges manquants

In [None]:
# remplir les âges manquants avec l'âge médian pour chaque titre (Mr., Mme., Mlle. et Autres)
train['Age'].fillna(train.groupby('Title')['Age'].transform('median'), inplace = True)
test['Age'].fillna(test.groupby('Title')['Age'].transform('median'), inplace = True)

In [None]:
# Vérifier Train
train.isnull().sum()

In [None]:
# Vérifier Test
test.isnull().sum()

Note : nous allons essayer de catégoriser les tranches d'âge

In [None]:
facet = sns.FacetGrid(train, hue = 'Survived', aspect = 4)
facet.map(sns.kdeplot, 'Age', shade = True)
facet.set(xlim = (0, train['Age'].max()))
facet.add_legend()

plt.show()

In [None]:
# Zoom sur les 0 à 20 ans
facet = sns.FacetGrid(train, hue="Survived",aspect=4)
facet.map(sns.kdeplot,'Age',shade= True)
facet.set(xlim=(0, train['Age'].max()))
facet.add_legend()
plt.xlim(0, 20)

In [None]:
# Zoom sur les 20 ans
facet = sns.FacetGrid(train, hue="Survived",aspect=4)
facet.map(sns.kdeplot,'Age',shade= True)
facet.set(xlim=(0, train['Age'].max()))
facet.add_legend()
plt.xlim(20, 30)

In [None]:
# Zoom sur les 30 ans
facet = sns.FacetGrid(train, hue="Survived",aspect=4)
facet.map(sns.kdeplot,'Age',shade= True)
facet.set(xlim=(0, train['Age'].max()))
facet.add_legend()
plt.xlim(30, 40)

In [None]:
# Zoom sur 40 à 60 ans
facet = sns.FacetGrid(train, hue="Survived",aspect=4)
facet.map(sns.kdeplot,'Age',shade= True)
facet.set(xlim=(0, train['Age'].max()))
facet.add_legend()
plt.xlim(40, 60)

In [None]:
# Zoom à partir de 60 ans
facet = sns.FacetGrid(train, hue="Survived",aspect=4)
facet.map(sns.kdeplot,'Age',shade= True)
facet.set(xlim=(0, train['Age'].max()))
facet.add_legend()
plt.xlim(60)

##### Nous allons faire avec les tranches d'âge quelque chose qui s'appelle Binning
* Enfant : 0 -- moins de 16 ans
* Jeune : 1 -- entre 16 et 26 ans
* Adulte : 2 -- entre 26 et 36 ans
* Adulte majeur : 3 -- entre 36 et 62 ans
* Senior : 4 -- plus de 62 ans

In [None]:
# Créer le Binning pour la colonne Âge
for dataset in train_test_data:
    dataset.loc[ dataset['Age'] <= 16, 'Age'] = 0,
    dataset.loc[(dataset['Age'] > 16) & (dataset['Age'] <= 26), 'Age'] = 1,
    dataset.loc[(dataset['Age'] > 26) & (dataset['Age'] <= 36), 'Age'] = 2,
    dataset.loc[(dataset['Age'] > 36) & (dataset['Age'] <= 62), 'Age'] = 3,
    dataset.loc[ dataset['Age'] > 62, 'Age'] = 4

In [None]:
train.head()

### Port d'embarquement 
* C = Cherbourg, Q = Queenstown, S = Southampton
* Note : nous allons commencer par une stratégie pour remplir les valeurs manquants

In [None]:
# Créer un Bar Chart pour idéntifier le port que les passagers ont le plus emprunté
Pclass1 = train[train['Pclass']==1]['Embarked'].value_counts()
Pclass2 = train[train['Pclass']==2]['Embarked'].value_counts()
Pclass3 = train[train['Pclass']==3]['Embarked'].value_counts()
df = pd.DataFrame([Pclass1, Pclass2, Pclass3])
df.index = ['1re classe','2ème classe', '3ème classe']
df.plot(kind='bar',stacked=True, figsize=(10,5))



Note : plus de 50% (1er, 2ème et 3ème classe) des passagers ont pris le port de Southampton (S)

In [None]:
# Remplir les valeurs manquants pour la colonne Embark
for dataset in train_test_data:
    dataset['Embarked'] = dataset['Embarked'].fillna('S')

In [None]:
# Vérification pour le jeu de données Train
train.isnull().sum()

In [None]:
# Vérification pour le jeu de données Train
test.isnull().sum()

##### Mapping pour la colonne Embarked
* **Southampton (S)** = 0
* **Cherbourg (C)** = 1
* **Queenstown (Q)** = 2

In [None]:
# Mapping pour la colonne Embarked
embarked_mapping = {"S": 0, "C": 1, "Q": 2}
for dataset in train_test_data:
    dataset['Embarked'] = dataset['Embarked'].map(embarked_mapping)

### Tarif (Fare)

* Note : nous allons remplir les tarifs (la colonne Fare) manquants avec le tarif médian pour chaque classe.

In [None]:
# Remplir les valeurs manquants pour la colonne (Feature) Fare
train["Fare"].fillna(train.groupby("Pclass")["Fare"].transform("median"), inplace=True)
test["Fare"].fillna(test.groupby("Pclass")["Fare"].transform("median"), inplace=True)

In [None]:
# Vérifier pour le jeu de données Train
train.isnull().sum()

In [None]:
# Vérifier pour le jeu de données Test
test.isnull().sum()

##### Catégorisation des tarifs
Note : nous allons suivre la même procédure que pour la colonne **Age**

In [None]:
# Idéntifier les tarifs
facet = sns.FacetGrid(train, hue="Survived",aspect=4)
facet.map(sns.kdeplot,'Fare',shade= True)
facet.set(xlim=(0, train['Fare'].max()))
facet.add_legend()
 
plt.show()

In [None]:
# Zoom sur les tarifs 0 à 20
facet = sns.FacetGrid(train, hue="Survived",aspect=4)
facet.map(sns.kdeplot,'Fare',shade= True)
facet.set(xlim=(0, train['Fare'].max()))
facet.add_legend()
plt.xlim(0, 20)

In [None]:
# Zoom sur les tarfis 0 à 30
facet = sns.FacetGrid(train, hue="Survived",aspect=4)
facet.map(sns.kdeplot,'Fare',shade= True)
facet.set(xlim=(0, train['Fare'].max()))
facet.add_legend()
plt.xlim(0, 30)

##### Catégorisation de la colonne Fare (Tarif)
Nous allons créer 4 catégories :
* 0 = moins de 17
* 1 = entre 17 et 30
* 2 = entre 30 et 100
* 3 = plus de 100

In [None]:
for dataset in train_test_data:
    dataset.loc[ dataset['Fare'] <= 17, 'Fare'] = 0,
    dataset.loc[(dataset['Fare'] > 17) & (dataset['Fare'] <= 30), 'Fare'] = 1,
    dataset.loc[(dataset['Fare'] > 30) & (dataset['Fare'] <= 100), 'Fare'] = 2,
    dataset.loc[ dataset['Fare'] > 100, 'Fare'] = 3

In [None]:
train.head()

### Cabin (la cabine)
Note : nous pouvons idéntifier que la première lettre de la cabine (A, B, C, etc.) sépare les espaces

In [None]:
train.Cabin.value_counts()

In [None]:
# Extrait de la première lettre de chaque cabine
for dataset in train_test_data:
    dataset['Cabin'] = dataset['Cabin'].str[:1]

In [None]:
# Visualiser les différentes cabines par classe
Pclass1 = train[train['Pclass']==1]['Cabin'].value_counts()
Pclass2 = train[train['Pclass']==2]['Cabin'].value_counts()
Pclass3 = train[train['Pclass']==3]['Cabin'].value_counts()
df = pd.DataFrame([Pclass1, Pclass2, Pclass3])
df.index = ['1er classe','2ème classe', '3ème classe']
df.plot(kind='bar',stacked=True, figsize=(10,5))

##### Mapping des cabines
Nous pouvons idéntifier 8 cabines :
* A : 0
* B : 0.4
* C : 0.8
* D : 1.2
* E : 1.6
* F : 2
* G : 2.4
* T : 2.8

In [None]:
# Mapping des cabines
cabin_mapping = {"A": 0, "B": 0.4, "C": 0.8, "D": 1.2, "E": 1.6, "F": 2, "G": 2.4, "T": 2.8}
for dataset in train_test_data:
    dataset['Cabin'] = dataset['Cabin'].map(cabin_mapping)

In [None]:
# Remplis les valeurs manquants pour la colonne Cabin (Cabine)
train["Cabin"].fillna(train.groupby("Pclass")["Cabin"].transform("median"), inplace=True)
test["Cabin"].fillna(test.groupby("Pclass")["Cabin"].transform("median"), inplace=True)

In [None]:
# Vérification pour le jeu de données Train
train.isnull().sum()

In [None]:
# Vérification pour le jeu de données Test
test.isnull().sum()

### Taille de la famille
Note : Nous allons faire la somme de tous les membres de la famille plutôt que d'avoir les frères, les soeurs, les conjointes séparés des parents et des enfants.

In [None]:
# Additionner tous les membres de la famille aux jeux de données Train et Test. 1 = seul
train["FamilySize"] = train["SibSp"] + train["Parch"] + 1
test["FamilySize"] = test["SibSp"] + test["Parch"] + 1

In [None]:
# Visualiser les personnes avec différentes quantités de membres de la famille à bord qui ont survécu et qui n'ont pas survécu
facet = sns.FacetGrid(train, hue="Survived",aspect=4)
facet.map(sns.kdeplot,'FamilySize',shade= True)
facet.set(xlim=(0, train['FamilySize'].max()))
facet.add_legend()
plt.xlim(0)

##### Mapping pour la quantité de membres de la famille
Nous pouvons idéntifier un mapping qui va de 1 à 11 membres :
* 1 : 0
* 2 : 0.4
* 3 : 0.8
* 4 : 1.2
* 5 : 1.6
* 6 : 2
* 7 : 2.4
* 8 : 2.8
* 9 : 3.2
* 10 : 3.6
* 11 : 4

In [None]:
# Mapping des memebre de la famille pour chaque passager
family_mapping = {1: 0, 2: 0.4, 3: 0.8, 4: 1.2, 5: 1.6, 6: 2, 7: 2.4, 8: 2.8, 9: 3.2, 10: 3.6, 11: 4}
for dataset in train_test_data:
    dataset['FamilySize'] = dataset['FamilySize'].map(family_mapping)

In [None]:
train.head()

## Colonnes ou Features à supprimer
Nous n'avons pas besoin des colonnes (ou Features) suivantes :
* Ticket
* SibSp (nous avons maintenant membres de la famille)
* Parch (nous avons maintenant membres de la famille)
* Pour le jeu de données Train -- PassengerId (cette colonne n'apporte rien à l'entraînement)

In [None]:
# Supprimer les colonnes (Features) que nous n'allons pas utiliser pour l'entraînement ni pour le test
features_drop = ['Ticket', 'SibSp', 'Parch']
# Pour le jeu de données Train
train = train.drop(features_drop, axis=1)
# Pour le jeu de données Test
test = test.drop(features_drop, axis=1)
# Supprimer PassengerId pour le jeu de données Train
train = train.drop(['PassengerId'], axis=1)

##### Préparer les jeux de données pour l'entraînement : Train et Target
* Nous n'avons pas besoin de la colonne (Feature) **Survived** pour le jeu de données Train
* Nous devons créer une seule colonne séparé la cible (Target) : **Survived**

In [None]:
# Supprimer la colonne Survived du jeu de données Train
train_data = train.drop('Survived', axis=1)
# Créer une colonne séparée avec Survived
target = train['Survived']

train_data.shape, target.shape

In [None]:
# Jeu de données que nous allons utiliser pour l'entraînement (sans la colonne Survived)
train_data.head()

## 5. Modélisation

In [None]:
# Importer les modules de Classification (Machine Learning)
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC

import numpy as np

### Cross Validation (K-fold)
Note : il s'agit de notre méthode de validation pour chaque modèle

In [None]:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
k_fold = KFold(n_splits=10, shuffle=True, random_state=0)

### kNN
Note : le premier algorithme de classification s'appelle Neighbors Classifier

In [None]:
clf = KNeighborsClassifier(n_neighbors = 13)
scoring = 'accuracy'
score = cross_val_score(clf, train_data, target, cv=k_fold, n_jobs=1, scoring=scoring)
print(score)

In [None]:
# Score pour kNN
round(np.mean(score)*100, 2)

### Decision Tree

In [None]:
clf = DecisionTreeClassifier()
scoring = 'accuracy'
score = cross_val_score(clf, train_data, target, cv=k_fold, n_jobs=1, scoring=scoring)
print(score)

In [None]:
# Score pour Decision Tree
round(np.mean(score)*100, 2)

### Random Forest
Note : plusieurs arbres de décision

In [None]:
clf = RandomForestClassifier(n_estimators=13)
scoring = 'accuracy'
score = cross_val_score(clf, train_data, target, cv=k_fold, n_jobs=1, scoring=scoring)
print(score)

In [None]:
# Score pour Forest Score
round(np.mean(score)*100, 2)

### Naive Bayes
Note : plus spécifiquement Gaussian Naive Bayes

In [None]:
clf = GaussianNB()
scoring = 'accuracy'
score = cross_val_score(clf, train_data, target, cv=k_fold, n_jobs=1, scoring=scoring)
print(score)

In [None]:
# Score pour Gaussian Naive Bayes
round(np.mean(score)*100, 2)

### Support Vector Machine (SVM)
Note : plus spécifiquement l'implementation SVC

In [None]:
clf = SVC()
scoring = 'accuracy'
score = cross_val_score(clf, train_data, target, cv=k_fold, n_jobs=1, scoring=scoring)
print(score)

In [None]:
# Score pour SVM
round(np.mean(score)*100,2)

### Meilleur Score
L'algorithm Support Vector Machine (SVM) nous donne le meilleur score (83.5), nous allons l'utiliser pour le Test

## 6. Test

### Fit Data into the algorithm
Note : nous allons utiliser l'algorithm SVM dans notre modèle.
* La première étape est de Fit le modèle avec les données d'entraînement (train_data) et le target (Survived)
* La deuxième étape est de tester le modèle avec des données que l'algorithme ne connaît pas (la prédiction)

In [None]:
# Fit le modèle en utilisant SVM
clf = SVC()
clf.fit(train_data, target)

# Tester le modèle avec les données de Test, pour le test, nous allons effacer la colonne PassengerId du jeu de données Test
test_data = test.drop("PassengerId", axis=1).copy()
# Réaliser la prédiction pour le jeu de données Test
prediction = clf.predict(test_data)

In [None]:
# Préparer le document avec les prédictions -- Kaggle a besoin de la colonne PassengerId
submission = pd.DataFrame({
        "PassengerId": test["PassengerId"],
        "Survived": prediction
    })

submission.to_csv('submission.csv', index=False)

In [None]:
submission = pd.read_csv('submission.csv')
submission.head()