# Titanic

## 1. Data preprocessing
Importons les modules nécessaires.

In [1]:
import pandas as pd
import plotly.express as px
import re

Chargeons les données dans deux dataframes.

In [2]:
train_data = pd.read_csv('train.csv')
test_data = pd.read_csv('test.csv')

train_data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


**Quelles valeurs attendons-nous ?**

Le dataset Titanic se compose des colonnes suivantes :

- `PassengerId` : Identifiant unique *(entier)*

- `Survived` : État du passager à l'issue du naufrage *(0 ou 1)*

- `Pclass` : Classe du ticket *(1, 2 ou 3)*

- `Name` : Nom du passager *(chaine de caractères)*

- `Sex` : Sexe du passager *('male' ou 'female')*

- `Age` : Age du passager *(nombre positif entre 0 et 120)*

- `SibSp` : Nombre de frères, sœurs et/ou époux à bord *(entier >= 0)*

- `Parch` : Nombre de parents et/ou enfants à bord *(entier >= 0)*

- `Ticket` : Numéro du ticket *(chaine alphanumérique)*

- `Fare` : Prix payé par le passager *(nombre positif)*

- `Cabin` : Numéro de cabine *(chaine alphanumérique)*

- `Embarked` : Port d'embarquement *('C', 'Q' ou 'S')*

Avant toute chose, vérifions qu'il n'y ait pas de valeurs aberrantes.

In [3]:
def check_data_quality(df):
    print('================================')
    # on inspecte chaque colonne du df
    for column in df.columns:
        # global
        print(f'Colonne : {column}')
        print(f'Type : {df[column].dtype}')
        
        # spécifique à certaines colonnes
        if column == 'PassengerId':
            print(f'Toutes les valeurs sont uniques : {df[column].nunique() == len(df[column])}')

        elif column == 'Age':
            print(f'Âges valides (0-120) : {((df[column].dropna() >= 0) & (df[column].dropna() <= 120)).all()} (en ignorant {df[column].isna().sum()} valeurs NaN)')

        elif column in ['SibSp', 'Parch', 'Fare']:
            print(f'Toutes les valeurs sont >= 0 : {(df[column].dropna() >= 0).all()}')
            
        elif column in ['Survived', 'Pclass', 'Sex', 'Embarked']:
            print(f'Valeurs : {df[column].unique()}')
        
        print('---')

check_data_quality(train_data)
check_data_quality(test_data)

Colonne : PassengerId
Type : int64
Toutes les valeurs sont uniques : True
---
Colonne : Survived
Type : int64
Valeurs : [0 1]
---
Colonne : Pclass
Type : int64
Valeurs : [3 1 2]
---
Colonne : Name
Type : object
---
Colonne : Sex
Type : object
Valeurs : ['male' 'female']
---
Colonne : Age
Type : float64
Âges valides (0-120) : True (en ignorant 177 valeurs NaN)
---
Colonne : SibSp
Type : int64
Toutes les valeurs sont >= 0 : True
---
Colonne : Parch
Type : int64
Toutes les valeurs sont >= 0 : True
---
Colonne : Ticket
Type : object
---
Colonne : Fare
Type : float64
Toutes les valeurs sont >= 0 : True
---
Colonne : Cabin
Type : object
---
Colonne : Embarked
Type : object
Valeurs : ['S' 'C' 'Q' nan]
---
Colonne : PassengerId
Type : int64
Toutes les valeurs sont uniques : True
---
Colonne : Pclass
Type : int64
Valeurs : [3 2 1]
---
Colonne : Name
Type : object
---
Colonne : Sex
Type : object
Valeurs : ['male' 'female']
---
Colonne : Age
Type : float64
Âges valides (0-120) : True (en ignorant

Nous pouvons voir qu'aucune valeur inattendue ne se trouve dans nos dataframes.

Cependant, nous remarquons que certaines colonnes ont des types `object`. Nous allons les convertir vers des types plus adaptés.

In [None]:
# convertir certains types

def convert_types(df):
    data_converted = df.copy()

    # CATEGORY: type pandas (liste finie de valeurs texte)

    data_converted['Sex'] = data_converted['Sex'].astype('category')
    data_converted['Embarked'] = data_converted['Embarked'].astype('category')

    # STRING

    data_converted['Name'] = data_converted['Name'].astype('string')
    data_converted['Ticket'] = data_converted['Ticket'].astype('string')
    data_converted['Cabin'] = data_converted['Cabin'].astype('string')

    return data_converted

train_data = convert_types(train_data)
print('success')


success


In [5]:
check_data_quality(train_data)

Colonne : PassengerId
Type : int64
Toutes les valeurs sont uniques : True
---
Colonne : Survived
Type : int64
Valeurs : [0 1]
---
Colonne : Pclass
Type : int64
Valeurs : [3 1 2]
---
Colonne : Name
Type : string
---
Colonne : Sex
Type : category
Valeurs : ['male', 'female']
Categories (2, object): ['female', 'male']
---
Colonne : Age
Type : float64
Âges valides (0-120) : True (en ignorant 177 valeurs NaN)
---
Colonne : SibSp
Type : int64
Toutes les valeurs sont >= 0 : True
---
Colonne : Parch
Type : int64
Toutes les valeurs sont >= 0 : True
---
Colonne : Ticket
Type : string
---
Colonne : Fare
Type : float64
Toutes les valeurs sont >= 0 : True
---
Colonne : Cabin
Type : string
---
Colonne : Embarked
Type : category
Valeurs : ['S', 'C', 'Q', NaN]
Categories (3, object): ['C', 'Q', 'S']
---


Identifions maintenant les données manquantes.

In [6]:
train_data.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

**Valeurs manquantes par colonne**

`Age` : 177 valeurs manquantes

`Cabin` : 687 valeurs manquantes

`Embarked` : 2 valeurs manquantes

**Peut-on remplacer les valeurs vides ?**

Nous pourrions remplacer les valeurs `Age` manquantes par la moyenne du profil type. Imaginons quelques-uns de ces groupes :

- `femmes ayant un ticket en première classe`

- `hommes ayant un ticket en troisième classe`

On peut imaginer que le remplacement par la moyenne d'âge de ces groupes serait plus pertinente que la moyenne globale.

Vérifions-le.

In [7]:
# vérifier que c'est plus pertinent que la moyenne globale
age_by_group = train_data.groupby(['Sex', 'Pclass'], observed=False)['Age'].agg(['mean', 'min', 'max', 'count'])

age_by_group

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,min,max,count
Sex,Pclass,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
female,1,34.611765,2.0,63.0,85
female,2,28.722973,2.0,57.0,74
female,3,21.75,0.75,63.0,102
male,1,41.281386,0.92,80.0,101
male,2,30.740707,0.67,70.0,99
male,3,26.507589,0.42,74.0,253


On observe que les groupes ont bien des moyennes d'`Age` différentes ce qui laisse à penser que c'est une décision qui amenera plus de précision.

Remplaçons maintenant les données manquantes.

In [8]:
# fonction afin de pouvoir reproduire cette étape plus facilement dans la suite de ce projet
def fill_age(data):
    data_filled = data.copy()

    # fonction a utiliser dans transform, on aurait pu utiliser une lambda directement dans transform
    def fillna_with_mean(x):
        return x.fillna(x.mean())

    # remplacer valeurs vides par moyenne du groupe (basé sur sexe + classe)
    data_filled['Age'] = data_filled.groupby(['Sex', 'Pclass'], observed=False)['Age'].transform(fillna_with_mean)

    # si il reste des valeurs vides > utiliser la moyenne globale en dernier recours
    data_filled['Age'] = data_filled['Age'].fillna(data_filled['Age'].mean())

    return data_filled

train_data_age_filled = fill_age(train_data)
test_data_age_filled = fill_age(test_data)

train_data_age_filled.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

Nous n'avons plus de valeurs `Age` vides

Il reste, cependant, des valeurs vides dans la colonne `Cabin`. 

On remarque que ces valeurs vides concernent `687` lignes ce qui veut dire qu'il est hors de question de les supprimer, d'autant plus que cela peut être une information à part entière. On peut penser qu'il serait plus intéressant de les marquer comme `Unknown`.

In [9]:
def fill_cabin(data):
    data_filled = data.copy()

    data_filled['Cabin'] = data_filled['Cabin'].fillna('Unknown')

    return data_filled

train_data_age_cabin_filled = fill_cabin(train_data_age_filled)
test_data_age_cabin_filled = fill_cabin(test_data_age_filled)

train_data_age_cabin_filled.isna().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       2
dtype: int64

On n'a plus aucune valeur vides dans la colonne `Cabin` mais il reste `2` infos manquantes dans la colonne `Embarked`.

In [10]:
train_data_age_cabin_filled['Embarked'].value_counts(dropna=False)

Embarked
S      644
C      168
Q       77
NaN      2
Name: count, dtype: int64

Une bonne approche pourrait être de remplir les valeurs manquantes par le port le plus commun en fonction de leur classe.

In [11]:
def fill_embarked(data):
    data_filled = data.copy()

    # loop à travers les lignes où embarked est vide
    for i in data_filled[data_filled['Embarked'].isna()].index:
        # on récupère le pclass de chaque ligne où embarked est vide
        pclass = data_filled.loc[i, 'Pclass']

        # on trouve le port le plus commun pour cette classe
        most_common_port = data_filled[data_filled['Pclass'] == pclass]['Embarked'].mode()[0]
        
        data_filled.loc[i, 'Embarked'] = most_common_port
        print(f'index: {i}, Embarked: {data_filled.loc[i, 'Embarked']}, success')
    
    return data_filled

train_data_filled = fill_embarked(train_data_age_cabin_filled)
test_data_filled = fill_embarked(test_data_age_cabin_filled)

train_data_filled.isna().sum()

index: 61, Embarked: S, success
index: 829, Embarked: S, success


PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Cabin          0
Embarked       0
dtype: int64

Nous n'avons plus aucune valeur manquante dans nos dataframes.

## 2. Features

L'ajout de certaines features peut sembler pertinent :

- Le passager était-il seul ?

- Avait-il une cabine ?

- Sur quel pont avait–il embarqué ?

- Quel était son titre ? (Mr, Mrs, Miss...)

In [12]:
# ajout de features
full_data = [train_data_filled, test_data_filled]

# is alone
for i in full_data:
    i['IsAlone'] = 1

    # si la condition est true on sélectionne 'IsAlone'
    i.loc[(i['SibSp'] + i['Parch'] > 0), 'IsAlone'] = 0

# has cabin
for i in full_data:
    i['HasCabin'] = 0

    i.loc[i['Cabin'] != 'Unknown', 'HasCabin'] = 1

# cabin deck
for i in full_data:
    i['CabinDeck'] = i['Cabin'].str[0] # Unknown = U

# title from name
def get_title(name):
    # on cherche un espace, on capture la chaine de plusieurs lettres si elle est suivie d'un point (échappé avec le \)
    search_result = re.search(r' ([A-Za-z]+)\.', name) # raw string pour que python ne traite pas l'échappement avant regex

    if search_result:
        # group(0): return ' Mrs.' (TOUT le pattern)
        # group(1): return 'Mrs' (le groupe de capture entre parenthèses)
        # group(2): (le 2eme groupe de capture entre parenthèses s'il existe)
        return search_result.group(1)
    return ''

for i in full_data:
    i['Title'] = i['Name'].apply(get_title)

print(train_data_filled['Title'].value_counts(dropna=False))
print(test_data_filled['Title'].value_counts(dropna=False))
print(train_data_filled['CabinDeck'].value_counts)

train_data_filled.head()

Title
Mr          517
Miss        182
Mrs         125
Master       40
Dr            7
Rev           6
Col           2
Mlle          2
Major         2
Ms            1
Mme           1
Don           1
Lady          1
Sir           1
Capt          1
Countess      1
Jonkheer      1
Name: count, dtype: int64
Title
Mr        240
Miss       78
Mrs        72
Master     21
Col         2
Rev         2
Ms          1
Dr          1
Dona        1
Name: count, dtype: int64
<bound method IndexOpsMixin.value_counts of 0      U
1      C
2      U
3      C
4      U
      ..
886    U
887    B
888    U
889    C
890    U
Name: CabinDeck, Length: 891, dtype: string>


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,IsAlone,HasCabin,CabinDeck,Title
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,Unknown,S,0,0,U,Mr
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,0,1,C,Mrs
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,Unknown,S,1,0,U,Miss
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,0,1,C,Mrs
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,Unknown,S,1,0,U,Mr


Nous pouvons voir que nos features ont bien été ajoutées mais dans le cas de la feature `Title` nous avons plusieurs titres très peu utilisés que nous pourrions regrouper sous une seule et même valeur `Rare`.

Nous allons faire cela de manière dynamique en appliquant la modification à tous les titres présents moins de `10` fois dans nos dataframes. Et profitons-en pour rassembler les titres similaires tels que `Mlle`, `Ms` = `Miss` et `Mme` = `Mrs`.

In [None]:
# récupérer dynamiquement tous les titles rares pour les unifier dans une même catégorie

# limitation : si on teste peu de données cela risque de laisser passer des valeurs rares
def replace_rare_titles_by_count(full_data = full_data):
    for i in full_data:
        title_count = i['Title'].value_counts()
        percentage = 0.03 # 3 %

        i['Title'] = i['Title'].apply(
            # appliquer le vrai titre s'il en existe plus que 3 % de la len de test_data dans nos données autrement on applique 'Rare'
            lambda real_title: real_title if title_count[real_title] >= (int(len(test_data_filled) * percentage)) else 'Rare' 
            )

    print((len(test_data_filled) * percentage))

def replace_titles(full_data = full_data):
    def check_titles(real_title):
        if real_title in ['Mr', 'Miss', 'Mrs', 'Master']:
            return real_title
        elif real_title in ['Mlle', 'Ms']:
            return 'Miss'
        elif real_title == 'Mme':
            return 'Mrs'
        else:
            return 'Rare'

    for i in full_data:
        i['Title'] = i['Title'].apply(check_titles)

replace_titles()

print(train_data_filled['Title'].value_counts(dropna=False))
print(test_data_filled['Title'].value_counts(dropna=False))

Title
Mr        517
Miss      185
Mrs       126
Master     40
Rare       23
Name: count, dtype: int64
Title
Mr        240
Miss       79
Mrs        72
Master     21
Rare        6
Name: count, dtype: int64


In [17]:
train_data_filled.head(1)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,IsAlone,HasCabin,CabinDeck,Title
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,Unknown,S,0,0,U,Mr


In [20]:
from sklearn.ensemble import RandomForestClassifier

# variable cible > on va prédire qui a survécu 1 ou n'a pas survécu 0
y = train_data_filled['Survived'] 

# on définit quelles caractéristiques utiliser pour la prédiction
features = [
    'Pclass',
    'Sex',
    'Age',
    'SibSp',
    'Parch',
    'IsAlone',
    'HasCabin',
    'CabinDeck',
    'Title',
]

X = pd.get_dummies(train_data_filled[features])
X_test = pd.get_dummies(test_data_filled[features])

# aligner les colonnes entre train et test
X_test = X_test.reindex(columns=X.columns, fill_value=0)

model = RandomForestClassifier(
    n_estimators=100, # nombre d'arbres de la forêt > + = plus précis mais plus lent
    max_depth=5, # profondeur max par arbre > évite l'overfitting (quand le modèle s'adapte trop aux données d'entrainement)
    random_state=42 # comme une seed > pour pas que cela ne soit random à chaque fois
)

# entrainement du modèle > comme si on étudiait 1000 cas médicaux avec des diagnostics connus et mémorisait les patterns (si symptomes A+B alors maladie X)
model.fit(X, y)

# mise en application > on voit 500 nouveaux patients, applique les connaissances acquises et on sort un diagnostic pour chacun
predictions = model.predict(X_test)

output = pd.DataFrame({
    'PassengerId': test_data_filled.PassengerId,
    'Survived': predictions # les prédictions 0 ou 1
})

output.to_csv('submission4.csv', index=False)

print('success')

success
