# Comment survivre au *Titanic*

En vous basant sur le jeu de données [Titanic](../data/titanic.csv) (Cukierski, 2012), vous construirez un petit programme de classification afin de l’évaluer ensuite.

Le jeu de données comprend une variable *Survived* qui accepte deux modalités, 0 ou 1 pour coder si une personne a survécu ou non au naufrage.

## Préparer les données

Le programme ci-dessous vous permet de préparer le jeu de données :

In [None]:
import pandas as pd
from sklearn.compose import make_column_selector as col_selector, ColumnTransformer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.pipeline import make_pipeline

#
# 1. load dataset
#
dtype = {
    "Pclass": "category",
    "Sex": "category",
    "Embarked": "category"
}

df = pd.read_csv("../data/titanic.csv", dtype=dtype)

#
# 2. tag features & target
#

target = "Survived"
features = ["Pclass", "Sex", "Age", "Fare", "Embarked"]

# load the features into the dataset
data = pd.DataFrame( df[features + [target]] )

#
# 3. fill NA values
#
# new category "Unk" for "Unknown"
data.Embarked = data.Embarked.cat.add_categories(["Unk"])

# fill na
data.Age.fillna(data.Age.mean(), inplace=True)
data.Embarked.fillna("Unk", inplace=True)

#
# 4. recode categorical variables
#
X, y = data[features], data[target]

num_col_selector = col_selector(dtype_exclude='category')
cat_col_selector = col_selector(dtype_include='category')

num_cols = num_col_selector(X)
cat_cols = cat_col_selector(X)

#
# 5. preprocess pipeline
#
num_transformers = make_pipeline(
    StandardScaler()
)
cat_transformers = make_pipeline(
    OneHotEncoder(handle_unknown="ignore")
)
preprocessor = ColumnTransformer(
    transformers=[
        ("num-transformers", num_transformers, num_cols),
        ("cat-transformers", cat_transformers, cat_cols),
    ]
)

#
# 6. make train/test sets
#
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42, test_size=0.2)

## Un algorithme de classification

Il est temps d’entraîner un algorithme de classifacation, par exemple un classificateur naïf bayésien :

In [None]:
from sklearn.naive_bayes import GaussianNB

# model
model = make_pipeline(preprocessor, GaussianNB())
_ = model.fit(X_train, y_train)

# predictions
y_pred = model.predict(X_test)

## Évaluation du classificateur

À vous d’utiliser les techniques que vous connaissez pour évaluer la performance de votre machine ! Commencez par afficher les mesures de précision, de rappel et la moyenne harmonique entre les deux (*f1 score*) :

In [None]:
# your code here

Puis affichez une matrice de confusion :

In [None]:
# your code here

Poursuivez avec la courbe ROC :

In [None]:
# your code here

Essayez à présent d’évaluer le compromis précision/rappel :

In [None]:
# your code here

Et en le basant sur les seuils ?

In [None]:
# your code here

Vérifiez que votre analyse graphique est la bonne :

In [None]:
# your code here

N’hésitez pas à tester d’autres algorithmes de classification et à optimiser les hyperparamètres.