[Accueil](../../index.ipynb) > [Sommaire Première](../index.ipynb)

# TP titanic

Ce TP est une application pratique du cours sur l'[algorithme des plus proches voisins](../8_Algorithmique/3_k_plus_proches_voisins.ipynb)

## Récupération et observations des données.

Dans ce TP nous allons utiliser comme données le fichier titanic_train.csv (entrainement) et titanic_test.csv qui se trouvent dans ce TP.

<div class="alert alert-info">En utilisant la librairie pandas, écrire les fonctions <i>get_titanic_training_datas</i> et <i>get_titanic_test_datas</i> qui récupèrent respectivement les données d'entrainement et les données de tests depuis les fichiers titanic_train.csv et titanic_test.csv et retournent chacune un dataframe de type pandas.</div>

### Signification des variables

In [None]:
import pandas as pd

def get_titanic_training_datas():
    return pd.read_csv('titanic_train.csv')

def get_titanic_test_datas():
    return pd.read_csv('titanic_test.csv')

training_datas = get_titanic_training_datas()
test_datas = get_titanic_test_datas()

# Affichage des premières données
training_datas.head()



In [None]:
training_datas.tail()

Voici l'explication de la signification de chacune des colonnes : 

- PassengerId: unique ID du passager
- Survived: 0 = Non, 1 = Oui
- Pclass: passenger class 1 = 1ère, 2 = 2nde, 3 = 3ème
- Name: nom du passager
- Sex: Sexe du passager
- Age: Age du passager
- SibSp: Nombre de frères et soeurs ou epouse/mari dans le bateau
- Parch: Nombre de parents ou d'enfants dans le bateau.
- Ticket: Ticket ID
- Fare: Le prix du ticket
- Cabin: Numéro de cabine
- Embarked: Port d'embarcation (C = Cherbourg, Q = Queenstown, S = Southampton)


Servez vous de la fonction info() pour afficher des informations sur les colonnes des données.

### Volumétrie des données.

Utiliser l'**attribut** *shape* pour afficher la 'forme' (volumétrie) de chacune des données (entrainement + test).

In [None]:
# Volumétrie les données
training_datas.shape


### Informations supplémentaires
Quelles sont les informations fournies par la **méthode** *info* ?

In [None]:
# Informations supplémentaires
training_datas.info()


### Données manquantes

Nous venons de voir précédemmentque certaines données sont manquantes.
Grace aux méthodes isnull et sum, sommons les données manquantes pour chaque jeux de données

In [None]:
training_datas.isnull().sum()

## Préparation des données

- Selon vous, quelles sont les variables qui n'ont pas d'incidence sur le taux de survie ?
- Au contraire, quelles sont celles qui sont pertinentes?
- Classer ces variables selon:
  - Le physique de la personne
  - Le statut social
  - Le statut familial
  - Le lieu d'embarquement
  
Le but ici est de limiter le nombre de variables afin de simplifier le problème.  
  
- Que faire avec les données manquantes ?

### Présence de membre(s) de la famille à bord

Afin de simplifier les données, nous allons uniquement prendre en compte la présence, ou non, d'un membre de la famille à bord.
Nous allons ajouter une nouvelle colonne 'HasFamily' qui vaut 0 si la personne est seule et 1 sinon.

In [None]:
training_datas['NbMemberFamily'] = training_datas['SibSp'] + training_datas['Parch']
# On initialise à 0
training_datas['HasFamily'] = 0
# On passe à 1 ceux qui ont 1 ou plus d'un membre de leur famille à bord
training_datas.loc[training_datas['NbMemberFamily'] >= 1, 'HasFamily'] = 1

Nous allons utiliser la librairie *[seaborn](https://seaborn.pydata.org/)* pour observer les correlations entre les variables et le taux de survie.

Vérifions graphiquement si avoir un membre de sa famille à bord a un impact sur le taux de survie.

In [None]:
import seaborn
plot = seaborn.catplot(x="HasFamily", y="Survived", kind="bar", data=training_datas)

### Le problème de l'âge

Nous avons constaté qu'il manque des données sur l'âge des passagers (NaN)
Comment traiter ces données manquantes ?
Que proposez vous ?


In [None]:
# On remplace les ages inconnus par l'âge médian...
training_datas["Age"] = training_datas["Age"].fillna(training_datas["Age"].median())
# On initialise AgeCat à 0
training_datas["AgeCat"] = 0
# Ceux qui ont plus de 18 ans à 1
training_datas.loc[training_datas['Age'] >= 18, 'AgeCat'] = 1

<div class="alert alert-info">Créer un graphique afin d'observer si la categorie de l'âge est relié au taux de survie.</div>

Une solution plus fine consiste à remplacer l'age manquant par l'age moyen selon la classe du ticket. Les résultats montre une disparité dans l'âge.

In [None]:
# calculate average age by passenger class to fill empty age cells
print('Age breakdown by passenger class: ')
print(training_datas.groupby('Pclass').mean()[['Age']])

# Fill empty values in age column
training_datas['Age'].fillna(training_datas['Age'].median(), inplace=True)
training_datas['Age'].fillna(training_datas['Age'].median(), inplace=True)


### Sexe de la personne

<div class="alert alert-info">Vérifier graphiquement si le sexe de la personne influence le taux de survie.</div>

Quel traitement doit on opérer sur cette variable ?

### Catégorie sociale

Afin de simplifer le nombre de variables, nous allons uniquement utiliser la variable *PClass*.

<div class="alert alert-info">Créer un graphique afin d'observer si la classe du billet est reliée au taux de survie.</div>

In [None]:
# Ajouter un graphique liant la class du billet et le taux de survie.

### Port d'embarquement

Cela a-t-il une influence sur le taux de survie?

In [None]:
# graphique à générer.

Ceci peut paraitre étrange. Cela s'explique par le fait que les personnes embarquées à Cherbourg étaient majoritairement en première classe. Pour notre traitement nous ne consiérerons donc pas le port d'embarquement.

En plus cela nous arrange car certaines données sont manquantes :-)

## Préparation des données

<div class="alert alert-info"> But : écrire une fonction <i>process_datas</i> qui prend en parametre les données brutes, effectue les traitements nécessaires et retourne les données modifiées</div>

Voici les opérations à effectuer:
- Changement de type de certaines variables
- Ajout de nouvelles variables
- Suppression des varaibles inutiles
- ...

Le but est de ne garder que les données qui slobn vous sont pertinentes.

In [None]:
# repartons avec les données d'origine
training_datas = get_titanic_training_datas()

def process_datas(datas):
    # On remplace les ages inconnus par l'âge médian...
    datas["Age"] = datas["Age"].fillna(datas["Age"].median())
    # On initialise AgeCat à 0
    datas["AgeCat"] = 0
    # Ceux qui ont plus de 18 ans à 1
    datas.loc[datas['Age'] >= 18, 'AgeCat'] = 1

    datas['NbMemberFamily'] = datas['SibSp'] + datas['Parch']
    # On initialise à 0
    datas['HasFamily'] = 0
    # On passe à 1 ceux qui ont 1 ou plus d'un membre de leur famille à bord
    datas.loc[datas['NbMemberFamily'] >= 1, 'HasFamily'] = 1
    
    genders = {"male": 0, "female": 1}
    datas['Sex'] = datas['Sex'].map(genders)
    
    
    # Suppression des colonnes inutiles
    datas = datas.drop(['PassengerId', 'Name', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'NbMemberFamily', 'Cabin', 'Embarked'], axis=1)
    return datas
    
processed_training_datas = process_datas(training_datas)
processed_training_datas.head()
print(processed_training_datas.info())

## Taux de correlation

In [None]:
correlation_matrix = processed_training_datas.corr()
correlation_matrix['Survived']
correlation_matrix['Survived'][1:].sort_values()

## Division des données d'entrainement

En vous inspirant du cours, diviser les données d'entrainement en deux : une partie comme témoin et l'autre comme test.

## Normalisation des données

## Détermination de k

Enregistrer dans un dictionnaire 'scores' les différentes valeurs de prédiction pour différentes valeurs de k.

Afficher dans un graphique les taux de prédiction en fonction de k

In [None]:
import plotly.express as px
fig = px.scatter(x = scores.keys(), y = scores.values(), width=400, height=400)
fig.show()

## Prédiction finale

In [None]:
# On récupère les données d'entrainement depuis le fichier csv

# On effectue les actions de preprocessing sur les données de test

# On effectue une copie des données de tests, on les normalise

# Normalisation des données d'entrainement, entrainement et prédiction


## Création d'un fichier csv

Création d'un fichier 'submission.csv' contenant les colonnes 'PassengerId' et 'Survived'

In [None]:
temp = pd.DataFrame(pd.read_csv("titanic_test.csv")['PassengerId'])
temp['Survived'] = y_pred
temp.to_csv("submission.csv", index = False)

## Envoi des données sur Kaggle

Aller sur https://www.kaggle.com/ et se connecter avec google.

Se rendre sur la page https://www.kaggle.com/competitions/titanic/submit
Ajouter le fichier 'submission.csv' et regarder le score obtenu.


- https://pixees.fr/informatiquelycee/n_site/nsi_prem_projet_titanic.html
- https://www.kaggle.com/competitions/titanic/data?select=test.csv
- https://medium.com/analytics-vidhya/titanic-machine-learning-by-k-nearest-neighbors-knn-algorithm-530d8bdd8323
- https://github.com/awesomedata/awesome-public-datasets/issues/351