# Le titanic : aurait-on pu prévoir à l'avance qui allait survivre ?
---

## But du notebook

Dans ce Notebook, nous allons faire l'étude du tristement célèbre jeu de données [des passagers du titanic](https://www.kaggle.com/c/titanic).

A partir d'un descriptif des passagers au moment où ils sont montés à bord, est-il possible de prédire qui allait s'en sortir ?

---

## Information

Le but de ce Notebook est d'étudier les données. On va utiliser pour cela quelques bibliothèques : pandas pour les manipulations de données, numpy pour les opérations mathématiques et plotly pour faire nos graphes. Des bibliothèques alternatives existent pour la visualisation de données (matplotlib, seaborn, bokeh...). numpy et pandas sont par contre des standards dans l'industrie.

Pour la Data Science, le standard de l'industrie est scikit-learn (tensorflow ou pytorch pour le deep learning). Nous les utiliserons dès les prochains cours.

---

## Données 

Utilisez les données qui sont dans le github. Si jamais vous n'y arrivez pas, vous pouvez récupérer les données en cliquant sur [ce lien](https://www.kaggle.com/c/titanic).

**Descriptif des données :**

|Variable | Definition |	Key |
|---|---|---|
|survival |	Survival |	0 = No, 1 = Yes |
|pclass 	Ticket class |	1 = 1st, 2 = 2nd, 3 = 3rd |
|sex |	Sex 	| |
|Age |	Age in years | | 	
|sibsp |	# of siblings / spouses aboard the Titanic | 	|
|parch |	# of parents / children aboard the Titanic 	| |
|ticket |	Ticket number 	| |
|fare |	Passenger fare 	| |
|cabin |	Cabin number 	| |
|embarked | 	Port of Embarkation |	C = Cherbourg, Q = Queenstown, S = Southampton |

Variable Notes

pclass: A proxy for socio-economic status (SES)
1st = Upper
2nd = Middle
3rd = Lower

age: Age is fractional if less than 1. If the age is estimated, is it in the form of xx.5

sibsp: The dataset defines family relations in this way...
Sibling = brother, sister, stepbrother, stepsister
Spouse = husband, wife (mistresses and fiancés were ignored)

parch: The dataset defines family relations in this way...
Parent = mother, father
Child = daughter, son, stepdaughter, stepson
Some children travelled only with a nanny, therefore parch=0 for them.

## Récupération de bibliothèques importantes

In [None]:
# Les bibliothèques ci-dessous sont conseillées. Vous pouvez en utilisez d'autres si vous préférez.
import pandas as pd
import numpy as np
import plotly.express as px

# Etape 1 : Etude de la qualité des données
---

Chargez le jeu de données d'entraînement dans votre notebook avec la bibliothèque pandas.

Commençons par récupérer les données et à étudier leur qualité.

### Analyse de la qualité

1) Chargez les données du fichier "titanic_custom.csv" dans votre espace de travail. Quel est le nombre de lignes de notre dataset ?
1) Trouvez le nombre de valeurs nulles (None, np.NaN ou autres) pour chacune des colonnes.
2) Quelle est le type de chacune des colonnes ?
3) Combien y a-t-il des doublons dans la table. Identifiez-les. Qu'est-ce qu'on en fait ?
3) Pour chacune des colonnes numériques, calculez la moyenne, la médiane, le min et le max. Ces valeurs semblent-elles logiques ? Enquêtez.
3) Pour les colonnes qui sont des strings, lesquelles semblent catégoriques et lesquelles vous semblent de format libre ?
5) Combien de personnes ont survécu sur le Titanic dans la vraie vie et combien ont survécu dans notre Dataset ? Est-ce que notre Dataset est représentatif ?
6) Débarassez-vous des points de données gênants et enregistrez le nouveau dataframe sous le nom "titanic_clean.csv"

## Qui sont les gens qui sont montés à bord du Titanic ?

J'ai entendu dire que les gens qui montaient sur le titanic étaient des vieux mecs aigris, célibataires et plein de thunasse. Essayons de vérifier cette hypothèse.

1) Déjà, identifions les gens qui ont eu des billets gratuits. Quel pourcentage du dataset cela représente-t-il ? Avez-vous une explication sur le fait qu'ils aient des billets gratuits ?
1) Combien d'hommes / femmes sont montés à bors du Titanic ? Tracez le résultat sur un graphe.
2) Combien de passagers ont des conjoints / membres de famille ? Tracez la distribution des passagers en fonction du nombre de membres dans leur famille (conjoints + membres autres)
3) Tracez trois graphes : l'un qui indique la distribution des âges des passagers et l'autre qui indique le nombre de personnes sur le titanic par groupes de 5 puis 10 ans. Sur le premier grpahe, mettez une ligne verticale indiquant l'âge moyen sur le graphe. Il faut que les légendes soient lisibles (notamment pour les catégories d'âges). Utiliser le paramètre "color" pour montrer combien de personnes sont morts et ont survécu par catégories d'âges.
4) Trouvez le plus petit âge X tel qu'au 80 % des passagers ont moins de X ans (pour cette question, on ignorera les valeurs nulles en terme d'âge).
5) Combien de femmes mariées avons-nous sur le bâteau ?
6) Combien de nobles avons-nous sur notre bâteau ?
7) Tracez la distribution du prix du billet pour les trois classes de billets sur le même graphe. Les échelles sont démesurées (et votre figure est sans doute illisible du coup). Appliquez une transformation x => np.log(x+1) au prix du billet et tracez la même figure. Que constatez-vous ?
7) A quel arrêt est-ce que les riches ont embarqué ?
7) A partir des informations récupérées, que peut-on dire de notre hypothèse sue les vieux mecs aigris ?

## Et Léo dans tout ça ?

Dans ce Notebook nous allons tenter de résoudre un mystère historique : est-ce que Leonardo Di Caprio aurait survécu s'il avait voyagé sur le Titanic ?

1) Quel est le pourcentage de survie pour des hommes et des femmes ? Comment est-ce que ça s'annonce pour Léo et Rose ?
3) Etudiez la corrélation entre les variables numériques. Que peut-on dire de plus pour Léo sachant qu'il possède un billet de troisième classe qui coûtait vraiment pas cher ?
4) Etudiez le pourcentage de survie en fonction du nombre de frères et soeurs (SibSp). Cette statistiques vous parait-elle pertinente ?
4) Créez les colonnes First_class, Second_class et Third_Class en fonction de la classe du billet (colonne Pclass). Etudiez les chances de survie de chacune des catégories.
4) Que peut-on dire sur la corrélation entre l'âge et le fait qu'un passsager ait survécu ou pas ? Cela vous étonne-t-il ? Argumentez votre réponse.
5) Créez les variables FamilySize = SibSp + Bride et la variable IsAlone = (FamilySize == 0). Tracez le pourcentage de survie en fonction de FamilySize. Qu'est-ce que cela augure pour Léo ?
7) Etudiez la répartition des survivants en fonction du port de départ. Séparez les colonnes par port de départ.
6) A partir des différentes observations, quels paramètres vous semblent pertinents pour mesurer si quelqu'un a survécu au naufrage du titanic ?
7) Léo méritait-il de mourir ?

## Un peu de machine Learning (Séance du 22/03)

1) Créer un premier arbre de décision en utilisant uniquement le genre, la classe et le prix du billet.
1) Pour ce premier arbre de décision, étudiez la précision, le recall et le F1-Score pour les données d'entrainement et de validation.
1) Créer en chaîne des arbre de décision en utilisant uniquement le genre, la classe et le prix du billet. (Un arbre pour toutes les valeurs de max_depth = 3 à max_depth = 15). Pour chacun de ces arbres stockez la précision, le recall et le F1-score sur le jeu d'entrainement et le jeu de test. Tracez l'évolution de la précision, du recall et du F1-score en fonction du max_depth. Qu'observez-vous ?
2) Remplissez les variables catégoriques manquantes et encodez-les.
3) Modifiez les valeurs d'âge et de FamilySize comme vous le voulez.
1) Faites une régression logistique pour évaluer la probabilité de survie en fonction des autres paramètres. Calculez la précision, le recall et le F1-score de la solution proposée. Montrez la valeur de tous les coefficients, qu'en pensez-vous au vue de toutes les analyses que vous aviez menés précédemment ?
4) Faites un arbre de décision pour évaluer la probabilité de survie en fonction des autres paramètres. Calculez la précision, le recall et le F1-score de la solution proposée. Montrez votre arbre de décision, qu'en pensez-vous au vue de toutes les analyses que vous aviez menés précédemment ?
5) Faites un random forest pour évaluer la probabilité de survie en fonction des autres paramètres. Calculez la précision, le recall et le F1-score de la solution proposée.