# Embarquement pour l’Amérique à bord du RMS *Titanic*

Le RMS *Titanic* est un paquebot qui fit naufrage le 15 avril 1912 avec à son bord quelques 2400 passagers dont Rose, Jack et au moins un contrebassiste. *Titanic* est aussi le nom d’un jeu de données qui fait partie des incontournables du *machine learning* et qui nous intéressera pour ce TD.

## Contenu

Le fichier [*titanic.csv*](./files/titanic.csv) contient 891 observations décrites par 12 variables :

|Variable|Définition|
|:-:|-|
|*PassengerId*|Identifiant numérique du passager.|
|*Survived*|Facteur à deux niveaux : 0 pour indiquer que le passager n’a pas survécu ; 1 sinon.|
|*Pclass*|Facteur à trois niveaux pour caractériser la classe de transport : 1e, 2e ou 3e classe|
|*Name*|Nom du passager ou de la passagère.|
|*Sex*|Facteur à deux niveaux pour le sexe du passager ou de la passagère : *male* ou *female*.|
|*Age*|Âge, en nombre d’années. En dessous de 1 an, l’âge est exprimé en fraction décimale.|
|*SibSp*|Nombre de frères et sœurs (ou beaux-frères, belles-sœurs) et de maris ou femmes embarqué·es aussi sur le *Titanic*.|
|*Parch*|Nombre de parents et d’enfants embarqués sur le *Titanic*.|
|*Ticket*|Numéro de billet.|
|*Fare*|Tarif passager.|
|*Cabin*|Numéro de cabine.|
|*Embarked*|Facteur à trois niveaux pour coder le port d’embarquement : *C* = Cherbourg, *Q* = Queenstown, *S* = Southampton|

## Importation du jeu de données

Avant tout, commencez par importer la librairie *Pandas* :

In [None]:
# your code here

À présent, grâce à la méthode `.read_csv()`, importez dans une variable `df` le fichier *titanic.csv* qui se trouve dans le sous-répertoire *data*, puis vérifiez avec `.head()` que l’opération s’est bien passée.

**Pour aller plus loin :** essayez d’identifier les variables catégorielles afin de typer correctement les données dès leur importation.

In [None]:
# your code here

Pour les besoins du TD, nous allons établir une liste des variables qui nous intéresseraient dans le cadre d’une tâche banale de classification en apprentissage supervisé. Il est d’usage de bien identifier les variables explicatives et la variable cible et de travailler sur une copie du fichier original qui restera toujours accessible dans `df` :

In [None]:
target = "Survived"
features = ["Pclass", "Sex", "Age", "Fare", "Embarked"]

# a new data frame
data = pd.DataFrame( df[features + [target]] )
data.head()

## Exploration des données

Avant de se lancer dans le moindre traitement, il est primordial de prendre du temps pour bien comprendre la structure des données. Et quel meilleur moyen sinon en calculant certaines mesures statistiques ou en les visualisant à l'aide de graphiques ?

Les manipulations ci-dessous ne sont pas exhaustives de ce que l’on souhaiterait en situation réelle, aussi n’hésitez pas à tester vos idées !

### Visualisation

Intéressons-nous en premier lieu à la variable `age` en regardant la répartition des effectifs en fonction de la modalité *Survived* :

In [None]:
_ = data.hist(column="Age", by="Survived")

Répétez l’opération pour connaître la répartition des hommes et des femmes pour chacune des mêmes modalités :

In [None]:
# your code here

Un peu plus complexe, nous souhaitons obtenir le décompte des passager·ères qui ont survécu ou péri en fonction de leur port d’embarquement, afin de révéler peut-être une préférence nationale (les Irlandais en faveur des Irlandais etc…). Vous aurez besoin de dresser tout d’abord un tableau de contingence en comptabilisant les survivant·es et les péri·es en mer et en les différenciant selon la variable *Embarked* :

In [None]:
# your code here

### Mesures statistiques

La manière la plus rapide d’obtenir un aperçu des données est d’utiliser les méthodes `.describe()` et `.info()` :

In [None]:
data.describe()

In [None]:
data.info()

À l’aide de la méthode `.groupby()` sur le *data frame* `data`, affichez le prix moyen du billet en fonction du port d’embarquement et du sexe des passager·ères.

**Astuce :** le paramètre à transmettre s’appelle `by` et il accepte tout aussi bien une liste qu’une chaîne de caractères.

In [None]:
# your code here

## Préparation des données

Vous l’avez remarqué, l’étape de familiarisation avec le jeu de données est chronophage. Maintenant, nous allons nous atteler à la préapration du *dataset* en vue de son analyse future.

### La chasse aux données manquantes

Le résultat de l’instruction `data.info()` nous apprend que deux variables contiennent des données manquantes : *Age* et *Embarked*. Faites la somme pour chacune :

In [None]:
# your code here

Comme elles sont peu nombreuses, occupez-vous d’abord des données manquantes de la variable *Embarked*. Plutôt que de supprimer les observations concernées, attribuez-leur une valeur de votre convenance pour préciser explicitement que le port d’embarquement est inconnu.

**Remarque :** si vous avez transformé la variable *Embarked* en variable catégorielle, vous devrez au préalable rajouter une modalité avec `.cat.add_categories()`.

In [None]:
# your code here

Pour la variable *Age*, choisissez la stratégie qui vous convient. Vous pourriez par exemple remplacer les valeurs manquantes par la moyenne des âges des passager·ères :

In [None]:
# your code here

### Le recodage de variables

Recodez la variable *Sex* selon la convention suivante :
- *male* = 0 ;
- *female* = 1.

In [None]:
# your code here

Une opération courante consiste à recoder la variable qui recueille l’âge des individus en variable catégorielle. Sachant que l’espérance de vie à la naissance en 1900 était d’à peu près 50 ans, constituez une nouvelle variable *age_cat* composée des modalités suivantes :
- Moins de 12 ans ;
- de 13 à 20 ans ;
- de 21 à 50 ans ;
- \+ 50 ans.

In [None]:
# your code here

Une fois l’opération réalisée, il peut être intéressant de regarder la répartition des effectifs :

In [None]:
_ = data.age_cat.value_counts(sort=False).plot.bar()

## Les femmes et les enfants d’abord !

Les données étant prêtes, nous pouvons nous lancer dans quelques analyses du jeu de données. Notre objectif est de déterminer si le proverbe &laquo; Les femmes et les enfants d’abord &raquo; se vérifie dans le cas du naufrage du *Titanic*.

Commençons par jeter à nouveau un œil aux données :

In [None]:
data.head()

Les deux variables qui nous intéressent sont les colonnes *Sex* et *Survived*. Calculons tout d’abord, tous sexes confondus, le nombre de personnes qui ont survécu ou qui ont péri, puis établissons le taux de survie général :

In [None]:
# your code here

Déterminons à présent le taux de survie chez les hommes et chez les femmes :

In [None]:
# your code here

Remarquons qu’un tableau de contingence aurait pu nous fournir les mêmes décomptes :

In [None]:
# persons who have survived, by sex
cross_tab = pd.crosstab(index=data.Sex, columns=data.Survived)

nb_alive_women, nb_alive_men = cross_tab["1"]

print(f"Nombre d’hommes ayant survécu : {nb_alive_men} sur {nb_men} soit {nb_alive_men / nb_men:.2f}",
      f"Nombre de femmes ayant survécu : {nb_alive_women} sur {nb_women} soit {nb_alive_women / nb_women:.2f}",
      sep="\n"
     )

Aucun doute possible, mieux valait être une femme à bord du *Titanic* ce jour-là. Et quid des enfants ? Répétons les opérations en nous basant sur la modalité *-13 ans* de la variable *age_cat* :

In [None]:
# your code here

## Les riches d’abord ?

Soyons un peu plus taquins et regardons les chances de survie chez les plus riches. La variable *Pclass* recueille la classe de transport de chaque passager·ère. En s’appuyant dessus, estimons le taux de survie selon chaque classe :

In [None]:
# your code here