# Titanic

### Jeu de données

Le *dataset* du Titanic est un grand classique du machine Learning, celui-ci consiste en une liste de passagers présents sur le navire durant son unique trajet vers les Etats-Unis. Un certain nombre de caractéristiques décrivent les passagers présents à bord, ainsi que son statut final : a-t-il survécu au naufrage ?

Sur les 2200 personnes présentes à bord du bateau au moment du naufrage, environ 1500 périrent. Notre jeu de données n'est pas exhaustif, mais comporte cependant assez d'entrées pour pouvoir appliquer des méthodes de *machine learning* dessus.

### Objectif

Le but de cet exercice est de créer un modèle permettant de prédire la survie d'un passager en fonction de ses différentes caractéristiques connues.

### Importation des librairies

Importer dans la cellule suivante toutes les librairies que vous utiliserez. Vous devrez y retourner de temps en temps pour ajouter des librairies au cours de cet exercice. N'oubliez pas de la réexecuter à chaque fois pour importer correctement les librairies.

Si la librairie que vous voulez n'est pas installé sur votre poste, lisez la partie "installation" de sa documentation en ligne. Dans l'immense majorité des cas il suffit d'ouvrir une fenêtre de terminal (*anaconda prompt* pour windows, un terminal classique pour mac et linux), vérifiez que vous êtes dans le bon environnement virtuel si vous en utilisez un puis tapez :

``pip install LE_NOM_DE_VOTRE_LIBRAIRIE``

Pour commencer :

**>>>** Importer la librairie "pandas" en utilisant l'alias "pd"

**>>>** Importer la librairie "numpy" en utilisant l'alias "np"

In [None]:
# code here!


### Lecture et affichage du dataframe

**>>>** A l'aide de Pandas et de la fonction ``pd.read_csv()``, importez et stockez le jeu de données dans un *dataframe* nommé "df".

**>>>** utilisez la fonction ``.head()`` pour afficher les 5 premières lignes.

In [None]:
# code here!


### Colonnes

**>>>** Affichez les colonnes du dataframe avec la propriété ``.columns``

In [None]:
# code here!


### Explication des différentes colonnes.

Lorsqu'on étudie un jeu de données, il est important de toujours se référer à la documentation ou de demander des explications à la personne ayant généré ce jeu de données. Voici ici les informations qui nous intéressent :

- **'PassengerId'** : L'ID des passagers. Celui-ci est égal à notre index.
- **'Survived'** : 1 si la personne a survécu, 0 si elle n'a pas survécu.
- **'Pclass'** : Classe du passager.
    - 1 : Première classe (classe aisée).
    - 2 : Seconde classe (classe moyenne).
    - 3 : Troisième classe (classe populaire).
 - **'Name'** : Le nom du passager.
 - **'Sex'** : Le genre du passager.
 - **'Age'** : L'âge du passager. Si l'âge est estimé, celui-ci peut être sous forme de décimaux.
 - **'SibSp'** : *Siblings and Spouses*. Le nombre de frères, soeurs, demi-frères, demi-soeurs, époux ou épouse présents avec eux sur le bateau.
 - **'Parch'** : *Parents and Children*. Le nombre de père, mère, fils, fille, beau-fils, belle-fille présents avec eux sur le bateau.
 - **'Ticket'** : Le numéro du ticket de la personne.
 - **'Fare'** : Le coût du ticket. 
 - **'Cabin'** : Le numéro de la cabine.
 - **'Embarked'** : Le port d'embarquement :
     - C : Cherbourg
     - Q : Queenstown
     - S : Southampton

# Exploration 

**>>>** Appliquez un ``.describe()`` sur le dataframe. Par défaut, cette méthode s'applique uniquement sur les variables numériques. Si vous préférez que le résultat soit transposé, utilisez la propriété ``.T`` sur le df retourné par ``.describe()``.

In [None]:
# Code here!


**>>>** Affichez les statistiques basiques sur les variables non numériques. Pour cela utilisez le paramètre "exclude" de la méthode ``.describe`` en lui donnant comme argument ``np.number``.

In [None]:
# Code here!


### Suppression des colonnes inutiles

Utilisez la méthode ``.drop()`` pour effacer la colonne 'PassengerId' puisque celle-ci n'est qu'une réplique de l'index.

In [None]:
# Code here!


### Statistiques et graphiques

Pour mieux comprendre les données, explorons chaque colonne à l'aide d'outils statistiques et de visualisations.

**>>>** Retourner dans la première cellule et importer la librairie seaborn sous l'alias "sns" et la librairie matplotlib.pyplot sous l'alias "plt".

### 'Survived'

**>>>** Examinez la distribution de la colonne 'Survived' à l'aide de la méthode ``.value_counts``. Vous pouvez éventuellement passer le paramètre ``normalize=True`` pour avoir une meilleure estimation de la répartition.

In [None]:
# Code here!


**>>>** Affichez les résultats sous forme de graphique en utilisant sur ce résultat la méthode ``.plot.bar()``.

In [None]:
# Code here!


**>>>** Affichez le même graphique mais à l'aide de la fonction ``sns.countplot()`` en donnant comme argument au paramètre "x" la série ``df['survived']``.

**>>>** Examinons désormais comment la classe des voyageurs influe sur le taux de survie. Reprenez la même fonction que précédemment mais passez en "x" cette fois la colonne df['Pclass'] puis ajoutez un second paramètre nommé "hue", et donnez-lui comme argument df['Survived'].

In [None]:
# Code here!


### Noms des passagers

Le titre de civilité (madame, mademoiselle, monsieur...) peut nous donner des informations sur les passagers. Pour l'instant, ceux-ci sont contenus dans leur nom.

**>>>** Créez une nouvelle colonne nommée "NameTitle" ne contenant que les titres de civilité. Il y a différentes manières de faire ceci :
- Utilisez deux fois la fonction ``str.split()`` avec le paramètre ``expand=True`` en récupérant la bonne série nouvellement créée à chaque fois.
- Utilisez deux fois la fonction ``.map()`` ainsi que des fonctions lambda pour appliquer des ``.split()`` successifs sur la série en récupérant la valeur qui nous intéresse grâce à l'index de la liste créée.

PS : le terme 'master" était utilisé à l'époque pour de jeunes enfants.

In [None]:
# Code here!


**>>>** Faites un value_counts() sur la Series "NameTitle"

In [None]:
# Code here!


**>>>** Certains titres sont très rares, et d'autres nécessitent d'être attribués à des groupes plus larges. Créez un dictionnaire qui possède en clés les anciens titres et en valeurs le nouveau titre qui lui sera attribué. Faites en sorte que :

- Les "Mlle.", "Ms." soient rattachés aux "Miss."
- Les "Lady.", "Mme." et "the" soient rattachés aux "Mrs."
- Les "Major.", "Col.", "Sir", "Don." et "Jonkheer." soient rattachés aux "Mr."
- Inutile d'ajouter les noms qui resteront les mêmes, mais vous pouvez le faire si vous le préférez.

*Astuces* :

- La méthode ``.replace()`` sera ici le meilleur choix !
- Vérifiez ensuite avec un ``.value_counts`` que tout est en ordre.

In [None]:
# Code here!


**>>>** Calculez le taux de survie pour chacun des titres de civilité. Pour ce faire effectuez un *groupby* sur la colonne "Survived" en lui demandant de grouper sur la colonne 'NameTitle'. Choisissez ``mean()`` comme méthode d'aggrégation. Vous pouvez aussi ajouter un ``.sort_values(ascending=False)`` pour classer le résultat par ordre décroissant.

*Astuces*:

- Si vous souhaitez aussi afficher d'autres indicateurs vous pouvez utiliser la méthode ``.agg()`` sur les données groupées en lui donnant une liste de fonction à utiliser en lui passant des strings. Par exemple "mean", "median", "count". Le résultat sera alors un dataframe.

In [None]:
# Code here!


**>>>** Générez ensuite un graphique de type "bar" sur cette série nouvellement créée afin de mieux visualiser les données. Utilisez matplot lib ou bien seaborn à votre convenance.

In [None]:
# Code here!


### Sex

**>>>** Affichez la proportion d'hommes et de femmes avec un ``.value_counts()``. Vous pouvez normaliser les données pour rendre le résultat plus clair.

In [None]:
# Code here!


**>>>** Affichez le taux de survie pour chaque sexe.

In [None]:
# Code here!


### Age

**>>>** Examinez combien de valeurs sont manquantes dans cette colonne.

In [None]:
# Code here!


**>>>** Nous allons compléter artificiellement ces valeurs manquantes. Certes nous pourrions tout simplement leur donner l'âge moyen ou median des passagers. Mais nous connaissons les titres de civilité de tous les passagers, y compris de ces 177 personnes dont nous n'avons pas l'âge.

Nous allons donc compléter ces données manquantes par la moyenne d'âge relative à leur titre de civilité.

La méthode ``.fillna()`` permet de remplir les valeurs vides d'un df ou d'une série par une valeur de notre choix. Elle peut prendre de multiples arguments et notamment une Series. Comme nous connaissons les titres de tous les passagers nous pouvons appliquer la méthode suivante :

- Générez un dictionnaire contenant les 'NameTitles' en clés et l'âge moyen valeur. Vous pouvez le faire en une seule ligne de code avec un dictionnaire compréhensif.
- Utilisez ``.map()`` sur la colonne df['NameTitle'] avec ce dictionnaire en argument pour créer une Series qui contient, pour chaque personne, la moyenne d'âge de la catégorie 'NameTitle' à laquelle il appartient. Attention ! Ne modifiez pas la colonne df['NameTitle'] !
- Une fois ce résultat atteint, appliquer la méthode ``.fillna()`` sur df['Age'] et passez-lui comme argument la Series nouvellement générée.

*Astuces*:
- Commencez par afficher la moyenne d'âge pour chaque 'NameTitle'.
- Pour générer le dictionnaire,  rappelez-vous que la méthode ``.unique()`` vous générera une liste de toutes les valeurs uniques d'une série.
- Calculez la moyenne d'un groupe en sélectionnant les bonnes lignes avec ``.loc``.

In [None]:
# Code here!


**>>>** Utilisez ``pd.qcut`` pour créer une nouvelle variable "AgeClass" qui divisera la distribution en 6 parts égales. Examinez également quel est le type de ce nouvel objet créé.

In [None]:
# Code here!


**>>>** Calculez le taux de survie pour chacune des classes d'âge.

In [None]:
# Code here!

### Embarkment

In [None]:
df['Embarked'].value_counts()

In [None]:
df['Embarked'].isna().sum()

**>>>** Nous avons 2 valeurs vides dans cette colonne. Remplissez-les par la lettre 'S' comme il s'agit de la valeur modale de la distribution.

In [None]:
# Code here!


**>>>** Faites un ``sns.countplot`` sur la colonne 'Embarked' en utilisant le paramètre 'hue' pour visualiser l'origine des classes sociales de chaque port.

In [None]:
# Code here!

### Cabin

La première lettre de chaque cabine peut nous être utile. En effet les passagers qui étaient dans des chambres proches des canots ont peut-être mieux survécu. Et le fait que la plupart des passagers n'ait pas de cabine a aussi pu jouer sur leur taux de survie.

In [None]:
df['Cabin'].isna().sum()

**>>>** Créez une nouvelle colonne nommée "CabinLetter" qui contient la première lettre de chaque Cabine. Attention car les valeurs de type `None` sont considérées comme des float, il faut penser à les convertir. Elles deviendront alors des "n" minuscules, cela nous convient très bien.

In [None]:
# Code here!


### Ticket

A priori les numéros des tickets ne nous sont d'aucune utilité. Pourtant les tickets possédant un numéro long semble être corrélé à un meilleur taux de survie. Testons cette hypothèse. Créez une colonne "TicketLen" contenant la longueur des tickets.

In [None]:
# Code here!


**>>>** Utilisez sns.countplot() pour afficher un graphique contenant la longueur des tickets en absisse, le count en ordonnée, et discriminé le tout (*hue*) par la colonne "survived".

In [None]:
# Code here!


### Modelisation

Nous allons ici utiliser une random forest. Il nous faut préparer les données et sélectionner nos *features* (X). Commençons par passer nos colonnes catégorielles en "dummy".

In [None]:
df.columns

In [None]:
df.dtypes

**>>>** Créez deux listes :
    
- Une première liste nommée "cat_cols" qui contiendra les noms de toutes colonnes catégorielles.
- Une deuxième liste nommée "num_cols" qui contiendra toutes les colonnes numériques.

In [None]:
# Code here!


**>>>** Transformez désormais toutes les colonnes catégorielles en *dummy* colonnes grâce à la fonction ``pd.get_dummies()``. Lorsque cela est fait créer un nouveau dataframe qui concatènera le df contenant les colonnes numériques et le df contenant les colonnes catégorielles "dummifiées" à l'aide de la fonction ``pd.concat``. Stockez ce nouveau dataframe dans une variable X. Vérifiez ensuite les *dtypes* de X.

In [None]:
# code here!


**>>>** Créez une variable nommée "y" qui contiendra la colonne 'Survived' (la valeur à prédire).

In [None]:
# code here!


**>>>** Utilisez la fonction ``train_test_split()`` pour créer vos variables X_train, X_test, y_train, y_test. Donnez 42 au paramètre random_state.

In [None]:
from sklearn.model_selection import train_test_split
# Code here!


## RandomForestClassifier

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report, ConfusionMatrixDisplay

**>>>** Dans la prochaine cellule écrivez quatre lignes de code :
- Déclarer un variable "rf" (pour *random forest*) qui contiendra le modèle RandomForestClassifier(). Utilisez 42 comme valeur pour le paramètre "random_state".
- Ajustez (*fittez*) le modèle sur votre jeu d'entraînement.
- Stockez les prédictions faites sur votre X_test dans une variable nommée "y_pred".
- Calculez le score de précision avec la fonction accuracy_score() en lui donnant y_test et y_pred comme argument. 

In [None]:
# Code here!


**>>>** Affichez la propriété 'feature_importances_' du modèle rf.

In [None]:
# Code here!


**>>>** Nous voulons visualiser chaque variable ainsi que son importance dans le résultat final de notre modèle.

Pour cela créez un nouveau DataFrame (inutile de le stocker dans une variable) à l'aide de la fonction ``pd.DataFrame``. Donnez-lui comme argument un objet ``zip`` de X.columns et de rf.feature_importances_. Nommez les colonnes 'variable' et 'importance' grâce au paramètre "columns". Puis réorganisez votre dataframe en utilisant ``.sort_values()`` de manière à ce qu'il soit classé par ordre décroissant de la colonne 'importance'.

In [None]:
# Code here!


**>>>** Pour mieux visualiser les performances de notre modèle, utilisez la fonction ``confusion_matrix()``. Donnez-lui comme arguments y_test et y_pred et comme label ``rf.classes_``. Stockez le résultat dans une variable "cm" et affichez-la.

In [None]:
# Code here!


**>>>** Utilisez désormais la fonction ``ConfusionMatrixDisplay()`` afin de mieux visualiser la matrice de confusion. Donnez comme argument au paramètre "confusion_matrix" notre variable "cm", et au paramètre "display_labels" l'argument ``rf.classes_``

In [None]:
# Code here!


**>>>** Finalement utilisez la fonction classification_report pour afficher les valeurs de la precision, du recall, et du f1-score.

In [None]:
# Code here!


## Bonus

- Utilisez un modèle de régression logistique.
- Faites varier votre X en entrée.

### Logistic Regression

In [None]:
from sklearn import linear_model
from sklearn.metrics import mean_squared_error
from sklearn.metrics import accuracy_score

In [None]:
# Code here!
