# Titanic - Apprentissage supervisé - classification

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/f/fd/RMS_Titanic_3.jpg/1280px-RMS_Titanic_3.jpg" width="450" />

Le RMS Titanic est un paquebot transatlantique britannique qui fait naufrage dans l'océan Atlantique Nord en 1912 à la suite d'une collision avec un iceberg, lors de son voyage inaugural de Southampton (Angleterre) à New York (Etats-Unis d'Amérique). Entre 1 490 et 1 520 personnes trouvent la mort, ce qui fait de cet événement l'une des plus grandes catastrophes maritimes survenues en temps de paix et la plus grande pour l'époque.
- [source wikipedia](https://fr.wikipedia.org/wiki/Titanic)

Le jeu de données (ou dataset) du Titanic est un peu le hello world pour l'apprentissage supervisé, le but est de trouver si les personnes présentent dans le fichier de données non-labellisées (test_data.csv) auraient survécu ou non lors du nauvrage de "l'insubmersible".
Le résultat étant représenté par une donnée discrète (Survie ou non), deux classes distinctes, nous allons utiliser un algorithme de classification, voici une liste non exhaustive d'algorithmes de classification, donc d'apprentissage supervisés :
- L'arbre décisionnel (Decision Tree)
- Forêt d'arbres décisionnels (Random Forest)
- Régression Logistique (Logistic Regression)

Mis à part l'arbre décisionnel, il n'y pas de méthodes meilleures qu'une autre, disons plutôt qu'il y en a une plus adaptée qu'une autre.

# L'arbre décisionnel (Decision Tree)

Le principe de l'arbre de décision est très simple : on parcourt un ensemble de décisions et on parcourt l'arbre jusqu'à arriver à la solution.
![schéma arbre décisionnel](../_images/decision-tree.png)
Voici un exemple d'arbre décisionnel concernant le jeu de données du Titanic. Vous remarquerez qu'un arbre de décision est très facile à lire, même sans avoir de connaissances en informatique / mathématiques.

Grâce à l'algorithme d'arbre décisionnel, nous n'avons qu'à désigner les caractéristiques qui vont servir à prendre les décisions, le nombre de noeuds ("questions"), et le reste sera fait tout seul. L'algorithme cherchant à trouver les questions les plus pertinentes, pour arriver à la réponse finale, dans notre cas il s'agit de la survie d'un passager du Titanic. 

Le problème de cette méthode, c'est quelle est très instable concernant les résultats, étant donné qu'il n'y a qu'un seul et unique test, un arbre parcouru autrement dit, notre modèle peut être fortement soumis au surapprentissage (overfitting). Ce qui fait que lors de la phase de test sur données non-labellisées, le résultat sera aléatoire. Et en ML, on essaye le plus possible de limiter la variance des résultats. C'est là qu'entre en jeu l'algorithme de forêt d'arbres décisionnels (Random Forest).

# Forêt d'arbres décisionnels (Random Forest)

L'algorithme de forêt d'arbres décisionnels reprend le même principe que l'algorithme d'arbre décisionnel à la différence prêt que la forêt d'arbres décisionnels va multiplier le nombre d'arbres, le nombre de questions (enbranchements) resteront les mêmes, en revanche les questions posées, elles changeront aussi bien au niveau de l'ordre que leur contenu, ceci limite donc les risques de surapprentissage étant donné que notre modèle ne voit pas la même chose à chaque fois. On en déduit donc que plus il y a d'arbres dans notre forêt, moins notre modèle sera soumis au surentraînement. Néanmoins, effectuer un million d'arbres n'a pas vraiment d'intérêt.

![schéma arbre décisionnel](../_images/decision-tree-vs-random-forest.png)

A la fin, notre algorithme va définir un seul et unique arbre basé sur les résultats des différents arbres.

- [Différence arbre décisionnel et Forêt d'arbres décisionnels - anglais](https://towardsdatascience.com/decision-trees-and-random-forests-df0c3123f991)

# Pour les utilisateurs de Google colab

Petit apparté pour les utilisateurs de google colab. Pour utiliser la méthode `pd.read_csv()`, il faudra rajouter quelques lignes de codes supplémentaires pour pouvoir charger un fichier, les voici.


```python
# Première cellule jupyter
from google.colab import files
uploaded = files.upload()
```

```python
# Seconde cellule jupyter
import io
# Très important : le nom du fichier passé en paramètre de la fonction "uploaded" doit avoir le même nom que le fichier que vous avez uploadé
df = pd.read_csv(io.BytesIO(uploaded['nom-du-fichier-uploader.csv']))
```

- [Voir plus  d'informations sur le chargement de fichiers externes avec Google colab](https://towardsdatascience.com/3-ways-to-load-csv-files-into-colab-7c14fcbdcb92)

# Charger des fichiers distants (depuis un serveur)

La classe `request` de Python permet d'effectuer des requêtes serveur, on peut l'utiliser de la façon suivante pour **télécharger** un fichier distant.

```python
request.urlretrieve ("lien-du-fichier", "reference-locale-du-fichier")
df = pd.read_csv("reference-locale-du-fichier")
```

# Pratiquons !

Maintenant que nous avons vu deux algorithmes de classification, nous pouvons nous essayer à l'apprentissage supervisé avec les données des passagers du RMS Titanic. Et comme d'habitude, on commence par... 

# à-vous-de-remplacer-le-titre

In [84]:
# Vu qu'on va manipuler des dataframes, on n'oublie pas d'importer "pandas" et "numpy"
import numpy as np
import pandas as pd

# Ensuite on charge nos données
# train.csv va nous servir à entraîner notre modèle
# test_data.csv nous servira après pour valider notre modèle en utilisant des donnes non-labellisées
entrainement_df = pd.read_csv("train_data.csv")



test_df = pd.read_csv("test_data.csv")
# Faire la même chose avec le fichier de test

entrainement_df['Age'].fillna(entrainement_df['Age'].mean(), inplace=True)
test_df['Age'].fillna(test_df['Age'].mean(), inplace=True)

# entrainement_df['Age'] = entrainement_df['Age'].astype(int)
#display(entrainement_df.head())
display(entrainement_df.dtypes) 
entrainement_df.isna().sum()

PassengerId      int64
Survived       float64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
WikiId         float64
Name_wiki       object
Age_wiki       float64
Hometown        object
Boarded         object
Destination     object
Lifeboat        object
Body            object
Class          float64
dtype: object

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
WikiId           2
Name_wiki        2
Age_wiki         4
Hometown         2
Boarded          2
Destination      2
Lifeboat       546
Body           804
Class            2
dtype: int64

## Explication des noms des colonnes
Liste non-exhaustive
- PassengerId : Identifiant unique du passager
- Survived : 0 = Décès, 1 = En vie
- Pclass : La classe de voyage (1 = 1ere classe, 2 = 2ème classe, 3 = 3ème classe)
- Name : Le nom du passager
- Sex : Le sexe du passager
- Age : L’age du passager
- SibSp (Siblings / Spouses) : Le nombre de frères et soeurs ou époux / épouses à bord
- Parch (Parents / Children) : Le nombre de parents ou enfants à bord
- Ticket : Le numéro du billet de voyage
- Fare : Le prix du billet de voyage
- Cabin : Le numéro de la cabine
- Lifeboat : Identifiant du canot de sauvetage
- Destination : Lieu de destination du Passager
- Body : identifiant du corps
- Embarked : Lieu d’embarquement du passager (C = Cherbourg, S = Southampton, Q = Queenstown)

Essayons de répondre aux questions suivantes, ceci nous permettra de mieux comprendre notre jeu de données  :
- Combien il y avait de femmes / hommes ?
- Quel est le ratio de femmes / hommes survivants ?
- Quel est l'âge moyen des passagers ?
- Quel est la femme survivante la plus âgée ? (ligne)
- Quel est l'âge de l'homme survivant le plus jeune ? (valeur)

# A vous de coder

A partir du DataFrame d'entraînement (train_data.csv), répondre aux questions précédentes. N'oubliez pas la fonction `display()` pour afficher les résultats.

In [35]:
# Combien il y avait de femmes ?
nbr_femmes = len(entrainement_df[entrainement_df.Sex == "female"])
display(f"Il y avait {nbr_femmes} femmes sur le Titanic")


'Il y avait 314 femmes sur le Titanic'

# Nettoyage de données

Notre but est de trouver si les membres de notre fichier de test (test_data.csv) auraient survécu lors du naufrage du Titanic. Pour ce faire, nous allons utiliser un algorithme supervisé de classification, en l'occurence celui de la forêt d'arbres décisionnels (voir plus haut pour le principe de l'algorithme).

C'est la bibliothèque scikit-learn qui va nous aider pour l'apprentissage automatique, elle est très utilisée dans le monde professionnelle et intégrée nativement à Jupyter, toutefois, il ne faut pas oublier de l'importer pour pouvoir l'utiliser. La bibliothèque étant très complexe nous allons limiter l'import qu'à l'algorithme de "Forêt d'arbres décisionnels" avec la ligne de code suivante `from sklearn.ensemble import RandomForestClassifier`.

# A nous de coder

In [151]:
# On importe la classe permettant d'utiliser l'algorithme de forêt d'arbres décisionnels
from sklearn.ensemble import RandomForestClassifier

# La première chose que nous allons faire c'est désigner les features de notre modèle, 
# autrement dit, les caractéristiques de notre dataframe qui peuvent avoir une importance sur la survie d'une personne
# Par exemple le nom d'un passager ou sa destination ne risque pas d'influencer sa survie.

# Ici on met notre liste de features, 
# les paramètres qu'on estime importants quant à la survie ou non d'un passager lors du naufrage du RMS Titanic.
liste_features = ['Pclass', 'SibSp','Parch', "Sex"]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,...,WikiId,Name_wiki,Age_wiki,Hometown,Boarded,Destination,Lifeboat,Body,Class,AgeBand
0,1,0.0,3,"Braund, Mr. Owen Harris",male,22.000000,1,0,A/5 21171,7.2500,...,691.0,"Braund, Mr. Owen Harris",22.0,"Bridgerule, Devon, England",Southampton,"Qu'Appelle Valley, Saskatchewan, Canada",,,3.0,"(16.336, 32.252]"
1,2,1.0,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.000000,1,0,PC 17599,71.2833,...,90.0,"Cumings, Mrs. Florence Briggs (née Thayer)",35.0,"New York, New York, US",Cherbourg,"New York, New York, US",4,,1.0,"(32.252, 48.168]"
2,3,1.0,3,"Heikkinen, Miss. Laina",female,26.000000,0,0,STON/O2. 3101282,7.9250,...,865.0,"Heikkinen, Miss Laina",26.0,"Jyväskylä, Finland",Southampton,New York City,14?,,3.0,"(16.336, 32.252]"
3,4,1.0,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.000000,1,0,113803,53.1000,...,127.0,"Futrelle, Mrs. Lily May (née Peel)",35.0,"Scituate, Massachusetts, US",Southampton,"Scituate, Massachusetts, US",D,,1.0,"(32.252, 48.168]"
4,5,0.0,3,"Allen, Mr. William Henry",male,35.000000,0,0,373450,8.0500,...,627.0,"Allen, Mr. William Henry",35.0,"Birmingham, West Midlands, England",Southampton,New York City,,,3.0,"(32.252, 48.168]"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0.0,2,"Montvila, Rev. Juozas",male,27.000000,0,0,211536,13.0000,...,514.0,"Montvila, Father Juozas",27.0,"Gudinė, Lithuania [76]",Southampton,"Worcester, Massachusetts, US",,,2.0,"(16.336, 32.252]"
887,888,1.0,1,"Graham, Miss. Margaret Edith",female,19.000000,0,0,112053,30.0000,...,137.0,"Graham, Miss Margaret Edith",19.0,"Greenwich, Connecticut, US",Southampton,"Greenwich, Connecticut, US",3,,1.0,"(16.336, 32.252]"
888,889,0.0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,29.699118,1,2,W./C. 6607,23.4500,...,910.0,"Johnston, Miss Catherine Nellie",7.0,"Thornton Heath, London, England",Southampton,"New London, Connecticut, US",,,3.0,"(16.336, 32.252]"
889,890,1.0,1,"Behr, Mr. Karl Howell",male,26.000000,0,0,111369,30.0000,...,28.0,"Behr, Mr. Karl Howell",26.0,"New York, New York, US",Cherbourg,"New York, New York, US",5,,1.0,"(16.336, 32.252]"


Ensuite, on va catégoriser nos features, on a vu précédemment que les algorithmes de classification fonctionnent avec des données qualitatives ou quantitatives. Mais en programmation, on reste toujours plus performant avec des chiffres, 
c'est là qu'entre en jeu l'encodage des données. Le but de cette phase est de transformer en chiffres des données textuelles et pandas a une fonction pour ça, la fonction "get_dummies()" qui prend en paramètres nos features.

![schéma one hot](../_images/one-hot.png)
https://fr.wikipedia.org/wiki/Encodage_one-hot

In [148]:
# On applique la fonction sur les deux jeux de données
X_entrainement = pd.get_dummies(entrainement_df[liste_features])
X_test = pd.get_dummies(test_df[liste_features])

# X_train, X_test sont donc maintenant prêtes à être utilisé par l'algorithme.
# Il nous manque une petite chose, définir la feature de sortie, dans notre cas "Survived"
# grâce à la ligne suivante
Y_entrainement = entrainement_df['Survived']

foret_decisions = RandomForestClassifier(n_estimators=100, max_depth=5, random_state = 1)
foret_decisions.fit(X_entrainement, Y_entrainement)
modele_predictions = foret_decisions.predict(X_test)

acc_random_forest = round(foret_decisions.score(X_entrainement, Y_entrainement) * 100, 2)
print(acc_random_forest)

predictions_df = pd.DataFrame({"Name" : test_df.Name, "PassengerId" : test_df.PassengerId, "Survived": predictions})
print(len(predictions_df[predictions_df.Survived == 1.0]))
# predictions_df.to_csv("hello.csv")

81.59
143


In [149]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(pd.get_dummies(entrainement_df[liste_features]), Y_entrainement, test_size=0.2)

display(x_train, x_test, y_train, y_test)

Unnamed: 0,Pclass,SibSp,Parch,Sex_female,Sex_male
637,2,1,1,0,1
22,3,0,0,1,0
565,3,2,0,0,1
873,3,0,0,0,1
203,3,0,0,0,1
...,...,...,...,...,...
267,3,1,0,0,1
279,3,1,1,1,0
549,2,1,1,0,1
536,1,0,0,0,1


Unnamed: 0,Pclass,SibSp,Parch,Sex_female,Sex_male
436,3,2,2,1,0
45,3,0,0,0,1
688,3,0,0,0,1
360,3,1,4,0,1
537,1,0,0,1,0
...,...,...,...,...,...
605,3,1,0,0,1
15,2,0,0,1,0
77,3,0,0,0,1
766,1,0,0,0,1


637    0.0
22     1.0
565    0.0
873    0.0
203    0.0
      ... 
267    1.0
279    1.0
549    1.0
536    0.0
420    0.0
Name: Survived, Length: 712, dtype: float64

436    0.0
45     0.0
688    0.0
360    0.0
537    1.0
      ... 
605    0.0
15     1.0
77     0.0
766    0.0
703    0.0
Name: Survived, Length: 179, dtype: float64

In [121]:
from sklearn.model_selection import validation_curve

k = np.arange(1, 2)
train_score, val_score = validation_curve(RandomForestClassifier(), X_entrainement, Y_entrainement, param_range = k, param_name = "max_depth", cv=5)

display(train_score.flatten())

data = pd.DataFrame(np.array([train_score.flatten()]))


array([0.78230337, 0.7826087 , 0.78681627, 0.79523142, 0.78681627])

In [94]:
from urllib import request
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()


request.urlretrieve ("https://s3-eu-west-1.amazonaws.com/static.oc-static.com/prod/courses/files/Parcours_data_scientist/decouvrez-les-librairies-python-pour-la-data-science/hubble_data.csv", "be.csv")
hubble = pd.read_csv("ble.csv")

from sklearn.linear_model import LinearRegression

X = hubble.distance.values.reshape(-1,1)
Y = hubble.recession_velocity
lr = LinearRegression()
lr.fit(X, Y)

Y_test = np.array([.032, 1.5, 2.0, .6]).reshape(-1, 1)
y_predict = lr.predict(Y_test)

display(np.array([15, 20, 60]))
display(np.array([15, 20, 60]).reshape(-1, 1))

print(lr.coef_) # a de ax + b
print(lr.intercept_) # b de ax +b 

display(type(Y_test))
LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)



BIGGER_SIZE = 15
plt.rc('font', size=BIGGER_SIZE) # taille de texte par défaut
plt.rc('axes', titlesize=BIGGER_SIZE) # taille des titres des axes
plt.rc('axes', labelsize=BIGGER_SIZE) # taille des labels des axes
plt.rc('xtick', labelsize=BIGGER_SIZE) # taille des ticks des ascisses

plt.rc('ytick', labelsize=BIGGER_SIZE) # taille des ticks des ordonnées
plt.rc('legend', fontsize=BIGGER_SIZE) # taille de la légende
plt.rc('figure', titlesize=BIGGER_SIZE) # taille du titre
plt.figure()
plt.title("Données de Hubble")
plt.scatter(X, Y, color='black', label="données")
plt.plot(X, lr.predict(X), color='red', linewidth=3, label="prédiction")
plt.xlabel("Distance")
plt.ylabel("Vitesse de récession")
plt.legend()
plt.show()

display(Y_test)
display(y_predict)
df = pd.DataFrame({'Actual': Y_test.flatten(), 'Predicted': y_predict})
df

#pd.DataFrame({
 #   "Feature":hubble.columns.tolist(), "Coefficients" :lr.coef_[0]
#})


FileNotFoundError: [Errno 2] No such file or directory: 'ble.csv'