# Partie 4 : Explorer le Titanic

## Importation des données

Vous devez charger un dataset sur les passagers du Titanic.
Pour cela, vous allez importer la bibliothèque pandas avec l'alias `pd` et charger un DataFrame `titanic` à partir d'un fichier csv disponible dans un URL. Attention, ce fichier a un séparateur ";" à renseigner :


In [None]:
import pandas as pd
# la commande suivante sert à afficher toutes les colonnes (pas de …)
pd.options.display.max_columns=100

titanic = pd.read_csv("https://bit.ly/2C2Tup2", sep=';')


Votre première tâche est celle d'utiliser `.head()` et `.tail()` pour afficher la première et la dernière entrée de ce dataset. Obtenez aussi des informations sur les types de données avec `.info()` et des indicateurs statistiques avec `.describe()`.

In [None]:
#head()

In [None]:
#tail()

In [None]:
#info()

In [None]:
#describe()

## Types de données

Grâce à .info() , vous observez que certaines colonnes sont reconnues avec le type "Object", alors qu'on pourrait les transformer en "category". Modifiez le type de donnée des colonnes 'sex', 'pclass', 'survived' et 'embarked' en utilisant  `.astype("category")`.

Si vous voulez connaître combien d'individus sont recensés dans chaque catégorie, vous pouvez utiliser la fonction `.value_counts()` appliquée à chaque colonne.

## Données manquantes et hors-format

Si vous avez fait attention à la sortie de .info(), la colonne 'age' manque certaines cases (des valeurs NaN sont utilisés à leur place). De plus, certaines âges sont représentés en tant que valeurs réelles (0,85 par exemple), mais utilisant une virgule au lieu d'un point (ce qui est attendu par l'ordinateur).

Utiliser, dans cet ordre, des fonctions pour :
1. remplacer la virgule ;
2. remplir les cases vides avec la valeur "28" ;
3. changer le type de données en float32.


In [None]:
# virgules

In [None]:
# cases vides

In [None]:
# float32

Étudiez la sortie de .info() et .describe() après ces modifications.

## Supprimer les colonnes "inutiles"
Certaines colonnes ne seront pas utilisées dans notre exercice, vous pouvez les supprimer avec la fonction `.drop()`. On donnera comme paramètres un array avec les noms des colonnes à supprimer `('body','ticket','fare','cabin','name','boat','home.dest')`, ainsi que l'option `axis=1` pour indiquer qu'on souhaite supprimer les colonnes. 


## Graphique "camembert"
On veut afficher sur un graphique "camembert" les distributions des colonnes `survived` et `pclass`. Pour cela, on utilisera la bibliothèque Matplotlib.

In [None]:
import matplotlib.pyplot as plt
sizes=titanic['survived'].value_counts()
fig1, ax1 = plt.subplots()
ax1.pie(sizes, autopct='%1.1f%%', startangle=90)
ax1.axis('equal') # Equal aspect ratio ensures that pie is drawn as a circle.
plt.show()


Renseignez-vous sur d'autres options Matplotlib pour l'affichage de graphiques camembert. Par exemple, sauriez-vous faire un plot "3D" (avec une petite zone d'ombre pour simuler la profondeur) ? Ou détacher l'une des "tranches" de valeurs ? 

Créer un graphique aussi pour la variable `pclass` (la classe des billets)

## Boxplot
Maintenant, on fera un graphique "boxplot" à partir de la colonne "age". Bien qu'il soit possible de le faire avec Matplotlib, il est bien plus simple (et joli) de le faire en utilisant la bibliothèque Seaborn.

In [None]:
import seaborn as sns
sns.boxplot(titanic['age'], orient='v')
plt.show()

Renseignez-vous sur le type d'information présentée avec les graphiques `boxplot`.

Maintenant, rajoutez une colonne `pclass` à `boxplot` et analysez le résultat.

## Histogramme

Toujours intéressés par la colonne "age", nous voulons maintenant faire un histogramme. Avec Matplotlib, il suffit d'utiliser la fonction `plt.hist()`, d'indiquer la source des données et le nombre de 'barres' (*bins*). Affichez l'histogramme pour 8 groupes d'âge.

## Pairplots

Parfois on cherche des corrélations entre les variables. Les pairplots sont des importantes aides visuelles, croisant différentes variables dans un même écran.
 Utiliser le code ci-dessous pour générer l'image (on la sauvegardera dans un fichier car elle est trop grande pour la petite fenêtre d'affichage).
 Quelle information vous pouvez en tirer des relations entre les variables ici présentes ? 

In [None]:
sns.pairplot(titanic,vars=['pclass','sex','age','embarked','survived'])

## Données catégorisées
Au lieu d'afficher les âges, nous voulons les regrouper en 4 groupes : enfants, jeunes, adultes et seniors. À partir de la colonne `age`, utiliser la fonction `.cut()` pour générer une nouvelle colonne (qu'on appelera **classes**), avec ces catégories. N'oubliez pas de donner des labels à chaque classe (enfants, jeunes, adultes, seniors).

*si vous êtes curieux, essayez de donner les bornes de chaque classe : 0-12 enfants, 12-20 jeunes, 20-50 adultes, 50- seniors).


In [None]:
titanic['classes'] = pd.cut(titanic["age"], bins=4, labels=['enfants','jeunes','adultes','seniors']).astype('category')

## Machine Learning part 1

On a fini la préparation des données, maintenant on souhaite tester différentes méthodes de machine learning (sans entrer encore dans les détails). 
Nous allons commencer par la transformation des données quantitatives ('sex', 'pclass', etc.) grâce à `.get_dummies()` :

In [None]:
dummies=['classes','sex','embarked','survived']
intercept=pd.get_dummies(titanic,columns=dummies,drop_first=True)


À quoi ressemblent ces nouvelles colonnes ?

Finalement, nous allons générer un dataset d'entraînement et autre de test. Pour cela, on sépare les colonnes avec les variables d'entrée et la colonne à prédire. Ensuite, on générera les datasets en réservant 25% des données pour la partie test :

In [None]:
from sklearn.model_selection import train_test_split
titaX = intercept.drop(intercept.columns[-1],axis=1) 
titaY = intercept[intercept.columns[-1]] 
X_train, X_test, Y_train, Y_test = train_test_split(titaX, titaY, test_size=0.25)

### Régression Linéaire simple
On démarrera par une régression linéaire simple (multivariate). 
Grâce à Scikit-Learn, on a déjà un "regresseur" tout prêt à être utilisé. 
On affichera les "poids" de chaque variable puis on fera des prédictions avec le dataset de test, et afficher la comparaison sous forme graphique.


In [None]:
from sklearn.linear_model import LinearRegression
regressor = LinearRegression() 
regressor.fit(X_train, Y_train)

coeff_df = pd.DataFrame(regressor.coef_, titaX.columns, columns=['Coefficient']) 
print(coeff_df)

Y_pred = regressor.predict(X_test)
dif = pd.DataFrame({'Actual': Y_test, 'Predicted': Y_pred})
dif1 = dif.head(25)



In [None]:
dif1.plot(kind='bar',figsize=(10,8))
plt.grid(which='major', linestyle='-', linewidth='0.5', color='green')
plt.grid(which='minor', linestyle=':', linewidth='0.5', color='black')
plt.savefig('diff.png')


Que veut dire cet extrait de la sortie ? Est-ce que les prévisions (en orange) correspondent bien aux valeurs réelles pour les individus du groupe de test ? 

## K plus proches voisins et Random Forests
Comme les prédictions avec la régression linéaire sont loin d'être précises, on essayera avec deux autres méthodes, les KNN et les RandomForests.



In [None]:
# KNN
from sklearn.neighbors import KNeighborsClassifier

modelknn=KNeighborsClassifier()
modelknn.fit(X_train,Y_train)

y_pred_knn = modelknn.predict(X_test)
dif = pd.DataFrame({'Actual': Y_test, 'Predicted': y_pred_knn})
dif1 = dif.head(25)

dif1.plot(kind='bar',figsize=(10,8))
plt.grid(which='major', linestyle='-', linewidth='0.5', color='green')
plt.grid(which='minor', linestyle=':', linewidth='0.5', color='black')


In [None]:
#RandomForest
from sklearn.ensemble import RandomForestClassifier
modelrf=RandomForestClassifier()
modelrf.fit(X_train,Y_train)

y_pred_rf = modelrf.predict(X_test)
dif = pd.DataFrame({'Actual': Y_test, 'Predicted': y_pred_rf})
dif2 = dif.head(25)

dif2.plot(kind='bar',figsize=(10,8))
plt.grid(which='major', linestyle='-', linewidth='0.5', color='green')
plt.grid(which='minor', linestyle=':', linewidth='0.5', color='black')


## Métriques

Les deux sorties précédentes semblent être plus "proches" des valeurs attendues, mais elles se trompent encore des fois.
Utilisez les métriques suivantes pour comparer les trois méthodes (régression linéaire, KNN, Random Forest).
Renseignez-vous sur la signification de chacune de ces métriques, leurs avantages et inconvénients.

* le code ci-dessous est juste pour les RandomForest, à vous de faire pareil pour les autres modèles.

In [None]:
import sklearn.metrics as metrics
import numpy as np
print('Mean Absolute Error (MAE):', metrics.mean_absolute_error(Y_test, y_pred_rf)) 
print('Mean Squared Error (MSE):', metrics.mean_squared_error(Y_test, y_pred_rf)) 
print('Root Mean Squared Error (RMSE):', np.sqrt(metrics.mean_squared_error(Y_test, y_pred_rf)))
