# Hands On Data Science: Prédire des survivants du Titanic

## Import

In [1]:
import numpy as np
import pandas as pd

from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, average_precision_score



In [3]:
# Il faut télecharger et importer les fichiers `train.csv` et `data_to_predict_and_submit.csv` dans le dossier 'titanic-survival-data' sur google drive ou sur github 
# Google drive : https://drive.google.com/drive/folders/1--oJAKwsdGB7AvXXub9F-pKtyzSsMxPj?usp=sharing
# GitHub : https://github.com/AGuyNextDoor/AProfNextDoor/tree/main/Exercises/Hands%20on%20Data%20Science

# Sinon envoyez un mail a : contact.aguynextdoor@gmail.com 

df_dataset = pd.read_csv('https://raw.githubusercontent.com/AGuyNextDoor/AProfNextDoor/main/Exercises/Hands%20on%20Data%20Science/titanic-survival-data/dataset.csv')
df_to_predict_and_submit = pd.read_csv('https://raw.githubusercontent.com/AGuyNextDoor/AProfNextDoor/main/Exercises/Hands%20on%20Data%20Science/titanic-survival-data/data_to_predict_and_submit.csv')

# Il faut télecharger les fichier csv pour ensuite les importer dans l'environnement de ce notebook collab. Vous pouvez les glisser dans les dossiers sur la gauche de l'environnement.
# Voici un lien internet expliquant comment télecharger les liens directement depuis github : https://towardsdatascience.com/3-ways-to-load-csv-files-into-colab-7c14fcbdcb92

## Exploratory Data Analysis

### **1.1 Overview**

Faire une overview du dataset dans sa globalité.


### **1.2 Missing Values**

- Trouver les features qui ont des valeurs `null` ou manquantes.
- Pour chaque feature qui possède des valeurs manquante, trouver comment et par quoi les remplacer.

### **1.3 Target Distribution**

Comment est ce que les données sont distribuées entre les survivants et les non-survivants?

### **1.4 Visualisation**

- Boxplot, outliers
- Graph
- Skewness


### **1.5 Correlations**

- Analyser les corrélations fortes
- Créer une Heatmap des corrélations entre features

## **2. Feature Engineering**

### **2.1 Frequency Encoding**

Certaines features peuvent être regroupés, sont trop fréquentes ou possèdent trop de valeures uniques.

### **2.2 Target Encoding**
Certaines valeurs possède des valeurs catégoriques ou non-numérique et doivent être encodés avec des valeurs numériques.

### **2.3 One-Hot Encoding the Categorical Features**

Transformer les features catégoriques grâce au one-hot-encoding.

### 2.4 Standard Scaling

Une fois que toutes les données numériques sont présente, appliquer une transformation standard pour que la moyenne des valeurs soient a 0 et mettre la variance a l'échelle.

## **3. Model**

Voici un exemple de léger nettoyage de votre donnée à l'état brute. Il faudra adapter ce morceau de code pour qu'il soit cohérent avec votre analyse et nettoyage.

In [9]:
SEED = 42
drop_cols = ['Embarked','Survived',
             'Name', 'Parch', 'PassengerId', 'Pclass', 'Sex', 'SibSp', 'Ticket']

X_train = df_train.drop(columns=drop_cols)
y_train = df_train['Survived'].values

print('X_train shape: {}'.format(X_train.shape))
print('y_train shape: {}'.format(y_train.shape))

X_train shape: (891, 3)
y_train shape: (891,)


### **3.1 Random Forest**

Un type de classification utilisant les forêts aléatoires. Ce modèle est imposé pour la soumission de l'exercice. Vous pouvez néamoins jouer avec les hyperparamètres du RandomForestClassifier.

In [11]:
single_best_model = RandomForestClassifier(criterion='gini', 
                                           n_estimators=1100,
                                           max_depth=5,
                                           min_samples_split=4,
                                           min_samples_leaf=5,
                                           max_features='auto',
                                           oob_score=True,
                                           random_state=SEED,
                                           n_jobs=-1,
                                           verbose=1)

In [14]:
clf = single_best_model.fit(X_train, y_train)
train_predict = clf.predict(X_train)


ValueError: could not convert string to float: 'C85'

In [None]:
# Voici certaines métriques pour évaluer votre modèle.
# N'hésitez pas à vous servir d'autres metriques qui pourrait vous aider à comprendre les perfomances complètes de votre modèle.

training_score = accuracy_score(train_predict, y_train)
average_precision = average_precision_score(train_predict, y_train)

print("Training accuracy_score is : ", format(training_score))
print("Training average_precision is : ", format(average_precision))

N'hésitez pas à conserver vos résultats pour chaque étape du nettoyage afin de voir la progression de votre analyse et nettoyage.

### **3.2 Submission**

Il faut prédire avec votre modèle, les données présente dans le fichier `data_to_predict_and_submit.csv`. Il faut que les données présente dans ce dataframe procède au même nettoyage que votre donnée d'entrainement.

Exportez votre prédiction dans un fichier `submit.csv`. Il faut que le format du csv soit similaire à celui du fichier `sample_submission.csv`.