<a href="https://colab.research.google.com/github/crystalloide/Big_Data/blob/master/Pr%C3%A9paration_des_donn%C3%A9es_-_Exemple_sur_le_jeu_de_donn%C3%A9es_Naufrage_du_Titanic.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
!pip install --upgrade kagglehub

In [None]:
# IMPORTANT : CERTAINES SOURCES DE DONNÉES KAGGLE SONT PRIVÉES
# EXÉCUTEZ CETTE CELLULE POUR IMPORTER VOS SOURCES DE DONNÉES KAGGLE.
import kagglehub
kagglehub.login()


In [None]:
# IMPORTANT : EXÉCUTEZ CETTE CELLULE POUR IMPORTER VOS SOURCES DE DONNÉES KAGGLE,
# PUIS, N'HÉSITEZ PAS À SUPPRIMER CETTE CELLULE.
# REMARQUE : CET ENVIRONNEMENT PORTABLE DIFFÈRE DE L'ENVIRONNEMENT PYTHON DE KAGGLE.
# IL PEUT DONC MANQUER DES BIBLIOTHÈQUES UTILISÉES PAR VOTRE PORTABLE.

titanic_path = kagglehub.competition_download('titanic')

print('Data source import complete.')

!ls
!pwd
!rm gender_submission.csv
!rm test.csv
!rm train.csv
!unzip /titanic.zip

!ls


# **Tutoriel général de préparation des données**


### Bienvenue dans ce tutoriel de préparation de données. Ce notebook est destiné aux débutants qui souhaitent apprendre à préparer correctement un jeu de données afin de le transmettre à un algorithme de machine learning. Je vous encourage à créer un fork de ce notebook, à tester le code et à l'améliorer !

![](https://2s7gjr373w3x22jf92z99mgm5w-wpengine.netdna-ssl.com/wp-content/uploads/2016/07/shutterstock_data_prep_-faithie.jpg)

### Voici quelques ressources supplémentaires que vous pouvez consulter pour approfondir la compréhension des différentes techniques que nous allons voir dans ce cahier :

[*Gérer les valeurs manquantes*](https://towardsdatascience.com/tag/handling-missing-values/)

[*Ingénierie des fonctionnalités*](https://machinelearningmastery.com/metrics-evaluate-machine-learning-algorithms-python/)

[*Pourquoi l'encodage à chaud en apprentissage automatique ?*](https://machinelearningmastery.com/why-one-hot-encode-data-in-machine-learning/)

[*Piège à variables fictives*](https://www.algosome.com/articles/dummy-variable-trap-regression.html)

[*Encodage à chaud*](https://www.kaggle.com/dansbecker/using-categorical-data-with-one-hot-encoding)

[*Mise à l'échelle et Normalisation*](https://medium.com/greyatom/why-how-and-when-to-scale-your-features-4b30ab09db5e)

## **Table des matières**

[**1. Traitement des valeurs manquantes et des valeurs aberrantes**](#1)

[**2. Ingénierie des caractéristiques**](#2)

[**3. Gestion des fonctionnalités catégorielles**](#3)

[**4. Mise à l'échelle des caractéristiques**](#4)

In [None]:
!pip install chart-studio
import pandas as pd
import numpy as np
import missingno as mn
import seaborn as sns
sns.set()
%matplotlib inline
import matplotlib.pyplot as plt
from IPython.display import display
from sklearn.preprocessing import StandardScaler

# Remplacement des imports obsolètes de Plotly
import chart_studio.plotly as py
import plotly.graph_objects as go
from plotly.offline import iplot, init_notebook_mode
import cufflinks
cufflinks.go_offline(connected=True)
init_notebook_mode(connected=True)

import warnings
warnings.filterwarnings('ignore')

def draw_missing_data_table(df):
    total = df.isnull().sum().sort_values(ascending=False)
    percent = (df.isnull().sum()/df.isnull().count()).sort_values(ascending=False)
    missing_data = pd.concat([total, percent], axis=1, keys=['Total', 'Percent'])
    return missing_data

In [None]:
# Path of datasets
titanic_df = pd.read_csv('train.csv')
titanic_df.head()

## **1. Traitement des valeurs manquantes et des valeurs aberrantes** <a id="1"></a>

#### Le premier problème rencontré lors de la préparation des données pour leur transmission à un algorithme d'apprentissage automatique est celui des données manquantes. En effet, la plupart des jeux de données, notamment ceux issus de données réelles, présentent des valeurs manquantes. Par exemple, notre jeu de données titanesque présente des valeurs manquantes :

In [None]:
missing_values = titanic_df
sns.heatmap(missing_values.isnull(), cbar=False)
# Option 1 :
plt.show()
# Option 2 :
mn.matrix(missing_values)

### Si une caractéristique (une colonne de notre jeu de données) ne présente pas trop de valeurs manquantes, nous pouvons essayer de les compléter. Il existe plusieurs méthodes pour ce faire :

- S'il y a trop de données manquantes (> 60 %), vous pouvez supprimer la colonne :

titanic_df.drop('Cabin', axis=1, inplace=True)

- S'il y a peu de données manquantes (1 à 2 %), vous pouvez supprimer les lignes contenant NAN :

titanic_df['Age'].dropna(inplace=True)

### Une meilleure solution pour un petit nombre de données manquantes consiste à étudier chaque observation au cas par cas et à remplacer les valeurs manquantes en examinant d'autres caractéristiques de cette observation, puis en essayant de trouver une tendance entre elles afin de déterminer la valeur manquante.

- En général, nous ne souhaitons pas perdre de données. Une solution consiste à remplacer les valeurs manquantes par la moyenne ou la médiane de la colonne. Privilégiez la médiane pour les colonnes contenant des valeurs aberrantes susceptibles de fausser la moyenne.

titanic_df['Age'].fillna(titanic_df['Age'].mean(), 1, inplace=True)
titanic_df['Age'].fillna(titanic_df['Age'].median(), 1, inplace=True)

### La stratégie de remplissage des valeurs manquantes dépend fortement du jeu de données et de votre imagination ! Soyez donc créatifs, demandez-vous pourquoi ces données sont manquantes et comment les remplacer intelligemment ! N'oubliez pas d'essayer différentes méthodes de remplacement et de mesurer leur impact sur les performances de votre modèle. Examinons maintenant notre jeu de données Titanic :

### Il ne manque que deux valeurs pour la colonne « Embarqué ». Essayons de les remplacer. Voici la répartition des « Embarqués » selon le tarif et le sexe, ainsi que les deux observations pour lesquelles la valeur « Embarqué » est manquante. Analysons ces deux observations et choisissons la valeur « Embarqué » la plus adaptée en fonction de leur tarif et de leur sexe :

In [None]:
figure, axes = plt.subplots(1,1,figsize=(20, 8))
plot = sns.catplot(x="Embarked", y="Fare", hue="Sex", data=titanic_df, palette=('nipy_spectral'), kind="bar", ax=axes)
plt.close(plot.fig)
plt.show()
display(titanic_df[titanic_df['Embarked'].isnull()])

### Les deux passagères sont des femmes qui ont payé 80 dollars pour leur billet. De plus, elles ont le même billet et la même cabine ; elles ont donc probablement dû embarquer au même endroit ! D'après la distribution ci-dessus, la valeur d'embarquement la plus probable pour elles est Cherbourg (C). Remplaçons ces valeurs manquantes :

In [None]:
titanic_df['Embarked'].fillna('C', inplace=True)

### Pour l'âge, nous avons 177 valeurs manquantes ; c'est beaucoup trop pour les examiner au cas par cas. Nous allons la remplacer par la médiane, même s'il existe peut-être une meilleure solution prenant en compte d'autres colonnes. Si vous trouvez une solution pour remplacer les valeurs d'âge manquantes qui améliore considérablement la précision de votre modèle, n'hésitez pas à la partager dans les commentaires !

In [None]:
titanic_df['Age'].fillna(titanic_df['Age'].median(), inplace=True)

### Enfin, la colonne « Cabin » (cabine) permet de trouver le pont où se trouve la cabine du passager : nous la conserverons donc. Remplaçons les valeurs manquantes par « U », c'est-à-dire 'Unkown':

In [None]:
titanic_df['Cabin'].fillna('U', inplace=True)

In [None]:
draw_missing_data_table(titanic_df[['Cabin', 'Age', 'Embarked']])

## **2. Ingénierie des caractéristiques** <a id="2"></a>

### L'ingénierie des caractéristiques est l'art de créer de nouvelles caractéristiques à partir de caractéristiques existantes ou de connaissances sur les données. Par exemple, une simple recherche sur Internet permet de déterminer que la première lettre de la colonne « cabine » correspond au pont du bateau où se trouve la cabine. Ainsi, nous pouvons créer une entité « Pont » à partir de la caractéristiques « cabine ». Nous pouvons également créer une colonne « Titre » correspondant au titre de chaque passager. La création de caractéristiques est la seule limite ! Mais gardez à l'esprit que l'objectif n'est pas de créer des caractéristiques simplement pour créer des caractéristiques, mais d'améliorer la précision du modèle ! Voici quelques exemples de création de caractéristiques pour le jeu de données Titanic :

In [None]:
# Deck column from letter contained in cabin
titanic_df['Deck'] = titanic_df['Cabin'].str[:1]
titanic_df['Deck'] = titanic_df['Cabin'].map({cabin: p for p, cabin in enumerate(set(cab for cab in titanic_df['Cabin']))})

# Title column from title contained in name
titanic_df['Title'] = pd.Series((name.split('.')[0].split(',')[1].strip() for name in titanic_df['Name']), index=titanic_df.index)
titanic_df['Title'] = titanic_df['Title'].replace(['Lady', 'the Countess','Countess','Capt', 'Col','Don', 'Dr', 'Major', 'Rev', 'Sir', 'Jonkheer', 'Dona'], 'Rare')
titanic_df['Title'] = titanic_df['Title'].replace(['Mlle', 'Ms'], 'Miss')
titanic_df['Title'] = titanic_df['Title'].replace('Mme', 'Mrs')

# Famillysize columns obtained by adding number of sibling and parch
titanic_df['FamillySize'] = titanic_df['SibSp'] + titanic_df['Parch'] + 1
titanic_df['FamillySize'][titanic_df['FamillySize'].between(1, 5, inclusive='neither')] = 2
titanic_df['FamillySize'][titanic_df['FamillySize']>5] = 3
titanic_df['FamillySize'] = titanic_df['FamillySize'].map({1: 'Alone', 2: 'Medium', 3: 'Large'})

# IsAlone and IsChild column, quite explicit
titanic_df['IsAlone'] = np.where(titanic_df['FamillySize']!=1, 0, 1)
titanic_df['IsChild'] = titanic_df['Age'] < 18
titanic_df['IsChild'] = titanic_df['IsChild'].astype(int)

### Once we've finished to create our new features, we can delete all useless remaining columns and print the first rows of our dataset:

In [None]:
titanic_df = titanic_df.drop(['Name', 'Ticket', 'PassengerId', 'Cabin'], axis=1)
titanic_df.head()

## **3. Gestion des fonctionnalités catégorielles** <a id="3"></a>

### Comme vous pouvez le constater en examinant l'ensemble de données ci-dessus, nos données contiennent des caractéristiques catégorielles.
### Ces caractéristiques sont des caractéristiques dont les valeurs ne sont pas numériques.
### Nous avons quatre colonnes de type catégorie :
  - Sex
  - Embarked
  - Title
  - FamilySize

### Nous devons les transformer en caractéristiques numériques afin de les transmettre à un algorithme de machine learning.
### Une solution consiste à transformer ces caractéristiques en caractéristiques numériques en mappant les valeurs de chaîne avec des valeurs numériques. Cette solution est appelée "label encoding" (codage d'étiquettes).
### Elle est facile à réaliser en Python à l'aide de la classe LabelEncoder de Scikit Learn ou de la méthode map d'un dataframe Pandas.
### Par exemple, pour encoder par étiquette la colonne "Embarked" du jeu de données Titanic, nous allons créer de nouvelles colonnes à partir de "embarked" en y ajoutant la lettre de la ville d'embarquement  : la valeur "string" de la ville sera remplacé par une valeur de type "number" distincte dans les 3 colonnes crées correspondant au lieu d'embarquement :

- Embarqué à Cherbourg ("Embarked_C") correspond à 1
- Embarqué à Southampton ("Embarked_S") correspond à 2
- Embarqué à Queenstown ("Embarked_Q") correspond à 3

### Le problème est que l'algorithme peut interpréter cela comme un classement entre les trois valeurs.

## Une meilleure solution consiste à utiliser l'encodage « hot-one ». Ce codage consiste à créer une colonne par valeur de la colonne source (appelée variable muette), qui prend uniquement des valeurs binaires. Par exemple, la colonne « embarked » « dummy encoded » donne trois colonnes : Embarked_C, Embarked_S et Embarked_Q. Par exemple, la colonne « Embarked_S » d'un passager ayant embarqué à Southampton sera définie à 1, tandis que les deux autres colonnes « embarked » seront définies à 0.

![](https://www.renom.jp/notebooks/tutorial/preprocessing/category_encoding/renom_cat_onehot.png)

### Cependant, cette méthode crée une colonne redondante : avec deux des trois colonnes « Embarked », on peut facilement deviner la valeur de la troisième colonne. Par exemple, un passager dont les colonnes Embarked_C et Embarked_S sont définies à 0 aura nécessairement sa colonne Embarked_Q définie à 1. Afin d'éviter cette redondance, appelée piège de la variable factice, nous devons supprimer l'une des colonnes créées lors de la création d'une variable factice.

*Remarque : L'encodage one-hot est généralement efficace, mais cela peut varier au cas par cas. N'hésitez pas à tester l'effet de l'encodage one-hot sur votre modèle pour voir si vous en avez besoin.*

### Il existe une méthode très simple pour effectuer un encodage one-hot en Python : la fonction pandas get_dummies crée un encodage one-hot pour toutes les caractéristiques catégorielles d'un jeu de données. En ajoutant l'argument drop_first=True, nous supprimons une colonne pour chaque variable factice à encoder.

In [None]:
titanic_df = pd.get_dummies(data=titanic_df, drop_first=True)
titanic_df.head()

## **4. Mise à l'échelle des caractéristiques** <a id="4"></a>

### Finally, we need to perform normalization on the data. Normalizing the data is necessary because feeding a machine learning model with large or heterogeneous values can trigger large gradient updates that will prevent the gradient descent algorithm from converging. Let's look at the ranges of values for our dataframe:

In [None]:
ranges = titanic_df[['Pclass', 'Age', 'SibSp', 'Parch', 'Fare', 'Deck', 'IsChild']].max().to_frame().T
ranges.iplot(kind='bar', xTitle='Features', yTitle='Range', title='Range of feature before scaling')

### Ranges are very heterogeneous. One way to change this is by using features scaling. Features scaling will set each column mean to 0 and each column variance to 1. In python, the StandarScaler class of the scikit-learn module allows us to do it vey easily:

In [None]:
X = titanic_df.drop(['Survived'], 1)
y = titanic_df['Survived']

# Feature scaling of our data
sc = StandardScaler()
X = pd.DataFrame(sc.fit_transform(X.values), index=X.index, columns=X.columns)
X.head()

### And ... we are done ! Our dataset is finally ready to go into a machine learning algorithm ! Don't forget to check my two others kernel for this dataset:

- [**Complete Titanic tutorial with ML, NN & Ensembling**](https://www.kaggle.com/nhlr21/complete-titanic-tutorial-with-ml-nn-ensembling)
- [**Titanic colorful EDA**](https://www.kaggle.com/nhlr21/titanic-colorful-eda)