<img src="https://assets-datascientest.s3-eu-west-1.amazonaws.com/train/logo_datascientest.png" style="height:150px">

<hr style="border-width:2px;border-color:#75DFC1">
<center><h1> Machine Learning pour les Data Engineers</h1></center>
<center><h2>  Méthodologie : De la préparation à la modélisation </h2></center>
<hr style="border-width:2px;border-color:#75DFC1">

<h3> 1. Introduction</h3>

> Avant d'aboutir à l'étape d'entraînement du modèle, un long travail de préparation des données est requis, on parle de **Data Preparation** : nettoyage, encodage, mise à l'échelle et plus encore. Ce notebook a pour but de détailler les étapes de la méthodologie à appliquer lorsque l'on souhaite créer un modèle de Machine Learning. Nous passerons donc en revue les étapes ainsi que les méthodes que vous pourrez utiliser (descriptions et illustrations). 
>
> <h4> 1.1 Présentation des étapes de préparation </h4>
>
> Nous allons commencer par citer les principales étapes de la préparation des données.
> 
> * Des **données brutes aux variables**
>
> Le format des données initial peut ne pas être optimal pour l'analyse et la modélisation des données. Il conviendra alors dans ce cas de créer un tableau de données avec les dites variables explicatives du modèle ainsi que la variable cible, celle que l'on cherchera à prédire.
>
> <img src="https://assets-datascientest.s3.eu-west-1.amazonaws.com/notebooks/module_da_121/notebook_methodologie/set_split.png" style="height:300px">
>
>On pourra être confronté à plusieurs cas de figure comme celui-ci par exemple : les données que l'on souhaite utiliser se trouvent dans diverses sources, il faut alors les rassembler à l'aide de jointures. Ici dans notre illustration on obtient après avoir travaillé la structuration de nos données, quatre variables explicatives et une variable cible. La variable cible, celle que l'on cherche à prédire, est ici une variable binaire qualitative. On prédit de faire partie d'une catégorie ou d'une autre. A titre d'exemple, **0** peut correspondre à la **catégorie "Sain"** et **1** à la **catégorie "Malade"**.
>
> * **Nettoyage de la donnée**
> 
> Une fois rassemblées, les données peuvent avoir besoin d'être nettoyées. Caractères spéciaux, données manquantes, hétérogénité de la casse : tous ces cas de figure peuvent être un frein à la modélisation de nos données.
>
> * **Encodage**
>
> Les données à disposition ne sont pas toujours des données numériques : type catégoriel, textuel ou encore date, tous ces types de données nécessitent un traitement particulier pour les convertir en valeurs numériques car les algorithmes de Machine Learning prennent en entrée uniquement des valeurs numériques. Ce format de données est donc indispensable pour leur bon fonctionnement.
> 
> * **Transformation**
>
> L'application de certains algorithmes de Machine Learning nécessite la vérification d'un ensemble d'hypothèses. Pour respecter ces hypothèses, il est souvent nécessaire d'appliquer des transformations à nos variables. On pourra par exemple citer la **transformation logarithmique**, la **standardisation** ou encore la **normalisation**. Il est à noter que tous les algorithmes n'ont pas besoin des mêmes traitements. Les modèles linéaires ou plus globalement ceux qui font intervenir la notion de distance sont souvent très sensibles à ces transformations qui vont alors être très importantes pour leur bon fonctionnement. En particulier, la mise à l'échelle des variables sera indispensable avant d'entraîner un modèle linéaire. 
>
> <h4> 1.2 La fuite des données </h4>
>
> Une notion très importante lorsque l'on souhaite créer des modèles est la fuite de données. Un modèle a pour objectif suite à son déploiement (l'étape finale), d'être utilisé sur de nouvelles données afin de faire des prédictions. On rappelle que l'on prédit la variable cible qui est cette fois-ci **inconnue**. 
>
> Dans le cadre de son développement, le modèle s'entraîne sur des données que l'on aura sélectionné. Pour évaluer les performances de façon objective, il est très important de disposer d'une certaine quantité de données sur lesquelles le modèle va être testé. Ces données ne doivent pas être **connues** par le modèle.
>
> Pour que cette étape se passe au mieux il faut être très rigoureux dans l'étape de préparation des données. Dès le départ, il faut veiller à ce qu'une partie des données soit mise de côté. Si ce n'est pas bien le cas, des informations contenues dans cette partie des données pourraient fuiter et participer à l'entraînement du modèle. Cela biaiserait alors les résultats du modèle lors de son évaluation. **La toute première étape est donc de séparer notre jeu de données en une partie d'entraînement et de test.**

<h3> 2. Les techniques de préparation des données </h3>

> <h4> 2.1 La séparation du jeu de données </h4>
>
> On sépare le jeu de données en un **jeu d'entraînement** et un **jeu de test**. Comme expliqué dans le notebook introductif cette étape est indispensable au bon déroulement de tout le processus de modélisation. Sans ce jeu de test, impossible de savoir comment se comportera un modèle face à de nouvelles données. Selon la nature et la quantité des données à disposition, le volume de ces deux jeux de données peut varier. On retrouvera néanmoins très souvent la répartition **80/20** ou **70/30**. 
>
><img src="https://assets-datascientest.s3.eu-west-1.amazonaws.com/notebooks/module_da_121/notebook_methodologie/tts_radient.png" style="height:300px">
>
> Pour la séparation de votre jeu de données, vous pourrez tout simplement utiliser la [fonction `train_test_split`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html) de la librairie **`scikit-learn`**. Voici la syntaxe : 
> 
> ```python 
>
> from sklearn.model_selection import train_test_split
>
> X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=42)
>
> # X correspond au DataFrame des variables explicatives
>
> # y correspond à la variable cible
>
> ```
>
> <h4> 2.2 Le nettoyage des données </h4>
> 
> Une fois que les jeux de données sont séparés, on peut commencer à étudier la qualité des données. La qualité globale du jeu de données est en règle générale traitée lors de la récupération et la structuration des données. Suite à cette étape préliminaire, les données ne doivent plus comporter de problèmes majeurs : noms de colonnes, décalage entre les variables, etc. 
>
> Nous pouvons alors nous concentrer sur l'étude du contenu des variables : gestion des types de variables, des valeurs manquantes, valeurs aberrantes, parmi d'autres.
>
> <h5> 2.2.1 La gestion des valeurs manquantes </h5>
>
> La présence de valeurs manquantes est une problématique très récurrente. Il existe plusieurs techniques pour les traiter. Trois choix s'offrent à nous : les **conserver**, les **remplacer** ou les **supprimer**. 
>
> * 1. Les conserver.
>
> > Dans certains cas, la conservation des valeurs manquantes peut être pertinente. En effet, l'absence de valeurs peut nous **apporter de l'information**. 
> >
> > Un exemple simple permet d'illustrer ce cas de figure. 
> > Imaginons que nous disposons d'une base de données clients. On souhaite utiliser cette base de données pour créer un modèle qui nous indiquerait quels sont les clients susceptibles d'être intéressés par une nouvelle offre. La variable qui nous intéresse est ici celle du **numéro de téléphone**. 
>>
>> <img src="https://assets-datascientest.s3.eu-west-1.amazonaws.com/notebooks/module_da_121/notebook_methodologie/missing.png" style="height:300px">
> >
> > Cette variable comporte des valeurs manquantes. L'absence de certaines valeurs au sein de cette variable peut se révéler très importante pour le modèle car elle pourrait nous apporter de l'information sur l'intérêt et la confiance que le client porte à l'entreprise. Cela peut indiquer tout simplement qu'il a refusé de communiquer cette information. 
> >
> > Dans ce cas, il faut alors vérifier à l'aide de tests statistiques quel pourrait être l'apport de la conservation de cette information par rapport à la variable cible. 
>
>
> * 2. Les remplacer.
> 
> > Dans le cas où elles sont peu nombreuses, on peut décider de remplacer les valeurs manquantes. Il y a plusieurs types d'indicateurs qui peuvent se révéler pertinent : 
> >
> > > * La moyenne.
> > >
> > >
> > > * La médiane.
> > >
> > >
> > > * Le mode.
> >
> > Il existe néanmoins bien d'autres solutions pour remplacer ces valeurs. Une étude du reste du jeu de données peut nous permettre de les remplacer de façon plus avisée. Il est également possible de les remplacer de façon aléatoire selon la distribution des valeurs. 
> > L'élément le plus important à retenir est qu'il n'y a pas de mode d'emploi, l'important est de choisir la meilleure solution en étudiant attentivement nos variables. En remplaçant les valeurs manquantes nous pouvons introduire du biais, il faut donc être très vigilant lors de cette étape pour que ce retraitement n'impacte pas négativement notre jeu de données. 
> > Dans les précédents modules vous avez pu utiliser pour les remplacer, la [méthode `fillna`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html) de la classe **`DataFrame`** de la librairie **`pandas`**. Voici la syntaxe : 
> >
> > ```python 
> >
> > # Soit X un DataFrame, des variables explicatives, on impute par la moyenne de chacune des variables
> >
> > X.fillna(X.mean(), inplace=True)
> >
> > ```
> >
> * 3. Les supprimer.
> 
> > Plusieurs cas de figures peuvent entraîner la suppression de données manquantes. 
> > >
> > > * L'absence de données peut indiquer un problème de qualité de données.
> > > 
> > >
> > > * Une trop grande quantité de données manquantes peut rendre l'utilisation d'une variable impossible.
> > 
> > La suppression des valeurs manquantes peut être perçue comme la solution la plus simple à adopter. En revanche, elle n'est pas toujours pertinente, d'autant plus que les données sont une **denrée rare**. Supprimer des lignes où l'on peut trouver des données manquantes pourrait faire perdre énormément d'informations. Une grande vigilance est donc à apporter lors de cette étape. 
> > Pour les supprimer, vous connaissez déjà la [méthode `dropna`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html) de la classe **`DataFrame`** de la librairie **`pandas`**. Voici la syntaxe que vous pourrez employer : 
> >
> > ```python 
> >
> > # Soit X un DataFrame, des variables explicatives, on impute par la moyenne de chacune des variables
> >
> > X.dropna(inplace=True)
> >
> > ```
>
> <h5>  2.2.2 La gestion des valeurs aberrantes ou extrêmes dites aussi outliers</h5> 
>
> Le premier élément à considérer est la différence de signification lorsque l'on parle de valeurs aberrantes ou de valeurs extrêmes. 
>
> Prenons l'exemple d'une variable d'âge, si au sein de cette variable on se retrouve avec le chiffre 500, alors c'est **une valeur aberrante** car cette valeur ne s'explique pas. Les gens vivent aujourd'hui rarement au dessus de 100 ans. 
> <img src="https://assets-datascientest.s3.eu-west-1.amazonaws.com/notebooks/module_da_121/notebook_methodologie/non_sense_values.png" style="height:300px">
>
> Considérons maintenant une variable qui contient les salaires mensuels d'un groupe d'individus. La majorité des individus du groupe gagnent **entre 1500€ et 3500€**. S'il existe dans cette variable des salaires plus bas tels que 600€ ou plus haut autour de 10000€, on ne peut pas dire que ce sont des valeurs aberrantes. Ce sont des valeurs extrêmes. En effet, ces valeurs font sens mais n'atteignent pas ou dépassent l'intervalle des valeurs les plus représentées.
>
> <img src="https://assets-datascientest.s3.eu-west-1.amazonaws.com/notebooks/module_da_121/notebook_methodologie/extreme_values.png" style="height:300px">
>
> Dans le premier cas, il est important de corriger cette valeur ou de supprimer l'information car elle est erronée. Dans le second cas, la choix n'est pas simple car l'information a de fortes probabilités d'être correcte. En revanche si on la laisse, son caractère **rare** peut réduire les performances du modèle ou encore l'empêcher de converger.
>
> Considérons deux types de variables : **continue** et **discrète**. 
>
> * <u>Variable continue : </u> Une variable continue prend un nombre infini ou non dénombrable de valeurs.
>
>
> * <u>Variable discrète : </u> Une variable discrète prend un nombre fini ou dénombrable de valeurs.
>
> Dans le cas d'une variable continue, c'est l'étude de la distribution des valeurs qui va nous permettre de détecter les outliers. 
>
> Une façon simple de traiter cet aspect est de calculer les **quantiles ou les percentiles** sur notre variable.
> 
> Une bonne solution dans ces cas est de corriger ces valeurs, avec une valeur plus juste ou bien si la qualité de la donnée est en doute de supprimer la ligne.
>
> Dans le cas des valeurs discrètes, que nous considèrerons comme des variables catégorielles ici, il faudra regarder attentivement si une ou plusieurs catégories ne sont pas sous ou sur-représentées. 
> Une solution est de travailler sur la répartition de ces catégories. Si une catégorie n'apparaît qu'un nombre infime de fois par rapport aux autres, on peut par exemple prendre le décision de la supprimer. Aussi, si une catégorie est sur-représentée au sein d'une variable, on peut décider de ne pas conserver cette modalité. Un extrême vigilance est néanmoins requise lorsque l'on traite ce genre de variables. La nature et la signification des variables peut justifier leur conservation. Un modèle de détection de fraude est un exemple parfait du cas où la surreprésentation d'une variable doit être traité avec attention. 
>
> De plus, on notera que ces corrections ont lieu dans le but de la création de modèles de Machine Learning qui nécessitent pour la plupart de longues étapes de préparation des données. Ces corrections pourront être différentes selon comment nous souhaitons travailler avec les données (analyses, ...).
>
> <h4> 2.3 Encodage des données </h4>
>
> Comme nous le précisons dans la partie introductive de ce notebook, une variable de type catégoriel et textuel devra être réencodée. En effet, la plupart des algorithmes de Machine Learning ne prennent en entrée que des variables numériques. Il existe plusieurs techniques d'encodage, nous en citons deux ici : l'Ordinal Encoding et le One Hot Encoding. 
>
> <h5> 2.3.1 Le One Hot Encoding </h5>
>
> Une variable indicatrice est une variable qualitative binaire prenant les valeurs 0 ou 1. Ces variables sont construites à partir des catégories qui composent des variables catégorielles (de plus de 2 catégories). Cette technique d'encodage s'appelle le <b> One Hot Encoding </b>. 
>
> Lorsqu'il y a exactement 2 catégories, il n'est pas utile de créer plusieurs nouvelles variables, il suffit de remplacer une valeur par 0 et l'autre par 1. En laissant ces deux variables, l'information serait redondante. 
>
> Prenons l'exemple d'une variable avec 3 catégories, lui appliquer cette technique nous permettra d'obtenir 3 variables binaires. Pour la première (catégorie 1), la variable vaudra 1 si un individu correspond à la catégorie 1, 0 sinon. Le procédé est le même pour les deux autres catégories.    
>
> <img src="https://assets-datascientest.s3.eu-west-1.amazonaws.com/notebooks/module_da_121/notebook_methodologie/ohe_fr.png" style="height:300px">
>
> Bien que ce procédé nous retourne ici dans notre exemple 3 nouvelles variables il est important de noter qu'au sein d'un modèle on ne peut pas toutes les conserver. En effet, il faudra conserver <b>N-1 variables</b> sans quoi nous serions confronté à un problème de <b>multicolinéarité</b> qui nuira aux performances de notre modèle. Ce problème de multicolinéarité provient du fait que l'on peut prédire l'occurence de la troisième variable (troisième catégorie) à l'aide des deux autres catégories.
>
>
> <h5> 2.3.2 L'Ordinal Encoding </h5>
>
> Au lieu de créer plusieurs variables issue d'une variable catégorielle, l'idée est ici de transformer les catégories de notre variable par des valeurs. Cette transformation est pertinente lorsqu'il existe un ordre entre les catégories mais elle peut toujours être substituée par la technique de One Hot Encoding.
>
> Prenons par exemple une variable de **noms de fruits**, il y a trois catégories : Prune, Poire et Pomme. Si ces catégories sont remplacées par des chiffres (0, 1, 2), cela n'aura pas de sens car il n'existe pas un ordre entre ces fruits. Dans ce cas de figure, on ne pourra utiliser que la technique de One Hot Encoding.
>
> En revanche, si l'on a cette fois-ci une variable qui évalue la **satisfaction d'un utilisateur**. Les catégories qu'elle contient sont : Peu Satisfait, Satisfait et Très Satisfait. On pourra cette fois-ci réencodée notre variable de façon ordinale car il existe un ordre entre ces catégories. On aura :
>
> * Peu Satisfait = 0
> * Satisfait = 1
> * Très Satisfait = 2
>
> <img src="https://assets-datascientest.s3.eu-west-1.amazonaws.com/notebooks/module_da_121/notebook_methodologie/ordinal_encoding.png" style="height:300px">
>
> <div class="alert alert-warning">
    <i class="fa fa-info-circle"></i> &emsp; Pour respecter l'ordre logique entre les catégories, il faudra faire attention à bien le spécifier. En l'absence de valeurs numériques, cet ordre est inconnu au préalable.</div>
>
> <h4> 2.4 Transformation des données </h4>
>
> Il existe de nombreuses techniques de mise à l'échelle dite aussi *scaling*, les plus connus sont la **normalisation** et la **standardisation**.
>
> ##### Normalisation entre 0 et 1
>
> La normalisation consiste à **borner** toutes les valeurs d'une variable **entre 0 et 1**. La démarche est simple pour chaque variable on retranche à chaque valeur la valeur minimale de la variable et on divise par la différence entre la valeur maximale et la valeur minimale. 
>
><br>
> <center>$ \Large\frac{x_i - min(x)}{max(x) - min(x)} $</center>
>
> ```python
>
> # Soit X un DataFrame, des variables explicatives
>
> (X - X.min()) / (X.max() - X.min())
> ```
>
> Cette technique est à privilégier lorsque les variables ne suivent pas une distribution normale.
>
> ##### Standardisation (Normalisation Z-Score)
>
> Au contraire de la normalisation, il est recommandé d'appliquer la standardisation lorsque la distribution de la variable suit une loi normale. La standardisation permet de retrancher à chaque valeur la valeur moyenne de la variable et de diviser par son écart type. 
>
> <br>
> <center>$ \Large\frac{x_i - mean(x)}{std(x)} $</center>
>
> ```python
>
> # Soit X un DataFrame, des variables explicatives
>
> (X - X.mean()) / (X.std())
> ```
>
> ##### Outliers
>
> En cas de présence d'outliers, l'application des deux techniques précédentes n'est pas appropriée puisqu'elles sont sensibles aux valeurs extrêmes (minimum, moyenne et maximum). Dans ce cas, la technique de Robust Scaling s'avère plus pertinente puisqu'elle s'appuie sur le premier, second (médiane) et troisième quartile de la distribution, qui ne sont pas sensibles aux valeurs extrêmes. <br>
> La formule est celle-ci : 
>
> <br>
> <center>$ \Large\frac{x_i - median(x)}{q3(x) - q1(x)} $</center> <br>
>
> ```python
>
> # Soit X un DataFrame, des variables explicatives
> 
> (X - X.median()) / (X.quantile(q=0.75) - X.quantile(q=0.25))
> ```

<h3> 3. L'intégration des étapes de préparation dans le cadre de la modélisation </h3>

> <h4> 3.1 Les méthodes fit_transform et transform </h4>
> 
> Nous présentons dans cette partie les méthodes **`fit_transform`** et **`transform`** qui vont vous simplifier l'intégration des étapes de préparation dans le cadre de la création d'un modèle de Machine Learning. En effet, il existe de nombreux outils **`scikit-learn`** qui vont nous permettre de **réaliser des modifications sur le jeu d'entraînement et de test**, de façon rigoureuse, en quelques lignes de code. Il existe un réel avantage à utiliser ces méthodes plutôt que les méthodes et fonctions **`pandas`** ou **`numpy`**, elles sont **spécialement adaptées** au Machine Learning. 
>
>
> La première chose dont il faut se **souvenir** lorsque l'on utilise les méthodes **`fit_transform`** et **`transform`** est la notion de **fuite de données**. 
>
> Les transformations sont calibrées sur le **jeu d'entraînement** (**`fit_transform`**) et ensuite appliquées sur le **jeu de test** (**`transform`**). Lorsque l'on réalise l'entraînement, puisque l'on a à disposition le jeu de test (variables explicatives et variable cible), on peut être tenté de calibrer les transformations sur **le jeu de données entier**. Si l'on procède de cette façon, cela pourra entraîner une **fuite de données** et donc une **augmentation artificielle de la performance du modèle**. 
>
> Il existe également un autre cas de figure important à noter. Lorsque l'on applique un **`OneHotEncoding`**, on crée de nouvelles variables à partir des catégories d'une ou plusieurs variables. Dans ce cas, il est également primordial d'appliquer un **`transform`** et non pas un **`fit_transform`** sur le jeu de test ou toutes nouvelles données sur lesquelles on applique le modèle. En effet, l'ensemble des variables explicatives a été fixé lors de l'entraînement du modèle. Imaginons qu'une nouvelle catégorie soit ajoutée dans le jeu de test ou les nouvelles données, alors **le modèle ne pourra pas s'appliquer** car l'ensemble des variables explicatives sera alors différent. 
> 
> La syntaxe sera toujours la suivante. Nous prenons ici en exemple le StandardScaler qui nous permet d'appliquer la transformation Z-Score à nos données. 
>
> ```python
> 
> from sklearn.preprocessing import StandardScaler
> 
> # Soient X_train et X_test, les jeux, respectivement d'entraînement et de test, des variables explicatives
>
> scaler = StandardScaler()
>
> X_train_scaled = scaler.fit_transform(X_train)
>
> X_test_scaled = scaler.transform(X_test)
>
> ```
>
> Concrètement dans ce cas de figure, la moyenne et l'écart type des valeurs de chacune des variables est calculée sur le jeu d'entraînement. La transformation est faite sur le jeu d'entraînement. Puis dans un second temps, à partir des indicateurs calculés sur le jeu d'entraînement, on effectuera les transformations sur le jeu de test. 
>
>
> Les trois parties suivantes seront une sorte de catalogue non exhaustifs de méthodes que vous pouvez utiliser pour appliquer les corrections présentées plus haut à l'aide des méthodes **`fit_transform`** et **`transform`**.
> 
>
> <h4> 3.2 Nettoyage des données </h4>
>
> <h5> 3.2.1 Gestion des données manquantes </h5>
>
> <br>
>
> * **La méthode SimpleImputer**
>
> Cette [méthode](https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html) vous permet d'imputer les valeurs manquantes au sein des données. Dans l'exemple ci-dessous, la stratégie d'imputation choisie est la moyenne : **`strategy="mean"`**. D'autres stratégies pourraient évidemment choisies : médiane (**`strategy="median"`**), mode (**`strategy="most_frequent"`**), etc.
>
> ```python
> 
> from sklearn.impute import SimpleImputer
> 
> # Soient X_train et X_test, les jeux, respectivement d'entraînement et de test, des variables explicatives
> 
> import numpy as np 
>
> imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
>
> X_train_imputed = imputer.fit_transform(X_train)
>
> X_test_imputed = imputer.transform(X_test)
>
> ```
> Nous ne les présenterons pas ici mais il existe d'autres méthodes d'imputation telles que le [KNNImputer](https://scikit-learn.org/stable/modules/generated/sklearn.impute.KNNImputer.html?highlight=imputer#sklearn.impute.KNNImputer) ou encore le [IterativeImputer](https://scikit-learn.org/stable/modules/generated/sklearn.impute.IterativeImputer.html?highlight=imputer#sklearn.impute.IterativeImputer).
> 
> <h5> 3.2.2 Gestion des outliers </h5>
>
>
> On rappelle qu'il y a deux cas de figure : 
>
>
> * La distribution comprend des valeurs extrêmes qui sont **cohérentes**. 
>
>
> * La distribution comprend des valeurs aberrantes qui sont des **erreurs**.
>
>
> Comme précisé plus haut, il est compliqué de trouver une solution dans le cas où les valeurs sont cohérentes. En effet, les remplacer peut causer une perte d'information. Il faut donc les traiter au cas par cas. Pour le cas où ces outliers sont des erreurs, il convient de les remplacer. Pour cela nous pouvons également utiliser un transformer. 
>
>
> Afin de délimiter les bornes "acceptables" de la distribution des valeurs, on peut calculer l'écart interquartile (IQR). L'écart interquartile correspond à la différence entre la valeur du 3e et du 1er quartile :  
>
> $ $
> <center>$\mbox{IQR} = \mbox{Q3} -\mbox{Q1}$</center>  
>
> $ $
> L'intervalle que l'on va considérer comme "valable" correspond en règle générale à :  
> $ $
>
> <center>$[\mbox{Q1} - (1.5 * \mbox{IQR}) \mbox{;}  \mbox{Q3} + (1.5 * \mbox{IQR})]$</center>
> $ $
>
> Plutôt que d'utiliser un transformer déjà existant nous allons en créer un pour traiter ces outliers en considérant l'écart interquartile. 
> > ```python
> > 
> > from sklearn.base import BaseEstimator, TransformerMixin
> >
> > class IQR(BaseEstimator, TransformerMixin): 
> > 
> >   def __init__(self):
> >       return None
> >    
> >     def fit(self, X, y = None):
> >         self.q1 = X.quantile(0.25)    
> >       self.q3 = X.quantile(0.75) 
> >       self.iqr = self.q3 - self.q1
> >       return self
> >  
> >   def transform(self, X, y = None):
> >       def test_bound(element):
> >           if element<(self.q1-self.iqr*1.5):
> >               element = self.q1 - 1.5*self.iqr
> >           elif element>(self.q3+self.iqr*1.5):
> >               element=self.q3 + 1.5*self.iqr
> >           return element
> >       return X.apply(lambda x : test_bound(x))
> > ```
>
> Pour cela, nous créons une classe qui hérite de **`BaseEstimator`** et **`TransformerMixin`**. Ici, l'idée n'est pas de développer la création de ce transformer, simplement de montrer qu'il est possible de créer le transformer que l'on souhaite en quelques lignes.
>
> De la même façon que les transformers déjà implémentés, la syntaxe est celle-ci : 
> > ```python
> > # Soient X_train et X_test, les jeux, respectivement d'entraînement et de test, des variables explicatives
> >
> > iqr = IQR()
> >
> > X_train_iqr = iqr.fit_transform(X_train)
> >
> > X_test_iqr = iqr.transform(X_test)
> >
> > ```
>
> <h4> 3.3 Encodage </h4>
> 
> Dans la partie précédente, nous avons présenté deux techniques d'encodage : le One Hot Encoding et l'Ordinal Encoding. 
> Il existe deux transformers qui nous permettent d'effectuer ces transformations très simplement : **`OneHotEncoder`** et **`OrdinalEncoder`**. Nous ne l'avons pas évoqué plus tôt mais la variable cible peut également avoir besoin d'être ré-encodée. Pour cela il faut utiliser un transformer spécifique, c'est le **`LabelEncoder`**. Le fonctionnement est néanmoins le même que pour l'**`OrdinalEncoder`**. 
>
> Voici les méthodes dédiées sur **`scikit-learn`** : 
>
> * Le One Hot Encoding
> 
> >  ```python 
> > from sklearn.preprocessing import OneHotEncoder
> >
> > # Le paramètre drop permet d'éviter le problème de multicolinéarité
> > ohe = OneHotEncoder( drop="first", sparse=False)
> >
> > ohe.fit_transform(X_train)
> >
> > ohe.transform(X_test)
> > ```
>
> * L'Ordinal Encoding
>
> >  ```python 
> > from sklearn.preprocessing import OrdinalEncoder
> >
> > import numpy as np
> >
> > oe = OrdinalEncoder(unknown_value = np.nan, categories = ["Peu Satisfait", "Satisfait", "Très Satisfait"])
> >
> > oe.fit_transform(X_train)
> >
> > oe.transform(X_test)
> > ```
>
> * Le Label Encoding
>
> >  ```python 
> > from sklearn.preprocessing import LabelEncoder
> >
> > le = LabelEncoder()
> >
> > le.fit_transform(y_train)
> >
> > le.transform(y_test)
> > ```
>
> <h4> 3.4 Transformation </h4>
>
> Dans la partie précédente nous avons présenté trois transformations pour mettre à l'échelle nos données : la standardisation, la normalisation et le RobustScaling.
>
> Voici les méthodes dédiées sur **`scikit-learn`** : 
> 
> * La standardisation 
> > ```python
> > from sklearn.preprocessing import StandardScaler
> >
> > # Soient X_train et X_test, les jeux, respectivement d'entraînement et de test, des variables explicatives
> >
> > scaler = StandardScaler()
> >
> > X_train_scaled = scaler.fit_transform(X_train)
> >
> > X_test_scaled = scaler.transform(X_test)
> > ```
>
> * La normalisation 
> > ```python
> > from sklearn.preprocessing import MinMaxScaler
> >
> > # Soient X_train et X_test, les jeux, respectivement d'entraînement et de test, des variables explicatives
> >
> > scaler = MinMaxScaler()
> >
> > X_train_scaled = scaler.fit_transform(X_train)
> >
> > X_test_scaled = scaler.transform(X_test)
> > ```
>
> * Le RobustScaling 
> > ```python
> > from sklearn.preprocessing import RobustScaler
> >
> > # Soient X_train et X_test, les jeux, respectivement d'entraînement et de test, des variables explicatives
> >
> > scaler = RobustScaler()
> >
> > X_train_scaled = scaler.fit_transform(X_train)
> >
> > X_test_scaled = scaler.transform(X_test)
> > ```


<h3> 4. L'entraînement, la prédiction et la mesure de performance du modèle </h3>

> <h4>4.1 La modélisation avec l'API scikit-learn  </h4>
>
> Dans le second notebook de ce module, l'API **`scikit-Learn`** vous a été présentée. En quelques lignes de code, vous pouvez entraîner et évaluer un modèle de Machine Learning. 
>
> Pour rappel, ce sont les méthodes : **`fit`**, **`predict`** et **`score`** qui seront ici utilisées pour respectivement : entraîner, prédire et mesurer la performance du modèle entraîné. 
>
> Suite à la séparation du jeu de données en un jeu d'entraînement et de test puis l'application des étapes de préparation, nous avons à disposition ces quatre objets : **`X_train`**, **`X_test`**, **`y_train`** et **`y_test`**. 
>
> > * **`X_train`** : Ce sont les variables explicatives qui vont servir à l'entraînement du modèle.
> >
> >
> > * **`y_train`** : C'est la variable cible qui va servir à l'entraînement du modèle.
> >
> >
> > * **`X_test`** : Ce sont les variables explicatives qui vont servir à la mesure de performance du modèle.
> > 
> >
> > * **`y_test`** : C'est la variable cible qui va servir à la mesure de performance du modèle.
>
> Imaginons que nous ayons affaire à une problématique de classification supervisée et que nous voulions utiliser l'algorithme de régression logistique. La syntaxe sera celle-ci : 
>
>
> > ```python
> > from sklearn.linear_model import LogisticRegression
> >
> > model = LogisticRegression() # On instancie le modèle
> >
> > model.fit(X_train, y_train) # On entraîne le modèle
> >
> > y_pred = model.predict(X_test) # On obtient la prédiction du modèle
> >
> > model.score(X_test, y_test) # On calcule le score du modèle en comparant la prédiction et la valeur vraie
> >```
>
> Pour rappel lorsque l'on évalue la performance du modèle on compare la prédiction de notre modèle entraîné sur le jeu de test (**`X_test`**) et la vraie valeur de la variable cible du jeu de test (**`y_test`**). Derrière la méthode **`score`**, il y a donc la prédiction de cette variable qui est réalisée, de la même façon que lorsque l'on utilise la méthode **`predict`**.

<h3> 5. La pipeline scikit-Learn </h3>

> Nous venons de voir un grand nombre d'outils de la librairie **`scikit-Learn`** qui nous permettent de réaliser les transformations nécessaires à notre jeu de données de façon très synthétique et rigoureuse. 
> Ces étapes prises séparément peuvennt être longues à implémenter. 
>
> Pour pallier ce problème, il existe une fonction du sous module **`sklearn.pipeline`** qui permet de rassembler toutes ces transformations au sein d'un même objet. C'est une pipeline. Voici une syntaxe possible : 
>
> ```python
> from sklearn.pipeline import Pipeline
>
> pipe = Pipeline(
    [('simple_imputer', SimpleImputer(missing_values=np.nan, strategy='mean')),
    ('scaler', StandardScaler()),
    ('model_logistic', LogisticRegression())])
>    
>   pipe.fit(X_train, y_train)
>
>   predictions = pipe.predict(X_test)
>
>   print(pipe.score(X_test, y_test))
> ```
>
> Comme vous pouvez l'observer dans le code, la pipeline s'entraîne sur le jeu d'entraînement et prédit sur le jeu de test. La syntaxe est ainsi la même qu'un modèle que l'on souhaite entraîné. Derrière son fonctionnement on retrouve les méthodes **`fit_transform`** et **`transform`**.

<h3> 6. Conclusion </h3>

> <h4>6.1 A retenir </h4>
>
> 
> * Les étapes de préparation des données sont nombreuses : nettoyage, encodage, transformation, etc. 
>
>
> * La séparation du jeu de données en un jeu d'entraînement et de test arrive donc en amont de toutes ces étapes de traitement des données.
>
>
> * Les étapes de préparation des données doivent être appliquées de façon rigoureuse sue le jeu d'entraînement puis de test pour qu'il n'y ait pas de fuite de données ou d'écart avec les variables ayant servies à l'entraînement du modèle.
>
>
> * Les méthodes **`fit_transform`** et **`transform`** permettent d'appliquer les transformations sur le jeu d'entraînement et le jeu de test de façon rigoureuse.
>
>
> * L'utilisation d'une **`Pipeline`** permet de rassembler les étapes de préparation des données et la modélisation.
>
>
> <h4>6.2 Et après ? </h4>
> 
> Dans le prochain notebook nous allons voir un exemple d'application dans le cas d'une problématique de classification supervisée. 