#Preprocessing
 
Les opérations du preprocessing:

Encodage :  consiste à convertir les données qualitatives en valeur numérique

Normalisation : qui consiste à mettre sur une même échelle les valeurs quantitative

Imputation : Remplacer les données manquantes par certaines valeurs statistiques

Selection de variable : Utilise les tests statistiques pour sélectionner les variables les plus utiles au développement d'un modèle

Extration de caractéristique : Génerer des nouvelles variables à partir des informations cachées dans le dataset

Les modules de scikit-learn pour ces opérations:

Encodage et Normalisation : <span style="color:red;"> sklearn.preprocessing</span>

Imputation : <span style="color:red;">sklearn.impute</sapan>

Selection de variable : <span style="color:red;">sklearn.feature_selection</sapan>

Extration de caractéristique : <span style="color:red;">sklearn.feature_extraction</sapan>

## sklearn.preprocessing

Le module preprocessing on retrouve des classes transformers commençant toutes par la lettre majuscule.
exemple:

In [None]:
from sklearn.preprocessing import MinMaxScaler

Les transformers permettent de transformer l'ensemble de nos données de façon cohérente en transformant toutes nos données futures de la même manière qu'ont été transformées les données qui ont servit à l'entrainement de la machine grâce à 2 méthodes:
<ul>
<il>fit : Développer une fonction de transformation en analysant les données du trainset</il> 
<il>transform : Appliquer cette fonction de transformation sur toutes les données qu'on lui fournit</il>
</ul>

et des fonctions mathématiques . exemple:

In [None]:
from sklearn.preprocessing import minmax_scale

####  Les tranformers de l'encodage

il existe 2 types d'encodage: Ordinal et One-Hot

L'encodage ordinal: consiste à associer chaque classe à une valeur décimal unique.
exemple : Chat --> 0 et Chien --> 1
On dispose  des transformers:
LabelEncoder() et OrdinalEncoder()

##### LabelEncoder()
a été conçu pour encoder la variable y en une valeur numérique (0, n_classe-1)

In [1]:
import numpy as np
from sklearn.preprocessing import LabelEncoder

y = np.array(['Chien', 'Chat', 'Oiseau', 'Chat', 'Chat','Chien'])

encoder = LabelEncoder()
encoder.fit(y)

print(encoder.__dict__)

encoder.transform(y)

{'classes_': array(['Chat', 'Chien', 'Oiseau'], dtype='<U6')}


array([1, 0, 2])

In [3]:
# La méthode inverse_transform permet de decoder
encoder.inverse_transform(np.array([0, 1, 0, 0, 2, 2, 1]))

array(['Chat', 'Chien', 'Chat', 'Chat', 'Oiseau', 'Oiseau', 'Chien'],
      dtype='<U6')

##### OrdinalEncoder
permet d'encoder les tableaux à plusieurs dimensions, utiliser pour encoder les features X

In [5]:
from sklearn.preprocessing import OrdinalEncoder
X = np.array([['Chien', 'poils'], ['Oiseau', 'plumes'], ['Chat', 'poils'], ['Oiseau', 'plumes']])
encoder = OrdinalEncoder()
encoder.fit(X)
encoder.transform(X)

array([[1., 1.],
       [2., 0.],
       [0., 1.],
       [2., 0.]])

#### <span style="color:red;"> Encodage Ordinal à un souci car transformer des données en des valeurs ordinales peut mener à une comparaison où 0 <1<2 autrement dire Chat < Chien < Oiseau </span>

Pour résoudre ce problème nous avons l'encodage one-hot

### Encodage One-Hot

Les classes sont:
#### LabelBinarizer()
#### MultiLabelBinarizer()
#### OneHotEncoder()

In [6]:
import numpy as np
from sklearn.preprocessing import LabelBinarizer

y = np.array(['Chien', 'Chat', 'Oiseau', 'Chat', 'Chat','Chien'])

encoder = LabelBinarizer()
encoder.fit(y)

print(encoder.__dict__)

encoder.transform(y)

{'neg_label': 0, 'pos_label': 1, 'sparse_output': False, 'y_type_': 'multiclass', 'sparse_input_': False, 'classes_': array(['Chat', 'Chien', 'Oiseau'], dtype='<U6')}


array([[0, 1, 0],
       [1, 0, 0],
       [0, 0, 1],
       [1, 0, 0],
       [1, 0, 0],
       [0, 1, 0]])

## Normalisation

Mettre toutes les données sur une même échelle.

Les techniques de Normalisation les plus connus sont :

#### MinMaxScaler

Transforme chaque variable X de telle sorte à être comprise entre 0 et 1:

$$
 \frac{{X - X_{\text{min}}}}{{X_{\text{max}} - X_{\text{min}}}}
$$


In [7]:
import numpy as np
from sklearn.preprocessing import MinMaxScaler

X = np.array([[70], [80], [120]])
scaler = MinMaxScaler()
scaler.fit_transform(X)

array([[0. ],
       [0.2],
       [1. ]])

### StandardScaler

Chaque variable X : La moyenne qui est égale à O et l'écart type égal à 1

La formule de la StandardScaler de scikit-learn est donnée par :

\[
X_{\text{scaled}} = \frac{X - \mu}{\sigma}
\]

où :
- \( X_{\text{scaled}} \) est la matrice des données transformées (centrées et réduites).
- \( X \) est la matrice originale des données.
- \( \mu \) est le vecteur moyen (moyenne) des colonnes de \( X \).
- \( \sigma \) est le vecteur écart-type des colonnes de \( X \).


### NB : Eviter d'utiliser MinMax ou standard lorsque nous sommes en présence d'un outilier

pour cela nous alons utiliser le troisième transfomer :

### RobustScaler

La formule de RobustScaler de scikit-learn est donnée par :

\[ X_{\text{scaled}} = \frac{{X - Q_1(X)}}{{Q_3(X) - Q_1(X)}} \]

où :
- \( X_{\text{scaled}} \) est la matrice des données transformées (robustes).
- \( X \) est la matrice originale des données.
- \( Q_1(X) \) représente le premier quartile (25e percentile) de chaque colonne de \( X \).
- \( Q_3(X) \) représente le troisième quartile (75e percentile) de chaque colonne de \( X \).


## Pipeline