Le preprocessing ou pré-traitement des données consiste à trier et 'nettoyer' nos données afin que notre modèle puisse apprendre de façon efficace. Parmis les opérations importantes de preprocessing on trouve :

- l'encodage : convertir les données qualitative en données numériques
- la normalisation : mettre sur une même échelle toutes les données quantitatives
- l'imputation : remplacer certaines valeurs manquantes par des valeurs statistiques ou par des NaN
- la sélection : on garde les variables les plus intéressantes ou celles qui contiennent le plus d'informations notamment grâce au test du chi-2
- l'extraction : créer de nouvelles données à partir d'informations 'cachées' dans le dataset

Ici on vas se concentrer sur l'encodage et la normalisation. Ces deux opérations sont disponibles dans le module sklearn.preprocessing

Ce qui nous intéresse dans le module sklearn.preprocessing ce sont des objets que l'ont appelle transformer.

Les transformers permettent de transformer toutes les données de façon cohérentes; aussi bien celles qui ont servies à entraîner le modèle que celles qui serviront à faire des prédictions. Cela permet au modèle de recevoir des données cohérentes avec ce qu'il à appris.

Pour transformer les données, les transformers disposent de 2 fonctions : 'fit' et 'transform'. 'fit' retourne une fonction de transformation et 'transform' applique cette fonction. Ces deux fonctions sont si souvent utilisées ensembles qu'il existe même une fonction 'fit_transform' qui fait les deux à la fois.

# Les transformers d'encodage

## 1) Encodage Ordinal

L'encodage ordinal associe chaque catégorie ou chaque classe d'une variable à une valeur décimale unique

## 1.1) LabelEncoder

In [2]:
import numpy as np
from sklearn.preprocessing import LabelEncoder

In [3]:
y = np.array(['chat','chien','chat','oiseau'])

In [4]:
encoder = LabelEncoder()

In [7]:
y_transform = encoder.fit_transform(y)

In [11]:
y_transform

array([0, 1, 0, 2], dtype=int64)

On peut ensuite appliqué 'inverse_transform' sur des données transformées pour revoir les vrais labels.

In [12]:
encoder.inverse_transform(np.array([0,0,2,2]))

array(['chat', 'chat', 'oiseau', 'oiseau'], dtype='<U6')

LabelEncoder est limité car il ne peut agir que sur une seule colonne !

## 1.2) OrdinalEncoder

OrdinalEncoder s'utilise et fait exactement la même chose que LabelEncoder mais peut s'appliquer à des tableaux entiers.

In [29]:
from sklearn.preprocessing import OrdinalEncoder
encoder_ordinal = OrdinalEncoder()

In [44]:
g = np.array([['chat','taupe','chat','oiseau','taureau'],['vache','chat','oiseau','chien','chien']])

In [45]:
encoder_ordinal.fit_transform(g)

array([[0., 1., 0., 1., 1.],
       [1., 0., 1., 0., 0.]])

Là on pourrait se dire que c'est curieux car dans la premiere rangée on a que des 0 et des 1 or on a 4 animaux différents !

Oui mais en fait OrdinalEncoder se base sur les colonnes et non les rangées ! Vu qu'on à que deux rangées, on auras donc que des 0 et des 1 puisqu'il peut y avoir au maximum que deux animaux différents par rangée!

In [46]:
gg = np.array([['chien', 'poils', 'animal'],
               ['chat', 'poils', 'animal'],
               ['oiseau', 'plumes', 'animal'],
               ['moi', 'poils', 'humain']])

In [47]:
encoder_ordinal.fit_transform(gg)

array([[1., 1., 0.],
       [0., 1., 0.],
       [3., 0., 0.],
       [2., 1., 1.]])

# 2) Encodage One Hot

Avec cet encodage, chaque classe est représentée de façon binaire dans une colonne qui lui est propre. Cela évite les problèmes de hiérarchie créer par l'encodage ordinal. Par exemple, avec OrdinalEncoder ci dessus on à chat < chien < moi < oiseau , ce qui est idiot !?

## 2.1) LabelBinarizer

In [48]:
from sklearn.preprocessing import LabelBinarizer

In [49]:
encoder_labelbinarizer = LabelBinarizer()

In [53]:
y = np.array(['chat','chien','chat','oiseau'])

In [54]:
encoder_labelbinarizer.fit_transform(y)

array([[1, 0, 0],
       [0, 1, 0],
       [1, 0, 0],
       [0, 0, 1]])

La première colonne correspond à chat, la seconde à chien et la troisième à oiseau.

## 2.2) MultiLabelBinarizer

In [55]:
from sklearn.preprocessing import MultiLabelBinarizer

In [56]:
encoder_multi = MultiLabelBinarizer()

In [58]:
gg = np.array([['chien', 'poils', 'animal'],
               ['chat', 'poils', 'animal'],
               ['oiseau', 'plumes', 'animal'],
               ['moi', 'poils', 'humain']])

In [59]:
encoder_multi.fit_transform(gg)

array([[1, 0, 1, 0, 0, 0, 0, 1],
       [1, 1, 0, 0, 0, 0, 0, 1],
       [1, 0, 0, 0, 0, 1, 1, 0],
       [0, 0, 0, 1, 1, 0, 0, 1]])

In [60]:
encoder_multi.classes_

array(['animal', 'chat', 'chien', 'humain', 'moi', 'oiseau', 'plumes',
       'poils'], dtype=object)

# 3) Normalisation

## 3.1) MinMaxScaler

Cette technique de normalisation permet de transformer chaque variable de telle sorte qu'elle soit comprise entre 0 et 1.

In [61]:
x = np.array([[70],
              [80],
              [120]])

In [62]:
from sklearn.preprocessing import MinMaxScaler

In [63]:
scaler = MinMaxScaler()

In [64]:
scaler.fit_transform(x)

array([[0. ],
       [0.2],
       [1. ]])

## 3.2) StandardScaler

Transforme chaque variable X de telle sorte que sa moyenne = 0 et son écart type = 1.

In [65]:
from sklearn.preprocessing import StandardScaler

In [66]:
scaler_standard = StandardScaler()

In [67]:
scaler_standard.fit_transform(x)

array([[-0.9258201 ],
       [-0.46291005],
       [ 1.38873015]])

Le problème des normalisation MinMaxScaler et StandardScaler c'est qu'elles sont sensibles aux outliers.

## 3.3) RobustScaler

Transforme nos variables X sans être sensible aux outliers grâce à la médiane et la distance interquartile.

In [68]:
from sklearn.preprocessing import RobustScaler

In [69]:
scaler_robust = RobustScaler()

In [70]:
scaler_robust.fit_transform(x)

array([[-0.4],
       [ 0. ],
       [ 1.6]])

#  4) PolynomialFeatures

Ce transformer permet de créer de nouvelles variables à partir de variables existantes.

In [71]:
X = np.array([[1], [2], [0.5]])

In [72]:
from sklearn.preprocessing import PolynomialFeatures

In [77]:
transformer = PolynomialFeatures(3)

In [78]:
transformer.fit_transform(X)

array([[1.   , 1.   , 1.   , 1.   ],
       [1.   , 2.   , 4.   , 8.   ],
       [1.   , 0.5  , 0.25 , 0.125]])

Le transformer à créer une colonne de biais (la première colonne remplie de 1) et ensuite des colonnes à la puissance 1, au carré et au cube.

# 5) Discrétisation

Cette opération de transformation permet de créer des catégories. Par exemple des tranches d'âges.

## 5.1) Binarizer

In [79]:
from sklearn.preprocessing import Binarizer

In [81]:
X = np.linspace(0,5,10).reshape((10,1))
print(X)

[[0.        ]
 [0.55555556]
 [1.11111111]
 [1.66666667]
 [2.22222222]
 [2.77777778]
 [3.33333333]
 [3.88888889]
 [4.44444444]
 [5.        ]]


In [83]:
Binarizer(threshold=3).fit_transform(X)

array([[0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [1.],
       [1.],
       [1.],
       [1.]])

Toutes les valeurs dans X inférieures à 3 deviennent des 0 et celles supérieures deviennent des 1.

## 5.2) KBinsDiscretizer

In [84]:
from sklearn.preprocessing import KBinsDiscretizer

Fait la même chose de Binarizer mais permet de faire plusieurs classes.

In [86]:
KBinsDiscretizer(n_bins=6).fit_transform(X).toarray()

array([[1., 0., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1.],
       [0., 0., 0., 0., 0., 1.]])