# 1 - Pretraitement des données

## 1-1 - Les transformers
Ils permettent de transformer les futurs données de la meme maniere qu'on été transformé les données d'entrainement. Cela permet à l'estimateur qui vient apres le transformers de bien fonctionner car il reçoit des données coherentes

In [119]:
import numpy as np
from sklearn.preprocessing import LabelEncoder, OrdinalEncoder, LabelBinarizer, OneHotEncoder, MinMaxScaler, StandardScaler, RobustScaler, Binarizer, KBinsDiscretizer

In [8]:
X = np.array([
    'chat',
    'chien',
    'chat',
    'oiseau'
])

In [None]:
transformer = LabelEncoder()

# Devellopement d'une fonction de tranformation en analysant les données X
transformer.fit(X)

# Transformation des données
transformer.transform(X)

In [12]:
# La methode fit_transform() Fait ces deux opperations d'un coup
transformer.fit_transform(X)

array([0, 1, 0, 2])

NB: En combinant un transformer et un estimateur(modele) on obtient une pipeline

Les differents transformers du module preprocessing:

### Encodage
Consiste a transformer les données qualitative en données numeriques car la machine comprend uniquement du numerique.<br> On distingue comme transformers d'encodage: LabeBinarizer, LabelEncoder, MultiLabeBinarizer, OneHotEncoder et OrdinalEncoder<br> Il existe des encodage ordinal(LabelEncoder, OrdinalEncoder) et des encodage OneHot(LabeBinarizer, MultiLabeBinarizer, OneHotEncoder)

#### Encodage ordinal

Il consiste a associer chaque categorie d'une variable a un nombre decimal unique

In [29]:
# LabelEncoder a été conçu specialement pour encoder uniquement la variable cible y. Donc prend une seule colonne
y = np.array(['chien', 'chat', 'chat', 'oiseau', 'chien'])
encoder = LabelEncoder()
encoder.fit_transform(y)

array([1, 0, 0, 2, 1])

In [39]:
# Transformation inverse
encoder.inverse_transform(np.array([1,1,2,0]))

array(['chien', 'chien', 'oiseau', 'chat'], dtype='<U6')

In [62]:
# Lorsqu'on veut encoder sur plusieurs colonne: OrdinalEncoder. Le principe est le meme, a l'exception qu'un ordre
# va etre creer avec les categories

yy = np.array([
    ['chat', 'male'],
    ['chien', 'male'],
    ['chat', 'female'],
    ['oiseau', 'male']
])

In [64]:
encoder2 = OrdinalEncoder()
encoder2.fit_transform(yy)

array([[0., 1.],
       [1., 1.],
       [0., 0.],
       [2., 1.]])

#### Encodage OneHot
Chaque categorie est representée de façon binaire dans une colonne qui lui est propre

In [73]:
# LabelBinarizer

encoder3 = LabelBinarizer()
encoder3.fit_transform(y)

array([[0, 1, 0],
       [1, 0, 0],
       [1, 0, 0],
       [0, 0, 1],
       [0, 1, 0]])

In [81]:
# OneHotEncoder()

encoder4 = OneHotEncoder()
enc = encoder4.fit_transform(yy)

In [83]:
encoder4.inverse_transform(enc)

array([['chat', 'male'],
       ['chien', 'male'],
       ['chat', 'female'],
       ['oiseau', 'male']], dtype='<U6')

### Normalisation
Mettre les données sur une meme echelle<br> On distingue comme fonction de normalisation: MinMaxScaler, RobustScaler, StandardScaler

In [102]:
# MinMaxScaler: Mettre les valeurs entre 0 et 1
X = np.array([[70],[50],[40],[180],[100],[155],[125]])
scaler = MinMaxScaler()
scaler.fit_transform(X)

array([[0.21428571],
       [0.07142857],
       [0.        ],
       [1.        ],
       [0.42857143],
       [0.82142857],
       [0.60714286]])

In [106]:
# Standardisation(StandardScaler): Transforme les données pour que chaque variable ai une moyenne de 0 et un ecart-type de 1.
# On obtient des données en distribution gaussienne

scaler = StandardScaler()
scaler.fit_transform(X)


array([[-0.66687681],
       [-1.07280182],
       [-1.27576432],
       [ 1.56571076],
       [-0.05798929],
       [ 1.0583045 ],
       [ 0.44941698]])

In [110]:
# Le MinMaxScaler et le StandardScaler sont tres sensible aux valeurs aberrantes(Outliers)
# On utilise le RobustScaler. Au lieu de soustraire les données par la moyenne et les diviser par l'ecart-type
# comme la standardisation, on les soustrait par la mediane et les divise par l'intervalle interquartile

scaler = RobustScaler()
scaler.fit_transform(X)

array([[-0.375 ],
       [-0.625 ],
       [-0.75  ],
       [ 1.    ],
       [ 0.    ],
       [ 0.6875],
       [ 0.3125]])

### Discretisation

Consiste à découper une variable continue en plusieurs partie<br>
On distingue: Binarizer et KBinsDiscretizer

## Pipeline
L'astuce est de regrouper les transformers et l'estimateur dans une meme entité appelée Pipeline 

In [136]:
from sklearn.pipeline import make_pipeline
from sklearn.linear_model import SGDClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

iris = load_iris()
X = iris.data
y = iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y)

In [138]:
model = make_pipeline(
    StandardScaler(),
    SGDClassifier()
)
model.fit(X_train, y_train)

In [142]:
model.score(X_test, y_test)

1.0

In [144]:
model.predict(X_test)

array([1, 1, 1, 0, 2, 1, 0, 0, 2, 2, 0, 2, 1, 0, 2, 1, 1, 2, 0, 1, 2, 2,
       2, 1, 0, 2, 1, 0, 2, 0, 2, 2, 1, 0, 2, 2, 1, 2])

Il est possible de faire de la cross-validation(GridSearchCV) avec les pipelines 