# Preprocessing avec Scikit Learn

In [53]:
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.ensemble import RandomForestClassifier as rfc
from pprint import pprint

# Les methodes de preprocessing

fit transform

## SimpleImputer

Strategy
fill_value
missing_value

## OneHotEncoder

## StandardScaler

## Autres?

# Pipelines

## Pipeline pour les features catégoriques

Pipeline prend en parametres une liste de tuples (nom, transform) qui définie une séquence de transformations.

In [54]:
categorical_pipe = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder())
])

- Les pipelines forment une arborescence de methodes et de paramêtres.
- Les pipelines exposent l'ensemble des paramètres.

In [55]:
categorical_pipe

Pipeline(memory=None,
         steps=[('imputer',
                 SimpleImputer(add_indicator=False, copy=True, fill_value=None,
                               missing_values=nan, strategy='most_frequent',
                               verbose=0)),
                ('onehot',
                 OneHotEncoder(categories='auto', drop=None,
                               dtype=<class 'numpy.float64'>,
                               handle_unknown='error', sparse=True))],
         verbose=False)

- Les paramètres sont préfixés par le nom donné dans le tuple.
- On peut utiliser get_param pour obtenir les paramètres.
- On peut utiliser set_param pour les modifier.
- Attention, il y'a 2 underscore!
- Chaque hyperparamètre pourra être optimisé.

In [56]:
pprint(categorical_pipe.get_params())

{'imputer': SimpleImputer(add_indicator=False, copy=True, fill_value=None,
              missing_values=nan, strategy='most_frequent', verbose=0),
 'imputer__add_indicator': False,
 'imputer__copy': True,
 'imputer__fill_value': None,
 'imputer__missing_values': nan,
 'imputer__strategy': 'most_frequent',
 'imputer__verbose': 0,
 'memory': None,
 'onehot': OneHotEncoder(categories='auto', drop=None, dtype=<class 'numpy.float64'>,
              handle_unknown='error', sparse=True),
 'onehot__categories': 'auto',
 'onehot__drop': None,
 'onehot__dtype': <class 'numpy.float64'>,
 'onehot__handle_unknown': 'error',
 'onehot__sparse': True,
 'steps': [('imputer',
            SimpleImputer(add_indicator=False, copy=True, fill_value=None,
              missing_values=nan, strategy='most_frequent', verbose=0)),
           ('onehot',
            OneHotEncoder(categories='auto', drop=None, dtype=<class 'numpy.float64'>,
              handle_unknown='error', sparse=True))],
 'verbose': False}


In [57]:
categorical_pipe.get_params()['imputer__strategy']

'most_frequent'

In [58]:
categorical_pipe.set_params(imputer__strategy='constant', imputer__fill_value='NA')

Pipeline(memory=None,
         steps=[('imputer',
                 SimpleImputer(add_indicator=False, copy=True, fill_value='NA',
                               missing_values=nan, strategy='constant',
                               verbose=0)),
                ('onehot',
                 OneHotEncoder(categories='auto', drop=None,
                               dtype=<class 'numpy.float64'>,
                               handle_unknown='error', sparse=True))],
         verbose=False)

## Pipeline pour les features numériques

In [59]:
numeric_pipe = Pipeline([
    ('imputer', SimpleImputer(strategy='median')),
    ('scaler', StandardScaler())
])

## ColumnTransformer

ColumnTransformer permet de combiner des traitements differents pour chaque groupe de colonnes.

In [60]:
cat_columns=[]
num_columns=[]

preprocess_pipe = ColumnTransformer([
    ('cat', categorical_pipe, cat_columns),
    ('num', numeric_pipe, num_columns)])


## Pipeline complet

Pipeline complet avec preprocessing et modèle

In [61]:
model = rfc()

full_pipe = Pipeline(
    [('pp', preprocess_pipe),
    ('rfc', model)]
)

Demo sur un dataset?

In [62]:
y_train_pred = full_pipe.fit_transform(X_train)

y_valid_pred = full_pipe.transform(X_valid)
y_test_pred = full_pipe.transform(X_test)

NameError: name 'X_train' is not defined