In [1]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import SGDClassifier
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder
import seaborn as sns

Matplotlib is building the font cache; this may take a moment.


La **Pipeline avancée** permet de travailler sur des *Dataset hétérogène* c.à.d des dataset contenant différents types de varaibles (**variables discrètes, continues, des variables qui contiennent des mots**); tout ça dans le but de développer des modèles de Machine Learning très performants.

In [2]:
titanic = sns.load_dataset('titanic')
titanic.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [3]:
y = titanic['survived']
X = titanic.drop('survived', axis = 1)

# Make_column_transformer

**ColumnTransformer** permet d'appliquer vos transformers sur les *colonnes* que vous sélectionnez.

Le **StandardScaler** n'accepte de traiter que les variables numériques.

In [4]:
from sklearn.compose import make_column_transformer

La fonction **Make_column_transformer** nous permet de créer un transformer qui ne va appliquer une fonction de transformation que sur certaines colonnes càd les colonnes que l'on indique!!!!  

In [5]:
transformer = make_column_transformer((StandardScaler(),
                                      ['age', 'fare'])) #On a créé un transformer qui applique des transformations sur 
#les colonnes age et fare.

In [6]:
transformer.fit_transform(X) #En utilisant ce transformer sur X, il ne va pas traiter tout le tableau de X mais uniquement les
#colonnes age et fare indiquées ci-haut.

array([[-0.53037664, -0.50244517],
       [ 0.57183099,  0.78684529],
       [-0.25482473, -0.48885426],
       ...,
       [        nan, -0.17626324],
       [-0.25482473, -0.04438104],
       [ 0.15850313, -0.49237783]])

On va créer d'autres transformer.
Pour créer une Pipeline plus riche et plus complexe, on fait le tri entre les colonnes qui sont des variables catégorielles et les colonnes qui sont des variables numériques.

In [7]:
numerical_features = ['pclass', 'age', 'fare']
categorical_features= ['sex', 'deck', 'alone']

In [8]:
numerical_pipeline = make_pipeline(SimpleImputer(),
                                  StandardScaler())
categorical_pipeline = make_pipeline(SimpleImputer(strategy = 'most_frequent'),
                                    OneHotEncoder())
#SimpleImputer pour enlever nos valeurs manquantes au début de chaine
#l'argument strategy = 'most_frequent' consiste à remplacer les valeurs manquantes par les valeurs les plus fréquentes

In [9]:
preprocessor = make_column_transformer((numerical_pipeline, numerical_features),
                       (categorical_pipeline,categorical_features)) #on va appliquer une serie de transformation sur nos 
#"numerical_features" et sur nos categorical_features

In [10]:
model = make_pipeline(preprocessor, SGDClassifier())
model.fit(X, y)

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('pipeline-1',
                                                  Pipeline(steps=[('simpleimputer',
                                                                   SimpleImputer()),
                                                                  ('standardscaler',
                                                                   StandardScaler())]),
                                                  ['pclass', 'age', 'fare']),
                                                 ('pipeline-2',
                                                  Pipeline(steps=[('simpleimputer',
                                                                   SimpleImputer(strategy='most_frequent')),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder())]),
                                                  

## Make_column_selector

In [11]:
from sklearn.compose import make_column_selector

La fonction **Make_column_selector** permet de sélectionner certains *types* de colonnes. Cette fonction est très importantes surtout lorsque nous avons plusieurs variables. Elle permet de sélectionner les variables non pas de façon explicite comme vu ci-haut. on peut ainsi indiquer les types de variables que l'on veut sélectionner, on peut aussi sélectionner une variable en fonction d'un **pattern**.

In [12]:
numericai_features = make_column_selector(dtype_include = np.number)
categorical_features = make_column_selector(dtype_exclude = np.number) #ici on exclut toutes variables numériques

#Cette fonction nous a permis de sélectionner toutes les colonnes numériques contenues dans notre Dataset contrairement à tout
#l'heure.

#dtype_include
#dtype_exclude
#pattern

In [13]:
numerical_pipeline = make_pipeline(SimpleImputer(),
                                  StandardScaler())
categorical_pipeline = make_pipeline(SimpleImputer(strategy = 'most_frequent'),
                                    OneHotEncoder())
#SimpleImputer pour enlever nos valeurs manquantes au début de chaine
#l'argument strategy = 'most_frequent' consiste à remplacer les valeurs manquantes par les valeurs les plus fréquentes

In [14]:
preprocessor = make_column_transformer((numerical_pipeline, numerical_features),
                       (categorical_pipeline,categorical_features)) #on va appliquer une serie de transformation sur nos 
#"numerical_features" et sur nos categorical_features

In [15]:
model = make_pipeline(preprocessor, SGDClassifier())
model.fit(X, y)

Pipeline(steps=[('columntransformer',
                 ColumnTransformer(transformers=[('pipeline-1',
                                                  Pipeline(steps=[('simpleimputer',
                                                                   SimpleImputer()),
                                                                  ('standardscaler',
                                                                   StandardScaler())]),
                                                  ['pclass', 'age', 'fare']),
                                                 ('pipeline-2',
                                                  Pipeline(steps=[('simpleimputer',
                                                                   SimpleImputer(strategy='most_frequent')),
                                                                  ('onehotencoder',
                                                                   OneHotEncoder())]),
                                                  

## Make_union()

La fonction **Make_Union()** permet de créer des pipelines **parallèles**. Les résultats sont **concaténés** à la sortie du transformer.

In [26]:
y = titanic['survived']
X = titanic.drop('survived', axis = 1)

In [27]:
numerical = X[['age', 'fare']]

In [28]:
from sklearn.pipeline import make_union
from sklearn.preprocessing import Binarizer

In [29]:
pipeline = make_union(StandardScaler(), Binarizer())

In [30]:
pipeline.fit_transform(numerical).shape

ValueError: Input contains NaN, infinity or a value too large for dtype('float64').