# Atelier théorique #12 - **Automatisation avec les pipelines**

### Objectifs de cette leçon
1. Comprendre comment utiliser les pipelines.
2. Tester les différentes composantes d'un pipeline.
3. Modifier et complexifier les pipelines.

### Importer le jeu de données Diabiètes pour la classification

In [1]:
# Importer la librairie pandas
import pandas as pd

# Télécharger le jeu de données
data = pd.read_csv('diabetes.csv')

# Remplacer le nom des colonnes
colnames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data.columns = colnames

data.head()

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


### Séparer les données en sous-ensemble X et y

In [2]:
# Préparation des données
X = data.iloc[:, 0:8]
y = data.iloc[:, 8]

In [3]:
# Imprimer l'aperçu des colonnes incluses dans X
X.head()

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age
0,6,148,72,35,0,33.6,0.627,50
1,1,85,66,29,0,26.6,0.351,31
2,8,183,64,0,0,23.3,0.672,32
3,1,89,66,23,94,28.1,0.167,21
4,0,137,40,35,168,43.1,2.288,33


In [4]:
# Imprimer les colonnes incluses dans y
y.head()

0    1
1    0
2    1
3    0
4    1
Name: class, dtype: int64

### 1. Pipeline : Préparation de données et modélisation

Pipeline lien : https://scikit-learn.org/stable/modules/model_evaluation.html#common-cases-predefined-values 

In [6]:
from sklearn.model_selection import cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression

#### 1.1 En utilisant le pipeline

In [7]:
# Créer le pipeline
estimators = []
estimators.append(('standardize', StandardScaler()))
estimators.append(('lr', LogisticRegression(max_iter=1000)))
model = Pipeline(estimators)

In [8]:
estimators

[('standardize', StandardScaler(copy=True, with_mean=True, with_std=True)),
 ('lr',
  LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                     intercept_scaling=1, l1_ratio=None, max_iter=1000,
                     multi_class='auto', n_jobs=None, penalty='l2',
                     random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                     warm_start=False))]

In [9]:
# Appliquer le pipeline dans la validation croisée
lr_results = cross_val_score(model, X, y, cv=10, scoring='accuracy')
print(f"Accuracy : {round(lr_results.mean()*100.0, 2)}% +/- {round(lr_results.std()*100.0, 2)}%")

Accuracy : 77.22% +/- 3.62%


#### 1.2 Comparaison avec la méthode standard

In [10]:
lr_model = LogisticRegression(max_iter=1000)
lr_results = cross_val_score(lr_model, X, y, cv=10, scoring='accuracy')
print(f"Accuracy : {round(lr_results.mean()*100.0, 2)}% +/- {round(lr_results.std()*100.0, 2)}%")

Accuracy : 77.35% +/- 3.57%


### 2. Pipeline : Extraction de variables et modélisation

In [11]:
from sklearn.model_selection import cross_val_score
from sklearn.pipeline import Pipeline
from sklearn.pipeline import FeatureUnion
from sklearn.linear_model import LogisticRegression
from sklearn.decomposition import PCA
from sklearn.feature_selection import SelectKBest

In [12]:
# Créer un pipeline pour les manipulations sur les variables
features = []
features.append(('pca', PCA(n_components=3)))
features.append(('select_best', SelectKBest(k=6)))
features.append(('standardize', StandardScaler()))
feature_union = FeatureUnion(features)

In [13]:
# Imbriquer le pipeline sur les variables and le pipeline principal
estimators = []
estimators.append(('feature_union', feature_union))
estimators.append(('logistic', LogisticRegression(max_iter=1000)))
model = Pipeline(estimators)

In [14]:
features

[('pca',
  PCA(copy=True, iterated_power='auto', n_components=3, random_state=None,
      svd_solver='auto', tol=0.0, whiten=False)),
 ('select_best',
  SelectKBest(k=6, score_func=<function f_classif at 0x7fbf60a51dd0>)),
 ('standardize', StandardScaler(copy=True, with_mean=True, with_std=True))]

In [15]:
estimators

[('feature_union', FeatureUnion(n_jobs=None,
               transformer_list=[('pca',
                                  PCA(copy=True, iterated_power='auto',
                                      n_components=3, random_state=None,
                                      svd_solver='auto', tol=0.0, whiten=False)),
                                 ('select_best',
                                  SelectKBest(k=6,
                                              score_func=<function f_classif at 0x7fbf60a51dd0>)),
                                 ('standardize',
                                  StandardScaler(copy=True, with_mean=True,
                                                 with_std=True))],
               transformer_weights=None, verbose=False)),
 ('logistic',
  LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                     intercept_scaling=1, l1_ratio=None, max_iter=1000,
                     multi_class='auto', n_jobs=None, penalty='l2',
     

In [16]:
# Appliquer le pipeline dans la validation croisée
lr_results = cross_val_score(model, X, y, cv=10, scoring='accuracy')
print(f"Accuracy : {round(lr_results.mean()*100.0, 2)}% +/- {round(lr_results.std()*100.0, 2)}%")

Accuracy : 77.09% +/- 3.62%


## **LEÇON #12 - EXERCICE CONTINU**

## Appliquer un pipeline en classification et régression

### Tâches à accomplir
L'exercice suivant est un peu plus complexe que ceux qu'on a eu l'habitude de faire puisqu'il reprend plusieurs des notions théoriques vues précédemment dans le cours. N'hésitez pas à retourner dans les notebooks précédents pour trouver l'information nécessaire. 

> *Utiliser votre notebook individuel `notebook_pratique_classification_binaire.ipynb` pour les exercices concernant la classification.*

1. Créer un pipeline pour un problème de classification.
  * Conditions :
    * Faire une sélection de variables.
    * Appliquer une transformation sur les données pour les préparer.
    * Modéliser les données avec l'algorithme de votre choix.

> *Utiliser votre notebook individuel `notebook_pratique_régression.ipynb` pour les exercices concernant la régression avec le jeu de données `concrete.csv`.*

2. Créer un pipeline pour un problème de régression.
  * Conditions :
    * Faire une sélection de variables.
    * Modéliser les données avec l'algorithme de votre choix.
