# L’apprentissage supervisé avec Scikit-Learn
Les méthodes d’apprentissage supervisé sont les méthodes actuellement les plus
utilisées en data science. Il s’agit d’essayer de prédire une variable cible et d’utiliser
différentes méthodes pour arriver à cette fin.
Nous allons illustrer ces méthodes de traitement de données avec du code et des
cas pratiques.

### Les données et leur transformation

Nous allons utiliser le jeu de données dans `Data/telecom.csv`, il est composé de 3333 individus et de 18 variables (+1 label). On le récupère en utilisant Pandas :

In [1]:
import pandas as pd
import numpy as np

In [2]:
churn=pd.read_csv("https://www.stat4decision.com/telecom.csv").drop(columns=['State', 'Phone'])

In [3]:
churn.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3333 entries, 0 to 3332
Data columns (total 19 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Account Length  3333 non-null   int64  
 1   Area Code       3333 non-null   int64  
 2   Int'l Plan      3333 non-null   object 
 3   VMail Plan      3333 non-null   object 
 4   VMail Message   3333 non-null   int64  
 5   Day Mins        3333 non-null   float64
 6   Day Calls       3333 non-null   int64  
 7   Day Charge      3333 non-null   float64
 8   Eve Mins        3333 non-null   float64
 9   Eve Calls       3333 non-null   int64  
 10  Eve Charge      3333 non-null   float64
 11  Night Mins      3333 non-null   float64
 12  Night Calls     3333 non-null   int64  
 13  Night Charge    3333 non-null   float64
 14  Intl Mins       3333 non-null   float64
 15  Intl Calls      3333 non-null   int64  
 16  Intl Charge     3333 non-null   float64
 17  CustServ Calls  3333 non-null   i

## Les données

Ce jeu de données n’a pas de données manquantes et nous allons devoir effectuer
quelques transformations pour l’adapter à nos traitements. Nous voyons par exemple qu’il est composé de trois colonnes object.

Nous pouvons afficher les statistiques descriptives pour les colonnes `object` :

In [4]:
churn.describe(include="object")

Unnamed: 0,Int'l Plan,VMail Plan,Churn?
count,3333,3333,3333
unique,2,2,2
top,no,no,False.
freq,3010,2411,2850


Toutes les autres données sont des valeur numériques :

In [5]:
churn.describe(exclude='object')

Unnamed: 0,Account Length,Area Code,VMail Message,Day Mins,Day Calls,Day Charge,Eve Mins,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls
count,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0
mean,101.064806,437.182418,8.09901,179.775098,100.435644,30.562307,200.980348,100.114311,17.08354,200.872037,100.107711,9.039325,10.237294,4.479448,2.764581,1.562856
std,39.822106,42.37129,13.688365,54.467389,20.069084,9.259435,50.713844,19.922625,4.310668,50.573847,19.568609,2.275873,2.79184,2.461214,0.753773,1.315491
min,1.0,408.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,23.2,33.0,1.04,0.0,0.0,0.0,0.0
25%,74.0,408.0,0.0,143.7,87.0,24.43,166.6,87.0,14.16,167.0,87.0,7.52,8.5,3.0,2.3,1.0
50%,101.0,415.0,0.0,179.4,101.0,30.5,201.4,100.0,17.12,201.2,100.0,9.05,10.3,4.0,2.78,1.0
75%,127.0,510.0,20.0,216.4,114.0,36.79,235.3,114.0,20.0,235.3,113.0,10.59,12.1,6.0,3.27,2.0
max,243.0,510.0,51.0,350.8,165.0,59.64,363.7,170.0,30.91,395.0,175.0,17.77,20.0,20.0,5.4,9.0


## Transformation des données

Il y a deux grands types de données, que l'on va traiter différemment :
* les données catégorielles ou qualitatives : ici "Int'l Plan", "Vmail Plan", "Churn?" et "Area Code"
* les données quantitatives : les autres

Les données qualitatives vont être recodées avec Scikit-learn et/ou pandas pour obtenir des données exploitables.

Les données quantitatives peuvent être modifiées avec Scikit-learn pour améliorer les performances des algorithmes.

In [6]:
churn["Area Code"].value_counts()

415    1655
510     840
408     838
Name: Area Code, dtype: int64

## La préparation des données qualitatives

Nous allons utiliser le processus de traitement classique pour transformer nos
données avec Scikit-Learn. Dans ce cas, nous n’avons pas de données manquantes,
nous travaillons donc sur la transformation des variables qualitatives.

In [7]:
from sklearn.preprocessing import LabelEncoder

`LabelEncoder` va nous permettre de transformer les valeurs textuelles binaires en entiers.
Nous pouvons utiliser pour chaque variable qualitative :

In [8]:
# création d'un objet
encoder = LabelEncoder()
#encoded = pd.DataFrame()
# on applique les données à l'objet
example = encoder.fit_transform(churn["Churn?"])
# on vérifie les données modifiées
np.unique(example)

array([0, 1])

In [9]:
encoder.classes_

array(['False.', 'True.'], dtype=object)

On peut également le faire de manière automatique sur toutes les colonnes de type `object`:

In [10]:
quali_columns = []
encoded = pd.DataFrame()

for col in churn.columns:
    if churn[col].dtype == object:
        quali_columns.append(col)
        encoder=LabelEncoder()
        encoded[col]=encoder.fit_transform(churn[col])

In [11]:
quali_columns

["Int'l Plan", 'VMail Plan', 'Churn?']

In [12]:
encoded[["Int'l Plan", "VMail Plan", "Churn?"]].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3333 entries, 0 to 3332
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype
---  ------      --------------  -----
 0   Int'l Plan  3333 non-null   int64
 1   VMail Plan  3333 non-null   int64
 2   Churn?      3333 non-null   int64
dtypes: int64(3)
memory usage: 78.2 KB


Il faut également s'occuper du cas de la variable `'Area Code'`, qui est qualitative, mais non binaire.

Essayons avec le `LabelEncoder()`:

In [13]:
np.unique(encoder.fit_transform(churn["Area Code"]))

array([0, 1, 2])

Qu'en pensez-vous ? Cela est-il convenable ?

Pour les données qualitatives non binaires (plus que 2 possibilités), il existe une méthode interne à Pandas : la fonction `pd.get_dummies()`

In [14]:
dummies = pd.get_dummies(churn["Area Code"])
dummies.head(3)

Unnamed: 0,408,415,510
0,0,1,0
1,0,1,0
2,0,1,0


Pour éviter la redondance d'information, on peut choisir de supprimer l'une des colonnes avec l'option `drop_first=True`.

On va conserver cette variable également pour se rappeler qu'elle est qualitative :

In [15]:
quali_columns.append("Area Code")
quali_columns

["Int'l Plan", 'VMail Plan', 'Churn?', 'Area Code']

> On peut également utiliser le `OneHotEncoder` de scikit-learn.

## La préparation des données quantitatives

Les données quantitatives peuvent être "scalées" afin d'être centrées sur 0, avec un écart-type de 1 (et donc globalement sur un intervalle proche de [-1, 1]) : cela va faciliter le traitement pour l'algorithme de machine learning.

Cela peut être fait directement à la main, à l'aide des fonctions statistiques de pandas (attention à ne bien traiter que les données quantitatives !) :

In [16]:
to_scale = churn.drop(columns=quali_columns)

scaled = (to_scale - to_scale.mean())/to_scale.std()
scaled.describe()

Unnamed: 0,Account Length,VMail Message,Day Mins,Day Calls,Day Charge,Eve Mins,Eve Calls,Eve Charge,Night Mins,Night Calls,Night Charge,Intl Mins,Intl Calls,Intl Charge,CustServ Calls
count,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0,3333.0
mean,1.449652e-16,5.3296030000000004e-17,7.312216e-16,-2.025249e-16,-2.888645e-16,-7.248261000000001e-17,3.293695e-16,1.321742e-16,7.887813e-17,-5.1164190000000006e-17,-4.4768670000000004e-17,-3.528198e-16,-4.4768670000000004e-17,2.771394e-16,7.461445e-18
std,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
min,-2.512795,-0.5916711,-3.300601,-5.004496,-3.300667,-3.963027,-5.025157,-3.963085,-3.513121,-3.429355,-3.514838,-3.666863,-1.820015,-3.66766,-1.18804
25%,-0.6796428,-0.5916711,-0.6623247,-0.6694697,-0.6622766,-0.6779283,-0.6582622,-0.6782106,-0.669754,-0.6698335,-0.667579,-0.6222756,-0.6011049,-0.6163417,-0.4278678
50%,-0.0016274,-0.5916711,-0.006886644,0.02812069,-0.006729054,0.008274899,-0.005737769,0.008458004,0.00648483,-0.005504263,0.004690538,0.02246056,-0.1948014,0.02045516,-0.4278678
75%,0.6512763,0.8694238,0.6724189,0.6758832,0.6725781,0.6767314,0.6969809,0.676568,0.6807464,0.658825,0.681354,0.6671967,0.6178056,0.6705186,0.3323046
max,3.564231,3.134121,3.13995,3.217105,3.140331,3.208584,3.507855,3.207498,3.838505,3.827165,3.836188,3.496872,6.306055,3.496304,5.653511


> On peut également utiliser le `StandardScaler` de scikit-learn.

Finalement, on veut concaténer ces nouvelles valeurs sur le dataframe originel, à l'aide la fonction `pd.concat` :

In [17]:
df = pd.concat([scaled, dummies, encoded], axis=1)
df.head()

Unnamed: 0,Account Length,VMail Message,Day Mins,Day Calls,Day Charge,Eve Mins,Eve Calls,Eve Charge,Night Mins,Night Calls,...,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,408,415,510,Int'l Plan,VMail Plan,Churn?
0,0.676388,1.234697,1.566532,0.476572,1.566801,-0.070599,-0.055932,-0.070416,0.866613,-0.465425,...,-0.084995,-0.601105,-0.085678,-0.427868,0,1,0,0,1,0
1,0.149043,1.307752,-0.333688,1.124334,-0.333963,-0.108064,0.144845,-0.107533,1.058412,0.147802,...,1.240296,-0.601105,1.240982,-0.427868,0,1,0,0,1,0
2,0.902393,-0.591671,1.168128,0.675883,1.168289,-1.573147,0.496204,-1.573664,-0.756756,0.198905,...,0.703015,0.211502,0.697052,-1.18804,0,1,0,0,0,0
3,-0.428526,-0.591671,2.196267,-1.466716,2.196429,-2.742453,-0.608068,-2.742856,-0.078539,-0.567629,...,-1.302831,1.024109,-1.306205,0.332305,1,0,0,1,0,0
4,-0.654531,-0.591671,-0.240054,0.626055,-0.240005,-1.038776,1.098534,-1.037784,-0.27627,1.067643,...,-0.049177,-0.601105,-0.045878,1.092477,0,1,0,1,0,0


Finalement, on peut concaténer ces nouvelles valeurs sur le dataframe originel, à l'aide la fonction `pd.concat` :

In [19]:
df = pd.concat([scaled, dummies, encoded], axis=1)
df.head()

Unnamed: 0,Account Length,VMail Message,Day Mins,Day Calls,Day Charge,Eve Mins,Eve Calls,Eve Charge,Night Mins,Night Calls,...,Intl Mins,Intl Calls,Intl Charge,CustServ Calls,408,415,510,Int'l Plan,VMail Plan,Churn?
0,0.676388,1.234697,1.566532,0.476572,1.566801,-0.070599,-0.055932,-0.070416,0.866613,-0.465425,...,-0.084995,-0.601105,-0.085678,-0.427868,0,1,0,0,1,0
1,0.149043,1.307752,-0.333688,1.124334,-0.333963,-0.108064,0.144845,-0.107533,1.058412,0.147802,...,1.240296,-0.601105,1.240982,-0.427868,0,1,0,0,1,0
2,0.902393,-0.591671,1.168128,0.675883,1.168289,-1.573147,0.496204,-1.573664,-0.756756,0.198905,...,0.703015,0.211502,0.697052,-1.18804,0,1,0,0,0,0
3,-0.428526,-0.591671,2.196267,-1.466716,2.196429,-2.742453,-0.608068,-2.742856,-0.078539,-0.567629,...,-1.302831,1.024109,-1.306205,0.332305,1,0,0,1,0,0
4,-0.654531,-0.591671,-0.240054,0.626055,-0.240005,-1.038776,1.098534,-1.037784,-0.27627,1.067643,...,-0.049177,-0.601105,-0.045878,1.092477,0,1,0,1,0,0


##  Automatisation avec Pipeline & ColumnTransformer

On peut évidemment automatiser toutes ces transformations pour plus de simplificité 

In [21]:
from sklearn.compose import ColumnTransformer
# on utilisera un pipeline pour enchaîner les traitements
from sklearn.pipeline import Pipeline
# les méthodes de prétraitement
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder

In [22]:
# on définit les colonnes et les transformations pour 
# les colonnes quantitatives
col_quanti = ['Day Mins', 'Day Calls', 'Day Charge',
       'Eve Mins', 'Eve Calls', 'Eve Charge', 'Night Mins', 'Night Calls',
       'Night Charge', 'Intl Mins', 'Intl Calls', 'Intl Charge',
       'CustServ Calls']

transfo_quanti = Pipeline(steps=[
    ('imputation', SimpleImputer(strategy='median')),
    ('standard', StandardScaler())])

# on définit les colonnes et les transformations pour
# les variables qualitatives
col_quali = ['Area Code', "Int'l Plan", 'VMail Plan']

transfo_quali = Pipeline(steps=[
    ('imputation', SimpleImputer(strategy='constant', fill_value='manquant')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))])

# on définit l'objet de la classe ColumnTransformer
# qui va permettre d'appliquer toutes les étapes
preparation = ColumnTransformer(
    transformers=[
        ('quanti', transfo_quanti , col_quanti),
        ('quali', transfo_quali , col_quali)])

In [23]:
churn_transfo = preparation.fit_transform(churn)

In [24]:
pd.DataFrame(churn_transfo)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,1.566767,0.476643,1.567036,-0.070610,-0.055940,-0.070427,0.866743,-0.465494,0.866029,-0.085008,-0.601195,-0.085690,-0.427932,0.0,1.0,0.0,1.0,0.0,0.0,1.0
1,-0.333738,1.124503,-0.334013,-0.108080,0.144867,-0.107549,1.058571,0.147825,1.059390,1.240482,-0.601195,1.241169,-0.427932,0.0,1.0,0.0,1.0,0.0,0.0,1.0
2,1.168304,0.675985,1.168464,-1.573383,0.496279,-1.573900,-0.756869,0.198935,-0.755571,0.703121,0.211534,0.697156,-1.188218,0.0,1.0,0.0,1.0,0.0,1.0,0.0
3,2.196596,-1.466936,2.196759,-2.742865,-0.608159,-2.743268,-0.078551,-0.567714,-0.078806,-1.303026,1.024263,-1.306401,0.332354,1.0,0.0,0.0,0.0,1.0,1.0,0.0
4,-0.240090,0.626149,-0.240041,-1.038932,1.098699,-1.037939,-0.276311,1.067803,-0.276562,-0.049184,-0.601195,-0.045885,1.092641,0.0,1.0,0.0,0.0,1.0,1.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3328,-0.432895,-1.167924,-0.433386,0.286348,1.299506,0.286880,1.547039,-0.874374,1.547188,-0.120832,0.617898,-0.125496,0.332354,0.0,1.0,0.0,1.0,0.0,0.0,1.0
3329,0.942447,-2.164631,0.942714,-0.938353,-2.264816,-0.938172,-0.189297,1.170023,-0.188670,-0.228304,-0.194831,-0.231645,1.092641,0.0,1.0,0.0,1.0,0.0,1.0,0.0
3330,0.018820,0.426808,0.019193,1.731930,-2.114211,1.732349,-0.177431,-0.465494,-0.175486,1.383778,0.617898,1.387123,0.332354,0.0,0.0,1.0,1.0,0.0,1.0,0.0
3331,0.624778,0.227466,0.625153,-0.816080,-0.808966,-0.815203,-1.219628,1.885562,-1.221396,-1.876211,2.243356,-1.876950,0.332354,0.0,0.0,1.0,0.0,1.0,1.0,0.0


## Prédire l’attrition des clients
Lorsqu’on veut prédire une variable binaire, on devra avoir une colonne du type
binaire. On préfère généralement un codage 0/1 afin de garder un type entier simple à gérer. 

Les variables explicatives x auront été préparées de manière intelligente afin de bien appliquer nos modèles.

On crée donc x et y :

In [25]:
x = churn_transfo
y = churn["Churn?"]

In [26]:
y.value_counts()

False.    2850
True.      483
Name: Churn?, dtype: int64

## Séparation des données

Pour la séparation, on utilise la fonction `train_test_split()` de Scikit-Learn.

Cette fonction permet de créer automatiquement autant de structures que nécessaire à partir de nos données. 

Elle utilise une randomisation des individus et ensuite une séparation en fonction d’un paramètre du type `test_size` :

In [27]:
# on importe la fonction
from sklearn.model_selection import train_test_split
# dans ce cas on a :
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=0)

Dans certains cas, il peut arriver qu’il y ait une forte disparité de distribution des
modalités entre les proportions d’acceptation et de refus. On peut vouloir faire en
sorte que les répartitions des modalités de y soient égales dans les différents échantillons,
on pourra alors utiliser une stratification. On va utiliser une stratification en
prenant y comme base pour effectuer la stratification :

In [28]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, stratify=y, random_state=0)
y.value_counts(normalize=True)

False.    0.855086
True.     0.144914
Name: Churn?, dtype: float64

Ainsi les deux échantillons `y_train` et `y_test` ont la même distribution

In [29]:
y_test.value_counts(normalize=True)

False.    0.854573
True.     0.145427
Name: Churn?, dtype: float64

In [30]:
y_train.value_counts(normalize=True)

False.    0.855214
True.     0.144786
Name: Churn?, dtype: float64

## Le choix et l’ajustement de l’algorithme

Tout au long de ce Notebook, nous allons essayer d'ajouter un nouveau modèle aux exemples fournis, il s'agit du modèle de Gradient Boosting :
```python
from sklearn.ensemble import GradientBoostingClassifier
```

In [31]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
# ajouter le 3ème modèle

Ensuite, on crée un objet à partir de la classe du modèle en lui fournissant les
hyperparamètres dont il a besoin :

In [32]:
modele_rf=RandomForestClassifier(n_estimators=10)
modele_knn=KNeighborsClassifier(n_neighbors=5)
# ajouter le 3ème modèle

Dans ce cas, on prend les hyperparamètres par défaut.

On peut ensuite ajuster notre modèle en utilisant les données :

In [33]:
modele_rf.fit(x_train, y_train)
modele_knn.fit(x_train, y_train)
# ajouter le 3ème modèle

KNeighborsClassifier()

Une fois qu’on a estimé les paramètres du modèle, on va pouvoir extraire des
informations. De nouveaux attributs de chaque classe apparaissent, ils se terminent par le symbole underscore `_` :

In [34]:
modele_rf.feature_importances_

array([0.13529917, 0.04597698, 0.14276148, 0.0572711 , 0.0347101 ,
       0.07059746, 0.04923013, 0.03578037, 0.04096609, 0.05075023,
       0.05575721, 0.05300092, 0.09127842, 0.00507368, 0.00695384,
       0.00594836, 0.03466227, 0.03711053, 0.0230576 , 0.02381405])

Ce qui va nous intéresse avant tout, c’est de prédire avec notre modèle. Pour cela nous allons utiliser la méthode `.predict()` :

In [35]:
y_predict_rf = modele_rf.predict(x_test)
y_predict_knn = modele_knn.predict(x_test)
# ajouter le 3ème modèle

On obtient ainsi une valeur prédite pour les éléments de notre échantillon de
validation.

## Les indicateurs pour valider un modèle
La partie validation d’un modèle d’apprentissage supervisé est extrêmement
importante. L’objectif d’un modèle d’apprentissage supervisé est de prédire une
valeur la plus proche possible de la réalité. Nous différencions trois types d’indices
en fonction du type de variable cible. Tous les indicateurs de qualité du modèle sont
stockés dans le module *metrics* de Scikit-Learn.

## Le pourcentage de bien classés
Il s’agit de l’indicateur le plus connu. On le nomme accuracy. Il est calculé à partir du rapport entre le nombre d’individus bien classés et le nombre total d’individus dans l’échantillon.

In [36]:
from sklearn.metrics import accuracy_score, recall_score

accuracy_modele_rf = accuracy_score(y_test,y_predict_rf)
accuracy_modele_knn = accuracy_score(y_test,y_predict_knn)
print("Pourcentage de bien classés pour le modèle RF : %.3f" %(accuracy_modele_rf))
print("Pourcentage de bien classés pour le modèle kNN :%.3f" %(accuracy_modele_knn))
# ajouter le 3ème modèle

Pourcentage de bien classés pour le modèle RF : 0.955
Pourcentage de bien classés pour le modèle kNN :0.894


## La matrice de confusion
Il s’agit d’un autre indicateur important pour juger de la qualité d’un modèle, il n’est pas défini par une seule valeur mais par une matrice dans laquelle on peut lire le croisement entre les valeurs observées et les valeurs prédites à partir du modèle. 

Pour calculer cette matrice, on pourra utiliser :

In [37]:
from sklearn.metrics import confusion_matrix
confusion_matrix_rf=confusion_matrix(y_test,y_predict_rf)
confusion_matrix_knn=confusion_matrix(y_test,y_predict_knn)
print("Matrice de confusion pour le modèle RF :",
confusion_matrix_rf, sep="\n")
print("Matrice de confusion pour le modèle kNN :",
confusion_matrix_knn, sep="\n")
# ajouter le 3ème modèle

Matrice de confusion pour le modèle RF :
[[568   2]
 [ 28  69]]
Matrice de confusion pour le modèle kNN :
[[565   5]
 [ 66  31]]


## Le rappel (recall), la précision et le f1-score

Scikit-Learn possède des fonctions pour chacun de ces indicateurs, mais il peut
être intéressant d’utiliser une autre fonction qui les affiche pour chaque classe

Pour information :
$${\displaystyle F=2\cdot {\frac {\mathrm {precision} \cdot \mathrm {recall} }{\mathrm {precision} +\mathrm {recall} }}}$$

## Représentation visuelle du rappel et de la précision 

<img src='images/precision_rappel.png' width='300px' class="center">


In [38]:
from sklearn.metrics import classification_report
print("Rapport pour le modèle RF :",
      classification_report(y_test,y_predict_rf) ,sep="\n")

Rapport pour le modèle RF :
              precision    recall  f1-score   support

      False.       0.95      1.00      0.97       570
       True.       0.97      0.71      0.82        97

    accuracy                           0.96       667
   macro avg       0.96      0.85      0.90       667
weighted avg       0.96      0.96      0.95       667



In [39]:
print("Rapport pour le modèle kNN :",
      classification_report(y_test,y_predict_knn) ,sep="\n")

Rapport pour le modèle kNN :
              precision    recall  f1-score   support

      False.       0.90      0.99      0.94       570
       True.       0.86      0.32      0.47        97

    accuracy                           0.89       667
   macro avg       0.88      0.66      0.70       667
weighted avg       0.89      0.89      0.87       667



In [40]:
# ajouter le 3ème modèle

## L’aire sous la courbe ROC
La courbe ROC est un indicateur important mais on préfère souvent une valeur plutôt
qu’une courbe afin de comparer nos modèles. Pour cela, on utilise l’aire sous la courbe
ROC (AUC). Cette aire est calculée directement à partir de la courbe ROC. Ainsi, un
modèle aléatoire aura une AUC de 0.5 et un modèle parfait aura une AUC de 1.

<img src='images/ROCcurve.png' width='300px' class="center">


In [41]:
from sklearn.metrics import roc_auc_score
auc_modele_rf=roc_auc_score(y_test, modele_rf.predict_proba(x_test)[:,1])
auc_modele_knn=roc_auc_score(y_test,modele_knn.predict_proba(x_test)[:,1])

print("Aire sous la courbe ROC pour le modèle RF :" ,auc_modele_rf)
print("Aire sous la courbe ROC pour le modèle kNN :" ,auc_modele_knn)
# ajouter le 3ème modèle

Aire sous la courbe ROC pour le modèle RF : 0.9260444926749863
Aire sous la courbe ROC pour le modèle kNN : 0.835169108337855


## La validation croisée
Jusqu’ici nous avons utilisé des indicateurs basés sur une seule occurrence de test. Ceci veut dire qu’on ne teste notre modèle que sur un seul échantillon.

Une approche alternative souvent utilisée est la validation croisée. Celle-ci est en fait basée sur la répétition de l’estimation et de la validation sur des données différentes.

Pour obtenir ce cv-score, on utilise :

In [42]:
from sklearn.model_selection import cross_val_score

scores_rf = cross_val_score(modele_rf, x_train, y_train, cv=5, scoring='roc_auc')
scores_knn = cross_val_score(modele_knn, x_train, y_train, cv=5, scoring='roc_auc')

print("AUC pour RF : %.3f (+/- %.3f)"% (scores_rf.mean(), scores_rf.std() * 2))
print("AUC pour kNN : %.3f (+/- %.3f)"% (scores_knn.mean(),scores_knn.std() * 2))
# ajouter le 3ème modèle

AUC pour RF : 0.896 (+/- 0.017)
AUC pour kNN : 0.779 (+/- 0.028)


## L’ajustement des hyperparamètres d’un modèle

L’une des tâches du data scientist est de trouver le meilleur modèle possible. La
plupart des modèles de machine learning ont des hyperparamètres. Il s’agit de paramètres
du modèle qui sont définis en amont de l’ajustement.

Scikit-Learn propose une classe GridSearchCV permettant d’implémenter cette
recherche d’hyperparamètres :

In [43]:
from sklearn.model_selection import GridSearchCV

On va donc devoir définir les hyperparamètres que l’on souhaite tester. Pour cela,
on utilisera un dictionnaire d’hyperparamètres, par exemple :

In [44]:
dico_param= {"max_depth":[3,5,7,10], "n_estimators":[10,20,50,100]}

On va encore utiliser l’accuracy pour valider notre modèle. Finalement, nous allons
utiliser une validation croisée à cinq groupes pour valider les résultats.
Le nouvel objet est le suivant :

In [45]:
recherche_hyper = GridSearchCV(RandomForestClassifier(), 
                               dico_param, 
                               scoring="accuracy",
                               cv=5)

Une fois qu’on a créé cet objet, on peut lui joindre les données afin d’estimer les
meilleurs paramètres du modèle.

Cette étape peut être très longue.

In [46]:
recherche_hyper.fit(x_train, y_train)

GridSearchCV(cv=5, estimator=RandomForestClassifier(),
             param_grid={'max_depth': [3, 5, 7, 10],
                         'n_estimators': [10, 20, 50, 100]},
             scoring='accuracy')

- Pour des précisions sur les différents résultats : `recherche_hyper.cv_results_`
- Le meilleur jeu d'hyperparamètres : `recherche_hyper.best_results_`
- Le meilleur score : `recherche_hyper.best_score_`

In [47]:
recherche_hyper.best_score_

0.946358327887514

**Exercice :**

Effectuez le même travail avec GBM

## La construction d’un pipeline de traitement

Bien souvent vous allez être amené à enchaîner des traitements sur des données.
On peut bien sûr développer son code de manière à suivre les étapes une à une mais il est souvent plus intéressant de créer des suites de traitements automatisées avec Scikit-Learn. 

Ces suites de traitements sont appelées pipeline. Ils simplifieront votre code et permettront de passer en production simplement.

Ainsi, on va pouvoir faire une analyse en composantes principales suivies d’un
algorithme de plus proches voisins directement dans un pipeline :

In [48]:
from sklearn.pipeline import Pipeline
from sklearn.decomposition import PCA

In [49]:
pca=PCA(n_components=8)
knn=KNeighborsClassifier()
rf=RandomForestClassifier()
pipe=Pipeline(steps=[("pca",pca),("knn",knn)])
pipe2=Pipeline(steps=[("pca",pca),("rf",rf)])

pipe.fit(x_train, y_train)
pipe2.fit(x_train, y_train)

Pipeline(steps=[('pca', PCA(n_components=8)), ('rf', RandomForestClassifier())])

On a ainsi enchaîné deux traitements. Si on cherche des sorties liées à chacune
des étapes, on pourra le faire simplement. Par exemple, si l’objectif est d’extraire la part de variances expliquées par les composantes de l’analyse en composantes principales, on fera :

In [50]:
print('variance expliquée par feature :', pipe.named_steps["pca"].explained_variance_ratio_)
print('variance expliquée sommée :', pipe.named_steps["pca"].explained_variance_ratio_.sum())

variance expliquée par feature : [0.14412529 0.14234771 0.14013857 0.13687355 0.07518858 0.07183348
 0.06921122 0.06858857]
variance expliquée sommée : 0.8483069766867318


## Trouver la meilleure combinaison d’hyperparamètres dans un pipeline

Essayons de trouver la meilleure combinaison d’hyperparamètres dans un pipeline.
Dans le cadre de cet exemple, nous utiliserons les SVM (support vector machines,
également appelés séparateurs à vaste marge ou machines à vecteurs de support).
Ce sont des méthodes assez complexes dans leur principe mais simples dans leur
mise en oeuvre.

Les hyperparamètres d’un modèle de SVM sont assez nombreux. Les plus importants
étant le noyau choisi (linéaire, polynomial, sigmoïd, RBF…), les paramètres de
ces noyaux (le degré pour le cas polynomiale, gamma…) et le C pour la marge floue.

**Attention**, les noms d'hyperparamètres doivent alors être précédés du nom du modèle puis d'un double underscore `__`. Par exemple : `pca__n_components` pour le paramètre `n_components` du modèle nommé `pca`.

In [51]:
from sklearn.pipeline import Pipeline
from sklearn.svm import SVC
from sklearn.decomposition import PCA
from sklearn.model_selection import GridSearchCV

# construction du pipeline basé sur deux approches
mon_pipe = Pipeline(steps=[("pca",PCA()),("svc",SVC())])

# construction du dictionnaire des paramètres
# (attention utilisation de __)
param_grid = {"pca__n_components":[5, 10, x_train.shape[1]],
              "svc__C": [1, 10, 100, 1000],
              "svc__kernel": ['sigmoid', 'rbf'],
              "svc__gamma": [0.001, 0.0001]}

# on construit l’objet GridSearch et on estime les hyper-paramètres
# par validation croisée
grid_search_mon_pipe = GridSearchCV(mon_pipe, param_grid = param_grid, scoring = "roc_auc", cv = 4)

In [52]:
grid_search_mon_pipe.fit(x_train,y_train)

GridSearchCV(cv=4, estimator=Pipeline(steps=[('pca', PCA()), ('svc', SVC())]),
             param_grid={'pca__n_components': [5, 10, 20],
                         'svc__C': [1, 10, 100, 1000],
                         'svc__gamma': [0.001, 0.0001],
                         'svc__kernel': ['sigmoid', 'rbf']},
             scoring='roc_auc')

In [53]:
# la meilleure combinaisons de paramètres est :
grid_search_mon_pipe.best_params_

{'pca__n_components': 20,
 'svc__C': 1000,
 'svc__gamma': 0.001,
 'svc__kernel': 'rbf'}

In [54]:
grid_search_mon_pipe.best_score_

0.8764711728311328

Les meilleurs hyperparamètres obtenus en utilisant l’aire sous la courbe ROC sont
la combinaison C = 10, gamma = 0.0001, un noyau RBF pour les SVM et dix composantes
pour notre analyse en composantes principales.

Dans ce code, on définit les hyperparamètres associés à une méthode du pipeline
avec un double underscore : __.

L’utilisation des pipelines de Scikit-Learn va devenir rapidement une étape cruciale
de vos développements en Python.

## Passer en production votre modèle d’apprentissage supervisé

### Persistance de modèle avec Scikit-Learn

Python possède plusieurs outils pour la persistance d’objets, c’est-à-dire pour stocker
des objets dans des fichiers. Les objets de Scikit-Learn sont aussi dans cette
situation. On utilise un format pickle qui aura l’extension .pkl.

Par exemple, si nous voulons sauvegarder le dernier pipeline de traitement, nous
allons utiliser :

In [48]:
from sklearn.externals import joblib
joblib.dump(grid_search_mon_pipe, './modele_grid_pipe.pkl')

['./Data/modele_grid_pipe.pkl']

Une fois ce modèle stocké, on peut très bien le réutiliser dans un autre cadre. Si
nous créons un nouveau notebook, nous allons utiliser :



In [49]:
from sklearn.externals import joblib
grid_search_mon_pipe = joblib.load('./modele_grid_pipe.pkl')

On peut ensuite appliquer le modèle avec tous les paramètres qui ont été appris :


```Python
grid_search_mon_pipe.predict(x_test)
```

L’utilisation d’un fichier Pickle dans un notebook est une technique assez simple et courante.