# Atelier théorique #8 - **Échantillonnage**

### Objectifs de cette leçon
1. Séparer le jeu de données en ensemble d'entraînement et de test.
2. Apprendre à utiliser la validation croisée. 

### 2 méthodes d'échantillonnage montrées :
1. Séparer les données en ensemble d'entraînement et de test avec `train_test_split` de Scikit-Learn.
2. Validation croisée avec `KFold` de Scikit-Learn.

### Charger les données et ajouter les titres de colonnes

In [None]:
# Importer la librairie pandas
import pandas as pd

# Télécharger le jeu de données
data = pd.read_csv('diabetes.csv')

# Remplacer le nom des colonnes
colnames = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data.columns = colnames

data.head()

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


### Importer les librairies Python utilisées dans le Notebook

In [None]:
# Importer les librairies
import numpy as np
np.set_printoptions(suppress=True)

# Librairies pour la séparation entraînement / test
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn import metrics

# Librairies pour la validation croisée
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

### Séparer les données en sous-ensemble X et y

In [None]:
# Préparation des données
X = data.iloc[:, 0:8]
y = data.iloc[:, 8]

In [None]:
# Imprimer l'aperçu des colonnes incluses dans X
X.head()

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age
0,6,148,72,35,0,33.6,0.627,50
1,1,85,66,29,0,26.6,0.351,31
2,8,183,64,0,0,23.3,0.672,32
3,1,89,66,23,94,28.1,0.167,21
4,0,137,40,35,168,43.1,2.288,33


In [None]:
# Imprimer les colonnes incluses dans X
y.head()

0    1
1    0
2    1
3    0
4    1
Name: class, dtype: int64

## 1. Séparer le jeu de données en ensemble d'entraînement et de test

Liens : 
* `train_test_split` : https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html#sklearn.model_selection.train_test_split


In [None]:
# Librairies pour la séparation entraînement / test
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn import metrics

### 1.1 Définir les arguments de la fonction `train_test_split`

Arguments : 
* `test_size` : Correspond au pourcentage de données que l'on veut garder pour tester la précision des prédictions sur un algorithme.
  * Pratique courante : **Définir cette valeur à 0.2 (20%)**
* `random_state` : Valeur arbitraire qu'on doit définir pour permettre la réplication exacte de l'algorithme. Étape essentielle pour pouvoir comparer deux versions d'algorithmes entre elles. 
  * **Peut correspondre à n'importe quelle valeur.**

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,
random_state=123)

####  Données d'entrée pour l'entraînement

In [None]:
print(X_train[0:5])

     preg  plas  pres  skin  test  mass   pedi  age
318     3   115    66    39   140  38.1  0.150   28
313     3   113    50    10    85  29.5  0.626   25
195     5   158    84    41   210  39.4  0.395   29
570     3    78    70     0     0  32.5  0.270   39
226     0   101    76     0     0  35.7  0.198   26


#### Données d'entrée pour tester

In [None]:
print(X_test[0:5])

     preg  plas  pres  skin  test  mass   pedi  age
668     6    98    58    33   190  34.0  0.430   43
324     2   112    75    32     0  35.7  0.148   21
624     2   108    64     0     0  30.8  0.158   21
690     8   107    80     0     0  24.6  0.856   34
473     7   136    90     0     0  29.9  0.210   50


#### Données de sortie (variable cible) pour l'entraînement

In [None]:
print(y_train[0:5])

60     0
618    1
346    0
294    0
231    1
Name: class, dtype: int64


#### Données de sortie (variable cible) pour tester

In [None]:
print(y_test[0:5])

668    0
324    0
624    0
690    0
473    0
Name: class, dtype: int64


### 1.2 Appliquer la séparation du jeu de données sur un algorithme

Plusieurs différents algorithmes de classification peuvent être utilisé pour les données de `diabetes`, mais nous allons utiliser la régression logistique comme exemple dans cette leçon.


#### Entraîner un algorithme

In [None]:
# Définir l'algorithme à utiliser
lr_model = LogisticRegression(max_iter=1000)

# Entraîner le modèle avec l'algorithme
lr_model.fit(X_train, y_train)

# Imprimer les paramètres spécifiées pour le modèle
print(lr_model)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=1000,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)


#### Faire des prédictions sur les données test avec le modèle entraîné

In [None]:
# Obtenir les prédictions pour la variable cible `class`
y_pred = lr_model.predict(X_test)

# Tester les prédictions avec la cible réelle 
acc = metrics.accuracy_score(y_test, y_pred)

# Imprimer la précision du modèle
print(f"Précision sur le testing set : {round(acc*100.0, 2)}%")

Précision sur le testing set : 74.68%


In [None]:
y_pred[0:15]

array([0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0])

In [None]:
y_test[0:15]

668    0
324    0
624    0
690    0
473    0
204    0
97     0
336    0
568    0
148    0
667    1
212    0
199    1
265    0
760    0
Name: class, dtype: int64

### 1.3 Observer la variance potentielle de la précision des prédictions avec `train_test_split`

La précision d'un modèle est fortement dépendante des données avec lequel on l'entraîne. Le choix des données se fait aléatoirement en utilisant l'argument `random_state` dans la fonction `train_test_split`. Si on change cette valeur, le modèle sera entraîné avec un nouveau sous-ensemble de données et conséquemment, la précision des prédictions ne sera pas tout à fait la même.

> C'est pourquoi on dit que la **variance** de l'estimé de la précision est **grande**

Pour observer à quel point la précision change en fonction des données qui sont envoyé à l'algorithme, on peut changer la valeur de `random_state`. 

### `random_state` = 5

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=5)

In [None]:
# Bloc de code complet pour obetnir la précision
lr_model = LogisticRegression(max_iter=1000)
lr_model.fit(X_train, y_train)
y_pred = lr_model.predict(X_test)
acc = metrics.accuracy_score(y_test, y_pred)
print(f"Précision sur le testing set : {round(acc*100.0, 2)}%")

Précision sur le testing set : 81.17%


### `random_state` = 10

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=10)

In [None]:
# Bloc de code complet pour obetnir la précision
lr_model = LogisticRegression(max_iter=1000)
lr_model.fit(X_train, y_train)
y_pred = lr_model.predict(X_test)
acc = metrics.accuracy_score(y_test, y_pred)
print(f"Précision sur le testing set : {round(acc*100.0, 2)}%")

Précision sur le testing set : 76.62%


### `random_state` = 483

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=483)

In [None]:
# Bloc de code complet pour obetnir la précision
lr_model = LogisticRegression(max_iter=1000)
lr_model.fit(X_train, y_train)
y_pred = lr_model.predict(X_test)
acc = metrics.accuracy_score(y_test, y_pred)
print(f"Précision sur le testing set : {round(acc*100.0, 2)}%")

Précision sur le testing set : 79.22%


## 2. Utiliser la validation croisée

Liens : 
* Guide de validation croisée : https://scikit-learn.org/stable/modules/cross_validation.html#cross-validation
* `cross_val_score` : https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html#sklearn.model_selection.cross_val_score

In [None]:
# Importer les librairies
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression

### 2.1 Définir les arguments de la fonction `cross_val_score`

Arguments : 
* `cv` : Correspond au nombre de de paires entraînement/validation qui seront créées par la fonction.
  * Pratique courante : **Définir cette valeur à 5 ou 10**
* `scoring` : Il est possible de sélectioner le score utiliser pour estimer la performance du modèle.
  * Par défaut, le `scoring` est la précision (= '*accuracy*').

In [None]:
# Définir le modèle à utiliser
lr_model = LogisticRegression(max_iter=1000)

# Appliquer la validation croisée
cv_scores = cross_val_score(lr_model, X, y, cv=10, scoring='accuracy')

### 2.2 Obtenir les résultats de la validation croisée

In [None]:
print(f'Liste des scores obtenus : {np.round(cv_scores, 2)}')

Liste des scores obtenus : [0.73 0.78 0.81 0.71 0.75 0.77 0.81 0.81 0.75 0.83]


In [None]:
# Extraire et imprimer la performance obtenue
print(f"Précision : {round(cv_scores.mean()*100.0, 2)}% +/- {round(cv_scores.std()*100.0, 2)}%")

Précision : 77.35% +/- 3.57%


## **LEÇON #8 - EXERCICE CONTINU**

## Échantillonnage

> *Utiliser votre notebook individuel `notebook_pratique_classification_binaire.ipynb`*

### Description
En utilisant le notebook pratique que vous avez commencer à utiliser durant la dernière leçon, accomplir les tâches énumérées ci-dessous.

> **Répondre aux questions dans une cellule de texte Markdown au fur et à mesure que vous progressez.**

> **Refaites rouler le code en entier avant de commencer cet exercice.** Utiliser le menu Exécution/Tout exécuter pour y parvenir.

## Tâches à accomplir :
1. Tester la performance d'un algorithme de régression logistic `LogisticRegression` sur le jeu de données `banknote` en **1) partitionant les données en ensemble d'entraînement et de test** et **2) spécifiant une valeur de `random_state` = 21**.
  * **Question 1.1** : Quelle est la précision (accuracy) du modèle?
2. Tester la performance d'un algorithme de régression logistic `LogisticRegression` sur le jeu de données `banknote` **en utilisant la validation croisée avec 10 répétition (fold/`cv`)**.
  * **Question 2.1** : Quelle est la précision (accuracy) de la validation croisée?
  * **Question 2.2** : Quelle est l'écart-type (std) de la validation croisée?