**420-A52-SF - Algorithmes d'apprentissage supervisé - Hiver 2021 - Spécialisation technique en Intelligence Artificielle**<br/>
MIT License - Copyright (c) 2021 Mikaël Swawola
<br/>
![Travaux Pratiques - Comparaison kNN et régression logistique](static/11-tp-banner.png)
<br/>
**Objectif:** cette séance de travaux pratiques a pour objectif la comparaison des deux types de classificateurs vus en cours jusqu'à présent, à savoir la régression logistique et la classification kNN. Leur mise en oeuvre sera réalisée à l'aide de la librairie **scikit-learn** et la notion de **compromis biais-variance** sera étudiée. Le travail sera basé sur le jeu de données **Heart** entrevu précédemment

In [None]:
%reload_ext autoreload
%autoreload 2
%matplotlib inline

## 0 - Chargement des bibliothèques

In [None]:
# Manipulation de données
import numpy as np
import pandas as pd

# Visualisation de données
import matplotlib.pyplot as plt
import seaborn as sns

# Helpers pour l'affichage
from helpers import plot_classifier

# Outils divers
from tqdm import tqdm
from collections import defaultdict

# Machine Learning
# Compléter l'importation des modules scikit-learn requis au fur et à mesure de l'atelier


In [None]:
# Configuration de la visualisation
sns.set(style="darkgrid")
sns.set_context("notebook", font_scale=1.5, rc={"lines.linewidth": 2.5})

## 1 - Lecture du jeu de données

<strong style="color: #006db4">Exercice 1-1: lire le fichier `Heart.csv`<strong/>

In [None]:
# Compléter le code ci-dessous ~ 1-2 lignes

HRT = None

In [None]:
# On supprime tout de suite les données manquantes. Ceci sera vu plus en détail plus tard dans le cours
HRT = HRT.dropna()

<strong style="color: #006db4">Exercice 1-2: afficher les dix premières lignes de la trame de données HRT</strong>

In [None]:
# Compléter le code ci-dessous ~ 1 ligne


## 2 - Visualisation des données

La première étape avant toute étude d'apprentissage supervisé consiste à (essayer de) visualiser les données (voir cours de *Visualisation des données*). Cette étape est faite ici pour vous.

Remarque: l'affichage ci-dessous peut prendre quelques dizaines de secondes ...

In [None]:
g = sns.PairGrid(HRT, hue="AHD")
g = g.map(plt.scatter)

Pour la suite de l'exercice, nous allons considérer uniquement les variables explicatives `Age` et `MaxHR`, ainsi que bien évidemment la variable réponse `AHD`

<strong style="color: #006db4">Exercice 2-1: créer une nouvelle trame de données ne contenant que les variables `Age`, `MaxHR` et `AHD`</strong>

In [None]:
# Compléter le code ci-dessous ~ 1 ligne


<strong style="color: #006db4">Exercice 2-2: afficher les dix premières lignes de la nouvelle trame de données `HRT2`</strong>

In [None]:
# Compléter le code ci-dessous ~ 1 ligne


## 3 - Affichage de HRT2

In [None]:
sns.set(style="darkgrid", rc={'figure.figsize':(12,10)})
sns.scatterplot(x='Age', y='MaxHR', hue="AHD", data=HRT2, s=70)

## 4 - Préparation des données en vue d'effectuer la validation des résultats des classificateurs

<strong style="color: #006db4">Exercice 4-1: extraire les variables explicatives dans un numpy array `X` et la variable réponse dans un vecteur `y`</strong>

In [None]:
# Compléter le code ci-dessous ~ 2 lignes


<strong style="color: #006db4">Exercice 4-2: à l'aide de scikit-learn, sépararer les données en jeu d'entraînement et jeu de test. La taille du jeu de test doit représenter 30% de la taille du jeu de données initial et l'état du générateur aléatoire sera fixé à 2020 afin de permettre la reproductibilité</strong>

In [None]:
# Compléter le code ci-dessous ~ 2 lignes


In [None]:
print(f'X_train: {X_train.shape[0]} observations')
print(f'X_test: {X_test.shape[0]} observations')

## 5 - Régression logistique simple

<strong style="color: #006db4">Exercice 5-1: à l'aide de scikit-learn, effectuez la standardisation des données. Nommez les données standardisées `X1_scaled`</strong>

In [None]:
# Compléter le code ci-dessous ~ 3 lignes

scaler = None

<strong style="color: #006db4">Exercice 5-2: à l'aide de scikit-learn, entraînez un modèle de régression logistique. Désactivez la régularisation.</strong>

<details>
<summary>
    <font size="3" color="darkgreen"><b>Cliquer ici pour obtenir un indice</b></font>
</summary>
<p>
<a href="https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html"> class sklearn.linear_model.LogisticRegression(penalty='l2', *, dual=False, tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1, class_weight=None, random_state=None, solver='lbfgs', max_iter=100, multi_class='auto', verbose=0, warm_start=False, n_jobs=None, l1_ratio=None)</a>
</p>

In [None]:
# Compléter le code ci-dessous ~ 1 ligne

clf1 = None

#### Affichage des résultats

In [None]:
sns.set(rc={'figure.figsize':(16,6)})
plot_classifier(X_train, y_train, clf1, scaler, order=1, xlabel="Age", ylabel="maxHR")

<strong style="color: #006db4">Exercice 5-3: évaluez les performances sur le jeu d'entraînement. De quelle métrique s'agit-il ?</strong>

In [None]:
# Compléter le code ci-dessous ~ 1 ligne


<strong style="color: #006db4">Exercice 5-4: évaluez maintenant les performances sur le jeu de test</strong>

In [None]:
# Compléter le code ci-dessous ~ 2-3 lignes


## 6 - Régression logistique avec variables d'interaction et variables polynomiales d'ordre 2

<strong style="color: #006db4">Exercice 6-1: à l'aide de scikit-learn, construisez la matrice des prédicteurs `X2` en incluant les variables d'interactions et les variables polynomiales d'ordre 2. N'incluez pas le biais (ou intercept)</strong>

<details>
<summary>
    <font size="3" color="darkgreen"><b>Cliquer ici pour obtenir un indice</b></font>
</summary>
<p>
<a href="https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html"> class class sklearn.preprocessing.PolynomialFeatures(degree=2, *, interaction_only=False, include_bias=True, order='C')</a>
</p>

In [None]:
# Compléter le code ci-dessous ~ 1-2 lignes


<strong style="color: #006db4">Exercice 6-2: à l'aide de scikit-learn, standardisez la matrice des prédicteurs</strong>

In [None]:
# Compléter le code ci-dessous ~ 1-3 lignes

scaler = None

<strong style="color: #006db4">Exercice 6-3:  l'aide de scikit-learn, entraînez un modèle de régression logistique. Comme précédemment, désactivez la régularisation.</strong>

In [None]:
# Compléter le code ci-dessous ~ 1 ligne

clf2 = None

#### Affichage des résultats

In [None]:
sns.set(rc={'figure.figsize':(16,6)})
plot_classifier(X_train, y_train, clf2, scaler, order=2, xlabel="Age", ylabel="maxHR")

<strong style="color: #006db4">Exercice 6-4: évaluez les performances sur le jeu d'entraînement</strong>

In [None]:
# Compléter le code ci-dessous ~ 1 ligne


<strong style="color: #006db4">Exercice 6-5: évaluez maintenant les performances sur le jeu de test</strong>

In [None]:
# Compléter le code ci-dessous ~ 2-3 lignes


## 7 - Régression logistique avec variables d'interaction et variables polynomiales d'ordre 3

<strong style="color: #006db4">Exercice 7-1: construisez la matrice des prédicteurs `X3` incluant les variables d'interactions et les variables polynomiales d'ordre 3. Ne pas inclure le biais (ou intercept)</strong>

In [None]:
# Compléter le code ci-dessous ~ 1-2 lignes


<strong style="color: #006db4">Exercice 7-2: standardisez la matrice des prédicteurs</strong>

In [None]:
# Compléter le code ci-dessous ~ 1-3 lignes

scaler = None

<strong style="color: #006db4">Exercice 7-3: entraînez un modèle de régression logistique. Comme précédemment, désactivez la régularisation. Quel paramètre supplémentaire devez-vous changer ?</strong>

In [None]:
# Compléter le code ci-dessous ~ 1 ligne

clf3 = None

#### Affichage des résultats

In [None]:
sns.set(rc={'figure.figsize':(16,6)})
plot_classifier(X_train, y_train, clf3, scaler, order=3, xlabel="Age", ylabel="maxHR")

<strong style="color: #006db4">Exercice 7-4: évaluez les performances sur le jeu d'entraînement</strong>

In [None]:
# Compléter le code ci-dessous ~ 1 ligne


<strong style="color: #006db4">Exercice 7-5: évaluez maintenant les performances sur le jeu de test</strong>

In [None]:
# Compléter le code ci-dessous ~ 2-3 lignes


## 8 - Régression logistique avec variables d'interaction et variables polynomiales d'ordre 6

<strong style="color: #006db4">Exercice 8-1: construisez la matrice des prédicteurs `X6` incluant les variables d'interactions et les variables polynomiales d'ordre 6. Ne pas inclure le biais (ou intercept)</strong>

In [None]:
# Compléter le code ci-dessous ~ 1-2 lignes


<strong style="color: #006db4">Exercice 8-2: standardisez la matrice des prédicteurs</strong>

In [None]:
# Compléter le code ci-dessous ~ 1-3 lignes

scaler = None

<strong style="color: #006db4">Exercice 8-3: entraînez un modèle de régression logistique. Comme précédemment, désactivez la régularisation.</strong>

In [None]:
# Compléter le code ci-dessous ~ 1 ligne

clf6 = None

#### Affichage des résultats

In [None]:
sns.set(rc={'figure.figsize':(16,6)})
plot_classifier(X_train, y_train, clf6, scaler, order=6, xlabel="Age", ylabel="maxHR")

<strong style="color: #006db4">Exercice 8-4: évaluez les performances sur le jeu d'entraînement</strong>

In [None]:
# Compléter le code ci-dessous ~ 1 ligne


<strong style="color: #006db4">Exercice 8-5: évaluez maintenant les performances sur le jeu de test</strong>

In [None]:
# Compléter le code ci-dessous ~ 2-3 lignes


## 9 - Classification kNN

<strong style="color: #006db4">Exercice 9-1: à l'aide de scikit-learn, entraînez un modèle de classification KNN. Choisissez K=22</strong>

<details>
<summary>
    <font size="3" color="darkgreen"><b>Cliquer ici pour obtenir un indice</b></font>
</summary>
<p>
<a href="https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html">class sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, *, weights='uniform', algorithm='auto', leaf_size=30, p=2, metric='minkowski', metric_params=None, n_jobs=None, **kwargs)</a>
</p>

In [None]:
# Compléter le code ci-dessous ~ 2 lignes

neigh = None

#### Affichage des résultats

In [None]:
sns.set(rc={'figure.figsize':(16,6)})
plot_classifier(X_train, y_train, neigh, scaler=None, xlabel="Age", ylabel="maxHR")

<strong style="color: #006db4">Exercice 9-2: évaluez les performances sur le jeu d'entraînement</strong>

In [None]:
# Compléter le code ci-dessous ~ 1 ligne


<strong style="color: #006db4">Exercice 9-3: évaluez maintenant les performances sur le jeu de test</strong>

In [None]:
# Compléter le code ci-dessous ~ 1 ligne


<strong style="color: #006db4">Exercice 9-4: Essayez d'autres valeurs de K. Quelle est selon la valeur de K offrant un bon compromis biais-variance?</strong>

## 10 - Recherche des meilleurs hyperparamètres

### 10 - 1 - Préparation des jeux de données

Nous allons maintenant considérer l'ensemble des variables explicatives du jeu de données **Heart**

<strong style="color: #006db4">Exercice 10-1-1: Encoder les variables explicatives catégorielles. Indice: utilisez pandas ;-)</strong>

In [None]:
# Compléter le code ci-dessous ~ 2-3 lignes


<strong style="color: #006db4">Exercice 10-1-2: Quel est le nombre de variables explicatives ?</strong>

In [None]:
# Compléter le code ci-dessous ~ 1 ligne


<strong style="color: #006db4">Exercice 10-1-3: à l'aide de scikit-learn, sépararer les données en jeu d'entraînement et jeu de test. La taille du jeu de test doit représenter 30% de la taille du jeu de données et l'état du générateur aléatoire sera fixé à 2020 afin de permettre la reproductibilité</strong>

In [None]:
# Compléter le code ci-dessous ~ 1 ligne


### 10 - 2  - Régression logistique

<strong style="color: #006db4">Exercice 10-2: réalisez plusieurs fois une régression logistique polynomiale (cette fois-ci SANS variables d'interaction) en faisant varier l'ordre `n` de 1 à 15. Vous pouvez utiliser la fonction `polynomial` ci-dessous. Enregistrez les scores sur les jeux d'entraînement et de test pour chaque valeur de `n` dans le dictionnaire `history`</strong>

In [None]:
def polynomial(X, degree=2):
    vec = [np.ones((X.shape[0],1))]
    for d in range(1,degree+1):
        temp = np.array((X**d))
        vec.append(temp)
    return np.hstack(vec)

In [None]:
history = defaultdict(list)
for n in tqdm(range(1,15)):
    # Compléter le code ci-dessous ~ quelques lignes ...

    history['train'].append( ... )
    history['test'].append( ... )

#### Affichage de la courbe de validation

In [None]:
f, ax = plt.subplots(1,1)
ax.plot(range(1,15), history['train'], label="train")
ax.plot(range(1,15), history['test'], label="test")
ax.set_xlabel('n', fontsize=14)
ax.set_ylabel('accuracy', fontsize=14)
ax.legend()

### 10 - 3  - Classification kNN

<strong style="color: #006db4">Exercice 10-3: réalisez plusieurs fois une classification kNN en faisant varier le nombre de voisins `k` de 1 à 200. Enregistrez les scores sur les jeux d'entraînement et de test pour chaque valeur de `n` dans le dictionnaire `history`</strong>

In [None]:
history = defaultdict(list)
for k in tqdm(range(1,200)):
    # Compléter le code ci-dessous ~ quelques lignes ...
    
    history['train'].append( ... )
    history['test'].append( ... )

#### Affichage de la courbe de validation

In [None]:
f, ax = plt.subplots(1,1)
ax.plot(range(1,200),history['train'], label="train")
ax.plot(range(1,200), history['test'], label="test")
ax.set_xlabel('k', fontsize=14)
ax.set_ylabel('accuracy', fontsize=14)
ax.legend()

### 11 - 3 - Choix du modèle

<strong style="color: #006db4">Exercice 11-3: Quel modèle choisissez-vous ? Quels sont les valeurs des hyperparamètres ?</strong>

### Fin du TP