# TP 5 - Régression logistique et classification

Machine Learning L3 -
Université Paul Sabatier

Joachim Bona-Pellissier

In [None]:
import pandas as pd
import numpy as np
import sklearn as sk
from sklearn import linear_model, datasets, decomposition

## 1 - Introduction au problème

On va travailler avec le dataset `breast_cancer`. Ce dataset contient des données médicales prélevées sur $n$ patientes du Wisconsin, USA ayant une masse suspecte dans le sein. Ces données sont issues d'une imagerie appliquée sur chaque masse, dans le but de déterminer si elle est cancéreuse ou non. De chaque imagerie on tire ainsi $d$ features, qui sont des nombres réels positifs. On n'a donc ici que des variables quantitatives. 

Ensuite, à chaque patiente correspond une classe (ou label) égale à $0$ si la masse est maligne (cancéreuse) et $1$ si elle est bénigne. Le but est d'apprendre à l'aide de ces données un algorithme capable de prédire en fonction des $d$ features si une masse mammaire est maligne ou bénigne. Il s'agit donc d'un problème de classification binaire.

On commence par télécharger le dataset à l'aide de scikit-learn. On stocke les features dans une dataframe pandas `X` et les labels dans une série `y`.

In [None]:
breast_cancer = sk.datasets.load_breast_cancer(as_frame=True)

X = breast_cancer.data
y = breast_cancer.target

a) Que valent le nombre d'échantillons $n$ et la dimension $d$ du problème d'apprentissage ? On pourra les obtenir à partir de `X`.

Le nombre d'échantillons $n$ est égal à ...

La dimension $d$ est égale à ...

b) Afficher les 5 premières lignes de `X`.

c) Pour se faire une première idée du dataset, on va visualiser la répartition des classes. Afficher l'histogramme des classes à l'aide de la méthode `hist`.

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline



Un des points clés en machine learning est d'être capable de mesurer les performances de nos modèles. Pour cela, on va séparer notre ensemble entre un ensemble d'apprentissage `X_train, y_train` et un ensemble de test `X_test, y_test` dont on ne se servira par pour l'apprentissage et sur lequel on évaluera notre modèle.

d) Utiliser la fonction `train_test_split` de sklearn pour séparer le dataset enre un train et un test set. On prendra ici une taille de test set égale à 20% de l'échantillon total.

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = ...

X_train.shape, X_test.shape

e) Afficher les histogrammes du train et du test set (si possible sur une même figure). La répartition des classes doit être équivalente entre le train et le test set.

## 2 - Introduction à la régression logistique

On va utiliser un algorithme classique de machine learning en classification, la régression logistique. 

En régression logistique, on cherche à assigner à chaque échantillon $x$ une probabilité $p(x) \in [0,1]$, qui va être la probabilité que la classe soit égale à $1$ (ici probabilité que la masse soit bénigne). Pour obtenir des probabilités, on se sert de la fonction [sigmoïde](https://fr.wikipedia.org/wiki/Sigmo%C3%AFde_(math%C3%A9matiques)) :

$$\sigma(t) = \frac{1}{1 + e^{-t}}.$$

Cette fonction prend des valeurs entre $0$ et $1$ et a en fait les propriétés d'une fonction de répartition.

Notons $d$ la dimension du problème. En régression logistique, on calcule un vecteur $\beta \in \mathbb{R}^d$ et un biais $a \in \mathbb{R}$ et on exprime la probabilité d'être dans la classe $1$ pour un échantillon $x$ comme 

$$p(x) = \sigma(\beta^Tx + a) = \sigma( \beta_1 x_1 + \dots + \beta_d x_d + a). $$

Le classifieur correspondant est alors

$$ \hat{y} (x) = \begin{cases} 1 & \text{si } p(x) \geq 1/2 \\ 0 & \text{si } p(x) < 1/2. \end{cases} $$

a) Quelle est la nature géométrique de la frontière qui sépare les échantillons de $\mathbb{R}^d$ classifiés comme $0$ et ceux classifiés comme $1$ par le classifieur $\hat{y}$ ?

Entraîner un classifieur par régression logistique, c'est donc déterminer les paramètres $\beta, a \in \mathbb{R}^d \times \mathbb{R}$. On ne rentrera pas dans ce TP dans les détails de l'apprentissage, scikit-learn va le faire pour nous. Ce qu'il faut savoir est que $\beta,a$ sont obtenus en définissant une fonction de perte, et en utilisant ensuite un algorithme d'optimisation pour minimiser cette fonction de perte. 

b) Créer un classifieur `lr` par régression logistique, et l'entraîner sur les données `X_train, y_train`.

In [None]:
from sklearn.linear_model import LogisticRegression



## 3 - Evaluation des performances

Maintenant qu'on a entraîné le classifieur `lr`, on va le tester et l'évaluer. 

a) Utiliser `lr` pour prédire un vecteur de classes `y_pred` à partir de l'ensemble de test `X_test`.

In [None]:
y_pred = 

Pour mesurer les performances du classifieur, on va comparer les classes prédites `y_pred` aux classes réelles `y_test`. Une mesure simple et naturelle est le taux d'erreur, c'est-à-dire la proportion d'échantillons $i$ pour lesquels `y_pred[i] != y_test[i]`. 

Remarque : ici `y_pred` va avoir le format d'un array numpy et `y_test` celui d'une série pandas. C'est donc plutôt `y_pred[i]` et `np.array(y_test)[i]` qu'on va comparer.

b) Calculer le taux d'erreur (le faire **à la main** et sans utiliser les fonctions toutes faites de scikit-learn).

En machine learning, on utilise souvent l'accuracy, qui correspond plutôt au taux de succès.

c) Afficher l'accuracy de la prédiction (**à la main** encore une fois).

Normalement, la plupart des échantillons ont été correctement classifiés. Cependant, l'évaluation par taux d'erreur/accuracy ne permet pas de savoir si les erreurs viennent d'échantillons $0$ classés comme $1$ ou d'échantillons $1$ classés comme $0$. Dans notre exemple de diagnostic du cancer du sein, c'est une nuance importante car il peut être plus grave de diagnostiquer une tumeur cancéreuse comme bénigne que l'inverse.

Une manière de visualiser cela est la matrice de confusion. Il s'agit d'une matrice carrée avec autant de lignes/colonnes que de classes (2 dans notre cas). Pour la ligne correspondant à la classe $i$, l'entrée $j$ contient le nombre d'échantillons dont la vraie classe est $i$ qui ont été classifiés comme $j$ par notre classifieur.

d) Construire **à la main** la matrice de confusion de notre prédiction, la stocker dans une dataframe et l'afficher.

## 4 - PCA et visualisation du dataset

On va maintenant chercher à visualiser le dataset. Pour pouvoir afficher les échantillons sur un plan, on va réduire les dimensions des échantillons de 30 à 2. Pour cela, on va se servir de l'analyse en composantes principales (PCA). 

a) Calculer un vecteur `X_train_pca` contenant les 2 composantes principales des données d'entraînement `X_train`. On se servira de la fonction PCA de scikit-learn. En utilisant la méthode `transform` de cette même pca, transformer `X_test` pour obtenir `X_test_pca`.

In [None]:
from sklearn.decomposition import PCA



b) Créer un graphique représentant les exemples du train set en fonction de leurs composantes principales. Toutes les données doivent être de la même taille, représentées par un même symbole. 
Colorer en vert les échantillons bénins et en rouge les échantillons malins.

In [None]:
# Exemple de graphique avec plt.scatter

from random import randint
x = [randint (0, 10) for i in range(10)]
y = [randint (5, 20) for i in range(10)]
import matplotlib.pyplot as plt
plt.figure()
plt.scatter(x, y)
plt.show()

In [None]:
# Premier graphique



c) On veut maintenant identifier les données de `X_test` qui sont mal prédites.
Refaites le même graphique en affichant cette fois les éléments de `X_test_pca` et en colorant les exemples en fonction de leur classe (comme précédemment). Cette fois-ci, vous indiquez les exemples mal classés en utilisant une forme particulière (à vous de choisir quelque chose de joli, qui se voit et qui se comprend au premier coup d'œil). 

In [None]:
# Exemples mal classés



d) Où semblent se trouver les points mal classifiés ?

...

La regression logistique estime la probabilité d'appartenance d'une donnée à chacune des classes. Cette probabilité donne une information quant à l'incertitude de cette prédiction. Pour une donnée, si toutes les probabilités sont faibles sauf une qui est presqu'égale à 1, alors la classe est (presque) certaine. Au contraire, pour certaines données, des probabilités significativement différentes de 0 et de 1 sont estimées ; dans ce cas, la prédiction de la classe est incertaine.
Ici, on dit que si une probabilité est < 0,9 ou > 0,1, alors la classe prédite pour cette donnée est incertaine.


e) Refaites le même graphique que précédemment. Cette fois-ci vous indiquez les exemples dont la classe est incertaine par une couleur, une taille ou une forme particulière (à votre choix, du moment que l'on voit et comprend au premier coup d'œil). 

In [None]:
# Affichage de la confiance de prédiction


f) Où se situent les points pour lesquels la prédiction est incertaine ?

...

## 5 - Comparaison avec d'autres algorithmes de classification

On veut maintenant comparer notre prédiction par régression linéaire aux prédiction obtenues avec d'autres méthodes de classification. 

a) Entraîner un classifieur `knn` par k plus proches voisins et un classifieur `tree` par arbre binaire de décision sur les données `X_train, y_train`. On laissera les paramètres par défaut donnés par scikit-learn. Calculer les prédictions de ces deux classifieurs sur `X_test` et les mettre dans des vecteurs `y_pred_knn` et `y_pred_tree`.

In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier



b) Pour les prédictions `y_pred_knn` et `y_pred_tree`, calculer le taux d'erreur et l'accuracy.

c) Calculer la matrice de confusion pour ces deux prédictions.

d) Comparer brièvement les performances des trois classifieurs.

Bonus : e) Le nombre d'erreurs faites par les algorithmes est-il la seule chose qui permet de préférer un algorithme à d'autres ? Quels autre critères peuvent nous pousser à choisir un algorithme plutôt qu'un autre ?

## 6 - Visualisation des frontières de décision

Pour se faire une intuition des frontières de décision des différents types d'algorithmes, on va reprendre la PCA effectuée plus tôt et entraîner les modèles cette fois sur les 2 composantes principales `X_train_pca`. Attention, ce n'est donc pas la frontière de décision des algorithmes entraînés plus haut (en dimension 30) qu'on va visualiser, mais celles d'algorithmes entraînés en dimension 2.

a) Entraîner un classifieur par régression logistique `lr_pca` sur les données `X_train_pca, y_train`.

Le code suivant devrait afficher les zones classifiées comme $0$ et $1$ par `lr_pca`.

In [None]:
model = lr_pca

# Code issu d'un TP de Philippe Preux


h = 10  # pas de la grille
x_min = X_train_pca[:,0].min() - 50
x_max = X_train_pca[:,0].max() + 50
y_min = X_train_pca[:,1].min() - 50
y_max = X_train_pca[:,1].max() + 50
xx, yy = np.meshgrid (np.arange (x_min, x_max, h), np.arange (y_min, y_max, h))
# la grille est créée. Les coordonnées des intersections sont dans xx et yy

# on utilise ce modèle pour prédire la classe de chacun des exemples
Z2d = model. predict (np.c_[xx.ravel(), yy.ravel()])
# et on fait la figure
Z2d = Z2d. reshape (xx. shape)
plt. figure ()
plt. pcolormesh (xx, yy, Z2d, cmap=plt.cm.Paired)
# On définit la couleur des points
color = y_train
dcol = {0:'r', 1:'g'}
color = color.replace(dcol)
# On affiche les points
plt.scatter(X_train_pca[:,0], X_train_pca[:,1], c = color)
plt. show ()

b) Entraîner un classifieur par k plus proches voisins `knn_pca` sur `X_train_pca, y_train`. Reprendre le code ci-dessus pour afficher les zones de décision dans le cas de `knn_pca`.

c) Entraîner un classifieur par arbre de décision `tree_pca` sur `X_train_pca, y_train`. A nouveau afficher les zones de décision dans le cas de `tree_pca`.

d) Commenter la nature des zones pour les différents classifieurs

Bonus : S'il vous reste du temps, recommencer avec d'autres classifieurs de scikit-learn (naive bayes ou svm linéaire par exemple).