# Critères d'évaluation en apprentissage supervisé

## Théorie

### Introduction

Tout au long de ce cours nous avons étudié différentes méthodes d'apprentissage supervisé, et à chaque fois nous avons cherché à optimiser l'_accuracy_, c'est-à-dire à minimiser l'erreur de généralisation. Mais cette approche pour évaluer la pertinence de notre modèle et sa robustesse est-elle suffisante ? En particulier dans ce notebook nous allons nous intéresser au cas de la classification binaire (deux classes), nous allons voir que dans le cas de la classification, plusieurs métriques interviennent, elles peuvent être contradictoires (dans le sens où elles varient de manière opposée) et il sera donc nécessaire de faire un compromis sur certaines grandeurs en fonction de l'application que l'on considère. 

Considérons un exemple de classification binaire que nous déroulerons tout au long de cette partie théorique pour illustrer nos propos. Nous allons considérer une tâche de classification simple consistant à identifier des chiens dans des images, notre système prend donc en entrée des images et prédit en sortie la présence ou l'absence de chien dans cette image.

### Matrice de confusion

Une métrique très souvent utilisée en classification est la matrice de confusion $\mathbf{M_c}$ qui résume de façon compacte les résultats de la classification:

$$ \mathbf{M_c} = \left[ \begin{matrix}
TP & FP \\
FN &  TN
\end{matrix} \right]$$

$TP$ : _True positive_, le nombre d'échantillons qui ont été labélisés comme contenant des chiens et qui contiennent effectivement des chiens. 

$FP$ : _False positive_, ou erreur de type I, le nombre d'échantillons qui ont été labelisés comme contenant des chiens alors qu'ils n'en contiennent pas.

$FN$ : _False negative_, ou erreur de type II, le nombre d'échantillons qui ont été labelisés comme ne contenant pas de chiens alors qu'ils en contiennent.

$TN$ : _True negative_, le nombre d'échantillons qui ont été labélisés comme ne contenant pas de chiens et qui n'en contiennent effectivement pas.

Nous pouvons ensuite définir le nombre $P$ d'échantillons positifs et le nombre $N$ d'échantillons négatifs (en réalité, pas après prédiction). La métrique que nous avons utilisé tout au long du cours et qui est souvent utilisé est l'**accuracy**, celle-ci est définie par:

$$ \mathbf{accuracy} = \frac{TP + TN}{P + N} = \frac{TP + TN}{TP + TN + FP + FN} = \frac{tr(\mathbf{M_c})}{TOTAL}$$

Concrètement, elle représente le ratio entre le nombre d'échantillons bien classés (positifs ou négatifs) et le nombre total d'échantillons. Elle ne donne cependant aucune information sur les échantillons qui sont mal classés. Elle est souvent mal utilisée car elle n'est pertinente que dans le cas où nous avons autant de d'échantillons positifs que négatifs à classer. Il faut aussi les prédictions et les erreurs de prédiction soient de même importance, ce qui est rarement le cas.

On utilise également deux autres grandeurs, la _**precision**_ et le _**recall**_, celles-ci sont définies par:

$$ \mathbf{precision} = \frac{TP}{TP + FP}$$ 

$$ \mathbf{recall} = \frac{TP}{TP + FN} = \frac{TP}{P} = TPR $$

$TPR$ est le _True Positive Rate_, on peut également définir le _False Positive Rate_, $FPR = 1 - TPR = \frac{FP}{N}$.

L'image suivante résume assez bien ce que nous venons de voir, les éléments bien classés sont sur la partie gauche de l'image. 

<img src="img/Precisionrecall.svg" title="Source: https://en.wikipedia.org/wiki/Precision_and_recall">


Enfin, pour essayer de concilier _recall_ et _precision_, il est possible d'utiliser le _F-score_, il s'agit de la moyenne harmonique des deux :

$$ \textrm{F-score} = \mathbf{F_1} = 2\cdot \frac{\mathbf{precision} \cdot \mathbf{recall}}{\mathbf{precision} + \mathbf{recall}}$$

On définit plus généralement la mesure $\mathbf{F_\beta}$ qui permet de donner plus de poids à l'un ou à l'autre suivant la valeur de $\beta$ (pour $\beta \in \mathbb{R}^+$) :
$$\mathbf{F_\beta} = (1+\beta^2)\cdot \frac{\mathbf{precision} \cdot \mathbf{recall}}{\beta^2 \cdot \mathbf{precision} + \mathbf{recall}} $$ 

Un des points les plus importants de ce notebook et qu'il faut retenir absolument est qu'il faut choisir un critère d'évaluation qui soit cohérent avec la tâche que l'on souhaite accomplir. Aucune de ces mesures n'est meilleure que les autres, cela dépend du contexte. 

Par exemple, changeons de cas d'étude et prenons le cas d'un algorithme de détection de tumeurs dans des images médicales (scanner, IRM ou autre), ce que nous souhaitons dans ce cas c'est minimiser le nombre de faux négatifs, $FN$, c'est-à-dire que nous voulons minimiser le nombre de cas où l'algorithme prédit l'absence de tumeur dans l'image alors qu'il y en a une, les conséquences de telles erreurs sont évidentes. Dans ce cas, on ne se focalisera donc pas sur le $FP$, le cas où l'algorithme prédit la présence d'une tumeur alors qu'il n'y en a pas, cela donnera plus de travail aux médecins mais minimisera le risque de non-détection.

#### Un exemple

Commençons par nous convaincre que l'_accuracy_ n'est pas une bonne mesure [1], nous considérons un jeu de données sur le cancer du sein, il contient des données sur 286 femmes atteintes d'un cancer, parmi elles, 201 n'ont pas eu de récidive et 85 ont eu une récidive. Nous voulons construire un classifieur binaire utilisant 9 _features_ pour prédire la présence ou l'absence de récidive. Imaginons que nous avons construit trois modèles M1, M2 et M3, le modèle M1 prédit l'absence de récidive dans tous les cas, le modèle M2 prédit la présence de récidive dans tous les cas, et le modèle M3 est un peu moins radical et prédit 23 récidives (10 sont correctes) et 263 non récidives (188 sont correctes). Regardons leur _accuracy_ : 

$$\mathbf{accuracy(M_1)} = 201/286 \approx 70 \%$$
$$\mathbf{accuracy(M_2)} = 85/286 \approx 30 \%$$
$$\mathbf{accuracy(M_3)} =  \frac{10+188}{286} \approx 69.23 \%$$

En utilisant seulement l'_accuracy_, nous aurions tendance à dire que les modèle M1 et M3 sont assez performants. Pourtant, un coup d'oeil rapide aux matrices de confusion suffit à nous montrer qu'ils sont très différents:

$$ \mathbf{M_{C1}} = \left[ \begin{matrix}
0 & 0 \\
85 &  201
\end{matrix} \right]
$$

$$ \mathbf{M_{C2}} = \left[ \begin{matrix}
85 & 201 \\
0 & 0 
\end{matrix} \right]
$$

$$ \mathbf{M_{C3}} = \left[ \begin{matrix}
10 & 13 \\
75 &  188
\end{matrix} \right]
$$

M3 est le seul à prédire à la fois de vrais positifs et de vrais négatifs. Regardons maintenant les autres grandeurs:

 * Precision :
 $$\mathbf{precision(M1)} = \frac{0}{0} = NaN $$ 
 $$\mathbf{precision(M2)} = \frac{85}{286} \approx 0.30 $$ 
 $$\mathbf{precision(M3)} = \frac{10}{23} \approx 0.43 $$ 

 * Recall
 
 $$\mathbf{recall(M1)} = \frac{0}{0+85} = 0 $$
 $$\mathbf{recall(M2)} = \frac{85}{0+85} = 1$$
 $$\mathbf{recall(M3)} = \frac{10}{10+75} \approx 0.12 $$
 
 * F-score
 
 $$ \mathbf{F1(M1)} = 0 $$
 $$ \mathbf{F1(M2)} \approx 0.46 $$
 $$ \mathbf{F1(M3)} \approx 0.19 $$
 
Dans notre exemple, nous voulions maximiser le _recall_, ce qui revient à minimiser $FN$.



## AUC - Area Under the Curve


Pour mesurer la performance d'un classifieur binaire, on peut tracer la courbe ROC (Receiver Operating Characteristic), celle-ci représente la variation de 'performance' du classifieur lorsque le seuil de décision varie. Concrètement, c'est la courbe qui relie les points dans le plan _FPR_ et _TPR_ (ou _recall_) lorsqu'on fait varier le seuil. 

<img src="img/Roccurves.png" title="Source: https://en.wikipedia.org/wiki/Receiver_operating_characteristic">

La diagonale représente une classifieur qui tirerait au hasard sa prédiction avec une probabilité 0.5. Si la courbe est au dessus de la diagonale, le classifieur fait mieux qu'un tirage aléatoire, si elle en dessous il fait moins bien (dans ce cas il suffit d'inverser les prédicitions pour en faire un meilleur). Mais pour comparer plusieurs classifieurs entre-eux, comparer les courbes entre-elles n'est pas la méthode la plus précise comme on peut le voir sur la figure ci-dessus [3]. Il faut utiliser une grandeur quantitative, l'aire sous la courbe (AUC), dont la valeur varie entre 0.5 et 1.0 pour un classifieur performant.

Il est possible d'utiliser des tests statistiques pour vérifier que les performances d'un classifieurs sont meilleures, en terme d'AUC. 

## La pratique 

In [None]:
import numpy as np
from keras.models import Sequential
from keras.layers import Input, Dense, Activation
from keras.optimizers import SGD, Adam, RMSprop
from keras.utils import to_categorical
from keras.callbacks import EarlyStopping
%matplotlib inline
import matplotlib.pyplot as plt
from math import inf
from sklearn.svm import SVC
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestClassifier
import pandas as pd

Considérons un exemple simple de classification binaire, nous avons deux nuages de points générés suivant des loi normales : $\mathcal{N}(\mu_1,cov_1)$ et $\mathcal{N}(\mu_2,cov_2)$

In [None]:
N = 1000
test = 400

mu1 = [1,1]
cov1 = [[4,3],[3,3]]
X1 = np.random.multivariate_normal(mu1, cov1, N)

#mu2 = [4,7]
mu2 = [4,5]
cov2 = [[1,0.5],[0.5,4]]
X2 = np.random.multivariate_normal(mu2, cov2, N)

In [None]:
plt.plot(X1[:,0],X1[:,1],marker='.',linestyle='')
plt.plot(X2[:,0],X2[:,1],marker='.',linestyle='',color='r')

In [None]:
def zscore(X):
    return((X - np.mean(X, axis=0))/np.std(X, axis=0))

In [None]:
# Creation labels 
y1 = np.zeros(N)
y2 = np.ones(N)

# Concatenation
X = np.concatenate((X1,X2))
X = zscore(X)
y = np.concatenate((y1,y2))

s = np.arange(2*N)
np.random.shuffle(s)
X = X[s]
y = y[s]

X_test = X[-test:,:]
X_train = X[:-test,:]
y_test = y[-test:]
y_train = y[:-test]


In [None]:
plt.plot(X_train[:,0],X_train[:,1],marker='.',linestyle='')

In [None]:
nn = Sequential()
nn.add(Dense(5, input_shape=(2,), kernel_initializer='uniform'))
nn.add(Activation('relu'))
#nn.add(Dense(15, kernel_initializer='uniform'))
#nn.add(Activation('relu'))
nn.add(Dense(1, kernel_initializer='uniform'))
nn.add(Activation('sigmoid'))
#print(nn.summary())

nn.compile(optimizer=RMSprop(lr=0.01), loss='binary_crossentropy', metrics=['binary_accuracy'])
history = nn.fit(X_train,y_train, epochs=15, batch_size=100)

In [None]:
plt.plot(history.history['binary_accuracy'])

In [None]:
# récupère les prédictions du classifieur sur la base de test
y_pred = nn.predict(X_test)
res = nn.evaluate(X_test,y_test,batch_size=test)
# return [loss, bin_accuracy] sur la base de test
print("Test binary accuracy: {}%".format(round(res[1]*100,4)))

### Calcul de la matrice de confusion

<div class="alert alert-block alert-warning">
Question : Implémentez les fonctions ci-dessous qui calculent les 4 coefficients de la matrice de confusion étant donnés $y_{pred}$ le vecteur des classes prédites par le classifieur et $y_{test}$ les vrais labels. 

In [None]:
def true_positive(y_pred, y_test, threshold):
    return None

def false_positive(y_pred, y_test, threshold):
    return None

def false_negative(y_pred, y_test, threshold):
    return None

def true_negative(y_pred, y_test, threshold):
    return None

In [None]:
def ConfusionMatrix(y_pred, y_test,threshold):
    mat_conf = np.empty(4)
    mat_conf[0] = true_positive(y_pred, y_test, threshold)
    mat_conf[1] = false_positive(y_pred, y_test, threshold)
    mat_conf[2] = false_negative(y_pred, y_test, threshold)
    mat_conf[3] = true_negative(y_pred, y_test, threshold)
    print(mat_conf[0],mat_conf[1])
    print(mat_conf[2],mat_conf[3])
    return mat_conf

In [None]:
threshold = 0.5
mat_conf = ConfusionMatrix(y_pred, y_test, threshold)

### Precision, Recall and F-Factor

<div class="alert alert-block alert-warning">
Question : Implémentez les fonctions $precision$, $recall$ et $f\_measure$ pour qu'elles retournent respectivement la métrique correspondante.

In [None]:
def precision(TP,FP):
    return None

def recall(TP,P):
    return None

def f_measure(precision,recall):
    return None

def measure(y_pred, y_test,threshold):
    TP = true_positive(y_pred, y_test, threshold)
    FP = false_positive(y_pred, y_test, threshold)
    FN = false_negative(y_pred, y_test, threshold)
    TN = true_negative(y_pred, y_test, threshold)
    P = sum(y_test == 1)
    N = sum(y_test == 0)
    return TP,FP,FN,TN,P,N

In [None]:
[TP,FP,FN,TN,P,N] = measure(y_pred, y_test, threshold)
prec = precision(TP,FP)
rec = recall (TP,P)
F_factor = f_measure(prec,rec)
print(TP,FP,FN,TN,P,N)
print("precision = ",prec)
print("recall = ",rec)
print("F_factor = ",F_factor)

### Tracé de la courbe ROC

Le pseudo-code de l'algorithme pour extraire les coordonnées des points de la courbe ROC est présenté ci-dessous.
<img src="img/algo_roc" style="width: 450px;">

<div class="alert alert-block alert-warning">
Question : écrire le code de cet algorithme dans la fonction ci-dessous pour retourner une matrice ($N_{test},2$), avec $N_{test}$ la taille de la liste retournée par le pseudo-code.
</div>

In [None]:
def generateROCpoints(y_pred, y_test):
    ## Mettre le code ici ###
    R = [[None]] ### A enlever (juste pour éviter quelques erreurs tant que le code n'est pas rempli)
    
    
    ########################
    # A ce point de l'algo vous devriez avoir R sous la forme R = [[x0,y0],[x1,y1],...,[xN,yN]]
    # L'algo du pseudo-code retourne une liste de liste, R, mais pour tracer la courbe il est plus
    # facile d'utiliser une matrice R_mat.
    R_mat = np.empty((len(R),len(R[0])))
    for i in range(len(R)):
        R_mat[i,:] = R[i]
    return R_mat

In [None]:
R_mat = generateROCpoints(y_pred, y_test)

In [None]:
## Decommenter la ligne suivante une fois la fonction generateROCpoints implémentée correctement
#plt.plot(R_mat[:,0], R_mat[:,1])    #### A DECOMMENTER 
plt.plot([0,1],[0,1])
plt.title('ROC curve')
plt.xlabel('False positive rate')
plt.ylabel('True positive rate')
plt.show()

### Aire sous la courbe ROC

<img src="img/algo_auc" style="width: 450px">

<div class="alert alert-block alert-warning">
Question : écrire le code de cet algorithme dans la fonction AreaUnderCurve($y_{pred}, y_{test}$) ci-dessous.
</div>

In [None]:
def trap_area(X1,X2,Y1,Y2):
    base = abs(X1-X2)
    height_avg = (Y1+Y2)/2
    area = base*height_avg
    return area

def AreaUnderCurve(y_pred, y_test):
    return None

In [None]:
Area = AreaUnderCurve(y_pred, y_test)
Area

## À vous de jouer !

### Un exemple dans le domaine médical

<div class="alert alert-block alert-warning">
Pour le jeu de données suivant sur le cancer du sein (label 0 = tumeur bégnine, 1 = tumeur maligne) implémenter différents algorithmes de classification binaire (SVM, arbre, réseau de neurones) et comparez leur performance pour les grandeurs introduites précédemment.

In [None]:
## Chargement des données
names = ['id', 'clumpThick', 'unifCellSize', 'unifCellShape', 'margAdh', 'SECS', 'bareNuclei', 'blandChrom', 'normalNucl','mistoses','class']
dataframe = pd.read_csv('data/breast-cancer-wisconsin.data', names=names, na_filter='?')
data = dataframe.values
X = data[:,1:-1]
y = data[:,-1]
# Les labels dans le dataset sont 2 et 4 au lieu des traditionnels 0 et 1, on les remplace.
y[y == 2] = 0
y[y == 4] = 1

size_test = 200 # doit être plus petit que la taille du dataset

X_train = X[:-size_test,:]
y_train = y[:-size_test]
X_test = X[-size_test:,:]
y_test = y[-size_test:]

# Pour plotter un plt.bar afin de comparer les trois classifieurs
prec_list = np.zeros(3)
rec_list = np.zeros(3)
fScrore_list = np.zeros(3)


<div class="alert alert-block alert-warning">
1er indice : commencez par regarder la répartition des classes. Que peut-on en dire ?

<div class="alert alert-block alert-success">
Réponse : 

## Avec une SVM

## Avec une forêt aléatoire

## Avec un réseau de neurones

In [None]:
fig, ax = plt.subplots(2,2)
ax[0,0].bar([1,2,3],prec_list,color=['r','b','g'])
ax[0,0].get_xaxis().set_visible(False)
ax[0,0].set_title('Precision')
ax[0,1].bar([1,2,3],rec_list,color=['r','b','g'])
ax[0,1].get_xaxis().set_visible(False)
ax[0,1].set_title('Recall')
ax[1,0].bar([1,2,3],fScrore_list,color=['r','b','g'])
ax[1,0].set_title('F-Score')
ax[1,0].get_xaxis().set_visible(False)
ax[1,1].get_xaxis().set_visible(False)
ax[1,1].get_yaxis().set_visible(False)

# En rouge la SVM, en bleu la forêt aléatoire et en vert le réseau de neurones

<div class="alert alert-block alert-warning">
Quelle conclusion tirez-vous de vos différentes expériences sur ce jeu de données? 

<div class="alert alert-block alert-success">
Réponse : 

# Régression

Le cas de la régression est moins problématique, pour mesurer la performance d'un modèle de régression, il suffit de mesurer son l'écart entre la prédiction et la vraie valeur (Mean Squared Error, Mean Absolute Error, qui donnent un ordre de grandeur de la magnitude de l'écart mais pas de signe). On peut également calculer le coefficient de détermination $R^2$.




## References

[1] https://machinelearningmastery.com/classification-accuracy-is-not-enough-more-performance-measures-you-can-use/

[2] https://machinelearningmastery.com/assessing-comparing-classifier-performance-roc-curves-2/

[3] https://en.wikipedia.org/wiki/Receiver_operating_characteristic

[4] Les fichiers pdf dans l'archive

[5] O. L. Mangasarian and W. H. Wolberg: "Cancer diagnosis via linear 
      programming", SIAM News, Volume 23, Number 5, September 1990, pp 1 & 18.

<img src="img/img.jpg" style="width: 450px;" title="Machine learning memes for convolutional teens">

<img src="img/headache.png" style="width: 450px;" title="Machine learning memes for convolutional teens">