# **Metriche**
## *Metriche per classificatori e regressori e Tuning di soglia*
Definizione della *soglia di decisone*, *accuratezza*, *metriche fondamentali* e *tuning della soglia di decisione*

## **Soglia di decisione**


Consideriamo il caso dello *spam detector*. Un modello di regressione logistica che restituisca una probabilità $p=0.999$ ci sta dicendo che, molto probabilmente, questo è di spam; di converso, se il modello restituisce $p=0.003$ allora è molto probabile che il messaggio non sia spam. Cosa accade però nel caso in cui $p=0.505$ ?

Quindi per passare da una probabilità ad una classe sia necessario definire una **soglia di decisione**: un valore oltre questa soglia indicherà, ad esempio, che la mail ricevuta è di spam, mentre uno al di sotto della soglia ci suggerirà che non lo è.

Ovviamente, la tentazione potrebbe essere quella di presupporre che la soglia di decisione sia sempre pari a 0.5 questo, ovviamente, non è vero, in quanto la soglia dipende dal problema, ed è un valore che bisogna stabilire in base al problema affrontato. Introduciamo alcune metriche che possono essere usate in tal senso.

## **Metriche per i classificatori**

Continuiamo a concentrarci sul caso della classificazione dello spam, ed introduciamo il concetto di *classe positiva* e *classe negativa*.

In particolare, la classe positiva sarà rappresentata da tutte le mail di spam, mentre la classe negativa sarà rappresentata dalle mail non spam. In tal senso, le predizioni del modello potranno essere di quattro tipi:

- nel primo caso, il modello classificherà correttamente una mail di spam. In questo caso, si parla di vero positivo, o **true positive (TP)**;
- nel secondo caso, il modello classificherà correttamente una mail legittima. In questo caso, si parla di vero negativo, o **true negative (TN)**;
- nel terzo caso, il modello classificherà una mail di spam come legittima. In questo caso, si parla di falso negativo, o **false negative (FN)**;
- nel quarto caso, il modello classificherà una mail legittima come di spam. In questo caso, si parla di falso positivo, o **false positive (FP)**.

In pratica, un **TP (TN)** si ha quando *il modello predice correttamente la classe positiva (negativa)*, mentre un **FP (FN)** si ha quando il *modello predice in maniera non corretta* la classe positiva (negativa).

### **Accuratezza**

L'**accuratezza** è la prima *metrica* che vedremo per la valutazione dei modelli di classificazione. Informalmente, possiamo definirla come la percentuale di predizioni corrette effettuate dal nostro modello, e definirla come:

$$AC=\frac{C}{T}$$

dove $C$ è il numero totale di predizione corrette, mentre $T$ è il numero totale di predizioni. Nel caso della classificazione binaria, possiamo calcolare l'accuratezza come segue:

$$AC=\frac{TP+TN}{TP+TN+FP+FN}

Immaginiamo ad esempio di aver ricevuto $100$  email, tra cui $10$ di spam. Il nostro spam detector ha individuato correttamente $5$ messaggi di spam, e classificato per $5$ sbaglio come spam  messaggi legittimi. Allora:

$$AC=\frac{TP+TN}{TP+TN+FP+FN}=\frac{5+85}{5+85+5+5}$$

In questo caso, l'**accuratezza** del modello è pari a $0.90$, o del $90%$, il che significa che il nostro modello è in grado di fare 90 predizioni su 100.Buon risultato, giusto?

In realtà, non necessariamente. Infatti, delle mail che abbiamo ricevuto, $90$ sono legittime, e $10$ di spam. Questo significa che il modello è stato in grado di individuare *soltanto il $50%$ dello spam** ricevuto, ed ha inoltre classificato un buon $7%$ delle email legittime come spam. Tra cui, prevedibilmente, quella che ci comunicava notizie di vitale importanza. In sostanza, il nostro modello ha un'efficacia "vera e propria" al più in un caso su due.

Di conseguenza, l'accuratezza non ci racconta "tutta la storia" quando lavoriamo su un dataset sbilanciato come questo, dove vi è una disparità significativa tra la classe positiva e quella negativa.


L'accuratezza delle predizioni effettuate da un classificatore è ottenuta in Scikit Learn utilizzando il metodo `accuracy_score()` del package `sklearn.metrics`.

### **Precisione**

La **precisione** è una metrica che prova a risolvere alcuni dei problemi dell'accuratezza valutando quale sia la *proporzione di valori per la classe positiva identificati correttamente*.

La definizione analitica della precisione è la seguente:

$$P=\frac{TP}{TP+FP}$$

In pratica, riferendoci al nostro solito esempio, la precisione è data dal rapporto tra le mail di spam riconosciute come tali e la somma tra queste e le mail legittime riconosciute come spam. Provando a calcolarla:

$$P=\frac{TP}{TP+FP} = \frac{5}{5+5}=0.5$$


Il modello ha quindi una precisione del **$50\%$** nel riconoscere una mail di spam.

La precisione delle predizioni effettuate da un classificatore è ottenuta in Scikit Learn utilizzando il metodo `precision_score()` del package `sklearn.metrics`.

### **Recall**

Il **recall**, traducibile in italiano come *richiamo*, verifica la *porzione di veri positivi correttamente identificata* dall'algoritmo, ed è espresso come:

$$R=\frac{TP}{TP+FN}$$

Nel nostro caso, il recall sarà quindi dato dal rapporto tra le mail correttamente indicate come spam e la somma tra le stesse e quelle erroneamente indicate come legittime. Va da sè che anche in questo caso possiamo calcolarlo:

$$R=\frac{TP}{TP+FN}=\frac{5}{5+5}=0.5$$

Così come la precisione, il recall è pari al **$50\%$**.

Il recall ha una rappresentazione in Scikit Learn mediante la funzione `recall_score()` del package `sklearn.metrics`.

## **Tuning della soglia di decisione**

Per valutare l'effiacia del modello dobbiamo esaminare congiuntamente la **precisione** ed il **recall**.

Sfortunatamente, questi due valori sono spesso in *contrapposizione*: spesso, infatti, migliorare la precisione riduce il recall, e viceversa. Per comprendere empiricamente questo concetto, facciamo un esempio con il nostro spam detector, immaginando di aver impostato la soglia di decisione a $0.6$.

I risultati sono mostrati nella figura successiva.

![0.6](Images/06.png)

Calcoliamo la precisione e il recall in questo caso:

$$P=\frac{TP}{TP+FP} = \frac{4}{4+1}=0.8$$

$$R=\frac{TP}{TP+FN}=\frac{4}{4+2}=0.66$$


Proviamo ad **aumentare** la soglia di decisione, portandola al **$75\%$**

![0.75](Images\075.png)

$$P=\frac{TP}{TP+FP} = \frac{3}{3}=1$$

$$R=\frac{TP}{TP+FN}=\frac{3}{3+3}=0.5$$

Proviamo ad **diminuire** la soglia di decisione, portandola al **$50\%$**

![0.5](Images\05.png)

$$P=\frac{TP}{TP+FP} = \frac{4}{4+3}=0.57$$

$$R=\frac{TP}{TP+FN}=\frac{4}{4+2}=0.66$$

Come possiamo vedere, la **soglia di detection** agisce su *precisione e recall*.

Non è però possibile aumentarli contemporaneamente, per cui occorre scegliere un valore tale per cui, ad esempio, si massimizzi la media.

La realtà è che, però, dipende sempre dall'applicazione: se non abbiamo paura di perdere mail legittime, allora possiamo abbassare la soglia di decisione, aumentando il recall; viceversa, se siamo disposti ad eliminare manualmente un po' di spam, potremo alzare la soglia di decisione, aumentando la precisione.

## **Metriche per i regressori**

Definiamo brevemente alcune delle metriche che è possibile utilizzare per la valutazione delle performance di un *modello di regressione*.

### **Mean Squared Error (MSE)**

Abbiamo già visto questa metrica quando abbiamo parlato della regressione. L'**errore quadratico medio** è definito come:

$$MSE = \frac{1}{n}\sum_{i=1}^n(y_i-\hat{y_i})^2$$

Questo errore, implementato in **Scikit Learn** dalla funzione `mean_squared_error()`, permette di tenere conto di eventuali errori negativi e positivi, ma viene influenzato dalla grandezza assoluta delle variabili.

In altre parole, un errore dell'$1%$ su un valore $y=100$ sarà più influente di un errore del $50%$ su un valore $y=1$.

Ovviamente, tanto è minore l'**MSE**, tanto è migliore il modello considerato.

### **Mean Absolute Percentage Error (MAPE)**

Il **mean absolute percentage error** viene calcolato mediante il rapporto tra il valore assoluto della differenza tra i valori veri e quelli predetti dal regressore e i valori veri stessi. 

Tale rapporto viene quindi mediato sull'insieme dei campioni, e ne viene dedotta la percentuale. La formula è la seguente:

$$MAPE = \frac{1}{n}\sum_{i=1}^n \frac{|y_i-\hat{y_i}|}{max(\epsilon,y_i)}\%$$

Il MAPE è implementato in **Scikit Learn** mediante la funzione `mean_average_percentage_error()`.

Il vantaggio principale derivante dall'uso del MAPE sta nel fatto che l'uso del valore assoluto elimina eventuali annullamenti derivanti da contributi di segno opposto. Inoltre, la presenza del valore vero a denominatore fa in modo che la metrica sia sensibile agli errori relativi.

Anche in questo caso, un valore di **MAPE** basso indica un'ottima approssimazione.

## **Esercizi**

### **Es 4.0**

In [7]:
def warn(*args, **kwargs):
    pass
import warnings
warnings.warn = warn

import numpy as np
import seaborn as sns
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import (
    accuracy_score,
    precision_score,
    recall_score,
    classification_report,
    mean_absolute_percentage_error,
    mean_squared_error,
    r2_score)

Consideriamo il regressore logistico usato nell'*Es 3.0* nel notebook "[Apprendimento Supervisionato - Regressione Lineare e Logistica](https://github.com/marcocecca00/PythonCalcoloScientifico/blob/main/Notes/Modelli%20di%20Apprendimento%20Supervisionato.ipynb)".

Valutiamo per prima cosa i risultati ottenuti in termini di accuratezza, precisione e recall usando le apposite funzioni di Scikit Learn. Utilizziamo anche la funzione `classification_report()` per ottenere un report completo dell'esito del classificatore.

In [16]:
# Caricamento dei dati
tips = sns.load_dataset('tips')
X = tips.loc[:, ('total_bill', 'tip', 'size')].values
y = tips.loc[:, ('day')].values
X_train, X_test, y_train, y_test = train_test_split(X, y)

In [17]:
# Addestramento del regressore logistico
clf = LogisticRegression(max_iter=1000)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

In [18]:
# Es 20.0 del notebook "Apprendimento Supervisionato - Regressione Lineare e Logistica"
# Parte 1: metriche
print('Precisione: {}'.format(round(precision_score(y_test, y_pred, average='macro'), 2)))
print('Recall: {}'.format(round(recall_score(y_test, y_pred, average='macro'), 2)))
print('Accuracy: {}'.format(round(accuracy_score(y_test, y_pred), 2)))

Precisione: 0.28
Recall: 0.28
Accuracy: 0.38


In [19]:
# Parte 2: classification report
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

         Fri       0.00      0.00      0.00         4
         Sat       0.33      0.64      0.44        22
         Sun       0.53      0.40      0.46        20
        Thur       0.25      0.07      0.11        15

    accuracy                           0.38        61
   macro avg       0.28      0.28      0.25        61
weighted avg       0.36      0.38      0.33        61



### **Es 4.1**

Proviamo adesso a verificare come variano i valori di accuratezza, precisione e recall per diversi valori della soglia di decisione. In tal senso:

semplifichiamo il problema riducendolo ad una classificazione binaria, e quindi considerando come label la colonna time;
utilizziamo il metodo `predict_proba(X)` del `LogisticRegressor()`.

In [20]:
y = tips.loc[:, ('time')].values
X_train, X_test, y_train, y_test = train_test_split(X, y)
clf = LogisticRegression(max_iter=1000)
clf.fit(X_train, y_train)

Non abbiamo un *metodo diretto* per modificare il valore di soglia di decisione.

In [21]:
probs_pred = clf.predict_proba(X_test)
# Nota: considero soltanto i valori massimi per le predizioni
preds = [np.amax(pred) for pred in probs_pred]
y_pred = clf.predict(X_test)
preds_cls = list(zip(list(y_pred), preds, y_test))

In [22]:
# Conto TP, TN, FP, FN
def get_precision_recall_from_probs(probs, threshold=0.65):
    tp = 0
    tn = 0
    fp = 0
    fn = 0
    for prob in probs:
        if prob[1] > threshold and (prob[0] == prob[2]):
            # Abbiamo un true positive
            tp += 1
        elif prob[1] > threshold and (prob[0] != prob[2]):
            # Abbiamo un false positive
            fp += 1
        elif prob[1] <= threshold and (prob[0] == prob[2]):
            # Abbiamo un true negative
            tn += 1
        elif prob[1] <= threshold and (prob[0] != prob[2]):
            # Abbiamo un false negative
            fn += 1
    precision = tp/(tp+fp)
    recall = tp/(tp+fn)
    return precision, recall

p_65, r_65 = get_precision_recall_from_probs(preds_cls)
p_80, r_80 = get_precision_recall_from_probs(preds_cls, threshold=0.80)
p_50, r_50 = get_precision_recall_from_probs(preds_cls, threshold=0.50)
print(p_65, r_65)
print(p_80, r_80)
print(p_50, r_50)

0.74 0.9024390243902439
0.7692307692307693 0.4166666666666667
0.7213114754098361 1.0


### **Es 4.2**

Consideriamo il regressore lineare usato nell'esercizio 16.1. Valutiamo i risultati ottenuti in termini di **MSE**, **MAPE** ed $R^2$ .

In [23]:
X = tips['total_bill'].values.reshape(-1, 1)
y = tips['tip'].values.reshape(-1, 1)
lin_reg = LinearRegression()
lin_reg.fit(X, y)
y_pred = lin_reg.predict(X)
print('MAPE: {}'.format(round(mean_absolute_percentage_error(y, y_pred), 2)))
print('MSE: {}'.format(round(mean_squared_error(y, y_pred), 2)))
print('R2: {}'.format(round(r2_score(y, y_pred), 2)))

MAPE: 0.28
MSE: 1.04
R2: 0.46
