# Tema 3: Evaluación de algoritmos de clasificación
## Cuaderno de ejercicios

**Ejercicio 1**

Supongamos que hemos utilizado un clasificador, por ejemplo, Naive Bayes, para clasificar documentos con respecto al sentimiento. Las clases son Pos (positivo), Neg (negativo) y Neu (neutro). Probamos nuestro clasificador en 10 documentos para los que conocemos su _gold standar_ (clase real). La prueba tiene los siguientes resultados:

| Documento | Clase Real | Clase predicha |
| ------------- | ------------- | ------------- |
| d1  | Pos  | Pos |
| d2  | Pos  | Pos |
| d3  | Pos  | Pos |
| d4  | Pos  | Neu |
| d5  | Neg  | Neg |
| d6  | Neg  | Neu |
| d7  | Neg  | Neg |
| d8  | Neu  | Pos |
| d9  | Neu  | Neu |
| d10  | Neu  | Neu |

Calcular: precision, recall, accuracy y F1 para estos resultados de clasificación para las tres clases.

In [11]:
import pandas as pd

datos = [[1,'Pos','Pos'],
        [2,'Pos','Pos'],
        [3,'Pos','Pos'],
        [4,'Pos','Neu'],
        [5,'Neg','Neg'],
        [6,'Neg','Neu'],
        [7,'Neg','Neg'],
        [8,'Neu','Pos'],
        [9,'Neu','Neu'],
        [10,'Neu','Neu']]
# el identificador de documento realmente no haría falta

# definimos los nombres de las columnas
columnas = ['id', 'Real', 'Predicted'] 

df = pd.DataFrame(datos, columns=columnas)

print(df)

   id Real Predicted
0   1  Pos       Pos
1   2  Pos       Pos
2   3  Pos       Pos
3   4  Pos       Neu
4   5  Neg       Neg
5   6  Neg       Neu
6   7  Neg       Neg
7   8  Neu       Pos
8   9  Neu       Neu
9  10  Neu       Neu


In [20]:
# Utilizamos el metodo crosstab para crear la matriz de confusion
confusion_matrix = pd.crosstab(df['Real'], df['Predicted'], rownames=['Real'], colnames=['Predicted'])
print (confusion_matrix)

Predicted  Neg  Neu  Pos
Real                    
Neg          2    1    0
Neu          0    2    1
Pos          0    1    3


In [23]:
# precisión pos: TP verdaderos positivos / de todos los clasificados como positivos
tp_pos = 3 ##Verdaderos positivos de la clase positiva
fp_pos = 1 #Falsos positivos de la clase positiva
precision_pos = tp_pos / (tp_pos+fp_pos)

tp_neg = 2 
fp_neg = 0
precision_neg = tp_neg / (tp_neg+fp_neg)

tp_neu = 2
fp_neu = 2
precision_neu = tp_neu / (tp_neu+fp_neu)

print('Precision clase positiva: ' + "{:.3f}".format(precision_pos))
print('Precision clase negativa: ' + "{:.3f}".format(precision_neg))
print('Precision clase neutra: ' + "{:.3f}".format(precision_neu))

Precision clase positiva: 0.750
Precision clase negativa: 1.000
Precision clase neutra: 0.500


In [24]:
# recall: tp / (tp + fn) la capacidad de encontrar los correctos de entre todos los correctos
tp_pos = 3
fn_pos = 1
recall_pos = tp_pos / (tp_pos+fn_pos)

tp_neg = 2
fn_neg = 1
recall_neg = tp_neg /  (tp_neg+fn_neg)

tp_neu = 2
fn_neu = 1
recall_neu = tp_neu /  (tp_neu+fn_neu)

print('Recall clase positiva: ' + "{:.3f}".format(recall_pos))
print('recall clase negativa: ' + "{:.3f}".format(recall_neg))
print('recall clase neutra: ' + "{:.3f}".format(recall_neu))


Recall clase positiva: 0.750
recall clase negativa: 0.667
recall clase neutra: 0.667


In [25]:
# f1, F1 Score = 2 * (Precision * Recall) / (Precision + Recall)

f1_pos = 2 *(precision_pos * recall_pos) / (precision_pos + recall_pos)
f1_neg = 2 *(precision_neg * recall_neg) / (precision_neg + recall_neg)
f1_neu = 2 *(precision_neu * recall_neu) / (precision_neu + recall_neu)

print('f1 clase positiva: ' + "{:.3f}".format(f1_pos))
print('f1 clase negativa: ' + "{:.3f}".format(f1_neg))
print('f1 clase neutra: ' + "{:.3f}".format(f1_neu))


f1 clase positiva: 0.750
f1 clase negativa: 0.800
f1 clase neutra: 0.571


In [30]:
from sklearn.metrics import precision_recall_fscore_support

precision_recall_fscore_support(df['Real'], df['Predicted'], average=None, 
                                labels=['Pos', 'Neg', 'Neu'])

# returns precision recall f1 y support

(array([0.75, 1.  , 0.5 ]),
 array([0.75      , 0.66666667, 0.66666667]),
 array([0.75      , 0.8       , 0.57142857]),
 array([4, 3, 3], dtype=int64))

### otra manera de representar la matriz de confusion
https://scikit-learn.org/stable/modules/generated/sklearn.metrics.multilabel_confusion_matrix.html#sklearn.metrics.multilabel_confusion_matrix
multilabel_confusion_matrix(df['Real'], df['Predicted'],
                             labels=["Neg", "Neu", "Pos"])

In [31]:
from sklearn.metrics import recall_score
from sklearn.metrics import multilabel_confusion_matrix


recall = recall_score(df['Real'], df['Predicted'], labels=['Pos','Neg','Neu'], average=None)


**Ejercicio 2**

Se evaluó un clasificador binario utilizando un conjunto de 1000 ejemplos de prueba (test) en los que el 50 % de todos los ejemplos son negativos. El clasificador tiene 60 % de sensitivity y 70 % de accuracy. Escribe la matriz de confusión.

In [32]:
# Total ejemplos 1000
total = 1000
all_neg = 500
recall = 0.6
accuracy = 0.7

all_pos = 500
# all_neg = fp + tn
# all_pos = tp + fn
# recall = tp / (fn + tp) = 0.6 --> tp/500 = 0.6 -->
tp = 0.6*500

# acuraccy = (tp + tn) / all --> 0.7 = 300 + tn / 1000
tn = (1000*0.7)-300

fp = all_neg - tn
fn = all_pos - tp

print(tp)
print(tn)
print(fp)
print(fn)

300.0
400.0
100.0
200.0


**Ejercicio 3**

Utilizando la matriz de confusión creada en el ejercicio anterior, calcula la precisión del clasificador, la medida F1 y
especificidad.

In [33]:
precision = tp / (tp + fp)
f1 = 2 *(precision * recall) / (precision + recall)
especificidad = tn / (tn + fp)

print(precision)
print(f1)
print(especificidad)

0.75
0.6666666666666665
0.8
