In [1]:
import numpy as np
import pandas as pd

%load_ext autoreload
%autoreload 2

## Confusion Matrix

Es toda la información sobre nuestro clasificador para una determinada regla de decisión. La regla impacta mucho sobre el valor final de la métrica, así que las comparaciones tienen que ser justas. Por ejemplo, si tengo una clase mucho más chica que las otras y uso una regla de decisión que consiste en decidir por la clase de mayor probabilidad, la mejora en esa clase no es lo mismo para todas.

In [3]:
def illustrative_confusion_matrix(data):
    classes = ['pos', 'neg', 'neutral']
    ex = pd.DataFrame(
        data,        
        columns=classes,
        index=classes)
    ex.index.name = "observed"
    return ex

ex1 = illustrative_confusion_matrix([
    [15,  10,  100],
    [10,  15,   10],
    [10, 100, 1000]])

ex1

Unnamed: 0_level_0,pos,neg,neutral
observed,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
pos,15,10,100
neg,10,15,10
neutral,10,100,1000


El eje x son las muestras predecidas y el eje y son las muestras de verdad. Es decir que el punto (x=neg,y=pos) dice cuántas muestras fueron predecidas como negativas y en realidad eran positivas.

## Accuracy

Es la cantidad de muestras bien predecidas sobre la cantidad total de predicciones. Es la diagonal de la matriz de confusión sobre la suma de todos los valores de la matriz.

In [4]:
def accuracy(cm):
    return cm.values.diagonal().sum() / cm.values.sum()

accuracy(ex1)

0.8110236220472441

Puedo tener buena accuracy pero sólo por el hecho de que el dataset es hamable con mi regla de decisión. Por ejemplo:

In [5]:
ex2 = illustrative_confusion_matrix([
    [0, 0,  125],
    [0, 0,   35], 
    [0, 0, 1110]])

print(accuracy(ex2))

0.8740157480314961


y sin embargo se observa el clasificador lo único que hace es asignar todas las muestras a la clase 3.

La función de costo Cross-Entropy entre la clase verdadera y la probabilidad estimada se define como

$$
-\frac{1}{N} \sum_{i=1}^{N} \sum_{k=1}^{K} y_{i,k} \log(p_{i,k})
$$

por lo que es equivalente, para el caso en que $y_i$ es un *one-hot-vector*, a maximizar el score de la clase ganadora en cada muestra. Es decir, se está maximizando la accuracy.

## Precision

Es el "accuracy por clase". Es decir, para cada clase se calcula la proporción de aciertos sobre el total de muestras que pertenecían a esa clase.

En términos de la matriz de confusión es la diagonal dividido la suma por culumna:

In [7]:
def precision(cm):
    return cm.values.diagonal() / cm.sum(axis=0)

precision(ex1)

pos        0.428571
neg        0.120000
neutral    0.900901
dtype: float64

Hay que tener cuidado con la precision cuando es igual a cero o a uno:

* Si es igual a 1 (o muy muy cerca de 1) puede ser que igual tenga muchas muestras en esa clase que en realidad pertenecían a otra (me tengo que fijar el recall)

* Si es cero, puede ser que sea realmente muy baja precisión pero también puede ser un mapeo que viene de una NaN, originado probablemente porque no se clasificó ninguna muestra como esa clase.

## Recall

Es un complemento para la precision. Te dice cómo le fue a cada clase en relación con las verdaderas predicciones. En términos de la matriz de confusión es la cantidad de aciertos por clase dividido la suma de las filas.

In [None]:
def recall(cm):
    return cm.values.diagonal() / cm.sum(axis=1)