# 7. Métricas

In [None]:
import numpy as np
import matplotlib.pyplot as plt
np.set_printoptions(legacy='1.25') # para que no imprima np.int np.float64

## Etiquetas de Ejemplo

**Clasificación binaria probabilística**:

Definimos un dataset con dos posibles etiquetas $0$ y $1$:

In [None]:
y_true = np.array([1, 1, 0, 1, 1, 0, 0, 1, 0, 0])

Mediante el uso de un clasificador binario se obtuvieron los siguientes niveles de probabilidad para cada uno de los datos:

In [None]:
y_pred_proba = np.array([.99, .98, .72, .70, .65, .51, .39, .24, .11, .01])

In [None]:
#fig, ax = plt.subplots(1, 1)
x = [1,2,3,4,5,6,7,8,9,10]
plt.xlim(0, 11)
plt.ylim(0,1)
plt.scatter(x, y_pred_proba, c = y_pred_proba)#, 'r', alpha=0.6)
plt.show()

Podemos implementar una **Clasificación binaria determinista** mediante un umbral para decidir la clasificación correcta:

In [None]:
threshold = 0.5

In [None]:
x = [1,2,3,4,5,6,7,8,9,10]
plt.xlim(0, 11)
plt.ylim(0,1)
plt.scatter(x, y_pred_proba, c = y_pred_proba)#, 'r', alpha=0.6)
plt.axhline(y=threshold, xmin=-3, xmax=3, color='red', linestyle='-.', linewidth=2)
plt.show()

Con ese umbral quedarían los siguientes valores:

In [None]:
y_pred = (y_pred_proba >= threshold).astype(int)
y_pred

**Clasificación multiclase determinista:**

Por otro lado definimos otro dataset con multiples clases:

In [None]:
y_true2 = ["cat", "ant", "cat", "cat", "ant", "bird"]

Mediante el uso de un clasificador obtuvimos las siguientes clases:

In [None]:
y_pred2 = ["ant", "ant", "cat", "cat", "ant", "cat"]

## Precision, Recall y F1

La precision es la proporción de positivos propuestos por el modelo que fueron correctos:

$$Precision = \frac{|Etiquetado(+) \cap Clasificado(+)|}{|Clasificado(+)|} = \frac{TP}{TP + FP}$$

La recall es la proporción de positivos correctos que fueron encontrados por el modelo:

$$Recall = \frac{|Etiquetado(+) \cap Clasificado(+)|}{|Etiquetado(+)|} = \frac{TP}{TP + FN}$$

$$F_1 = \frac{2 * Precision * Recall}{Precision + Recall}$$

Para clasificación multiclase, se puede calcular una métrica por clase. Luego, las métricas se pueden promediar para obtener resultados "macro".
Para obtener resultados "micro", se hacen primero cálculos globales para TP, FP, TN, FN y luego se calcula como un problema binario.

Podemos usar sklearn para calcularlas:

In [None]:
y_true, y_pred

In [None]:
threshold = 0.5
y_pred = (y_pred_proba >= threshold).astype(int)
y_pred

In [None]:
from sklearn.metrics import precision_score
precision_score(y_true, y_pred)  # precision = 4 / 6 (con th=0.5), = 2 / 2 (con th=0.8)

In [None]:
from sklearn.metrics import recall_score
recall_score(y_true, y_pred)  # recall = 4 / 5 (con th=0.5), = 2 / 5 (con th=0.8)

In [None]:
from sklearn.metrics import f1_score
f1_score(y_true, y_pred)

## Reporte de Clasificación

- [classification_report](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html)

En clasificación binaria:

In [None]:
y_true, y_pred

In [None]:
from sklearn.metrics import classification_report
classification_report??
print(classification_report(y_true, y_pred))

En clasificación multiclase:

In [None]:
y_true2, y_pred2

In [None]:
print(classification_report(y_true2, y_pred2))

## Matrices de Confusión

Usamos [confusion_matrix](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html):


In [None]:
from sklearn.metrics import confusion_matrix

Retomamos las etiquetas originales y las predicha por clasificador binario:

In [None]:
y_true, y_pred

Mediante la función  "confusion_matrix" podemos obtener las cantidades de TP, FP, TN y FN

In [None]:
confusion_matrix(y_true, y_pred)

In [None]:
tn, fp, fn, tp = confusion_matrix(y_true, y_pred).ravel()

En multiclase:

In [None]:
cm = confusion_matrix(y_true2, y_pred2, labels=['ant', 'bird', 'cat'])
cm

Podemos usar [plot_confusion_matrix](https://scikit-learn.org/stable/auto_examples/model_selection/plot_confusion_matrix.html) pero requiere el clasificador. Definimos nuestra propia versión:

In [None]:
from utils import plot_confusion_matrix

plot_confusion_matrix(cm, ['ant', 'bird', 'cat'])

## Curvas ROC

Usamos [roc_curve](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_curve.html) para obtener los puntos y graficamos:

In [None]:
from sklearn.metrics import roc_curve
fpr, tpr, threshold = roc_curve(y_true, y_pred_proba, drop_intermediate=True)

Agregar que es fpr y tpr
Agregar otro ejemplo de juguete para comparar en la gráfica (que se vean dos curvas)

In [None]:
fpr, tpr, threshold

In [None]:
plt.plot(1.0 - fpr, tpr, color="red")
plt.scatter(1.0 - fpr, tpr, color="red")
#plt.xlabel("false positive rate")
plt.xlabel("true negative rate")
plt.ylabel("true positive rate")
plt.show()

In [None]:
tpr[3], fpr[3], threshold[3]

Calculamos el área bajo la curva con [roc_auc_score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html):

In [None]:
from sklearn.metrics import roc_auc_score

roc_auc_score(y_true, y_pred_proba)

Veamos con otros resultados:

In [None]:
y_true_2 = np.array([0, 0, 1, 0, 0, 0, 0, 1, 1, 0])
y_pred_proba_2 = np.array([.89, .78, .65, .55, .54, .51, .49, .34, .11, .01])

In [None]:
fpr_2, tpr_2, threshold_2 = roc_curve(y_true_2, y_pred_proba_2, drop_intermediate=True)

In [None]:
plt.plot(1.0 - fpr_2, tpr_2, color="green")
plt.scatter(1.0 - fpr_2, tpr_2, color="green")
#plt.plot(1.0 - fpr, tpr, color="red")
#plt.scatter(1.0 - fpr, tpr, color="red")
#plt.xlabel("false positive rate")
plt.xlabel("true negative rate")
plt.ylabel("true positive rate")
plt.show()

In [None]:
tpr_2[4], fpr_2[4], threshold_2[4]

In [None]:
roc_auc_score(y_true_2, y_pred_proba_2)

## Curvas PR (Precision/Recall)

Usamos [precision_recall_curve](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_recall_curve.html) para obtener los puntos y graficamos:

In [None]:
from sklearn.metrics import precision_recall_curve
precision, recall, threshold = precision_recall_curve(y_true, y_pred_proba)

In [None]:
precision, recall, threshold

In [None]:
plt.xlim(0, 1)
plt.ylim(0, 1.1)
plt.plot(recall, precision, color="red")
plt.scatter(recall, precision, color="red")
plt.xlabel("recall")
plt.ylabel("precision")
plt.show()

## Referencias


Scikit-learn:

- [3.4. Metrics and scoring: quantifying the quality of predictions](https://scikit-learn.org/stable/modules/model_evaluation.html)