## Métricas de Evaluación en Modelos de Clasificación

Para evaluar un modelo de clasificación, necesitamos métricas que nos indiquen cuán bien predice las etiquetas de clase en nuevos datos. Las métricas más comunes en clasificación son **precisión** (accuracy), **precisión** (precision), **recuperación** (recall), **f1-score**, y la **matriz de confusión**. Cada una de estas métricas tiene un propósito específico y se utiliza en función del tipo de problema y el objetivo del modelo.

### 1. Matriz de Confusión

La matriz de confusión es una tabla que permite visualizar el rendimiento del modelo comparando las predicciones con las verdaderas etiquetas de clase. Sus componentes básicos son:

- **Verdaderos Positivos (VP)**: Predicciones correctas de la clase positiva.
- **Falsos Positivos (FP)**: Predicciones incorrectas de la clase positiva.
- **Verdaderos Negativos (VN)**: Predicciones correctas de la clase negativa.
- **Falsos Negativos (FN)**: Predicciones incorrectas de la clase negativa.

Esta matriz proporciona un desglose detallado que ayuda a calcular otras métricas.

### 2. Precisión (Accuracy)

La precisión es la proporción de predicciones correctas en comparación con el total de predicciones. Es útil cuando las clases están balanceadas.

$$
\text{Precisión} = \frac{VP + VN}{VP + VN + FP + FN}
$$

### 3. Precisión (Precision)

La precisión mide qué proporción de las predicciones positivas son correctas. Es crucial en escenarios donde los falsos positivos tienen un alto costo, como en el diagnóstico médico.

$$
\text{Precisión} = \frac{VP}{VP + FP}
$$

### 4. Recuperación (Recall)

La recuperación, también llamada sensibilidad o tasa de verdaderos positivos, mide la capacidad del modelo para identificar correctamente las instancias positivas. Es relevante en problemas donde los falsos negativos son costosos, como en la detección de fraudes.

$$
\text{Recuperación} = \frac{VP}{VP + FN}
$$

### 5. F1-Score

El F1-score es la media armónica entre precisión y recuperación. Esta métrica es útil cuando existe un balance entre la importancia de minimizar falsos positivos y falsos negativos.

$$
\text{F1-Score} = 2 \cdot \frac{\text{Precisión} \cdot \text{Recuperación}}{\text{Precisión} + \text{Recuperación}}
$$

### 6. Curva ROC y AUC (Área Bajo la Curva)

La **Curva ROC** (Receiver Operating Characteristic) representa la relación entre la tasa de verdaderos positivos y la tasa de falsos positivos a medida que se ajusta el umbral de decisión. El **AUC** (Área Bajo la Curva) mide la capacidad del modelo para distinguir entre las clases. Un AUC de 0.5 indica un modelo sin poder de discriminación, mientras que un AUC cercano a 1 indica un modelo altamente efectivo.

### Selección de la Métrica Adecuada

La métrica de evaluación adecuada depende del contexto del problema:

- **Clases balanceadas**: La precisión suele ser un buen indicador.
- **Clases desbalanceadas**: Es preferible utilizar precisión, recuperación, y F1-score para analizar el rendimiento de la clase minoritaria.
- **Sensibilidad a falsos positivos o negativos**: Precision y recall son especialmente útiles cuando es importante minimizar un tipo específico de error.


# 7. Métricas

In [None]:
import numpy as np
import matplotlib.pyplot as plt

## Etiquetas de Ejemplo

**Clasificación binaria probabilística**:

Definimos un dataset con dos posibles etiquetas $0$ y $1$:

In [None]:
y_true = np.array([1, 1, 0, 1, 1, 0, 0, 1, 0, 0])

Mediante el uso de un clasificador binario se obtuvieron los siguientes niveles de probabilidad para cada uno de los datos:

In [None]:
y_pred_proba = np.array([.99, .98, .72, .70, .65, .51, .39, .24, .11, .01])

Podemos implementar una **Clasificación binaria determinista** mediante un umbral para decidir la clasificación correcta:

In [None]:
threshold = 0.5
y_pred = (y_pred_proba >= threshold).astype(int)
y_pred

**Clasificación multiclase determinista:**

Por otro lado definimos otro dataset con multiples clases:

In [None]:
y_true2 = ["cat", "ant", "cat", "cat", "ant", "bird"]

Mediante el uso de un clasificador obtuvimos las siguientes clases:

In [None]:
y_pred2 = ["ant", "ant", "cat", "cat", "ant", "cat"]

## Precision, Recall y F1

La precision es la proporción de positivos propuestos por el modelo que fueron correctos:

$$Precision = \frac{|Etiquetado(+) \cap Clasificado(+)|}{|Clasificado(+)|} = \frac{TP}{TP + FP}$$

La recall es la proporción de positivos correctos que fueron encontrados por el modelo:

$$Recall = \frac{|Etiquetado(+) \cap Clasificado(+)|}{|Etiquetado(+)|} = \frac{TP}{TP + FN}$$

$$F_1 = \frac{2 * Precision * Recall}{Precision + Recall}$$

Para clasificación multiclase, se puede calcular una métrica por clase. Luego, las métricas se pueden promediar para obtener resultados "macro".
Para obtener resultados "micro", se hacen primero cálculos globales para TP, FP, TN, FN y luego se calcula como un problema binario.

Podemos usar sklearn para calcularlas:

In [None]:
y_true, y_pred

In [None]:
threshold = 0.5
y_pred = (y_pred_proba >= threshold).astype(int)
y_pred

In [None]:
from sklearn.metrics import precision_score
precision_score(y_true, y_pred)  # precision = 4 / 6 (con th=0.5), = 2 / 2 (con th=0.8)

In [None]:
from sklearn.metrics import recall_score
recall_score(y_true, y_pred)  # recall = 4 / 5 (con th=0.5), = 2 / 5 (con th=0.8)

In [None]:
from sklearn.metrics import f1_score
f1_score(y_true, y_pred)

## Reporte de Clasificación

- [classification_report](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html)

En clasificación binaria:

In [None]:
y_true, y_pred

In [None]:
from sklearn.metrics import classification_report
classification_report??
print(classification_report(y_true, y_pred))

En clasificación multiclase:

In [None]:
y_true2, y_pred2

In [None]:
print(classification_report(y_true2, y_pred2))

## Matrices de Confusión

Usamos [confusion_matrix](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html):


In [None]:
from sklearn.metrics import confusion_matrix

Retomamos las etiquetas originales y las predicha por clasificador binario:

In [None]:
y_true, y_pred

Mediante la función  "confusion_matrix" podemos obtener las cantidades de TP, FP, TN y FN

In [None]:
confusion_matrix(y_true, y_pred)

In [None]:
tn, fp, fn, tp = confusion_matrix(y_true, y_pred).ravel()

En multiclase:

In [None]:
cm = confusion_matrix(y_true2, y_pred2, labels=['ant', 'bird', 'cat'])
cm

Podemos usar [plot_confusion_matrix](https://scikit-learn.org/stable/auto_examples/model_selection/plot_confusion_matrix.html) pero requiere el clasificador. Definimos nuestra propia versión:

In [None]:
from utils import plot_confusion_matrix

plot_confusion_matrix(cm, ['ant', 'bird', 'cat'])

## Curvas ROC

Usamos [roc_curve](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_curve.html) para obtener los puntos y graficamos:

In [None]:
from sklearn.metrics import roc_curve
fpr, tpr, threshold = roc_curve(y_true, y_pred_proba, drop_intermediate=True)

In [None]:
fpr, tpr, threshold

In [None]:
plt.plot(1.0 - fpr, tpr, color="red")
plt.scatter(1.0 - fpr, tpr, color="red")
#plt.xlabel("false positive rate")
plt.xlabel("true negative rate")
plt.ylabel("true positive rate")
plt.show()

In [None]:
tpr[3], fpr[3], threshold[3]

Calculamos el área bajo la curva con [roc_auc_score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_auc_score.html):

In [None]:
from sklearn.metrics import roc_auc_score

roc_auc_score(y_true, y_pred_proba)

## Curvas PR (Precision/Recall)

Usamos [precision_recall_curve](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_recall_curve.html) para obtener los puntos y graficamos:

In [None]:
from sklearn.metrics import precision_recall_curve
precision, recall, threshold = precision_recall_curve(y_true, y_pred_proba)

In [None]:
precision, recall, threshold

In [None]:
plt.xlim(0, 1)
plt.ylim(0, 1.1)
plt.plot(recall, precision, color="red")
plt.scatter(recall, precision, color="red")
plt.xlabel("recall")
plt.ylabel("precision")
plt.show()