# <font style="color:rgb(50,120,229)"> Métricas de Evaluación para Clasificación </font>

Durante el entrenamiento de un modelo, debemos de alguna manera estimar qué tan buena es su calidad. 

Al conocer qué tan bien está funcionando, podemos compararlo con otros modelos y definir la ruta de mejora o elegir la mejor opción para alguna solución. 

Para estos propósitos, se inventó un conjunto de métricas de evaluación.

## <font style="color:rgb(50,120,229)"> 1. Problema de Clasificación </font>

Para simplificar la discusión, primero examinamos el caso en el que nuestra clase tiene solo dos clases. 

Estamos analizando mamogramas y nuestro objetivo es identificar si este mamograma muestra cáncer de mama o no. Dado que estamos buscando cáncer de mama, los mamogramas con cáncer de mama pertenecen a la clase positiva.

<center>
<img src="./images/metric_example.png" width=800>
</center>

## <font style="color:rgb(50,120,229)"> 2. Matriz de Confusión </font>

La matriz de confusión es una tabla utilizada para describir la precisión de un modelo de clasificación. Las filas de la matriz representan las clases predichas y las columnas representan la verdad fundamental. 

En algunas matrices de confusión, las filas y las columnas están intercambiadas, así que asegúrate de leer las etiquetas cuando analices una matriz de confusión.


El nombre proviene del hecho de que facilita ver si el sistema está confundiendo entre dos clases o etiquetando erróneamente una clase como otra.

<center>
<img src="./images/confusion_matrix.png" width=800>
</center>

Verás que hay cuatro métricas: verdaderos positivos, verdaderos negativos, falsos positivos y falsos negativos. 

- **Verdaderos positivos:**. Son casos en los que el algoritmo acierta y la clase es positiva. En nuestro caso, esto significa que el mamograma muestra cáncer de mama y el algoritmo lo identificó correctamente.
- **Verdaderos negativos:** Son casos en los que el algoritmo acierta y la clase es negativa. Por lo tanto, el algoritmo identificó correctamente una clase negativa. En nuestro caso, esto significa que el mamograma no muestra cáncer de mama y el algoritmo dice que no hay cáncer de mama.
- **Falsos positivos:** Son casos en los que el algoritmo dice que se detectó cáncer de mama, pero en realidad no había cáncer de mama.
- **Falsos negativos:** Son casos en los que había cáncer de mama pero el algoritmo falsamente indicó que es negativo, lo que significa que no había cáncer de mama.



## <font style="color:rgb(50,120,229)"> 3. Accuracy </font>

Formalmente se define como la proporción de predicciones correctas respecto al total de predicciones.

$$ \text{Accuracy} = \frac{\text{Verdaderos Positivos + Verdaderos Negativos}}{\text{Verdaderos Positivos + Verdaderos Negativos + Falsos Positivos + Falsos Negativos}} $$


<font style="color:rgb(50,120,229)"> **Problema de la Precisión** </font>

La principal desventaja de la precisión como métrica es que no funciona muy bien con conjuntos de datos desequilibrados. 

Por ejemplo, en nuestro caso de mamografías, solo hay cinco casos positivos de cáncer de mama y 95 casos que no tienen cáncer de mama. 

Si nuestro método clasifica todas las muestras como negativas, lo que significa que predice que todas las muestras no tienen cáncer de mama, los valores en la matriz de confusión serán: verdaderos positivos cero, porque está diciendo que todos son negativos; falsos positivos también cero; verdaderos negativos 95; y falsos negativos 5.

Sin embargo, si observas el número de precisión, la precisión es del 95%, es decir, el 95% del tiempo está clasificando las cosas correctamente. Debido a que los datos están desequilibrados y el 95% del tiempo no hay cáncer de mama, **aunque este sea un modelo completamente inútil que no detecta el cáncer de mama, la precisión es del 95%**.

<center>
<img src="./images/acurracy.png" width=1000>
</center>

## <font style="color:rgb(50,120,229)"> 4. Precision </font>

Es la fracción de instancias relevantes entre todas las instancias recuperadas. Nos brinda información sobre el rendimiento de un clasificador con respecto a los falsos positivos.

$$ \text{Precision} = \frac{\text{Verdaderos Positivos}}{\text{Verdaderos Positivos} + \text{Falsos Positivos}} $$


En nuestro ejemplo, responde a la pregunta: si el resultado es positivo, ¿qué tan seguro podemos estar de que la mamografía contiene una imagen de cáncer de mama? 


<font style="color:rgb(50,120,229)"> **¿Cuándo usar la precisión negativa?** </font>

Si nuestro objetivo principal es minimizar los falsos positivos, entonces necesitamos que la precisión sea lo más cercana posible al 100%.


Esto ocurre frecuentemente en escenarios automotrices o de vigilancia, donde el sistema ayuda al usuario a identificar situaciones como un peatón en la carretera o un robo en el supermercado, y los desencadenantes resultan en alguna acción extrema. Entonces, queremos que los falsos positivos sean realmente pequeños o que la precisión sea muy, muy alta, porque hay un costo muy elevado que pagamos por un falso positivo.


## <font style="color:rgb(50,120,229)"> 5. Recall </font>

El "recall" es una fracción del total de verdaderos positivos que fueron recuperados. También se le llama tasa de verdaderos positivos.

$$ \text{Recall} = \frac{\text{Verdaderos Positivos}}{\text{Verdaderos Positivos} + \text{Falsos Negativos}} $$

En nuestro ejemplo, supongamos que había n casos de verdaderos positivos en nuestro conjunto de datos. El "recall" describe cuántos verdaderos positivos de los totales fue capaz de encontrar el modelo.


Por lo tanto, si simplemente clasificamos todo como positivo, tendremos un "recall" del 100%, ya que capturaremos todos los casos de las clases positivas. Obviamente, en este caso tendremos una precisión muy baja. Por lo tanto, "recall" y precisión se usan juntos.


<font style="color:rgb(50,120,229)"> **¿Cuándo usar el recall?** </font>

Si deseamos enfocarnos en minimizar los falsos negativos, querríamos que nuestro "recall" esté lo más cerca posible del 100%, sin que la precisión sea demasiado baja. 

Por ejemplo, en el diagnóstico médico, es crucial excluir tantos falsos negativos como sea posible. Si una prueba particular está diseñada para detectar una enfermedad y devuelve un resultado negativo para un paciente que realmente la tiene, eso puede tener graves consecuencias.


## <font style="color:rgb(50,120,229)"> 6. F1 Score </font>

Normalmente necesitamos estimar y evaluar tanto la precisión como el "recall". El puntaje F1 es una combinación de ambas métricas. Alcanza su mejor valor en uno, lo que significa precisión perfecta y "recall" perfecto.

En términos de aplicaciones, el puntaje F1 es preferible cuando tienes una clase positiva pequeña. 

Sin embargo, hay críticas al uso generalizado del puntaje F1, ya que otorga la misma importancia a la precisión y al "recall". En la práctica, diferentes tipos de clasificaciones erróneas incurren en diferentes costos dependiendo de la aplicación.


## <font style="color:rgb(50,120,229)"> 7. Curva de Recibidor de Operación Característica (ROC) </font>

Es un gráfico que muestra el rendimiento de un clasificador a medida que se varía su umbral de discriminación. 

<center>
<img src="./images/roc.png" width=500>
</center>

Los modelos de clasificación típicamente analizan los datos y producen algún valor de confianza de que es un objeto de alguna clase. Entonces, nuestro modelo observará los datos y predecirá, por ejemplo, con un 60% de confianza que hay cáncer de mama en la mamografía. 

Necesitamos establecer un umbral en este valor para poder establecer un valor de cero o uno para la salida final. Todo lo que esté por encima de él se considerará positivo y todo lo que esté por debajo del umbral se considerará negativo. 

Dependiendo del algoritmo y la tarea, podemos seleccionar diferentes valores de este umbral.


La curva ROC ayuda a seleccionar el umbral correcto para nuestro requisito en la tasa de verdaderos positivos y la tasa de falsos positivos.

$$ \text{Tasa de Verdaderos Positivos} = \frac{\text{Verdaderos Positivos}}{\text{Verdaderos Positivos} + \text{Falsos Negativos}} $$
$$ \text{Tasa de Falsos Positivos} = \frac{\text{Falsos Positivos}}{\text{Falsos Positivos} + \text{Verdaderos Negativos}} $$

<center>
<img src="./images/roc_example.png" width=500>
</center>

Reducir el umbral hace que el modelo clasifique más elementos como positivos, aumentando así el número de verdaderos positivos a expensas de más falsos positivos. De lo contrario, aumentar el umbral reducirá el número de falsos positivos, pero también habrá menos probabilidad de verdaderos positivos.

En un caso perfecto, existe un umbral que permite al modelo dividir las clases perfectamente. La tasa de verdaderos positivos será igual a uno mientras que la tasa de falsos positivos será cero. La curva ROC resultante será una línea recta pegada a la esquina superior izquierda del gráfico. 

Por lo tanto, en la práctica, queremos que la curva ROC esté lo más cerca posible de la esquina del gráfico.


### <font style="color:rgb(50,120,229)"> 7.1 Área bajo la curva ROC (AUC) </font>

Mide toda el área bidimensional bajo la curva ROC, en algún lugar del cuadrado de 0 0 a 1 1. 

Cuanto mejor sea el algoritmo de clasificación, mayor será el área bajo la curva ROC. 

La puntuación típicamente oscila entre 0.5 y 1, y la puntuación de 1 es el caso ideal donde la tasa de verdaderos positivos es 1 y la tasa de falsos positivos es cero, lo que significa que clasificamos correctamente todas las muestras positivas y negativas en el conjunto de datos.

<center>
<img src="./images/auc.png" width=600>
</center>

# <font style="color:rgb(50,120,229)"> Métricas de Evaluación para Clasificación Multiclase </font>

En este caso, no tenemos negativos, todas las instancias ahora tienen su propia clase, aunque la clasificación binaria puede ser una tarea útil en la vida real, la clasificación multiclase es mucho más común.


Echemos un vistazo a la competencia de clasificación multiclase más popular que hay, se llama ILSVRC, que significa desafío de reconocimiento visual a gran escala de ImageNet.

La competencia ImageNet es un desafío muy popular para la clasificación de imágenes con 1000 clases diferentes y más de 1.2 millones de imágenes de entrenamiento. Hay dos métricas de clasificación que utiliza el desafío.


## <font style="color:rgb(50,120,229)"> 1. Top-1 Accuracy </font>

Se verifica si la clase superior, es decir, aquella que tiene la probabilidad más alta, es la misma que la etiqueta verdadera. Esencialmente, es la métrica de precisión que definimos anteriormente.

## <font style="color:rgb(50,120,229)"> 2. Top-5 Accuracy </font>

Se verifica si la etiqueta objetivo está entre las cinco predicciones principales. 

Estas cinco predicciones principales son simplemente las cinco clases con las probabilidades más altas. Si eso es cierto, entonces la predicción se considera correcta. En ambos casos, el puntaje total es la proporción de las predicciones correctas divididas por todas las predicciones realizadas por el modelo.


## <font style="color:rgb(50,120,229)"> 3. Matriz de Confusión Multiclase </font>

En caso de que tengamos más de dos clases, aún podemos construir una matriz de confusión que tendrá celdas de n por n, donde n es el número de clases.

Veamos un ejemplo extendido donde tenemos cuatro clases: gatos, perros, manzanas y autos. Recuerda que las filas representan la salida predicha y las columnas representan la verdad fundamental.

<center>
<img src="./images/confusion_matrix_multi.png" width=500>
</center>

Veamos la columna de perros para ver qué tan bien nuestro modelo reconoce a los perros. 

Tenemos 200 ejemplos de perros en el conjunto de datos. En total, nuestro modelo clasifica correctamente un perro como perro en 168 casos, en 24 casos, sin embargo, equivocadamente dice que es un gato, en seis casos cree que es un auto y en dos casos cree que es una manzana.

## <font style="color:rgb(50,120,229)"> 4. Matriz de Confusión Normalizada </font>

Nuestro conjunto de datos no estaba normalizado. Tenemos 500 gatos, 200 perros, 150 manzanas y solo 50 autos, lo que es 10 veces menos que el número de gatos. 

Esto hace que los valores absolutos de predicciones correctas e incorrectas no sean muy convenientes de observar, por lo que la gente suele cambiar a la versión normalizada de esta tabla.

<center>
<img src="./images/confusion_matrix_multi_norm.png" width=500>
</center>

Podemos ver claramente los puntos fuertes y débiles del modelo en una matriz de confusión normalizada perfecta los elementos diagonales deberían ser 100 y todos los demás deberían ser cero. 

Analizar la desviación de eso proporciona una visión importante sobre la naturaleza de los errores en nuestro modelo. Por ejemplo, nuestro modelo a menudo confunde perros con gatos, y necesitamos pensar cómo solucionarlo.
