# Métricas

Como parte de todas las herramientas que nos ofrece scikit-learn, también nos ofrece una forma de medir qué tan buenas son las predicciones hechas por los modelos.

Las métricas juegan un papel crucial en la evaluación y selección de modelos de aprendizaje automático. Estas métricas nos permiten cuantificar el rendimiento de nuestros modelos en términos de precisión, robustez y generalización. Y a la vez, también nos permiten comunicar el desempeño de los modelos con otras personas, ajenas a nuestro equipo de machine learning.

scikit-learn ofrece más de 30 métricas, son muchas para cubrirlas en un solo video, pero los conceptos y código que verás en esta lección se pueden aplicar a todas ellas puesto que siguen una interfaz muy similar.

## Métricas de clasificación

Primero, vamos a crear un pequeño dataset que usaremos para probar las métricas de clasificación:

In [None]:
import numpy as np

y_pred = np.array(
    [0, 1, 1, 0, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0]
)

y_true = np.array(
    [1, 1, 0, 0, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0]
)

### Accuracy

La exactitud (accuracy) es una medida que representa la proporción de predicciones correctas sobre el total de predicciones realizadas. Es una métrica fácil de entender, pero puede ser engañosa en situaciones donde los datos están desbalanceados.

La fórmula es la siguiente:



Lo cual quiere decir que va a contar el número de coincidencias entre unos y ceros y dividirlos entre la cantidad total.

Para usarla en scikit-learn hay que importarla de <code>sklearn.metrics</code>:

In [None]:
from sklearn.metrics import accuracy_score

accuracy_score(y_true, y_pred)

Entre más cercano esté el resultado a uno es mejor. Aunque recuerda que en ciertos problemas la exactitud no es la mejor métrica para calificar el desempeño de tu modelo.

### Precisión

La precisión, también conocida como valor predictivo positivo, se utiliza para medir la capacidad del modelo en predecir los casos positivos. Formalmente, se define como el número de verdaderos positivos dividido por la suma de verdaderos positivos y falsos positivos. Aquí un valor cercano a 1 es el ideal.



In [None]:
from sklearn.metrics import precision_score

precision_score(y_true, y_pred)

La métrica de precisión es especialmente útil en situaciones en las que el costo de un falso positivo es alto. Es decir, cuando es más importante evitar los falsos positivos que los falsos negativos. Por ejemplo, piensa en un sistema que se encarga de detectar mensajes de spam, ahí la precisión es la medida más adecuada importante puesto que es importante minimizar el número de falsos positivos, en este caso correos legítimos identificadas como correo basura. Puesto que de no hacerlo podríamos causar que nuestros usuarios pierdan información importante.

### Recall

La métrica de <i>recall</i>, también conocida como sensibilidad o tasa de verdaderos positivos, se utiliza para medir la capacidad del modelo para identificar todos los casos positivos. Formalmente, se define como el número de verdaderos positivos dividido por la suma de verdaderos positivos y falsos negativos. Aquí un valor cercano a 1 es el ideal.



In [None]:
from sklearn.metrics import recall_score

recall_score(y_true, y_pred)

A diferencia de la precisión, la métrica de recall es especialmente útil en situaciones en las que el costo de un falso negativo es alto. Es decir, cuando es más importante evitar los falsos negativos que los falsos positivos. Piensa en la detección temprana del cáncer, es importante minimizar el número de falsos negativos, pacientes con cáncer que no son identificados, ya que esto puede retrasar el tratamiento y poner en riesgo la vida de la persona. En este caso, el recall es más importante que la precisión.

### F1 score

La F1 score, también conocida como puntaje F1, es una métrica comúnmente utilizada para evaluar la calidad de un modelo de clasificación. Es una medida única que combina las medidas de precisión y recall en una número único.

El F1 score es la media armónica de la precisión y el recall, sus valores oscilan entre 0 y 1, siendo 1 el mejor resultado posible.

La fórmula que la representa es la siguiente:



In [None]:
from sklearn.metrics import f1_score

f1_score(y_true, y_pred)

Al ser F1 una combinación entre las dos métricas puede usarse en varios escenarios para medir el desempeño general del modelo. Ideal para cuando se debe encontrar un balance entre ser preciso y recuperar todos los casos posibles. A final de cuentas, la métrica a elegir depende totalmente del problema que estás tratando de resolver.

## Métricas de regresión

Primero, vamos a crear un dataset que podamos usar para demostrar las funciones para calcular las métricas:

In [None]:
y_true = np.array([3.4, 5.1, 7.9, 9.2, 11.5, 12.4, 14.3, 17.3])
y_pred = np.array([3.5, 5.4, 7.2, 9.1, 11.0, 12.9, 14.8, 16.7])

### Error medio absoluto

1. Error medio absoluto o mean absolute error, mide la magnitud promedio de los errores en las predicciones. Se calcula como la media de las diferencias absolutas entre las predicciones y los valores reales.



Donde $y_i$  es el valor real de la variable objetivo para la $i$-ésima observación, $\hat{y_i}$ es la predicción del modelo para la $i$-ésima observación, y $n$ es el número total de observaciones. En este caso, el mejor valor es el que esté cercano a 0.

In [None]:
from sklearn.metrics import mean_absolute_error

mean_absolute_error(y_true, y_pred)

Esta es una métrica a considerar cuando se quiere conocer y minimizar la magnitud de el error en las predicciones del modelo. Esta es una métrica fácil de interpretar, puesto que nos permite decir con confianza de qué tamaño es el error, y trata a todos los errores por igual, existe una relación lineal entre el tamaño del error, y el valor de MAE. Usando esta métrica podemos comunicar que nuestro modelo “tiene un error de 10 dólares en promedio” si estás hablando de un modelo que predice precios.

### Error cuadrático medio

El error cuadrático medio, o mean squared error, mide el promedio de los errores al cuadrado en las predicciones. Se calcula como la media de las diferencias al cuadrado entre las predicciones y los valores reales.



Donde $y_i$ es el valor real de la variable objetivo para la $i$-ésima observación, $\hat{y_i}$ es la predicción del modelo para la $i$-ésima observación, y $n$ es el número total de observaciones. Nuevamente, el valor ideal es uno cercano a cero.

In [None]:
from sklearn.metrics import mean_squared_error

mean_squared_error(y_true, y_pred)

Esta métrica no es tan sencilla de interpretar, puesto que no existe una relación lineal entre error en las predicciones y el valor de la métrica. Esta relación es rota al elevar al cuadrado el error. El elevar al cuadrado también tiene el efecto de magnificar los errores grandes. Es decir, cuanto mayor sea la diferencia entre los valores predichos y esperados, mayor será el error cuadrático resultante.  No es una métrica que puedas comunicar tan fácilmente, y es comúnmente empleada de forma interna.

### Raíz del error cuadrático medio

La raíz del error cuadrático medio o root mean squared error, RMSE: mide el error cuadrático medio, pero toma la raíz cuadrada para expresar el error en las mismas unidades que la variable objetivo.



In [None]:
from sklearn.metrics import mean_squared_error

mse = mean_squared_error(y_true, y_pred)
np.sqrt(mse)

Esta métrica se utiliza para hacer in poco más interpetable y comunicable el error cuadrático medio, puesto que sacar la raíz cuadrada tiene el efecto de convertir nuestro valor de vuelta a las unidades del problema, nos permite hablar del error en un lenguaje que personas no técnicas entiendan.

### R-cuadrado

La métrica R-cuadrado o R-squared mide la proporción de la varianza en la variable objetivo que puede ser explicada por el modelo. R-squared varía entre 0 y 1, siendo 1 el mejor resultado posible.



In [None]:
from sklearn.metrics import r2_score

r2_score(y_true, y_pred)

El objetivo principal de R2 es el de evaluar la capacidad del modelo para explicar la variabilidad en los datos de entrada, esta es también una métrica que es más bien usada para elegir entre dos o más modelos, y no es una que sea fácil de compartir con otras personas que no tengan conocimiento previo de ciencia de datos.

## Métricas de agrupamiento

Primero, vamos a generar un pequeño dataset para demostrar las métricas, en este caso lo mejor es visualizarlo. Recuerda que la visualización no siempre será posible, puesto que tus datos pueden llegar a tener más de 3 dimensiones.

In [None]:
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
import numpy as np

np.random.seed(42)

# Generar datos aleatorios y predicciones con KMeans
X, y_true = make_blobs(n_samples=1000, centers=4, cluster_std=1, random_state=42)

In [None]:
y_pred_6 = KMeans(n_clusters=6, random_state=42, n_init='auto').fit_predict(X)
y_pred_5 = KMeans(n_clusters=5, random_state=42, n_init='auto').fit_predict(X)
y_pred_4 = KMeans(n_clusters=4, random_state=42, n_init='auto').fit_predict(X)
y_pred_3 = KMeans(n_clusters=3, random_state=42, n_init='auto').fit_predict(X)
y_wrong = np.random.randint(4, size=1000)

predichos = [y_pred_3, y_pred_4, y_pred_5, y_pred_6]

# Crear los subplots lado a lado
fig, axs = plt.subplots(1, 2 + len(predichos), figsize=(25, 5))

axs[0].scatter(X[:, 0], X[:, 1], c='k', alpha=0.5)
axs[0].set_title('Datos originales')

for idx, y_preds in enumerate(predichos, 1):
    axs[idx].scatter(X[:, 0], X[:, 1], c=y_preds)
    axs[idx].set_title(f'{idx+2} clusters encontrados')
axs[-1].scatter(X[:, 0], X[:, 1], c=y_wrong)
axs[-1].set_title('Mal clusttering')

### Shilouette score

Esta mide qué tan bien se agrupan los datos y qué tan separados están los grupos. Esta métrica toma valores entre -1 y 1, donde 1 indica una agrupación perfecta, 0 indica que los grupos se superponen y -1 indica que los puntos están asignados al grupo equivocado. Obviamente, el resultado que estamos esperando es 1:

In [None]:
from sklearn.metrics import silhouette_score


c3 = silhouette_score(X, y_pred_3)
c4 = silhouette_score(X, y_pred_4)
c5 = silhouette_score(X, y_pred_5)
c6 = silhouette_score(X, y_pred_6)
wrong = silhouette_score(X, y_wrong)

print(f'Silhouette Score for 3: {c3:0.2f}, 4: {c4:0.2f}, 5: {c5:0.2f}, 6: {c6:0.2f} and random: {wrong:0.2f}.')

### Calinski-Harabasz Index:

Este mide la separación entre los grupos y la dispersión dentro de los grupos. Cuanto mayor sea el valor de esta métrica, mejor será la agrupación.

In [None]:
from sklearn.metrics import calinski_harabasz_score


c3 = calinski_harabasz_score(X, y_pred_3)
c4 = calinski_harabasz_score(X, y_pred_4)
c5 = calinski_harabasz_score(X, y_pred_5)
c6 = calinski_harabasz_score(X, y_pred_6)
wrong = calinski_harabasz_score(X, y_wrong)

print(f'Índice Calinski-Harabasz para 3: {c3:0.2f}, 4: {c4:0.2f}, 5: {c5:0.2f}, 6: {c6:0.2f} and random: {wrong:0.2f}.')

### Davies-Bouldin Index

Este mide la "compacidad" de cada cluster y la separación entre los clusters. Cuanto menor sea el valor de esta métrica, mejor será la agrupación.

In [None]:
from sklearn.metrics import davies_bouldin_score


c3 = davies_bouldin_score(X, y_pred_3)
c4 = davies_bouldin_score(X, y_pred_4)
c5 = davies_bouldin_score(X, y_pred_5)
c6 = davies_bouldin_score(X, y_pred_6)
wrong = davies_bouldin_score(X, y_wrong)

print(f'Índice Davies-Bouldin para 3: {c3:0.2f}, 4: {c4:0.2f}, 5: {c5:0.2f}, 6: {c6:0.2f} and random: {wrong:0.2f}.')

## Conclusión

Y pues ahí lo tienen, estas fueron algunas de las métricas que nos ofrece scikit-learn, si te das cuenta, las funciones para calcular las métricas del aprendizaje supervisado siguen un patrón de: valores verdaderos como primer argumento y valores predecidos después. Igualmente las funciones para el aprendizaje no-supervisado, en donde tienes que pasarle las variables de entrada así como los clústers asignados.

Igualmente es importante destacar que cada métrica tiene su propio propósito y que no existe una métrica universalmente mejor para evaluar un modelo, ya que depende del problema en cuestión y de las necesidades del usuario.