<h1 style="color:purple"> Métricas para Regresión </h1>

<h3 style="color:purple">Error absoluto máximo (M)</h3>

$y$ : valor verdadero

$\hat{y}$ : valor predicho

$$\text{M}(y, \hat{y}) = max(\left| y_i - \hat{y}_i \right|)$$

Este error se usa mucho para estimar la sensibilidad máxima de nuestro modelo, por ejemplo no es muy bueno para un banco que el modelo falle con un cliente por un orden de magnitud muy elevado y le presten una cantidad de dinero dado que el modelo dice que es apto, pero que probablemente no vaya a pagar pues el modelo está admitiendo márgenes de error muy grandes


In [None]:
from sklearn.metrics import max_error

y_verdadero = [1, 2, 3, 4, 5]
y_predicho = [1, 2, 3, 4, -5]
max_error(y_verdadero, y_predicho)

10

<h3 style="color:purple">Error absoluto medio (mean absolute error - MAE)</h3>

$y$ : valor verdadero

$\hat{y}$ : valor predicho

$n$ : tamaño de la muestra

$$\text{MAE}(y, \hat{y}) = \frac{1}{n} \sum_{i=1}^{n} \left| y_i - \hat{y}_i \right|$$

Este error se usa para medir la suma de los errores individuales, es interpretable en las mismas unidades de la variable




In [None]:
from sklearn.metrics import mean_absolute_error

y_verdadero = [1, 2, 3, 4, 5]
y_predicho = [1, 2, 3, 4, -5]
mean_absolute_error(y_verdadero, y_predicho)

2.0

<h3 style="color:purple">Error cuadrático medio (mean squared error - MSE)</h3>
$y$ : valor verdadero

$\hat{y}$ : valor predicho

$n$ : tamaño de la muestra

$$\text{MSE}(y, \hat{y}) = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$$

Esta forma de propagar los errores en el modelo le da mayor peso a los errores grandes, las unidades del error quedan cuadráticas

In [None]:
from sklearn.metrics import mean_squared_error

y_verdadero = [1, 2, 3, 4, 5]
y_predicho = [1, 2, 3, 4, -5]
mean_squared_error(y_verdadero, y_predicho)

20.0

<h3 style="color:purple">Suma de los cuadrados de los residuos (RSS)</h3>

$y$ : valor verdadero

$\hat{y}$ : valor predicho

$n$ : tamaño de la muestra

$$\text{RSS}(y, \hat{y}) = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$$

Este error no toma la media dividiendo por el total de datos, solo propaga los errores sumandolos

In [None]:
from sklearn.metrics import mean_squared_error

y_verdadero = [1, 2, 3, 4, 5]
y_predicho = [1, 2, 3, 4, -5]
mean_squared_error(y_verdadero, y_predicho)*len(y_predicho)

100.0

<h3 style="color:purple">Raíz cuadrada del error cuadrático medio (RMSE)</h3>

$y$ : valor verdadero

$\hat{y}$ : valor predicho

$n$ : tamaño de la muestra

$$\text{RMSE}(y, \hat{y}) = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2}$$

Esta métrica soluciona en el caso del error cuadrático medio la interpretación de las unidades que quedaban cuadráticas y ahora las unidades serán las mismas que las de la variable.

In [None]:
from sklearn.metrics import mean_squared_error

y_verdadero = [1, 2, 3, 4, 5]
y_predicho = [1, 2, 3, 4, -5]
mean_squared_error(y_verdadero, y_predicho, squared=False)

4.47213595499958

<h3 style="color:purple">R^2 (Coeficiente de determinación)</h3>

$y$ : valor verdadero

$\hat{y}$ : valor predicho

$\bar{y}$ : promedio de los valores verdaderos

$n$ : tamaño de la muestra

$$R^2(y, \hat{y}) = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}$$

Esta es una métrica que está entre 0 y 1 donde 0 indica que no es bueno el modelo y 1 que sí hay una correlación grande

In [1]:
from sklearn.metrics import r2_score

y_verdadero = [1, 2, 3, 4, 5]
y_predicho = [1, 2, 3, 4, 2]
r2_score(y_verdadero, y_predicho)

0.09999999999999998

Spiess, Andrej-Nikolai, and Natalie Neumeyer. "An evaluation of R2 as an inadequate measure for nonlinear models in pharmacological and biochemical research: a Monte Carlo approach." BMC pharmacology 10.1 (2010): 1-11.

# Coeficiente de correlación de Pearson

Este coeficiente se encuentra entre -1 y 1, donde -1 indica una correlación de una recta de pendiente negativa y 1 una recta de pendiente positiva. 0 es un indicador de que no hay buena correlación

In [2]:
import numpy as np

# Datos de ejemplo
x = [1, 2, 3, 4, 5]
y = [2, 3, 5, 4, 6]

# Calcular el coeficiente de Pearson
correlation_coefficient = np.corrcoef(x, y)[0, 1]

# Imprimir el coeficiente de Pearson
print(f"Coeficiente de Pearson (r): {correlation_coefficient:.2f}")


Coeficiente de Pearson (r): 0.90


**Nota:** Las dos últimas métricas, es decir `R2` y `Pearson` son solo aplicables a modelos lineales, las demás sí son aplicames a modelos de regresión no lineales