Métricas básicas de evaluación para modelos de regresión --- 8:21 min
===

* 8:21 min | Ultima modificación: Septiembre 30, 2021 | [YouTube](https://youtu.be/vv8a1E_DrRw)

In [1]:
y_true = [3, 0.5, 2, 7]
y_pred = [2.5, 1.1, 2, 8]

Varianza explicada
---

Representa el porcentaje de la varianza de la variable de salida que es explicado por el modelo.

$$
\text{explained_variance}(y, \hat{y}) = 1 - 
\frac{Var\{y - \hat{y}\}}{Var\{y\}}
= 1 - 
\frac{Var\{\hat{e}\}}{Var\{y\}}
$$

In [2]:
from sklearn.metrics import explained_variance_score

explained_variance_score(y_true, y_pred)

0.9436118598382749

Error máximo
---

$$
\text{max_error}(y, \hat{y}) = \max(|y_i - \hat{y}_i|) = \max(|\hat{e}|)
$$

In [3]:
from sklearn.metrics import max_error

max_error(y_true, y_pred)

1.0

Error medio absoluto
---

Esta métrica no es sensitiva hacia los outliers. Una desventaja de su uso como métrica en optimización es que el gradiente depende del signo del error y no de su magnitud.

$$
\text{MAE}(y, \hat{y}) = 
\frac{1}{n_{\text{samples}}}
\sum_{i=0}^{n_{\text{samples}} - 1} |y_i - \hat{y}_i| =
\frac{1}{n_{\text{samples}}}
\sum_{i=0}^{n_{\text{samples}} - 1} |\hat{e}_i| 
$$

In [4]:
from sklearn.metrics import mean_absolute_error

mean_absolute_error(y_true, y_pred)

0.525

Error cuadrático medio
---

$$
\text{MSE}(y, \hat{y}) = 
\frac{1}{n_{\text{samples}}}
\sum_{i=0}^{n_{\text{samples}} - 1} (y_i - \hat{y}_i)^2 =
\frac{1}{n_{\text{samples}}}
\sum_{i=0}^{n_{\text{samples}} - 1} \hat{e}_i^2
$$

In [5]:
from sklearn.metrics import mean_squared_error

mean_squared_error(y_true, y_pred)

0.4025

Error logarítmico cuadrático medio
---

Esta métrica se usa para variables que tienen un comportamiento exponencial como poblaciones. La métrica penaliza más los estimados por debajo que por encima del valor real. Se puede interpretar como el radio entre los valores verdaderos y los valores pronósticados. Se usa esta métrica cuando se desea que los errores grandes sean más penalizados que los errores pequeños.

$$
\text{MSLE}(y, \hat{y}) = 
\frac{1}{n_{\text{samples}}}
\sum_{i=0}^{n_{\text{samples}} - 1} 
(
    \log_e(1 +y_i) - \log_e(1 + \hat{y}_i)
)^2
$$

In [6]:
from sklearn.metrics import mean_squared_log_error

mean_squared_log_error(y_true, y_pred)

0.03622926058038972

Error porcentual absoluto medio
---

Esta métrica es sensible a errores relativos.

$$
\text{MAPE}(y, \hat{y}) = 
\frac{1}{n_{\text{samples}}}
\sum_{i=0}^{n_{\text{samples}} - 1} 
\frac
{|y_i - \hat{y}_i|}
{\max(\epsilon, |y_i|)} =
\frac{1}{n_{\text{samples}}}
\sum_{i=0}^{n_{\text{samples}} - 1} 
\frac
{|\hat{e}_i|}
{\max(\epsilon, |y_i|)}
$$

In [7]:
# Nuevo en la versión 0.24
# from sklearn.metrics import mean_absolute_percentage_error


# mean_absolute_percentage_error(y_true, y_pred)

Mediana del error absoluto
---

$$
\text{MedAE}(y_i, \hat{y}_i) =
\text{median}(|y_1 - \hat{y}_1|, \dots, |y_n - \hat{y}_n| = 
\text{median}(|\hat{e}_1|, \dots, |\hat{e}_n| = 
$$

In [8]:
from sklearn.metrics import median_absolute_error

median_absolute_error(y_true, y_pred)

0.55

R2
--

Esta métrica es el coeficiente de determinación y representa la proporción de la varianza de $y$ que es explicada por las variables independientes del modelo. Esta métrica es dependiente de los datos y no puede ser utilizada para compara modelos usados sobre diferentes datasets.


$$
R^2(y_i, \hat{y}_i) 
= 1 - \frac{\sum (y_i - \hat{y}_i)^2}
{\sum (y_i - \bar{y})^2}
$$


In [9]:
from sklearn.metrics import r2_score

r2_score(y_true, y_pred)

0.930566037735849