# Métricas modelos de regresión

Consideremos el espacio de las características $\mathbf{X} \in \mathbb{R}^{n\times m}$ y la variable de predicción $\mathbf{Y} \in \mathbb{R}^{n}$, un modelo de regresión consiste en encontar $f:\mathbb{R}^{n\times m} \to \mathbb{R}^{n}$ tal que: 

$$ f(\mathbf{X}) = \mathbf{Y}$$

Lo anterior constituye un problema en el que usualmente la función $f$ no es única, así que, se replantea el problema buscando $f$ de forma tal que se minimice una función de perdida, dicha función de perdida es el error cuadrático medio (MSE) definido como: 

$$ MSE = \displaystyle \frac{1}{2n}||\mathbf{Y} - \hat{\mathbf{Y}}||^2  = \displaystyle \frac{1}{2n} \sum\limits_{i=1}^{n} (y_i-\hat{y}_i)^2$$

donde: 
$$ \hat{\mathbf{Y}} \approx f(\mathbf{X}).$$

Entonces la pregunta es ¿Cuál es f? y ¿cómo la elegimos?, con respecto a $f$ se pueden proponer diversos modelos, por ejemplo: 

* Regresión lineal simple:
$$ \hat{\mathbf{Y}}  \approx f(\mathbf{X}) = \mathbf{A}\mathbf{w} $$
con $\mathbf{A} = [1 \ \mathbf{X}]$ y $\mathbf{w}= [b \ w_1 \ w_2 \  \cdots \ w_n]^T$.

* Redes neuronales:

![Red neuronal](RN.png)

Al menos con estas es simple entender que existen muchísimas formas de construír una función $f$, es decir, se pueden agregar capas, neuronas en cada capa, funciones de activación, etc

Ahora con respecto a la segunda pregunta elegiremos aquel modelo cuya métrica sea "la mejor", algunas métricas son: 

## 1- MSE: 

El mejor modelo será el que tenga el MSE más bajo en tu conjunto de validación o test. Un MSE más bajo indica que, en promedio, las predicciones del modelo están más cerca de los valores reales.

## 2- RMSE:

Se define como la raíz del MSE (RMSE = $\sqrt{MSE}$) y de igual forma elegimos aquel modelo con menor RMSE, la diferencia de este con el anterior es que se puede interpretar, es decir, tiene una relación directa con la variable de salida. 

## 3- MAE

Mide el error promedio sin penalizar errores grandes tanto como el MSE y se define como: 

$$ MAE = \displaystyle \frac{1}{n}\sum\limits_{i=1}^{n}|y_i - \hat{y}_i|$$

![Resumen](Res.PNG)


## 4- R^2

Mide qué tan bien tu modelo explica la variabilidad de los datos reales. Se define como:

$$
R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}
$$

El $R^2 \in (-\infty, 1]$:

- Si $R^2 \approx 1$ entonces la predicción es perfecta.
- Si $R^2 = 0$ El modelo no explica nada, equivale a predecir siempre la media.
- Si $R^2 < 0$ El modelo es peor que predecir la media.

Así elegimos aquel modelo cuyo $R^2\approx 1$.

$R^2$ dice qué tan bien tu modelo "explica" el comportamiento de los datos.
A diferencia de MSE, RMSE y MAE, que te dicen cuánto se equivoca tu modelo, $R^2$ te dice qué tan útil es ese modelo para entender la variabilidad del fenómeno.
