# Métricas de regresión

[Video](https://www.youtube.com/watch?v=_TE9fDgtOaE&list=PLO_fdPEVlfKqMDNmCFzQISI2H_nJcEDJq&index=23)

En este notebook vamos a ver la diferencia entre:
- Error cuadrático medio(MSE)
- Error absoluto medio (MAE)
- Coeficiente de autodeterminación ($R^{2}$)

Las métricas se obtienen al analizar la recta de regresión de un conjunto de datos.
Si proyectamos parelelamente al eje vertical los puntos de nuestros datos sobre la recta de regresión obtendremos la predicción, y el espacio entre el punto y la predicción será el error. 

$error = y_{real} - y_{pred}$ 

Este error puede ser positivo, si el valor real se encuentra sobre la recta, o negativo, si el punto está bajo la recta. Ahora bien, no resulta práctico trabajar con errores positivos y negativos por lo que podemos tomar dos caminos para eliminar aquellos que sean negativos: 

1. Tomar el valor absoluto del error.  $error = |y_{real} - y_{pred}|$
2. Calcular el cuadrado del error.  $error = (y_{real} - y_{pred})^{2}$

A partir de aquí lo que deberíamos hacer es realizar la media de todos los errores. Dependiendo del camino que hayamos tomado tendremos:

1. Error absoluto medio. Mean Absolute Error(MAE).
- $\frac{1}{m}·\sum |y_{real} - y_{pred}|$

2. Error cuadrático medio. Mean Squeared Error(MSE)
- $\frac{1}{m}·\sum (y_{real} - y_{pred})^{2}$

Para realizar estos cálculos tenemos que cargar el módulo de sklearn `metrics`.

[Leer más sobre el módulo Metrics](https://scikit-learn.org/stable/modules/classes.html#sklearn-metrics-metrics)

In [2]:
# importamos todos los módulos
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import *

Imaginemos por un momento y un punto y su predicción, resultado de la proyección sobre la recta de regresión.

In [6]:
# creamos dos puntos
y = np.array([1])
y_pred = np.array([2])

print(y, y_pred)

[1] [2]


Podemos calcular entonces los errores mencionados antes en base a los puntos que hemos creado.

In [7]:
print('MAE: ', mean_absolute_error(y, y_pred))
print('MSE: ', mean_squared_error(y, y_pred))

MAE:  1.0
MSE:  1.0


Si cambiamos el valor de la predicción podemos ver como varían los errores

In [10]:
for i in range(5):
    y = np.array([1])
    y_pred = np.array([i])
    print('Para i=',i)
    print('MAE: ', mean_absolute_error(y, y_pred))
    print('MSE: ', mean_squared_error(y, y_pred), '\n')

Para i= 0
MAE:  1.0
MSE:  1.0 

Para i= 1
MAE:  0.0
MSE:  0.0 

Para i= 2
MAE:  1.0
MSE:  1.0 

Para i= 3
MAE:  2.0
MSE:  4.0 

Para i= 4
MAE:  3.0
MSE:  9.0 



A la vista de los resultados podemos pensar que el error cuadrático es el cuadrado del error absoluto, lo cual es falso. 

- $\sum(errores)^2 \neq (\sum errores)^2$
- $MSE \neq (MAE)^2$

Esto se debe a que hemos realizado el ejemplo de forma malintencionada. Si añadimos datos a nuestros datos de partida veremos que todo cambia.

In [11]:
y = np.array([1, 2])
y_pred = np.array([5,2])

print('MAE: ', mean_absolute_error(y, y_pred))
print('MSE: ', mean_squared_error(y, y_pred))

MAE:  2.0
MSE:  8.0


El error cuadrático medio (MSE) está sobreescalado por efecto del exponente al cuadrado. Por lo tanto, será necesario aplicar la raiz cuadrada para reducirlo a la misma escala en la que está expresado el error absoluto medio.

In [12]:
print('MAE: ', mean_absolute_error(y, y_pred))
print('MSE: ', mean_squared_error(y, y_pred))
print('R2: ', np.sqrt(mean_squared_error(y, y_pred)))

MAE:  2.0
MSE:  8.0
R2:  2.8284271247461903


## ¿Qué error elegir entonces?

Dependerá de varias cosas. 