<center>
<img src="https://upload.wikimedia.org/wikipedia/commons/4/47/Acronimo_y_nombre_uc3m.png"/>

<img src="https://mirrors.creativecommons.org/presskit/buttons/88x31/png/by-nc-sa.png" width=15%/>
</center> 

# Métricas para regresión

En este notebook, aprenderemos varias métricas para evaluar modelos de regresión y cómo calcularlos usando la biblioteca sklearn.

Como bien sabes, la **regresión** es un tipo de aprendizaje automático que ayuda a encontrar la relación entre la variable independiente y la dependiente. La regresión se puede definir como un problema de aprendizaje automático en el que tenemos que **predecir valores discretos** como precio, calificación, tarifas, etc.


## Mean Absolute Error(MAE)
MAE es una métrica muy simple que calcula la diferencia absoluta entre los valores reales y predecidos.
Para calcular MAE, debe sumar todos los errores y dividirlos por el número total de observaciones.

$MAE = \frac{1}{n}\sum_{i}(|y_{i}-y_{pred_{i}}|)$


<!--<img src='https://miro.medium.com/max/723/1*9BhnZiaHkApC-gQt3rYpMQ.png' width=50%>-->



Vamos calcularlo para ello emplearemos dos listas con número reales que creamos de forma aleatoria

In [1]:
import numpy as np 
y_test = []
y_pred = []

for i in range(5):
    y_test.append(np.random.random(1)[0])
    y_pred.append(np.random.random(1)[0])

y_test, y_pred

([0.6463883443925151,
  0.17679405296035167,
  0.04561151360498161,
  0.5298830184914657,
  0.5899444707947457],
 [0.14601623580855794,
  0.4656718663415963,
  0.8931756423014963,
  0.7600174111848965,
  0.11892498999408507])

Calculamos el valor  MAE:

In [2]:

total = 0
for (actual,predicted) in zip(y_test, y_pred):
    # print(actual,predicted)
    total += abs(actual-predicted)

MAE = total / len(y_pred)

print('Mean Absolute Error (MAE) is: ', MAE)

Mean Absolute Error (MAE) is:  0.46759358483116154


Es muy fácil obtenerlo. Además, sklearn ya proporciona un método: 

In [3]:
from sklearn.metrics import mean_absolute_error
errors = mean_absolute_error(y_test, y_pred)
# report error
print(errors)

0.46759358483116154


El objetivo de cualquier modelo sería obtener el menor valor posible de MAE (error). 



## Mean Squared Error(MSE)

Representa la distancia al cuadrado entre los valores reales y las prediciones. Usar el cuadrado evita cancelación de términos negativos.

Es una de las utilizada porque su sencillez.

$MSE = \frac{1}{n}\sum_{i}(y_{i}-y_{pred_{i}})^{2}$

<!-- <img src='https://lh3.googleusercontent.com/-JBio3Q_1FiI/YB2oQKEmRBI/AAAAAAAAAkM/c8KJ3wPwtMEd3Ik0nYMMdmr_pRqMF6MlQCLcBGAsYHQ/w550-h177/image.png'> -->


In [4]:
sum_total = 0
for (actual,predicted) in zip(y_test, y_pred):
    sum_total += (actual-predicted)**2

MSE = sum_total / len(y_pred)

print('Mean Squared Error (MSE): ', MSE)

Mean Squared Error (MSE):  0.26540175607197297


Sklearn también ofrece una función para calcularlo:

In [5]:
from sklearn.metrics import mean_squared_error
errors = mean_squared_error(y_test, y_pred)
print('mse:', errors)

mse: 0.26540175607197297


## Root Mean Squared Error(RMSE)
Es la raíz cuadrada de MSE.

$RMSE = \sqrt\frac{\sum_{i}(y_{pred_{i}}-y_{i})^{2}}{n}$



<!--<img src='https://miro.medium.com/max/966/1*lqDsPkfXPGen32Uem1PTNg.png'>-->


https://abdatum.com/ciencia/rmse


In [6]:
import numpy as np

RMSE = np.sqrt(MSE) # MSE ** 0.5
print('Root Mean Squared Error (RMSE): ', RMSE)
print("RMSE", np.sqrt(mean_squared_error(y_test,y_pred)))


Root Mean Squared Error (RMSE):  0.5151715792548857
RMSE 0.5151715792548857


## Root Mean Squared Log Error(RMSLE)

Si calculamos el log de RMSE disminuye la escala del error. La métrica es muy útil cuando la salida puede tomar valores en un rango muy amplio. Gracias a la función log, logramos que los errores estén normalizados. 
Para calcularlo simplemente tenemos que aplicar la función **log** de numpy sobre RMSE:


In [7]:
print("RMSLE", np.log(np.sqrt(mean_squared_error(y_test,y_pred))))


RMSLE -0.6632552702033502


## R Squared (R2)
Las métricas anteriores eran métricas que calculaban el error, sin embargo, 
R2 nos dice cómo de bien funciona nuestro modelo. 

$R^{2} = 1 - \frac{SS_{RES}}{SS_{RES}} = 1 - \frac{\sum_{i}(y_{i}-y_{pred_{i}})^{2}}{\sum_{i}(y_{i}-y_{avg})^{2}}$
<img src='https://miro.medium.com/max/1200/1*_mVvAFVEGinHlijmmeWwzg.png'>

where:
- $y_{i}$ es el valor real en el conjunto test.
- $y_{pred}_{i}$ es el valor inferido para el ejemplo i.
- $y_{avg}$ es la mediana de todos los valores de y. 

<!--<img src='https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcRYlppEmuer0Gf0XNuca0ENDiZwrPtdWK16ZDDiZ_6o2vxR4viREzIP6gGcrMlzxARZLQY&usqp=CAU'>-->

Se marca un umbral en 0.5, la media. R2 mide si la regresión es mejor que ese umbral. R2  también se conoce como **Coeficiente de determinación** o, a veces, también como Bondad de ajuste.

Sklearn proporciona una función para calcularla directamente:

In [8]:
from sklearn.metrics import r2_score
r2 = r2_score(y_test,y_pred)
print(r2)

-3.591060000272134


**¿Cómo interpretas la puntuación R2?**

Si R2 es 0, ambas líneas, regresión y media tiene un valor de 1 (1-1=0). Es decir, se superponen, lo que significa que el rendimiento del modelo es peor, no es capaz de aprovechar la salida.

Si R2 es 1, significa que el dividendo $$ es 0. Es decir, que la regresión no comete ningún error, lo que no es posible en el mundo real. Es decir, cuánto más próximo el valor de R2 sea a 1, mejor será el rendimiento del modelo.

Los valores habituaes son entre 0 y 1. Por ejemplo, si el valor es 0.8, significa que su modelo es capaz de explicar el 80% de los datos. 


##  Pearson's R

Esta métrica puede ser calculada usando scipy o sklearn. 

El coeficiente de correlación de Pearson mide la relación lineal entre dos conjuntos de datos. Al igual que otros coeficientes de correlación, éste varía entre -1 y +1, donde 0 implica que no hay correlación. Las correlaciones de -1 o +1 implican una relación lineal exacta. Las correlaciones positivas implican que a medida que x aumenta, también lo hace y. Las correlaciones negativas implican que a medida que x aumenta, y disminuye.



In [9]:
from scipy import stats
res = stats.pearsonr(y_test, y_pred)
res

PearsonRResult(statistic=-0.684101307661378, pvalue=0.20273211283887804)