# Métodos predictivos: tarea de asignación (semana 1)
Ya conoces el método de los mínimos cuadrados y cómo se puede utilizar para ajustar un modelo lineal con las librerías *statsmodels* y *scikit-learn*. El objetivo de esta tarea es complementar el estudio de este método de regresión abordando la evaluación del modelo de regresión obtenido.

## Descripción de la tarea
La tarea consta de tres apartados:
1.   Evaluación del método de los mínimos cuadrados en *statsmodel*: Estudia la API para obtener más información sobre la calidad de la estimación de los coeficientes (errores estándar, p-values, intervalos de confianza, etc.)
2. Cálculo de medidas de error en *Python*: Codifica funciones que permitan calcular las medidas MAE, MSE y RMSE.
3. Evaluación del método de los mínimos cuadrados en *scikit-learn*: Consulta las medidas de evaluación disponibles en el paquete [sklearn.metrics](https://scikit-learn.org/stable/modules/model_evaluation.html#regression-metrics) y comprueba que los resultados obtenidos en el apartado anterior coinciden.

## Instrucciones
A lo largo del *notebook* encontrarás varios apartados con el comentario **COMPLETAR**. Añade el código necesario para realizar lo que se pide en dicho apartado. Es recomendable utilizar la función *print* para visualizar el resultado cuando se calculen las medidas de evaluación. En algunos apartados también deberás incluir una descripción textual explicando lo observado en los resultados.


## 1. Evaluación del método de los mínimos cuadrados en *statsmodels*
Paso 1.1: Importa los paquetes necesarios

In [1]:
import numpy as np
import statsmodels.api as sm
import matplotlib.pyplot as plt

Paso 1.2: Genera una muestra aleatoria

In [2]:
tam_muestra = 100
x = np.arange(0, tam_muestra, step=1)
y = x*3 + 5 + np.random.normal(0,1,tam_muestra)

Paso 1.3: Ejecuta el método de los mínimos cuadrados

In [3]:
x = sm.add_constant(x)
algoritmo = sm.OLS(y,x)
modelo_regresion = algoritmo.fit()

Paso 1.4: Extrae el error estándar asociado a cada coeficiente y calcula el intervalo de confianza.

In [4]:
#COMPLETAR

intercept, slope = modelo_regresion.params[0], modelo_regresion.params[1]

intercept_std_err, slope_std_err = modelo_regresion.bse[0], modelo_regresion.bse[1]

intercept_conf_int, slope_conf_int = modelo_regresion.conf_int()[0], modelo_regresion.conf_int()[1]

print("Intercepto: ", str(intercept))
print("Intercepto - Error estandar: ", str(intercept_std_err))
print("Intercepto - Intervalo de confianza: ", str(intercept_conf_int))
print("")
print("Pendiente: ", str(slope))
print("Pendiente - Error estandar: ", str(slope_std_err))
print("Pendiente - Intervalo de confianza: ", str(slope_conf_int))

Intercepto:  5.0609998792371975
Intercepto - Error estandar:  0.18348047139690965
Intercepto - Intervalo de confianza:  [4.69688886 5.4251109 ]

Pendiente:  2.999653617131855
Pendiente - Error estandar:  0.0032020000689587363
Pendiente - Intervalo de confianza:  [2.99329935 3.00600788]


Paso 1.5: Utiliza la función ***summary*** para analizar la calidad de la estimación de los coeficientes.

In [5]:
#COMPLETAR
print("p_value obtenido para intercepto: " + str(modelo_regresion.pvalues[0]))
print("p_value obtenido para pendiente: " + str(modelo_regresion.pvalues[1]))
modelo_regresion.summary()

p_value obtenido para intercepto: 5.487369238412681e-48
p_value obtenido para pendiente: 1.783474399876273e-195


0,1,2,3
Dep. Variable:,y,R-squared:,1.0
Model:,OLS,Adj. R-squared:,1.0
Method:,Least Squares,F-statistic:,877600.0
Date:,"Sat, 22 Jan 2022",Prob (F-statistic):,1.7800000000000002e-195
Time:,09:17:51,Log-Likelihood:,-133.01
No. Observations:,100,AIC:,270.0
Df Residuals:,98,BIC:,275.2
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,5.0610,0.183,27.583,0.000,4.697,5.425
x1,2.9997,0.003,936.806,0.000,2.993,3.006

0,1,2,3
Omnibus:,0.875,Durbin-Watson:,2.03
Prob(Omnibus):,0.646,Jarque-Bera (JB):,0.989
Skew:,0.188,Prob(JB):,0.61
Kurtosis:,2.689,Cond. No.,114.0


*Añade aquí una breve explicación de lo observado.*

Observando los resultados del modelo, se pueden observar los siguientes puntos:
 - Las variables presentan una relación lineal positiva. Ya que la __pendiente__ es mayor que 0.
 - Podemos observar además, que los intervalos de confianza son bastante pequeños, lo que nos indica que la predicción es bastante precisa, siendo mejor en la pendiente que en el intercepto.
 - Finalmente, podemos confirmar que existe una __relación lineal__ entre las dos variables __x__ e __y__, con bastante probabilidad (95% de confianza), ya que el valor de __p_value__ es menor que el nivel de significancia (0,05).

## 2. Cálculo de medidas de error en *Python*
Codifica tres funciones para calcular las medidas MAE, MSE y RMSE a partir de los valores estimados y reales de *y*. El código **no** debe utilizar las librerías *statsmodels* ni *scikit-learn*.

Paso 2.1: Implementa una función que calcule la medida de error MAE.

In [6]:
# COMPLETAR
def calculate_mae(y, y_pred):

    sum_val = np.sum([abs(y_i - y_i_pred) for y_i, y_i_pred in zip(y, y_pred)])

    return sum_val / len(y)

Paso 2.2: Implementa una función que calcule la medida de error MSE.

In [7]:
# COMPLETAR

def calculate_mse(y, y_pred):
    
    sum_val = np.sum([(y_i - y_i_pred)**2 for y_i, y_i_pred in zip(y, y_pred)])

    return sum_val / len(y)

Paso 2.3: Implementa una función para calcular la medida de error RMSE.

In [8]:
# COMPLETAR
def calculate_rmse(y, y_pred):
    
    sum_val = np.sum([(y_i - y_i_pred)**2 for y_i, y_i_pred in zip(y, y_pred)])
        
    sum_val /= len(y)

    return np.sqrt(sum_val)


## 3. Evaluación del método de los mínimos cuadrados en *scikit-learn*


Paso 3.1: Importa los paquetes necesarios

In [9]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

Paso 3.2: Separa la muestra en partición de entrenamiento (33%) y test. Utilizar la partición de entrenamiento para ajustar el modelo.

In [10]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.33)
alg_regresion = LinearRegression()
modelo_regresion = alg_regresion.fit(x_train, y_train)

Paso 3.3: Obtén los valores *y* estimados para la partición de test

In [11]:
# COMPLETAR
y_pred = modelo_regresion.predict(x_test)

Paso 3.4: Calcula MAE, MSE y RMSE utilizando las funciones implementadas en el apartado anterior.

In [12]:
# COMPLETAR

mae = calculate_mae(y_test, y_pred)
mse = calculate_mse(y_test, y_pred)
rmse = calculate_rmse(y_test, y_pred)

print("MAE -> " + str(mae))
print("MSE -> " + str(mse))
print("RMSE -> " + str(rmse))

MAE -> 0.7766164744337903
MSE -> 0.8372192820858138
RMSE -> 0.914996875451394


Paso 3.5: Comprueba, utilizando las funciones de *scikit-learn*, que los valores de MAE y MSE coinciden con los devueltos por las funciones implementadas.

In [13]:
# COMPLETAR
from sklearn.metrics import mean_absolute_error, mean_squared_error

print("MAE -> " + str(mean_absolute_error(y_test, y_pred)))
print("MSE -> " + str(mean_squared_error(y_test, y_pred)))

MAE -> 0.7766164744337903
MSE -> 0.8372192820858138


Paso 3.6: Calcula el estadístico R2 (utilizando la función adecuada de *scikit-learn*) y analiza su significado.

In [14]:
# COMPLETAR
from sklearn.metrics import r2_score

print("R2 -> " + str(r2_score(y_test, y_pred)))

R2 -> 0.9998666205263225


*Añade aquí una breve explicación de lo observado.*

De los resultados obtenidos podemos sacar las siguientes conclusiones:
- Los errores obtenidos a través de las métricas calculadas son bastante altos.
- No obstante, a través del estadístico R2, podemos observar que, la recta de regresión explica, con bastante precisión, la relación existente entre los valores de __x__ e __y__, ya que el valor de R2 está muy próximo a 1. 