# Métodos predictivos: tarea de asignación (semana 2)
Ya conoces una gran variedad de métodos de regresión múltiple y cómo pueden ajustarse utilizando las librerías *statsmodels* y *scikit-learn*. El objetivo de esta tarea es analizar un conjunto de datos y comparar varios métodos de regresión múltiple para estudiar cómo de bien se ajustan a los datos.

## Descripción de la tarea
La tarea consta de tres apartados:
1. Selección y análisis de un conjunto de datos.
2. Ejecución de dos métodos de regresión múltiple.
3. Evaluación de los modelos de regresión obtenidos, analizando cuál de ellos consigue un mejor ajuste a los datos.

## Instrucciones
En este *notebook* no se presenta parte del código desarrollado, pero sí se indican los pasos mínimos que debe seguir el estudiante para completar la tarea. El estudiante puede añadir otras celdas de código según sea necesario, pero respetando la organización de apartados propuesta. El estudiante puede elegir entre trabajar con *statsmodels* o con *scikit-learn*.


## 1. Selección y análisis de un conjunto de datos
Paso 1.1: Importa los paquetes necesarios.

In [1]:
#COMPLETAR
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
from sklearn.linear_model import LinearRegression, SGDRegressor
import pandas as pd

Paso 1.2: Carga un conjunto de datos de entre los disponibles en la librería seleccionada. Puedes encontrarlos en:


*   statsmodels: https://www.statsmodels.org/stable/datasets/index.html
*   scikit-learn: https://scikit-learn.org/stable/datasets.html



In [2]:
#COMPLETAR
data = load_diabetes()

cols = data["feature_names"]

x = pd.DataFrame(data["data"], columns= cols)
y = pd.DataFrame(data["target"], columns=['age'])

Paso 1.3: Muestra información acerca de la distribución de las características en el conjunto de datos elegido.

In [3]:
#COMPLETAR

# for col in x.columns:
#  x.hist(column= col, bins=20)

# from scipy.stats import normaltest

# normal_cols = []
# not_normal_cols = []
# for col in x.columns:
#     stat, p = normaltest(x[col], )

#     if p > 0.01:
#         normal_cols.append(col)
#     else:
#         not_normal_cols.append(col)

# print("Las columnas que siguen probablemente sigan una distribución normal son: " + str(normal_cols))
# print("Las columnas que siguen probablemente sigan una distribución normal son: " + str(not_normal_cols))

# print(x.corr())

print(x.describe())

                age           sex           bmi            bp            s1  \
count  4.420000e+02  4.420000e+02  4.420000e+02  4.420000e+02  4.420000e+02   
mean  -3.639623e-16  1.309912e-16 -8.013951e-16  1.289818e-16 -9.042540e-17   
std    4.761905e-02  4.761905e-02  4.761905e-02  4.761905e-02  4.761905e-02   
min   -1.072256e-01 -4.464164e-02 -9.027530e-02 -1.123996e-01 -1.267807e-01   
25%   -3.729927e-02 -4.464164e-02 -3.422907e-02 -3.665645e-02 -3.424784e-02   
50%    5.383060e-03 -4.464164e-02 -7.283766e-03 -5.670611e-03 -4.320866e-03   
75%    3.807591e-02  5.068012e-02  3.124802e-02  3.564384e-02  2.835801e-02   
max    1.107267e-01  5.068012e-02  1.705552e-01  1.320442e-01  1.539137e-01   

                 s2            s3            s4            s5            s6  
count  4.420000e+02  4.420000e+02  4.420000e+02  4.420000e+02  4.420000e+02  
mean   1.301121e-16 -4.563971e-16  3.863174e-16 -3.848103e-16 -3.398488e-16  
std    4.761905e-02  4.761905e-02  4.761905e-02  4.761

Paso 1.4: Si es necesario, realiza un preprocesado de las variables (eliminar valores perdidos, escalar valores, etc).

In [4]:
#COMPLETAR

*Añade aquí una breve explicación de las decisiones tomadas en el apartado 1.*

## 2. Ejecución de métodos de regresión múltiple
Paso 2.1: Particiona el conjunto de datos en entrenamiento y test.

In [5]:
#COMPLETAR
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.33)


Paso 2.2: Configura y realiza el ajuste del primer método de regresión elegido. Utiliza solo la partición de entrenamiento.

In [6]:
#COMPLETAR
alg = LinearRegression() 

modelo_linear = alg.fit(x_train, y_train)

Paso 2.3: Configura y realiza el ajuste del segundo método de regresión elegido. Utiliza solo la partición de entrenamiento.

In [7]:
#COMPLETAR
alg = SGDRegressor()

modelo_sgd = alg.fit(x_train, y_train)


*Añade aquí una breve explicación de las decisiones tomadas en el apartado 2*

## 3. Evaluación de los modelos de regresión obtenidos


Paso 3.1: Muesta la información sobre los modelos obtenidos (valores de los coeficientes, calidad del ajuste, estadísticos, etc.)

In [8]:
print("LinearRegression - intercepto: " + str(modelo_linear.intercept_))
print("LinearRegression - coeficientes :", list(zip(x_train.columns, modelo_linear.coef_.flatten(), )))
print("LinearRegression - R^2: " + str(modelo_linear.score(x_train, y_train)))

LinearRegression - intercepto: [154.49527007]
LinearRegression - coeficientes : [('age', -68.01046964547197), ('sex', -228.88223594991), ('bmi', 593.6455684368067), ('bp', 265.6434571561307), ('s1', -780.3851874429133), ('s2', 443.03169518094353), ('s3', 117.93535401519216), ('s4', 176.77526981730642), ('s5', 735.1283675374067), ('s6', 80.5923860327629)]
LinearRegression - R^2: 0.5353686672892091


In [9]:
#COMPLETAR
print("SGD - intercepto: " + str(modelo_sgd.intercept_))
print("SGD - coeficientes :", list(zip(x_train.columns, modelo_sgd.coef_.flatten(), )))
print("SGD - R^2: " + str(modelo_sgd.score(x_train, y_train)))


SGD - intercepto: [157.06295761]
SGD - coeficientes : [('age', 31.50868659984385), ('sex', -23.87603111119971), ('bmi', 241.91700432024078), ('bp', 159.1298872992367), ('s1', 34.52750882872461), ('s2', 12.580931319636798), ('s3', -137.3269834441361), ('s4', 123.17927313509443), ('s5', 201.31995998777188), ('s6', 124.15734043572864)]
SGD - R^2: 0.4172714723597656


Paso 3.2: Utiliza los modelos obtenidos en el apartado anterior para predecir sobre la partición de test.

In [10]:
#COMPLETAR
y_pred_lin = modelo_linear.predict(x_test)
y_pred_sgd = modelo_sgd.predict(x_test)

Paso 3.3: Calcula métricas de evaluación para estudiar la calidad de la estimación

In [11]:
#COMPLETAR
print("LinearRegression - RMSE: " + str(mean_squared_error(y_test, y_pred_lin)))
print("LinearRegression - MAE: " + str(mean_absolute_error(y_test, y_pred_lin)))
print("LinearRegression - R_2: " + str(r2_score(y_test, y_pred_lin)))

print()
print()

print("SGD - RMSE: " + str(mean_squared_error(y_test, y_pred_sgd)))
print("SGD - MAE: " + str(mean_absolute_error(y_test, y_pred_sgd)))
print("SGD - R_2: " + str(r2_score(y_test, y_pred_sgd)))

LinearRegression - RMSE: 3274.5851974143266
LinearRegression - MAE: 45.997305003431656
LinearRegression - R_2: 0.44922506456291256


SGD - RMSE: 3873.826364130839
SGD - MAE: 53.71635863397357
SGD - R_2: 0.34843458423882656


*Añade aquí una breve explicación de los resultados obtenidos en el apartado 3.*