# Métodos predictivos: tarea de asignación (semana 2)
Ya conoces una gran variedad de métodos de regresión múltiple y cómo pueden ajustarse utilizando las librerías *statsmodels* y *scikit-learn*. El objetivo de esta tarea es analizar un conjunto de datos y comparar varios métodos de regresión múltiple para estudiar cómo de bien se ajustan a los datos.

## Descripción de la tarea
La tarea consta de tres apartados:
1. Selección y análisis de un conjunto de datos.
2. Ejecución de dos métodos de regresión múltiple.
3. Evaluación de los modelos de regresión obtenidos, analizando cuál de ellos consigue un mejor ajuste a los datos.

## Instrucciones
En este *notebook* no se presenta parte del código desarrollado, pero sí se indican los pasos mínimos que debe seguir el estudiante para completar la tarea. El estudiante puede añadir otras celdas de código según sea necesario, pero respetando la organización de apartados propuesta. El estudiante puede elegir entre trabajar con *statsmodels* o con *scikit-learn*.


## 1. Selección y análisis de un conjunto de datos
Paso 1.1: Importa los paquetes necesarios.

In [56]:
#COMPLETAR
from sklearn.datasets import load_diabetes
from sklearn.linear_model import LinearRegression

import pandas as pd

Paso 1.2: Carga un conjunto de datos de entre los disponibles en la librería seleccionada. Puedes encontrarlos en:


*   statsmodels: https://www.statsmodels.org/stable/datasets/index.html
*   scikit-learn: https://scikit-learn.org/stable/datasets.html



In [57]:
#COMPLETAR
data = load_diabetes()

cols = data["feature_names"]

x = pd.DataFrame(data["data"], columns= cols)
y = pd.DataFrame(data["target"], columns=['age'])

Paso 1.3: Muestra información acerca de la distribución de las características en el conjunto de datos elegido.

In [58]:
#COMPLETAR

# for col in x.columns:
#  x.hist(column= col, bins=20)

from scipy.stats import normaltest

normal_cols = []
not_normal_cols = []
for col in x.columns:
    stat, p = normaltest(x[col], )

    if p > 0.01:
        normal_cols.append(col)
    else:
        not_normal_cols.append(col)

print("Las columnas que siguen probablemente sigan una distribución normal son: " + str(normal_cols))
print("Las columnas que siguen probablemente sigan una distribución normal son: " + str(not_normal_cols))

print(x.corr())

Las columnas que siguen probablemente sigan una distribución normal son: ['s5', 's6']
Las columnas que siguen probablemente sigan una distribución normal son: ['age', 'sex', 'bmi', 'bp', 's1', 's2', 's3', 's4']
          age       sex       bmi        bp        s1        s2        s3  \
age  1.000000  0.173737  0.185085  0.335427  0.260061  0.219243 -0.075181   
sex  0.173737  1.000000  0.088161  0.241013  0.035277  0.142637 -0.379090   
bmi  0.185085  0.088161  1.000000  0.395415  0.249777  0.261170 -0.366811   
bp   0.335427  0.241013  0.395415  1.000000  0.242470  0.185558 -0.178761   
s1   0.260061  0.035277  0.249777  0.242470  1.000000  0.896663  0.051519   
s2   0.219243  0.142637  0.261170  0.185558  0.896663  1.000000 -0.196455   
s3  -0.075181 -0.379090 -0.366811 -0.178761  0.051519 -0.196455  1.000000   
s4   0.203841  0.332115  0.413807  0.257653  0.542207  0.659817 -0.738493   
s5   0.270777  0.149918  0.446159  0.393478  0.515501  0.318353 -0.398577   
s6   0.301731  0.20

Paso 1.4: Si es necesario, realiza un preprocesado de las variables (eliminar valores perdidos, escalar valores, etc).

In [59]:
#COMPLETAR

*Añade aquí una breve explicación de las decisiones tomadas en el apartado 1.*

## 2. Ejecución de métodos de regresión múltiple
Paso 2.1: Particiona el conjunto de datos en entrenamiento y test.

In [60]:
#COMPLETAR
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.33)


Paso 2.2: Configura y realiza el ajuste del primer método de regresión elegido. Utiliza solo la partición de entrenamiento.

In [61]:
#COMPLETAR
from sklearn.linear_model import SGDRegressor

alg = SGDRegressor()

modelo = alg.fit(x_train, y_train)

print(modelo.coef_)

[  45.11986132  -47.94694313  265.51765394  172.443674     42.04352851
   24.03030997 -148.07862862  132.11773395  214.69948165  119.43563568]


Paso 2.3: Configura y realiza el ajuste del segundo método de regresión elegido. Utiliza solo la partición de entrenamiento.

In [62]:
#COMPLETAR

*Añade aquí una breve explicación de las decisiones tomadas en el apartado 2*

## 3. Evaluación de los modelos de regresión obtenidos


Paso 3.1: Muesta la información sobre los modelos obtenidos (valores de los coeficientes, calidad del ajuste, estadísticos, etc.)

In [63]:
#COMPLETAR

Paso 3.2: Utiliza los modelos obtenidos en el apartado anterior para predecir sobre la partición de test.

In [64]:
#COMPLETAR

Paso 3.3: Calcula métricas de evaluación para estudiar la calidad de la estimación

In [65]:
#COMPLETAR

*Añade aquí una breve explicación de los resultados obtenidos en el apartado 3.*