## Ejercicio Repaso Modelo lineal

Partiendo del siguiente DataFrame (``df``), donde todas las variables son numéricas: 
1. Crea un modelo de regresión lineal para predecir ``target``, dividiendo train/test como 80/20
2. Utiliza un GridSearchCV para probar los diferentes modelos de penalización que hemos visto, y quédate con la combinación de parámetros + modelo que mejor resultado te devuelva. Puedes probar solamente modificando el modelo, o podrías crear un pipeline con cada uno añadiendo más cosas, como un selector de variables o un escalado (este es muy importante)
3. Prueba a crearte nuevas variables para mejorar el score que te devuelva. Hazlo sobre 1 para reducir complejidad y timepo de cómputo del ejercicio
4. Si te fijas, la variable ``sex`` toma solo 2 valores diferentes. Convierte esta variable a un valor binario y utiliza el DataFrame (sin las variables nuevas de 3) para predecir este valor. Recuerda que ahora estarás ante un modelo de clasificación
5. Vuelve a crear variables extra para mejorar el score de clasificación

In [1]:
import pandas as pd
from sklearn.datasets import load_diabetes

In [2]:
diabetes = load_diabetes()
X = pd.DataFrame(diabetes['data'], columns=diabetes['feature_names'])
y = pd.DataFrame({'target': diabetes['target']})

df = X.join(y)

X = df.drop('target', axis=1)
y = df['target']

In [3]:
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet
from sklearn.svm import SVR
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.metrics import mean_squared_error
import numpy as np
import matplotlib.pyplot as plt

In [4]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [7]:
pipe_1=Pipeline([('scaler', StandardScaler()), ('model', SVR())])
pipe_2=Pipeline([('scaler', StandardScaler()), ('model', Ridge())])
pipe_3=Pipeline([('scaler', StandardScaler()), ('model', Lasso())])
pipe_4=Pipeline([('scaler', StandardScaler()), ('model', ElasticNet())])

params_1 = {
    'model__kernel': ['linear', 'poly', 'rbf'],
    'model__C': [0.1, 0.5, 0.8, 1]
}
params_2 = {
    'model__alpha': [0.1, 0.5, 0.8, 1]
}
params_3 = {
    'model__alpha': [0.1, 0.5, 0.8, 1]
}
params_4 = {
    'model__alpha': [0.1, 0.5, 0.8, 1],
    'model__l1_ratio': [0.1, 0.5, 0.8, 1]
}

gs_svr = GridSearchCV(pipe_1,
                         params_1,
                         cv = 10,
                         scoring='accuracy',
                         n_jobs=-1,
                         verbose=1)

gs_ridge = GridSearchCV(pipe_2,
                         params_2,
                         cv = 10,
                         scoring='accuracy',
                         n_jobs=-1,
                         verbose=1)

gs_lasso = GridSearchCV(pipe_3,
                         params_3,
                         cv = 10,
                         scoring='accuracy',
                         n_jobs=-1,
                         verbose=1)

gs_enet = GridSearchCV(pipe_4,
                         params_4,
                         cv = 10,
                         scoring='accuracy',
                         n_jobs=-1,
                         verbose=1)

grids = {'gs_svr': gs_svr,
         'gs_ridge': gs_ridge,
         'gs_lasso': gs_lasso,
         'gs_enet': gs_enet}

In [8]:
for nombre, grid_search in grids.items():
    print(f"Calculando {nombre}")
    grid_search.fit(X_train, y_train)

Calculando gs_svr
Fitting 10 folds for each of 12 candidates, totalling 120 fits




Calculando gs_ridge
Fitting 10 folds for each of 4 candidates, totalling 40 fits
Calculando gs_lasso
Fitting 10 folds for each of 4 candidates, totalling 40 fits
Calculando gs_enet
Fitting 10 folds for each of 16 candidates, totalling 160 fits




In [9]:
l = []
for i, j in grids.items():
    l.append((i, j.best_score_))
l

[('gs_svr', nan), ('gs_ridge', nan), ('gs_lasso', nan), ('gs_enet', nan)]

In [16]:
y_train

Unnamed: 0,target
17,144.0
66,150.0
137,280.0
245,125.0
31,59.0
...,...
106,134.0
270,202.0
348,148.0
435,64.0
