# Práctica Independiente
## _Cross validation_

Analicemos nuevamente el dataset inmobiliario de Boston y apliquemos cross-validation. Hay un excelente [ejemplo](http://scikit-learn.org/stable/auto_examples/plot_cv_predict.html) en la página de scikit-learn. Usemos ese código y modifiquémoslo para comparar el ajuste con _cross-validation_ contra el caso sin _cross-validation_. Vas a necesitar [esta función](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html) para ver las métricas del modelo con _cross-validation_ .

Trabajar sobre el [ejemplo](http://scikit-learn.org/stable/auto_examples/plot_cv_predict.html) de cross-validation, agregando calculos de $r^2$. ¿Difiere el score usando CV del score obtenido sobre el set completos de datos? ¿En qué sentido? ¿Por qué?

In [1]:
import random
import matplotlib.pyplot as plt
import pandas as pd
from sklearn import datasets, linear_model
from sklearn.model_selection import cross_val_score, train_test_split, KFold
from sklearn.metrics import r2_score
from sklearn.preprocessing import StandardScaler
  
random.seed(3)
boston = datasets.load_boston()
y = boston.target
X = pd.DataFrame(boston.data, columns=boston.feature_names)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=42)
lr = linear_model.LinearRegression()
cv = KFold(5, shuffle=True)
scores = cross_val_score(lr, X_train, y_train, cv=cv, scoring='r2')
scores, scores.mean()

(array([0.57739134, 0.77151516, 0.76216485, 0.6102493 , 0.75540329]),
 0.6953447864632976)

## Regularización: Lasso

Lasso (en inglés: _least absolute shrinkage and selection operator_) es otra forma de regularization. A esta altura, deberías poder modificar los ejemplos del notebook aplicando el modelo [Lasso](http://scikit-learn.org/stable/modules/linear_model.html#lasso) de scikit-learn y su versión con _cross-validation_ `LassoCV`. 

La principal diferencia entre Lasso y Ridge es cómo se penaliza. Analizando la documentacion, buscá las diferencias conceptuales y prácticas entre ambos.

¿Cuántos coeficientes son exactamente cero?

¿Es el $\alpha$ óptimo seleccionado por CV el mismo sin importar la escala de las variables?

Recuerde que en Lasso y Ridge es necesario que lo features esten en la misma escala

In [2]:
model = linear_model.LassoCV().fit(X_train, y_train)
scores = cross_val_score(model, X_train, y_train, cv=cv, scoring='r2')
dict(alpha=model.alpha_, scores=scores, mean_score=scores.mean(), zero_coefs=(model.coef_ == 0).sum())

{'alpha': 0.7051444556162021,
 'scores': array([0.65759654, 0.71555233, 0.57859116, 0.67866596, 0.69955545]),
 'mean_score': 0.6659922876276453,
 'zero_coefs': 3}

In [3]:
model = linear_model.LassoCV(normalize=True).fit(X, y)
scores = cross_val_score(model, X, y, cv=cv, scoring='r2')
dict(alpha=model.alpha_, scores=scores, mean_score=scores.mean(), zero_coefs=(model.coef_ == 0).sum())

{'alpha': 0.00858123049896144,
 'scores': array([0.71008547, 0.75880447, 0.73786522, 0.56617484, 0.71148457]),
 'mean_score': 0.6968829132109254,
 'zero_coefs': 2}

In [4]:
model = linear_model.RidgeCV(normalize=True).fit(X, y)
scores = cross_val_score(model, X, y, cv=cv, scoring='r2')
dict(alpha=model.alpha_, scores=scores, mean_score=scores.mean())

{'alpha': 0.1,
 'scores': array([0.77770482, 0.78126721, 0.67157724, 0.50200132, 0.72849034]),
 'mean_score': 0.6922081849120505}