# Solución de problemas con regresión Ridge

En este tutorial conocerás cómo crear un modelo de regresión con la técnica de regularización con norma $L_2$, también llamada regresión Ridge. Para encontrar el mejor valor de su hiperparámetro, realizaremos un ajuste mediante la técnica de validación cruzada con k-Folds. En ese sentido, veremos cómo realizar los siguientes procesos:

1. Importar las librerías necesarias.
2. Cargar un conjunto de datos.
3. Preparar los datos para el modelado.
4. Entrenar un modelo de referencia usando regresión lineal.
5. Realizar una búsqueda de hiperparámetros.

Utilizaremos el conjunto de datos correspondiente a la caracterización de casas y su precio. Nuestro objetivo es, entonces, obtener un modelo para predecir el precio de una vivienda dadas sus características.

## 1. Importación de librerías requeridas

Importaremos la librería `pandas` y `scikit-learn`. En particular, usaremos las siguientes clases para entrenar el modelo de regresión Ridge:

* `GridSearchCV`: clase para entrenar múltiples modelos variando sus parámetros. Se utiliza para hacer una búsqueda exhaustiva de los mejores valores para el entrenamiento de un modelo.
* `KFold`: clase para definir múltiples conjuntos de entrenamiento y validación sobre el conjunto de datos.
* `MinMaxScaler`: clase para escalar los valores de nuestro conjunto de datos.
* `Ridge`: clase para crear y entrenar un modelo de regresión regularizada con norma $L_2$.

In [1]:
import pandas as pd

from sklearn.model_selection import train_test_split, GridSearchCV, KFold
from sklearn.preprocessing import MinMaxScaler
from sklearn.linear_model import LinearRegression, Ridge
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

## 2. Carga de datos

Realizaremos la carga de datos usando la función de Pandas `read_csv()`, especificando la ruta y el separador del archivo:

In [2]:
data_raw = pd.read_csv('data/kc_house_data.csv', sep=',')

Veremos los primeros datos del conjunto usando `head()`:

In [3]:
data_raw.head()

Unnamed: 0,id,date,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,7129300520,20141013T000000,221900.0,3,1.0,1180,5650,1.0,0,0,...,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,6414100192,20141209T000000,538000.0,3,2.25,2570,7242,2.0,0,0,...,7,2170,400,1951,1991,98125,47.721,-122.319,1690,7639
2,5631500400,20150225T000000,180000.0,2,1.0,770,10000,1.0,0,0,...,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,2487200875,20141209T000000,604000.0,4,3.0,1960,5000,1.0,0,0,...,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,1954400510,20150218T000000,510000.0,3,2.0,1680,8080,1.0,0,0,...,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503


## 3. Preparación de los datos

Definiremos la variable `data` para almacenar un conjunto de datos modificado. En ese sentido, podremos tener una copia de los datos originales almacenada en la variable `data_raw`, por si en algún momento es necesario recuperar información que haya sido modificada:

In [4]:
data = data_raw.copy()

### Eliminación de variables poco relevantes

Eliminaremos tres variables con poca relevancia para el precio de las viviendas: `id`, `date` y `zipcode`, haciendo uso de la función `drop()` sobre nuestro DataFrame:

In [5]:
data = data.drop(['id','date','zipcode'], axis=1)

Veremos el resultado con `data.head()`:

In [6]:
data.head()

Unnamed: 0,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,grade,sqft_above,sqft_basement,yr_built,yr_renovated,lat,long,sqft_living15,sqft_lot15
0,221900.0,3,1.0,1180,5650,1.0,0,0,3,7,1180,0,1955,0,47.5112,-122.257,1340,5650
1,538000.0,3,2.25,2570,7242,2.0,0,0,3,7,2170,400,1951,1991,47.721,-122.319,1690,7639
2,180000.0,2,1.0,770,10000,1.0,0,0,3,6,770,0,1933,0,47.7379,-122.233,2720,8062
3,604000.0,4,3.0,1960,5000,1.0,0,0,5,7,1050,910,1965,0,47.5208,-122.393,1360,5000
4,510000.0,3,2.0,1680,8080,1.0,0,0,3,8,1680,0,1987,0,47.6168,-122.045,1800,7503


### División de datos

Ahora dividiremos el conjunto de datos resultante en un conjunto de entrenamiento y uno de pruebas mediante la función `train_test_split()`. Usaremos el 80% de los datos para el entrenamiento y el 20% restante para las pruebas:

In [7]:
train, test = train_test_split(data, test_size=0.2, random_state=9)
train.head()

Unnamed: 0,price,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,grade,sqft_above,sqft_basement,yr_built,yr_renovated,lat,long,sqft_living15,sqft_lot15
17690,1364000.0,4,2.5,3560,8960,2.0,0,0,3,10,3560,0,2001,0,47.6903,-122.213,1660,7680
7711,815000.0,3,2.5,2415,2186,2.0,0,1,3,9,2415,0,1981,0,47.6506,-122.202,2660,2165
7878,205000.0,4,1.0,1030,6621,1.0,0,0,4,6,1030,0,1955,0,47.4857,-122.221,1420,6631
5409,439950.0,4,2.25,2780,15075,2.0,0,0,3,7,2780,0,1985,0,47.477,-122.116,1650,25542
10047,362362.0,2,1.0,710,4000,1.0,0,0,3,6,710,0,1909,0,47.5535,-122.269,960,4000


Como los algoritmos supervisados implementados en `scikit-learn` necesitan que las variables de entrada estén separadas de la variable objetivo, usaremos la función `drop` y definiremos `x_train` y `y_train`, que representan los valores de las variables independientes y los valores de la variable objetivo, respectivamente:

In [8]:
x_train = train.drop(['price'],axis=1)
y_train = train['price']

### Estandarización

Para el caso de regresión regularizada, la escala en la que se encuentran las variables se vuelve relevante, a diferencia de la regresión lineal simple. Específicamente, dado que los métodos de regularización actúan sobre la magnitud de los coeficientes del modelo, todos deben estar en la misma escala. Es por eso que utilizaremos un objeto de la clase `MinMaxScaler()` que, por cada variable, deja todos sus valores en el intervalo [0,1] (que es el intervalo por defecto): 

In [9]:
columns = x_train.columns
scaler = MinMaxScaler()
x_train = scaler.fit_transform(x_train)
x_train = pd.DataFrame(x_train, columns=columns)

Visualizaremos los nuevos valores del conjunto de entrenamiento usando `head()`:

In [10]:
x_train.head()

Unnamed: 0,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,view,condition,grade,sqft_above,sqft_basement,yr_built,yr_renovated,lat,long,sqft_living15,sqft_lot15
0,0.121212,0.3125,0.242217,0.005113,0.4,0.0,0.0,0.5,0.7,0.352876,0.0,0.878261,0.0,0.859579,0.254153,0.220802,0.008074
1,0.090909,0.3125,0.155277,0.001009,0.4,0.0,0.25,0.5,0.6,0.226217,0.0,0.704348,0.0,0.795721,0.263289,0.395903,0.001739
2,0.121212,0.125,0.050114,0.003696,0.0,0.0,0.0,0.75,0.3,0.073009,0.0,0.478261,0.0,0.530481,0.247508,0.178778,0.006869
3,0.121212,0.28125,0.182992,0.008817,0.4,0.0,0.0,0.5,0.4,0.266593,0.0,0.73913,0.0,0.516487,0.334718,0.219051,0.028592
4,0.060606,0.125,0.025816,0.002108,0.0,0.0,0.0,0.5,0.3,0.037611,0.0,0.078261,0.0,0.639537,0.207641,0.098231,0.003847


## 4. Entrenamiento de un modelo de referencia

Con el conjunto de datos modificado, ahora entrenaremos un modelo de referencia, que nos permitirá ver cómo es el rendimiento de una regresión lineal simple con este conjunto de datos. Definiremos un objeto de tipo `LinearRegression()` y lo entrenaremos con la función `fit()`, utilizando el conjunto de entrenamiento separado en las variables independientes `x_train` y la variable objetivo `y_train`:

In [11]:
reg_lineal = LinearRegression().fit(x_train, y_train)

Ahora veremos los coeficientes y el intercepto resultantes:

In [12]:
print ('Coeficientes: ', reg_lineal.coef_)
print ('Intercepto: ', reg_lineal.intercept_)

Coeficientes:  [-1045667.82788799   349811.79988409   800497.55201274   242049.55919058
     4639.74845105   584669.85722034   201276.17419331   127355.53285441
   961197.84442804  1020275.34410272   319434.29765598  -289152.79106719
    46639.14802456   348546.72281543  -144037.33147272   184630.22563774
  -362614.18447603]
Intercepto:  -335986.24078267557


Específicamente, cada variable tiene los siguientes coeficientes, que obtendremos usando `reg_lineal.coef_`:

In [13]:
list(zip(x_train.columns, reg_lineal.coef_))

[('bedrooms', -1045667.8278879866),
 ('bathrooms', 349811.79988409486),
 ('sqft_living', 800497.5520127411),
 ('sqft_lot', 242049.5591905795),
 ('floors', 4639.748451048901),
 ('waterfront', 584669.8572203416),
 ('view', 201276.17419331183),
 ('condition', 127355.53285440998),
 ('grade', 961197.844428043),
 ('sqft_above', 1020275.3441027206),
 ('sqft_basement', 319434.2976559765),
 ('yr_built', -289152.79106718674),
 ('yr_renovated', 46639.14802455908),
 ('lat', 348546.7228154286),
 ('long', -144037.33147272174),
 ('sqft_living15', 184630.22563774252),
 ('sqft_lot15', -362614.18447602564)]

### Evaluación del modelo

Ahora utilizaremos el conjunto de pruebas para evaluar el desempeño del modelo. Separaremos las variables independientes y la variable objetivo, de la misma forma que para el conjunto de entrenamiento:

In [14]:
x_test = test.drop(['price'],axis=1)
y_test = test['price']

También usaremos la variable `scaler` para escalar las variables independientes del conjunto de pruebas. Utilizaremos solamente la información del conjunto de entrenamiento, con el método `transform()`:

In [15]:
x_test = scaler.transform(x_test)
x_test = pd.DataFrame(x_test, columns=columns)

Finalmente, realizaremos las predicciones. Utilizaremos tres métricas para evaluar el desempeño del modelo de referencia: la raíz del error cuadrático medio, el error absoluto medio y el coeficiente de determinación: 

In [16]:
y_pred = reg_lineal.predict(x_test)

print('------ Modelo de regresión lineal simple----')
print("RMSE: %.2f" % mean_squared_error(y_test, y_pred, squared=False))
print("MAE: %.2f" % mean_absolute_error(y_test, y_pred))
print('R²: %.2f' % r2_score(y_test, y_pred))

------ Modelo de regresión lineal simple----
RMSE: 200731.58
MAE: 126120.34
R²: 0.71


Como puedes observar, el modelo de regresión lineal simple se ajusta un 71% a los datos. En este caso, se tienen errores medios en el orden de los cientos de miles de dólares. Ahora veremos cómo se compara un modelo de regresión Ridge.

## 5. Búsqueda de hiperparámetros

Cambiar el valor de los hiperparámetros tiene un impacto directo sobre el desempeño del modelo resultante, por lo que queremos encontrar un valor que resulte en el mejor desempeño posible. A continuación, ejecutaremos un procedimiento de búsqueda exhaustiva sobre el hiperparámetro `alpha` de la regresión Ridge, definiendo y entrenando múltiples modelos para, finalmente, elegir el valor del hiperparámetro que resulte en el modelo con el mejor desempeño.

Primero crearemos un objeto de la clase `Ridge()`, que puede recibir como parámetro el valor de `alpha`. Este hiperparámetro corresponde a la constante que acompaña al término de penalización, es decir, `alpha` es usado para el control de la complejidad. En este caso no es necesario especificarlo, ya que cambiaremos su valor en cada iteración de la búsqueda:

In [18]:
ridge = Ridge()

Ahora vamos a definir un objeto de la clase `KFold()`, que toma el conjunto de entrenamiento original y lo separa en k grupos, usando uno como validación y el resto (k-1) como entrenamiento. En este caso, definiremos `k=10` y usaremos el parámetro `shuffle=True` para indicar que se cambie el orden de los datos antes de separarlos en los grupos:

In [19]:
kfold = KFold(n_splits=10, shuffle=True, random_state = 0)

Finalmente utilizaremos un diccionario para definir nuestro espacio de búsqueda de hiperparámetros, es decir, los valores que vamos a probar y sobre los que decidiremos cuál escoger. Almacenaremos estos valores en la variable `param_grid`:

In [20]:
param_grid = {'alpha': [1, 2, 5, 10, 15, 20, 100, 500]}

A continuación, vamos a utilizar `GridSearchCV` para realizar la búsqueda exhaustiva del mejor hiperparámetro. Esta clase nos permitirá entrenar un modelo con todos los conjuntos obtenidos mediante el objeto `kfold`, además de todos los valores específicos para el hiperparámetro, seleccionando el mejor modelo entre todas las combinaciones posibles. En ese orden de ideas, definiremos el algoritmo `ridge`, los valores del hiperparámetro `param_grid`, y la estrategia de validación cruzada `kfold`: 

In [21]:
modelos_grid = GridSearchCV(ridge, param_grid, cv=kfold, n_jobs=-1)

Finalmente, entrenaremos los modelos con los conjuntos definidos previamente:

In [22]:
modelos_grid.fit(x_train, y_train)

GridSearchCV(cv=KFold(n_splits=10, random_state=0, shuffle=True),
             error_score=nan,
             estimator=Ridge(alpha=1.0, copy_X=True, fit_intercept=True,
                             max_iter=None, normalize=False, random_state=None,
                             solver='auto', tol=0.001),
             iid='deprecated', n_jobs=-1,
             param_grid={'alpha': [1, 2, 5, 10, 15, 20, 100, 500]},
             pre_dispatch='2*n_jobs', refit=True, return_train_score=False,
             scoring=None, verbose=0)

Obtendremos el mejor parámetro usando el atributo `best_params_`:

In [23]:
print("Mejor parámetro: {}".format(modelos_grid.best_params_)) 

Mejor parámetro: {'alpha': 1}


Como puedes ver, el mejor valor del hiperparámetro `alpha` es 1. Posteriormente, almacenaremos el modelo ya entrenado usando el atributo `best_estimator_`

In [24]:
mejor_modelo = modelos_grid.best_estimator_

Finalmente, obtendremos los coeficientes del modelo de regresión regularizada utilizando el atributo `coef_`:

In [25]:
list(zip(x_train.columns, mejor_modelo.coef_))

[('bedrooms', -917510.784430891),
 ('bathrooms', 345653.9239744922),
 ('sqft_living', 779644.5613549553),
 ('sqft_lot', 186544.44206995293),
 ('floors', 7148.806736874913),
 ('waterfront', 580562.8156616663),
 ('view', 203959.1599233129),
 ('condition', 126434.66492839971),
 ('grade', 963354.9554586299),
 ('sqft_above', 993493.4028318302),
 ('sqft_basement', 311558.96160851093),
 ('yr_built', -287918.07869333314),
 ('yr_renovated', 47511.3247422673),
 ('lat', 349004.02952208585),
 ('long', -143640.61736542635),
 ('sqft_living15', 193353.6445416691),
 ('sqft_lot15', -300219.3042858157)]

Una de las particularidades de la regresión Ridge es que, generalmente, los coeficientes resultantes tienen una magnitud menor a los coeficientes obtenidos con regresión lineal simple. Como puedes observar en nuestro mejor modelo, algunos de los coeficientes disminuyen. Debes tener en cuenta que la reducción de coeficientes es dependiente del valor del hiperparámetro `alpha`, por lo que en este caso la regularización no es tan fuerte y la reducción no es tan evidente.

### Evaluación del mejor modelo

A continuación realizaremos predicciones sobre el conjunto de pruebas para comparar con los valores de `y_test`. Utilizaremos la función `predict()` sobre el mejor modelo:

In [26]:
y_pred = mejor_modelo.predict(x_test)

print('------ Modelo de regresión Ridge----')
print("RMSE: %.2f" % mean_squared_error(y_test, y_pred, squared=False))
print("MAE: %.2f" % mean_absolute_error(y_test, y_pred))
print('R²: %.2f' % r2_score(y_test, y_pred))

------ Modelo de regresión Ridge----
RMSE: 200937.27
MAE: 125996.55
R²: 0.71


Para este conjunto de datos, el valor de R<sup>2</sup> se mantiene en 0.71 y, adicionalmente, el RMSE y el MAE mantienen valores similares al modelo de regresión lineal. Es decir, según las trés métricas, el rendimiento de generalización no es mejor con regularización. ¿El rendimiento podría mejorar si creas un modelo mezclando regresión polinomial con regularización?