# Regresiones

Aquí vamos a hacer muchas regresiones para ver qué combinación de ingeniería de variables y método de regresión da mejores resultados.

El primer paso es establecer una _línea base_ para comparar. Para esto vamos a utilizar una regresión de [Random Forest](https://en.wikipedia.org/wiki/Random_forest) sobre los datos preprocesados diréctamente, sin más. Lo único extra que vamos a hacer es escalar las variables.

Hay varias razones para usar Random Forest como baseline, primero es sabido que es un buen método para evitar el _overfitting_ y segundo y más importante en nuestro caso, nos da una estimación de la importancia relativa de las variables, esto puede resultar importante para informar nuestras desiciones más adelante.

En general, una regresión tiene un conjunto de _hiperparámetros_ que deben ajustarse para obtener un modelo específico. Este ajuste se hace buscando soluciones en el espacio de hiperparámetros, para evitar ajustar nuestro modelo demasiado (aumentar el sesgo), vamos a usar _cross validation_.

Primero vamos a ver cuáles son los hiperparámetros que queremos ajustar:

In [15]:
# leemos los datos
import pandas as pd
df_train = pd.read_csv("data/train_preprocesado.csv")
#por alguna razón quedaron dos Na en BsmtCond, así los quitamos pero en realidad hay que regresar a ver qué pasó
df_train.drop
# creamos dataframes para las variables y el objetivo
Y = df_train['SalePrice']
X = df_train.drop(['SalePrice','Id'], axis=1)

In [16]:
total = df_train.isnull().sum().sort_values(ascending=False)
percent = (df_train.isnull().sum()/df_train.isnull().count()).sort_values(ascending=False)
missing_data = pd.concat([total, percent], axis=1, keys=['Total', 'Percent'])
missing_data.head(10)

Unnamed: 0,Total,Percent
BsmtCond,2,0.00137
SaleCondition_Partial,0,0.0
RoofMatl_WdShngl,0,0.0
Exterior1st_ImStucc,0,0.0
Exterior1st_HdBoard,0,0.0
Exterior1st_CemntBd,0,0.0
Exterior1st_CBlock,0,0.0
Exterior1st_BrkFace,0,0.0
Exterior1st_BrkComm,0,0.0
Exterior1st_AsphShn,0,0.0


In [3]:
from sklearn.ensemble import RandomForestRegressor
rf = RandomForestRegressor(random_state = 42)
from pprint import pprint
print('Parámetros por defecto:\n')
pprint(rf.get_params())

Parámetros por defecto:

{'bootstrap': True,
 'criterion': 'mse',
 'max_depth': None,
 'max_features': 'auto',
 'max_leaf_nodes': None,
 'min_impurity_decrease': 0.0,
 'min_impurity_split': None,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'min_weight_fraction_leaf': 0.0,
 'n_estimators': 'warn',
 'n_jobs': None,
 'oob_score': False,
 'random_state': 42,
 'verbose': 0,
 'warm_start': False}


- n_estimators = número de árboles en el bosque
- max_features = máximo número de variables a considerar en cada _split_
- max_depth = profundidad máxima para cada árbol
- min_samples_split = numero mínimo de datos en un nodo antes de un _split_
- min_samples_leaf = número mínimo de datos en un nodo
- bootstrap = método para muestrear (con o sin reemplazo)

Si lo piensa uno, son un montón de parámetros con un montón de valores posibles, entonces tenemos que encontrar alguna forma eficiente de buscar (en el espacio de hiperparámetros). Ahora lo que vamos a hacer es una búsqueda en dos etapas. primero vamos a definir una _malla_ grande de valores y vamos a buscar a azar dentro de esa malla, eso nos va a reducir el espacio de búsqueda, luego vamos a usar ese espacio reducido para utilizar un método más sofisticado (pero más costoso computacionalmente) de búsqueda. 

In [5]:
import numpy as np
from sklearn.model_selection import RandomizedSearchCV
# Lista ed valores para el número de estimadores
n_estimators = [int(x) for x in np.linspace(start = 200, stop = 2000, num = 10)]
# máximo número de variables a considerar en cada _split_
max_features = ['auto', 'sqrt']
# profundidad máxima para cada árbol
max_depth = [int(x) for x in np.linspace(10, 110, num = 11)]
max_depth.append(None)
# numero mínimo de datos en un nodo antes de un _split_
min_samples_split = [2, 5, 10]
# número mínimo de datos en un nodo
min_samples_leaf = [1, 2, 4]
# método para muestrear (con o sin reemplazo)
bootstrap = [True, False]
# Malla aleatoria
random_grid = {'n_estimators': n_estimators,
               'max_features': max_features,
               'max_depth': max_depth,
               'min_samples_split': min_samples_split,
               'min_samples_leaf': min_samples_leaf,
               'bootstrap': bootstrap}
pprint(random_grid)

{'bootstrap': [True, False],
 'max_depth': [10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, None],
 'max_features': ['auto', 'sqrt'],
 'min_samples_leaf': [1, 2, 4],
 'min_samples_split': [2, 5, 10],
 'n_estimators': [200, 400, 600, 800, 1000, 1200, 1400, 1600, 1800, 2000]}


Hay exáctamente $2 * 12 * 2 * 3 * 3 * 10 = 4320$ combinaciones de variables en nuestra malla. Por eso no las vamos a probar todas, vamos a buscar aleatoriamente

In [11]:
# Creamos un modelo vacío
rf = RandomForestRegressor()
# Búsqueda aleatoria usando 3-fold CV, 
# Busca sobre 100 iteraciones 
rf_random = RandomizedSearchCV(estimator = rf, param_distributions = random_grid, n_iter = 100, cv = 3, verbose=2, random_state=42, n_jobs = -1)
# Ajusta sobre los datos
rf_random.fit(X, Y)
rf_random.best_params_

Fitting 3 folds for each of 100 candidates, totalling 300 fits


[Parallel(n_jobs=-1)]: Using backend LokyBackend with 8 concurrent workers.


ValueError: Input contains NaN, infinity or a value too large for dtype('float32').