# Optimización de parámetros

En este proyecto sigo a seguir trabajando con el dataset de propiedades en venta publicadas en el portal [Properati](www.properati.com.ar). El objetivo en éste caso es optimizar los parámetros de los algoritmos que usé en el proyecto pasado.

El dataset es el mismo del proyecto 3. Recordemos que las columnas que se agregan son:

* `barrios_match`: si coincide el barrio publicado con el geográfico vale 1, si no 0.

* `PH`, `apartment`, `house`: variables binarias que indican el tipo de propiedad.

* dummies de barrios: variables binarias con 1 o 0 según el barrio.

La métrica que voy a usar para medir es RMSE (raíz del error cuadréatico medio):

$$RMSE = \sqrt{\frac{\sum_{t=1}^n (\hat y_t - y_t)^2}{n}}$$

## Pandas - Levantamos el dataset

In [1]:
import pandas as pd
pd.set_option('display.float_format', lambda x: '%.3f' % x)
path_dataset = 'dataset/datos_properati_limpios_model.csv'
df = pd.read_csv(path_dataset)

**Separo** el dataset en entrenamiento (80%) y test (20%) utilizando como target la columna `price_aprox_usd`

In [2]:
import numpy as np

np.random.seed(123)

from sklearn.model_selection import train_test_split

X = df.drop(['price_aprox_usd'], axis=1)
y = df['price_aprox_usd']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(X_train.shape[0], X_test.shape[0])

5100 1276


## Scikit-learn - Entrenamiento

Para repasar los parámetros de árboles de decisión en Scikit-learn: 

http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html

En primer lugar veamos cómo hacer cross validation. Para eso necesitamos definir la cantidad de folds, en éste caso voy a usar 5.

GridSearchCV nos permite testear a través de un espacio de búsqueda de parámetros la mejor combinación posible dado un estimador.

Por ejemplo, en éste caso probamos la profundidad máxima y la máxima cantidad de features para hacer los split. Ambos entre 1 y 5.
Para hacer la optimización scikit-learn usa la métrica `neg_mean_squared_error` en lugar de `mean_squared_error`.

**Creo** una variable `param_grid` con valores del 1 al 5 para los atributos `max_depth` y `max_features`. 

In [4]:
param_grid_dtr = {
    'max_depth': np.arange(1, 6),
    'max_features': np.arange(1, 6)
}

cv = 5

**Importo** `GridSearchCV` y `DecisionTreeRegressor`.

**Creo** una variable `grid_search` y le asigno un `GridSearchCV` que recorra el `param_grid` que creé con el algoritmo `DecisionTreeRegressor` y un scoring de `neg_mean_squared_error`.

In [5]:
# Importa y crea un GridSearchCV en esta celda

from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import GridSearchCV

dtr_clf = DecisionTreeRegressor()

grid_search = GridSearchCV(dtr_clf, param_grid=param_grid_dtr, scoring='neg_mean_squared_error', cv=cv, return_train_score=True)

A continuación, realizo el `fit` del `grid_search` con el conjunto de entrenamiento.

In [6]:
grid_search.fit(X_train, y_train)

GridSearchCV(cv=5, error_score='raise-deprecating',
       estimator=DecisionTreeRegressor(criterion='mse', max_depth=None, max_features=None,
           max_leaf_nodes=None, min_impurity_decrease=0.0,
           min_impurity_split=None, min_samples_leaf=1,
           min_samples_split=2, min_weight_fraction_leaf=0.0,
           presort=False, random_state=None, splitter='best'),
       fit_params=None, iid='warn', n_jobs=None,
       param_grid={'max_depth': array([1, 2, 3, 4, 5]), 'max_features': array([1, 2, 3, 4, 5])},
       pre_dispatch='2*n_jobs', refit=True, return_train_score=True,
       scoring='neg_mean_squared_error', verbose=0)

Revisemos los resultados. Recordemos que no están expresados en RMSE.

In [7]:
grid_search.scorer_

make_scorer(mean_squared_error, greater_is_better=False)

In [8]:
data = []
max_depth = []
max_features = []

for d in grid_search.cv_results_["params"]:
    max_depth.append(d["max_depth"])
    max_features.append(d["max_features"])

data.append(grid_search.cv_results_["mean_test_score"])
data.append(grid_search.cv_results_["std_test_score"])
data.append(max_depth)
data.append(max_features)

df = pd.DataFrame(data)
df = df.T
df.columns = ['mean_test_score',
              'std_test_score',
              'max_depth',
              'max_features']
df

Unnamed: 0,mean_test_score,std_test_score,max_depth,max_features
0,-967815477.82,32943855.755,1.0,1.0
1,-967910484.499,32666493.225,1.0,2.0
2,-973432428.277,30201089.139,1.0,3.0
3,-926098951.655,98822633.916,1.0,4.0
4,-978231079.818,24604516.24,1.0,5.0
5,-939192559.533,74635512.386,2.0,1.0
6,-915148162.547,110850835.637,2.0,2.0
7,-913017431.133,109983246.741,2.0,3.0
8,-914864706.669,99097488.983,2.0,4.0
9,-926966397.138,56411613.194,2.0,5.0


**Muestro** los `grid_scores` obtenidos durante el `grid_search`.

In [9]:
print("Best Score:{}\nBest Param:{}".format(grid_search.best_score_, grid_search.best_params_))

Best Score:-713698124.9712428
Best Param:{'max_depth': 4, 'max_features': 4}


De ésta manera, el valor con mejor resultado (dado el espacio de búsqueda definido) es `max_depth` 4 y `max_features` 4.

**Muestro** el mejor score y los mejores parámetros encontrados por `grid_search`.

In [10]:
print('Haciendo cross-validation predigo un error de', -grid_search.best_score_)
print('Los mejores parámetros encontrados son:', grid_search.best_params_)

Haciendo cross-validation predigo un error de 713698124.9712428
Los mejores parámetros encontrados son: {'max_depth': 4, 'max_features': 4}


Convierto a RMSE.

In [11]:
def nmsq2rmse(score):
    return np.round(np.sqrt(-score), 2)

nmsq2rmse(grid_search.best_score_)

26715.13

__Dado el siguiente espacio de búsqueda, encontremos el mejor modelo__

* `"min_samples_split": [2, 10, 20]`
* `"max_depth": [None, 2, 5, 10, 15]`
* `"min_samples_leaf": [1, 5, 10, 15]`
* `"max_leaf_nodes": [None, 5, 10, 20]`

In [12]:
param_grid_dtr_2 = {"min_samples_split": [2, 10, 20], 
                 "max_depth": [None, 2, 5, 10, 15],
                 "min_samples_leaf": [1, 5, 10, 15],
                 "max_leaf_nodes": [None, 5, 10, 20]}
grid_search2 = GridSearchCV(dtr_clf, param_grid_dtr_2, scoring='neg_mean_squared_error', cv=cv, return_train_score=True)
grid_search2.fit(X_train, y_train)

GridSearchCV(cv=5, error_score='raise-deprecating',
       estimator=DecisionTreeRegressor(criterion='mse', max_depth=None, max_features=None,
           max_leaf_nodes=None, min_impurity_decrease=0.0,
           min_impurity_split=None, min_samples_leaf=1,
           min_samples_split=2, min_weight_fraction_leaf=0.0,
           presort=False, random_state=None, splitter='best'),
       fit_params=None, iid='warn', n_jobs=None,
       param_grid={'min_samples_split': [2, 10, 20], 'max_depth': [None, 2, 5, 10, 15], 'min_samples_leaf': [1, 5, 10, 15], 'max_leaf_nodes': [None, 5, 10, 20]},
       pre_dispatch='2*n_jobs', refit=True, return_train_score=True,
       scoring='neg_mean_squared_error', verbose=0)

`GridSearchCV` tiene como parámetro default `refit=True`. Ésto significa que luego de hacer la corrida se ajusta el mejor modelo al conjunto de datos de entrada. De ésta manera, se puede predecir directamente usando `best_estimator_`.

In [13]:
print("Best Score:{}\nBest Param:{}".format(grid_search2.best_score_, grid_search2.best_params_))

Best Score:-459407773.74392384
Best Param:{'max_depth': 10, 'max_leaf_nodes': None, 'min_samples_leaf': 15, 'min_samples_split': 2}


In [14]:
optimised_decision_tree = grid_search2.best_estimator_

__Evalúo en testing el desempeño de éste modelo.__

El resultado en testing será la medición que usaremos como benchmark para comparar este modelo con otros en el futuro, puesto que no estuvo en contacto con el dataset de test para la calibración.

In [15]:
from sklearn.metrics import mean_squared_error
y_opt_pred = optimised_decision_tree.predict(X_test)
rmse = np.sqrt(mean_squared_error(y_test, y_opt_pred))
np.round(rmse)

21301.0

Vemos los primeros 10 resultados de la predicción del valor de propiedades.

In [16]:
val_real = pd.Series(y_test.values)
val_pred = pd.Series(y_opt_pred)

In [17]:
predicciones = pd.concat([val_real.rename('Valor real'),val_pred.rename('Valor Pred') ,abs(val_real-val_pred).rename('Dif(+/-)')] ,  axis=1)

In [18]:
predicciones.head(10)

Unnamed: 0,Valor real,Valor Pred,Dif(+/-)
0,80000.0,103438.66,23438.66
1,128000.0,135705.882,7705.882
2,150000.0,156075.759,6075.759
3,85000.0,102400.991,17400.991
4,135000.0,135571.622,571.622
5,135000.0,109560.0,25440.0
6,68000.0,75181.25,7181.25
7,110000.0,140444.444,30444.444
8,134000.0,158431.25,24431.25
9,110000.0,76701.202,33298.798
