# Importe De Librerías

In [174]:
import pandas as pd
import numpy as np
import xgboost as xgb
import sklearn
import pickle
import matplotlib.pyplot as plt

from sklearn.preprocessing import scale, MinMaxScaler
from sklearn.model_selection import StratifiedKFold, KFold,RandomizedSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import make_scorer
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import StandardScaler

from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
from sklearn.neighbors import KNeighborsRegressor
from sklearn import metrics

from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import AdaBoostRegressor
from six import StringIO
import pydotplus
from IPython.display import Image  
from sklearn.tree import export_graphviz

import warnings
warnings.filterwarnings('always')
from sklearn.linear_model import LinearRegression
from sklearn import tree, preprocessing, model_selection, ensemble

# Regresión

### Lectura de archivos

In [175]:
ds_regresion = pd.read_csv("properati_argentina_train.csv")
test = pd.read_csv("properati_argentina_test.csv")

ds_regresion_reducido = pd.read_csv("properati_argentina_reducido_train.csv")
test_reducido = pd.read_csv("properati_argentina_reducido_test.csv")

variables_a_eliminar = ["Unnamed: 0"]

ds_regresion.drop(columns=variables_a_eliminar, inplace=True)
test.drop(columns = variables_a_eliminar, inplace=True)

ds_regresion_reducido.drop(columns=variables_a_eliminar, inplace=True)
test_reducido.drop(columns = variables_a_eliminar, inplace=True)

## KNN

### Preparo los datasets


In [176]:
ds_train_knn = ds_regresion.copy()
ds_test_knn = test.copy()

ds_train_reducido_knn = ds_regresion_reducido.copy()
ds_test_reducido_knn = test_reducido.copy()

#Eliminamos las filas que contengan algún NaN, ya que sino fallan los calculos de las metricas

ds_train_knn = ds_train_knn.dropna()
ds_test_knn = ds_test_knn.dropna()

ds_train_reducido_knn = ds_train_reducido_knn.dropna()
ds_test_reducido_knn = ds_test_reducido_knn.dropna()

#### Primero entrenamos el modelo con el dataset no reducido

#### Z-Score - Ingeniería De Características

Escalamos las variables para que las variables con valores más grandes, como 'property surface total', no tengan más peso que las más pequeñas. Esto podría perjudicar las predicciones del modelo, ya que dificlta la comparación de features. Utilizamos Z-Score porque las variables 'property_surface_covered' y 'property_surface_total' no tienen un máximo definido. Podría aparecer una propiedad con terreno muy grande, lo cual  es un problema si normalizamos usando Min-Max. Como Z-Score mide el desvío estándar, no se ve afectado. Esto además lo vimos reflejado en las métricas, las cuales dieron mejor cuando normalizamos usando Z-Score. Para las variables 'property_rooms', 'property_bedrooms' y las resultantes de hacer One Hot Encoding a 'property_type' no fue necesario normalizarlas con Z-Score. No son lo suficientemente grandes como para perjudicar la comparación de features. Esto lo vimos reflejado, en las metricas, las cuales no variaron al aplicarle Z-Score a estas variables

In [177]:
# Escalamos las variables
standard_scaler = StandardScaler()

ds_train_knn["property_surface_covered"] = standard_scaler.fit_transform(ds_train_knn["property_surface_covered"].to_frame())
ds_train_knn["property_surface_total"] = standard_scaler.fit_transform(ds_train_knn["property_surface_total"].to_frame())
ds_train_knn["longitud"] = standard_scaler.fit_transform(ds_train_knn["longitud"].to_frame())
ds_train_knn["latitud"] = standard_scaler.fit_transform(ds_train_knn["latitud"].to_frame())

ds_test_knn["property_surface_covered"] = standard_scaler.fit_transform(ds_test_knn["property_surface_covered"].to_frame())
ds_test_knn["property_surface_total"] = standard_scaler.fit_transform(ds_test_knn["property_surface_total"].to_frame())
ds_test_knn["longitud"] = standard_scaler.fit_transform(ds_test_knn["longitud"].to_frame())
ds_test_knn["latitud"] = standard_scaler.fit_transform(ds_test_knn["latitud"].to_frame())

#### One Hot Encoding - Ingeniería De Características

Para poder correr el algoritmo, relizamos One Hot Encoding para las variables categoricas del dataset

In [178]:
#Realizamos One Hot Encoding

ds_train_knn = pd.get_dummies(ds_train_knn, columns=["property_type"], drop_first=True)
ds_test_knn = pd.get_dummies(ds_test_knn, columns=["property_type"], drop_first=True)

#### Eliminamos variables

Eliminamos la variable place_l3, ya que realizar One Hot Encoding generaría una nueva variable por cada barrio, lo cual agrandaría demasiado la dimensionalidad del dataset. Esto incrementaba el tiempo de entrenamiento del modelo, y no había una ganancia significativa en la performance

In [179]:
#Eliminamos la variable place_l3

variables_eliminadas=["place_l3"]
ds_train_knn.drop(variables_eliminadas, axis='columns', inplace=True)
ds_test_knn.drop(variables_eliminadas, axis='columns', inplace=True)

In [180]:
#Estado actual del dataset 
ds_train_knn


Unnamed: 0,latitud,longitud,property_rooms,property_bedrooms,property_surface_total,property_surface_covered,property_price,property_type_Departamento,property_type_PH
0,-0.202830,-0.825543,2.0,1.0,-0.357417,-0.422278,80000.0,1,0
1,0.628299,0.367785,2.0,1.0,-0.614211,-0.774079,79900.0,1,0
2,1.723005,-0.358624,1.0,1.0,-0.756875,-1.151008,69000.0,1,0
3,-1.369360,-0.689731,5.0,3.0,-0.043558,0.231066,150000.0,1,0
4,1.807274,-0.642786,2.0,1.0,-0.457282,-0.799207,85000.0,1,0
...,...,...,...,...,...,...,...,...,...
59846,-1.320864,1.811781,1.0,1.0,-0.599945,-0.849465,70000.0,1,0
59847,1.493074,-0.665072,3.0,2.0,-0.043558,0.231066,158000.0,1,0
59848,-1.232492,0.661945,3.0,2.0,0.313101,0.356709,175000.0,1,0
59849,0.351606,-0.353310,2.0,1.0,-0.243286,-0.170992,122000.0,1,0


#### Optimización de parametros con Random Search

In [181]:
x_train = ds_train_knn.drop(columns=["property_price"])
y_train = ds_train_knn["property_price"]

Decidimos usar Random Search para la búsqueda de hiperparametros. Si bien Grid Search permite buscar más combinaciones, su tiempo de ejecución puede ser demasiado alto, y no nos parece que se justifique su utilización. Random Search es capaz de darnos hiperparametros que generan buenas métricas con menos timepo de ejecución. Usamos 5 folds. Conluimos que usar más folds no mejora la performance, pero aumenta el tiempo de ejecución

In [182]:
#Grilla de Parámetros
params_grid={ 'n_neighbors':range(1,30), 
              'weights':['distance','uniform'],
              'algorithm':['ball_tree', 'kd_tree', 'brute'],
              'metric':['euclidean','manhattan','chebyshev', 'minkowski'],
              'leaf_size': list(range(0, 50)),
             }

#Metrica que quiero optimizar MSE
scorer_fn = make_scorer(sklearn.metrics.mean_squared_error)

#Clasificador KNN
knn=KNeighborsRegressor()

#Random Search con 5 Folds y 10 iteraciones
rand = RandomizedSearchCV(knn, params_grid, cv=5, scoring=scorer_fn, n_iter=10, random_state=5)

rand.fit(x_train, y_train)

In [183]:
#Mejores hiperparametros
print(rand.best_params_)

#Mejor métrica
mse = rand.best_score_

print("MSE en datos de entrnamiento: " + str((mse)))
print("RMSE en datos de entrnamiento: " + str(np.sqrt(mse)))

{'weights': 'uniform', 'n_neighbors': 24, 'metric': 'euclidean', 'leaf_size': 38, 'algorithm': 'kd_tree'}
MSE en datos de entrnamiento: 3294376711.414402
RMSE en datos de entrnamiento: 57396.661152147186


In [184]:
#Mejor estimador
best_knn=rand.best_estimator_

x_test_knn = ds_test_knn.drop(columns=["property_price"])
y_test_knn = ds_test_knn["property_price"]

y_pred_knn = best_knn.predict(x_test_knn)

In [185]:
#Metricas para evaluar modelos
from sklearn import metrics

#Mean Square Error
rmse = metrics.mean_squared_error(
        y_true  = y_test_knn,
        y_pred  = y_pred_knn,
        squared = True
       )

#Root Mean Square Error
rmse = metrics.mean_squared_error(
        y_true  = y_test_knn,
        y_pred  = y_pred_knn,
        squared = False
       )

print(f"El error (mse) de test es: {mse}")
print(f"El error (rmse) de test es: {rmse}")

El error (mse) de test es: 3294376711.414402
El error (rmse) de test es: 58122.91231534372


Buscamos los mejores hiperparametros que optimizen el MSE, ya que es la medida que nos interesa a al hora de hacer regresion. Queremos calcular el error medio de las predicciones, cuanto menor sea el error, mejor será la performance del modelo.

La metrica que utlizamos para evaluar el modelo es el RMSE. La ventaja de RMSE sobre MSE es que los valores de la métrica se corresponden con las unidades de la variable target que se predice. Así es más facil de dimensionar y entender cuanto es el error. 

La performance del modelo en el conjunto de entrenamiento fue muy similar a la de testeo. Esto significa que no hay overfitting, de haberlo la performance en el conjunto de entrenamiento sería mucho mejor que en el de testeo. Tampoco creemos que haya underfitting. Un RMSE de aproximadamente 60.000 tanto en conjunto de test como en el de entrenamiento, si bien no creemos que sea extremadamente bajo, no lo consideramos suficiente como para afirmar que el modelo sufre de underfitting. Dado esto consideramos que es un modelo robusto.

Guardamos el modelo

In [186]:
#filename = "knn.sav"
#pickle.dump(best_knn, open(filename, 'wb'))

#### Ahora entrenamos el modelo con el dataset reducido

In [187]:
#Estado del dataset reducido
ds_train_reducido_knn.head()

Unnamed: 0,cp_1,cp_2,cp_3,cp_4,cp_5,cp_6,target
0,-1.203931,-0.275293,0.413176,0.281218,-0.653813,0.322816,80000.0
1,-1.556395,0.103435,0.233243,-0.015272,0.565592,-0.18881,79900.0
2,-2.230063,-0.194028,1.52678,-0.09147,0.80976,-0.160262,69000.0
3,1.678872,0.694012,-0.608398,0.044571,-2.015136,-0.732341,150000.0
4,-1.511679,0.021077,1.780005,-0.186017,0.574209,-0.148672,85000.0


#### Optimizacion de parametros con Random search

In [188]:
x_train = ds_train_reducido_knn.drop(columns=["target"])
y_train = ds_train_reducido_knn["target"]

Nuevamente, y por las razones ya mencionadas más arriba, utilizamos Random Search y no Grid Search. Usamos 5 K-Folds, por las razones ya explicadas previamente

In [189]:
#Grilla de Parámetros
params_grid={ 'n_neighbors':range(1,30), 
              'weights':['distance','uniform'],
              'algorithm':['ball_tree', 'kd_tree', 'brute'],
              'metric':['euclidean','manhattan','chebyshev', 'minkowski'],
              'leaf_size': list(range(0, 50))
             }

#Metrica que quiero optimizar MSE
scorer_fn = make_scorer(sklearn.metrics.mean_squared_error)

#Clasificador KNN
knn=KNeighborsRegressor()

#Random Search con 10 Folds y 10 iteraciones
rand = RandomizedSearchCV(knn, params_grid, cv=5, scoring=scorer_fn, n_iter=10, random_state=5)

rand.fit(x_train, y_train)

In [190]:
#Mejores hiperparametros
print(rand.best_params_)

#Mejor métrica
mse = rand.best_score_
print("MSE en datos de entrnamiento: " + str((mse)))
print("RMSE en datos de entrnamiento: " + str(np.sqrt(mse)))


{'weights': 'uniform', 'n_neighbors': 24, 'metric': 'euclidean', 'leaf_size': 38, 'algorithm': 'kd_tree'}
MSE en datos de entrnamiento: 3201610044.7542567
RMSE en datos de entrnamiento: 56582.77162488823


In [191]:
#Mejor estimador
best_knn=rand.best_estimator_

x_test_reducido_knn = ds_test_reducido_knn.drop(columns=["target"])
y_test_reducido_knn = ds_test_reducido_knn["target"]

y_pred_knn = best_knn.predict(x_test_reducido_knn)

In [192]:
#Metricas para evaluar modelos
from sklearn import metrics

#Mean Squared Error
mse = metrics.mean_squared_error(
        y_true  = y_test_reducido_knn,
        y_pred  = y_pred_knn,
        squared = True
       )


#Root Mean Square Error
rmse = metrics.mean_squared_error(
        y_true  = y_test_reducido_knn,
        y_pred  = y_pred_knn,
        squared = False
       )


print(f"El error (mse) de test es: {mse}")
print(f"El error (rmse) de test es: {rmse}")

El error (mse) de test es: 2958021153.940659
El error (rmse) de test es: 54387.69303749387


Nuevamente, y por las mismas razones, buscamos los hiperparametros que optimizen MSE. A la hora de analizar la performance, volvemos a utilizar RMSE por la razones mencionadas previamente

Las metricas en los conjuntos de test y entrenamiento fueron similares. Consideramos que es un buen modelo, donde no se overfitea. Si bien hay margen de mejora para las métricas, las considermos como aceptables. 

Si comparamos los dos modelos (KNN con dataset reducido y KNN con dataset sin reducir) vemos que son bastante similares. Ambos modelos son buenos, con el modelo que usa el dataset reducido dando métricas apenas más bajas. La mayor diferencia a notamos en el tiempo de entrenamiento. Con el dataset reducido el tiempo de ejecución fue menor

Persistimos el modelo

In [193]:
#filename = "knn_reducido.sav"
#pickle.dump(best_knn, open(filename, 'wb'))

## XGBoost

In [234]:
ds_prop_XGBoost_train = ds_regresion.copy()
ds_prop_XGBoost_test = test.copy()

ds_prop_XGBoost_reducido_train = ds_regresion_reducido.copy()
ds_prop_XGBoost_reducido_test = test_reducido.copy()

ds_prop_XGBoost_train = ds_prop_XGBoost_train.dropna()
ds_prop_XGBoost_test = ds_prop_XGBoost_test.dropna()

ds_prop_XGBoost_reducido_train = ds_prop_XGBoost_reducido_train.dropna()
ds_prop_XGBoost_reducido_test = ds_prop_XGBoost_reducido_test.dropna()

#### Primero entrenamos el modelo con el dataset sin reducir

#### Ingeniería De Caraterísticas

Z-Score - Ingeniería De Características

Nuevamente, y por las mismas razones mencionadas en el algoritmo KNN, usamos Z-Score. Volvimos a notar que la performance mejora al usar Z-Score en vez de Min-Max. No normalizamos 'property_rooms', ni 'property_bedrooms', las variables de 'property_type', por las razones ya mencionadas (no mejora la performance)

In [235]:
#Escalamos las variables para que no tengan mayor peso
standard_scaler = StandardScaler()

ds_prop_XGBoost_train["property_surface_covered"] = standard_scaler.fit_transform(ds_prop_XGBoost_train["property_surface_covered"].to_frame())
ds_prop_XGBoost_train["property_surface_total"] = standard_scaler.fit_transform(ds_prop_XGBoost_train["property_surface_total"].to_frame())
ds_prop_XGBoost_train["longitud"] = standard_scaler.fit_transform(ds_prop_XGBoost_train["longitud"].to_frame())
ds_prop_XGBoost_train["latitud"] = standard_scaler.fit_transform(ds_prop_XGBoost_train["latitud"].to_frame())

ds_prop_XGBoost_test["property_surface_covered"] = standard_scaler.fit_transform(ds_prop_XGBoost_test["property_surface_covered"].to_frame())
ds_prop_XGBoost_test["property_surface_total"] = standard_scaler.fit_transform(ds_prop_XGBoost_test["property_surface_total"].to_frame())
ds_prop_XGBoost_test["longitud"] = standard_scaler.fit_transform(ds_prop_XGBoost_test["longitud"].to_frame())
ds_prop_XGBoost_test["latitud"] = standard_scaler.fit_transform(ds_prop_XGBoost_test["latitud"].to_frame())

#### One Hot Encoding - Ingeniería De Características

Por las razones ya mencionadas en KNN, usamos One Hot Encoding para las variables categoricas

In [236]:
#One Hot Encoding para variables categoricas

variables_reemplazadas = ["property_type"]
ds_prop_XGBoost_train = pd.get_dummies(ds_prop_XGBoost_train, columns=variables_reemplazadas, drop_first=True)
ds_prop_XGBoost_test = pd.get_dummies(ds_prop_XGBoost_test, columns=variables_reemplazadas, drop_first=True)

#### Eliminamos Variables

Volvemos a eliminar la variable 'place_l3' por las razones explicadas previamente

In [237]:
variables_eliminadas=["place_l3"]
ds_prop_XGBoost_train.drop(variables_eliminadas, axis='columns', inplace=True)
ds_prop_XGBoost_test.drop(variables_eliminadas, axis='columns', inplace=True)

In [238]:
#Estado del dataset
ds_prop_XGBoost_train

Unnamed: 0,latitud,longitud,property_rooms,property_bedrooms,property_surface_total,property_surface_covered,property_price,property_type_Departamento,property_type_PH
0,-0.202830,-0.825543,-0.575301,1.0,-0.357417,-0.422278,80000.0,1,0
1,0.628299,0.367785,-0.575301,1.0,-0.614211,-0.774079,79900.0,1,0
2,1.723005,-0.358624,-1.459566,1.0,-0.756875,-1.151008,69000.0,1,0
3,-1.369360,-0.689731,2.077491,3.0,-0.043558,0.231066,150000.0,1,0
4,1.807274,-0.642786,-0.575301,1.0,-0.457282,-0.799207,85000.0,1,0
...,...,...,...,...,...,...,...,...,...
59846,-1.320864,1.811781,-1.459566,1.0,-0.599945,-0.849465,70000.0,1,0
59847,1.493074,-0.665072,0.308963,2.0,-0.043558,0.231066,158000.0,1,0
59848,-1.232492,0.661945,0.308963,2.0,0.313101,0.356709,175000.0,1,0
59849,0.351606,-0.353310,-0.575301,1.0,-0.243286,-0.170992,122000.0,1,0


#### Optimización de parametros con Random Search

In [239]:
features = list(ds_prop_XGBoost_train.columns.values)
features.pop(features.index("property_price"))

target = ["property_price"]

x_train = ds_prop_XGBoost_train[features]
x_test = ds_prop_XGBoost_test[features]

y_train = ds_prop_XGBoost_train[target]
y_test = ds_prop_XGBoost_test[target]

Nuevamente, por las razones ya explicadas, buscamos los mejores hiperparametros usando Random CV. Usamos 8 folds por las razones ya explicadas

In [240]:
#KFOLD CV Random Search para buscar el mejor arbol (los mejores atributos, hiperparametros,etc)

#Cantidad de combinaciones que quiero porbar
n=10

#Conjunto de parámetros que quiero usar
params_grid = {'criterion':['gini','entropy'],                  #Luego de probar con varias combinaciones de parametros se
               'ccp_alpha':np.linspace(0,0.5,15),               #llegó a la conclusión de que Random Search encuentra los
               'max_depth':list(range(3,4)),                    #hiperparametros más adecuados con esta grilla 
               'random_state':list(range(0,6)),                 #de parametros
               'gamma':list(range(31,32)),
               'min_child_weight':list(range(17,18)),
               'colsample_bytree':np.linspace(0.75,0.8,15)}
                
#Cantidad de splits para el Cross Validation
folds=8

#Regresor
xgb_model_rd_search = xgb.XGBRegressor()

#Metrica que quiero optimizar MSE
scorer_fn = make_scorer(sklearn.metrics.mean_squared_error)

#Random Search Cross Validation
randomcv = RandomizedSearchCV(estimator=xgb_model_rd_search,
                              param_distributions = params_grid,
                              scoring=scorer_fn,
                              n_iter=n, cv=folds, random_state=5) 


#Busco los hiperparamtros que optimizan MSE
randomcv.fit(x_train,y_train)

Parameters: { "ccp_alpha", "criterion" } might not be used.

  This could be a false alarm, with some parameters getting used by language bindings but
  then being mistakenly passed down to XGBoost core, or some parameter actually being used
  but getting flagged wrongly here. Please open an issue if you find any such cases.


Parameters: { "ccp_alpha", "criterion" } might not be used.

  This could be a false alarm, with some parameters getting used by language bindings but
  then being mistakenly passed down to XGBoost core, or some parameter actually being used
  but getting flagged wrongly here. Please open an issue if you find any such cases.


Parameters: { "ccp_alpha", "criterion" } might not be used.

  This could be a false alarm, with some parameters getting used by language bindings but
  then being mistakenly passed down to XGBoost core, or some parameter actually being used
  but getting flagged wrongly here. Please open an issue if you find any such cases.


Parameters: {

In [241]:
#Mejores hiperparametros
print(randomcv.best_params_)

#Mejor métrica
mse = randomcv.best_score_

print("MSE en datos de entrnamiento: " + str((mse)))
print("RMSE en datos de entrnamiento: " + str(np.sqrt(mse)))

{'random_state': 4, 'min_child_weight': 17, 'max_depth': 3, 'gamma': 31, 'criterion': 'entropy', 'colsample_bytree': 0.775, 'ccp_alpha': 0.42857142857142855}
MSE en datos de entrnamiento: 3060413827.614752
RMSE en datos de entrnamiento: 55321.007109548824


#### Entrenamos el modelo

In [242]:
xgb_model = xgb.XGBRegressor().set_params(**randomcv.best_params_)
xgb_model.fit(x_train, y_train)

Parameters: { "ccp_alpha", "criterion" } might not be used.

  This could be a false alarm, with some parameters getting used by language bindings but
  then being mistakenly passed down to XGBoost core, or some parameter actually being used
  but getting flagged wrongly here. Please open an issue if you find any such cases.




In [243]:
from sklearn.metrics import mean_squared_error

y_pred = xgb_model.predict(x_test)

mse = mean_squared_error(y_test, y_pred, squared=True)
rmse = mean_squared_error(y_test, y_pred, squared=False)

print("MSE en datos de test: " + str(mse))
print("RMSE en datos de test: " + str(rmse))

MSE en datos de test: 3513300023.2385116
RMSE en datos de test: 59273.0969600755


In [244]:
#Atributos considerados y su importancia
sorted(list(zip(x_train.columns.to_list(), xgb_model.feature_importances_)), key=lambda x: -x[1])

[('property_rooms', 0.26310202),
 ('property_type_Departamento', 0.2540203),
 ('property_surface_total', 0.17548327),
 ('property_surface_covered', 0.16521488),
 ('latitud', 0.053980786),
 ('property_type_PH', 0.042792454),
 ('longitud', 0.03608689),
 ('property_bedrooms', 0.009319404)]

Volvemos a buscar los hiperparametros que optimizen MSE. Al ser hacer regresión, la métrica más conveniente es MSE, queremos el error cuadrático medio 
Nuevamente medimos que tan precisas fueron las predicciones usando RMSE. La ventaja de usar RMSE en vez de MSE es que el valor de RMSE está en las mismas unidades que la variable target

La performance del conjunto de test y de entrenamiento fue similar, lo cual es bueno. El hecho de que las performances sean sean similares nos indica que no hay overfitting. Las metricas en ambos conjuntos no son altas, por lo tanto no consideramos que haya underfitting

Guardamos el modelo

In [245]:
#filename = "xgb_model.sav"
#pickle.dump(xgb_model, open(filename, 'wb'))

#### Ahora probamos el modelo con el dataset reducido

In [246]:
x_train = ds_prop_XGBoost_reducido_train.drop(columns=["target"])
y_train = ds_prop_XGBoost_reducido_train["target"]

x_test = ds_prop_XGBoost_reducido_test.drop(columns=["target"])
y_test = ds_prop_XGBoost_reducido_test["target"]

In [247]:
#Estado del dataset reducido
ds_prop_XGBoost_reducido_train

Unnamed: 0,cp_1,cp_2,cp_3,cp_4,cp_5,cp_6,target
0,-1.203931,-0.275293,0.413176,0.281218,-0.653813,0.322816,80000.0
1,-1.556395,0.103435,0.233243,-0.015272,0.565592,-0.188810,79900.0
2,-2.230063,-0.194028,1.526780,-0.091470,0.809760,-0.160262,69000.0
3,1.678872,0.694012,-0.608398,0.044571,-2.015136,-0.732341,150000.0
4,-1.511679,0.021077,1.780005,-0.186017,0.574209,-0.148672,85000.0
...,...,...,...,...,...,...,...
59846,-2.002204,0.023406,-2.141913,0.378118,0.582682,0.273304,70000.0
59847,0.129276,0.646630,1.565487,-0.334909,0.135125,-0.360703,158000.0
59848,0.377534,0.654601,-1.306694,0.147717,-0.460932,0.286666,175000.0
59849,-1.090624,0.035584,0.529826,0.098430,0.007456,0.265632,122000.0


#### Optimización de parametros con Random Search

Volvemos a usar Random Search para buscar los hiperparametros por las razones explicadas previamente. Usamos 8 folds

In [248]:
#KFOLD CV Random Search para buscar el mejor arbol (los mejores atributos, hiperparametros,etc)

#Cantidad de combinaciones que quiero porbar
n=10

#Conjunto de parámetros que quiero usar
params_grid = {'criterion':['gini','entropy'],                  #Luego de probar con varias combinaciones de parametros se
               'ccp_alpha':np.linspace(0,0.5,15),               #llegó a la conclusión de que Random Search encuentra los
               'max_depth':list(range(3,4)),                    #hiperparametros más adecuados con esta grilla 
               'random_state':list(range(0,6)),                 #de parametros
               'gamma':list(range(31,32)),
               'min_child_weight':list(range(17,18)),
               'colsample_bytree':np.linspace(0.75,0.8,15)}
                
#Cantidad de splits para el Cross Validation
folds=8

#Regresor
xgb_model_rd_search = xgb.XGBRegressor()

#Metrica que quiero optimizar MSE
scorer_fn = make_scorer(sklearn.metrics.mean_squared_error)

#Random Search Cross Validation
randomcv = RandomizedSearchCV(estimator=xgb_model_rd_search,
                              param_distributions = params_grid,
                              scoring=scorer_fn,
                              n_iter=n, cv=folds, random_state=5) 


#Busco los hiperparamtros que optimizan MSE
randomcv.fit(x_train,y_train)

Parameters: { "ccp_alpha", "criterion" } might not be used.

  This could be a false alarm, with some parameters getting used by language bindings but
  then being mistakenly passed down to XGBoost core, or some parameter actually being used
  but getting flagged wrongly here. Please open an issue if you find any such cases.


Parameters: { "ccp_alpha", "criterion" } might not be used.

  This could be a false alarm, with some parameters getting used by language bindings but
  then being mistakenly passed down to XGBoost core, or some parameter actually being used
  but getting flagged wrongly here. Please open an issue if you find any such cases.


Parameters: { "ccp_alpha", "criterion" } might not be used.

  This could be a false alarm, with some parameters getting used by language bindings but
  then being mistakenly passed down to XGBoost core, or some parameter actually being used
  but getting flagged wrongly here. Please open an issue if you find any such cases.


Parameters: {

KeyboardInterrupt: 

In [None]:
#Mejores hiperparametros
print(randomcv.best_params_)

#Mejor métrica
mse = randomcv.best_score_
print("MSE en datos de entrnamiento: " + str((mse)))
print("RMSE en datos de entrnamiento: " + str(np.sqrt(mse)))

{'random_state': 0, 'min_child_weight': 17, 'max_depth': 3, 'gamma': 31, 'criterion': 'gini', 'colsample_bytree': 0.7892857142857144, 'ccp_alpha': 0.17857142857142855}
MSE en datos de entrnamiento: 3520345365.5498257
RMSE en datos de entrnamiento: 59332.498392953465


In [None]:
xgb_model = xgb.XGBRegressor().set_params(**randomcv.best_params_)
xgb_model.fit(x_train, y_train)

Parameters: { "ccp_alpha", "criterion" } might not be used.

  This could be a false alarm, with some parameters getting used by language bindings but
  then being mistakenly passed down to XGBoost core, or some parameter actually being used
  but getting flagged wrongly here. Please open an issue if you find any such cases.




Medimos que tan precisas fueron las predicciones usando RMSE. La ventaja de usar RMSE en vez de MSE es que el valor de RMSE está en las mismas unidades que la variable target. De esta forma es más fácil dimensionar que tan preciso es el modelo creado

In [None]:
from sklearn.metrics import mean_squared_error

y_pred = xgb_model.predict(x_test)

rmse = mean_squared_error(y_test, y_pred, squared=False)
mse = mean_squared_error(y_test, y_pred, squared=True)

print("MSE en datos de test: " + str(mse))
print("RMSE en datos de test: " + str(rmse))

MSE en datos de test: 3387106716.5719995
RMSE en datos de test: 58198.854942103455


In [None]:
#Atributos considerados y su importancia
sorted(list(zip(x_train.columns.to_list(), xgb_model.feature_importances_)), key=lambda x: -x[1])

[('cp_2', 0.45453882),
 ('cp_1', 0.19503015),
 ('cp_6', 0.13273698),
 ('cp_4', 0.11194253),
 ('cp_5', 0.054574847),
 ('cp_3', 0.051176704)]

Vemos que, similar al modelo que usa el dataset sin reducir, la performance de entrenamiento y la del conjunto de evaluación es bastante similar. Esto significa que no hay overfitting, es decir, el modelo no se aprende de 'memoria' los datos de entrenamiento y no pierde precision al realizar las predicciones en el conjunto de evaluación. Consideramos que es un modelo robusto.

No hay muchas diferencias entre el modelo que usa el dataset reducido y el que el dataset sin reducir. Las métricas son muy similares, y los tiempos de ejecución también

Por ultimo, persistimos el modelo

In [None]:
#filename = "xgb_model_reducido.sav"
#pickle.dump(xgb_model, open(filename, 'wb'))

## GradientBoost

In [None]:
ds_prop_GBoost_train = ds_regresion.copy()
ds_prop_GBoost_test = test.copy()

ds_prop_GBoost_reducido_train = ds_regresion_reducido.copy()
ds_prop_GBoost_reducido_test = test_reducido.copy()

#Eliminamos las filas que contengan NaN para que no genere problemas a la hora de calcular las metricas

ds_prop_GBoost_train = ds_prop_GBoost_train.dropna()
ds_prop_GBoost_test = ds_prop_GBoost_test.dropna()

ds_prop_GBoost_reducido_train = ds_prop_GBoost_reducido_train.dropna()
ds_prop_GBoost_reducido_test = ds_prop_GBoost_reducido_test.dropna()

#### Primero entrenamos el modelo con el dataset sin reducir

#### Ingenieria De Caracteristicas

Z-Score - Ingeniera De Caracteristicas

Por las razones ya mencionadas, volvemos a normalizar usando Z-Score. Al igual que con KNN y XGBoost, notamos como las métricas mejoraron cuando usamos Z-Score para normalizar, en comparación con Min-Max. También, por las mismas razones, no normalizamos 'property_rooms', ni 'property_bedrooms', ni las variables que son producto de realizarle One Hot Encoding a 'propety_type'.

In [None]:
#Escalamos las variables para que no tengan mayor peso

standard_scaler = StandardScaler()

ds_prop_GBoost_train["property_surface_covered"] = standard_scaler.fit_transform(ds_prop_GBoost_train["property_surface_covered"].to_frame())
ds_prop_GBoost_train["property_surface_total"] = standard_scaler.fit_transform(ds_prop_GBoost_train["property_surface_total"].to_frame())
ds_prop_GBoost_train["longitud"] = standard_scaler.fit_transform(ds_prop_GBoost_train["longitud"].to_frame())
ds_prop_GBoost_train["latitud"] = standard_scaler.fit_transform(ds_prop_GBoost_train["latitud"].to_frame())

ds_prop_GBoost_test["property_surface_covered"] = standard_scaler.fit_transform(ds_prop_GBoost_test["property_surface_covered"].to_frame())
ds_prop_GBoost_test["property_surface_total"] = standard_scaler.fit_transform(ds_prop_GBoost_test["property_surface_total"].to_frame())
ds_prop_GBoost_test["longitud"] = standard_scaler.fit_transform(ds_prop_GBoost_test["longitud"].to_frame())
ds_prop_GBoost_test["latitud"] = standard_scaler.fit_transform(ds_prop_GBoost_test["latitud"].to_frame())

#### One Hot Encoding - Ingeniería De Caracteristicas

Volvemos a usar One Hot Encoding para las variables categoricas por las razones explicadas previamente

In [None]:
#One Hot Encoding para variables categoricas

variables_reemplazadas = ["property_type"]
ds_prop_GBoost_train = pd.get_dummies(ds_prop_GBoost_train, columns=variables_reemplazadas, drop_first=True)
ds_prop_GBoost_test = pd.get_dummies(ds_prop_GBoost_test, columns=variables_reemplazadas, drop_first=True)

#### Eliminamos Variables

Nuevamente, por las mismas razones, volvemos a eliminar la variable 'place_l3'

In [None]:
#Eliminamos place_l3 

variables_eliminadas=["place_l3"]
ds_prop_GBoost_train.drop(variables_eliminadas, axis='columns', inplace=True)
ds_prop_GBoost_test.drop(variables_eliminadas, axis='columns', inplace=True)

In [None]:
#Estado del dataset

ds_prop_GBoost_train

Unnamed: 0,latitud,longitud,property_rooms,property_bedrooms,property_surface_total,property_surface_covered,property_price,property_type_Departamento,property_type_PH
0,-0.202830,-0.825543,2.0,1.0,-0.357417,-0.422278,80000.0,1,0
1,0.628299,0.367785,2.0,1.0,-0.614211,-0.774079,79900.0,1,0
2,1.723005,-0.358624,1.0,1.0,-0.756875,-1.151008,69000.0,1,0
3,-1.369360,-0.689731,5.0,3.0,-0.043558,0.231066,150000.0,1,0
4,1.807274,-0.642786,2.0,1.0,-0.457282,-0.799207,85000.0,1,0
...,...,...,...,...,...,...,...,...,...
59846,-1.320864,1.811781,1.0,1.0,-0.599945,-0.849465,70000.0,1,0
59847,1.493074,-0.665072,3.0,2.0,-0.043558,0.231066,158000.0,1,0
59848,-1.232492,0.661945,3.0,2.0,0.313101,0.356709,175000.0,1,0
59849,0.351606,-0.353310,2.0,1.0,-0.243286,-0.170992,122000.0,1,0


#### Optimización de parametros con Random Search

Volvemos a usar Random Search, esta vez con 8 folds. Las razones son las mismas que fueron explicadas previamente

In [None]:
#Hacemos division Train-Test

x_train = ds_prop_GBoost_train.drop(columns=["property_price"])
y_train = ds_prop_GBoost_train["property_price"]

x_test = ds_prop_GBoost_test.drop(columns=["property_price"])
y_test = ds_prop_GBoost_test["property_price"]

In [None]:
#KFOLD CV Random Search para buscar el mejor arbol (los mejores atributos, hiperparametros,etc)

#Cantidad de combinaciones que quiero porbar
n=10

#Conjunto de parámetros que quiero usar
params_grid = {'n_estimators': [50, 100], #nº de etapas de boosting
                        'learning_rate': [0.01, 0.1], #reduce la contribucion de cada arbol por este valor 
                        'max_features': [4, 5], #nº de variables a tener en cuenta para las divisiones
                        'min_samples_split': [5, 10]} #nº mínimo de observaciones necesarias para dividir un nodo interno (n.minobsinnode en R)

                
#Cantidad de splits para el Cross Validation
folds=8

#Regresor
gb_model_rd_search = ensemble.GradientBoostingRegressor()

#Metrica que quiero optimizar MSE
scorer_fn = make_scorer(sklearn.metrics.mean_squared_error)

#Random Search Cross Validation
randomcv = RandomizedSearchCV(estimator=gb_model_rd_search,
                              param_distributions = params_grid,
                              scoring=scorer_fn,
                              n_iter=n, cv=folds, random_state=5) 


#Busco los hiperparamtros que optimizan MSE
randomcv.fit(x_train,y_train)

In [None]:
#Mejores hiperparametros
print(randomcv.best_params_)

#Mejor métrica
mse = randomcv.best_score_
print("MSE en datos de entrnamiento: " + str((mse)))
print("RMSE en datos de entrnamiento: " + str(np.sqrt(mse)))

{'n_estimators': 50, 'min_samples_split': 10, 'max_features': 4, 'learning_rate': 0.01}
MSE en datos de entrnamiento: 10725084222.221561
RMSE en datos de entrnamiento: 103561.98251395905


#### Entrenamos el modelo

In [None]:
gb_model = ensemble.GradientBoostingRegressor().set_params(**randomcv.best_params_)
gb_model.fit(x_train, y_train)

In [None]:
from sklearn.metrics import mean_squared_error

y_pred = gb_model.predict(x_test)

rmse = mean_squared_error(y_test, y_pred, squared=False)
mse = mean_squared_error(y_test, y_pred, squared=True)

print("MSE en datos de test: " + str(mse))
print("RMSE en datos de test: " + str(rmse))

MSE en datos de test: 10563641564.61387
RMSE en datos de test: 102779.57756584657


In [None]:
#Atributos considerados y su importancia
sorted(list(zip(x_train.columns.to_list(), gb_model.feature_importances_)), key=lambda x: -x[1])

[('property_surface_covered', 0.544099340543574),
 ('property_surface_total', 0.27354095327171546),
 ('property_type_Departamento', 0.05302418447595895),
 ('property_rooms', 0.03979849024531204),
 ('latitud', 0.033501267429593924),
 ('property_bedrooms', 0.027828489504006522),
 ('longitud', 0.019743057007228428),
 ('property_type_PH', 0.008464217522610727)]

Volvemos a buscar los hiperparámetros que optimicen la MSE, y nuevamente usamos el RMSE para analizar la performance de modelo.

La performance del modelo fue muy similar entre los datos del conjunto de entrenamiento y el conjunto de test. Por lo tanto, consideramos que no hay overfitting. Las métricas son un poco más elevadas con respecto a los modelos que usan KNN y XGBoost, por lo tanto es evidente que el modelo no ajusta igual de bien que con los otros dos algoritmos

Guardamos el modelo

In [None]:
#filename = "gradient_boost"
#pickle.dump(modelo_boostingR, open(filename, 'wb'))

#### Ahora usamos el dataset reducido

In [None]:
x_train = ds_prop_GBoost_reducido_train.drop(columns=["target"])
y_train = ds_prop_GBoost_reducido_train["target"]

x_test = ds_prop_GBoost_reducido_test.drop(columns=["target"])
y_test = ds_prop_GBoost_reducido_test["target"]


In [None]:
ds_prop_GBoost_reducido_train

Unnamed: 0,cp_1,cp_2,cp_3,cp_4,cp_5,cp_6,target
0,-1.203931,-0.275293,0.413176,0.281218,-0.653813,0.322816,80000.0
1,-1.556395,0.103435,0.233243,-0.015272,0.565592,-0.188810,79900.0
2,-2.230063,-0.194028,1.526780,-0.091470,0.809760,-0.160262,69000.0
3,1.678872,0.694012,-0.608398,0.044571,-2.015136,-0.732341,150000.0
4,-1.511679,0.021077,1.780005,-0.186017,0.574209,-0.148672,85000.0
...,...,...,...,...,...,...,...
59846,-2.002204,0.023406,-2.141913,0.378118,0.582682,0.273304,70000.0
59847,0.129276,0.646630,1.565487,-0.334909,0.135125,-0.360703,158000.0
59848,0.377534,0.654601,-1.306694,0.147717,-0.460932,0.286666,175000.0
59849,-1.090624,0.035584,0.529826,0.098430,0.007456,0.265632,122000.0


#### Optimización de parametros con Random Search

Usamos Random Search con 8 folds por las razones explicadas previamente

In [None]:
#KFOLD CV Random Search para buscar el mejor arbol (los mejores atributos, hiperparametros,etc)

#Cantidad de combinaciones que quiero porbar
n=10

#Conjunto de parámetros que quiero usar
params_grid = {'n_estimators': [50, 100], #nº de etapas de boosting
                        'learning_rate': [0.01, 0.1], #reduce la contribucion de cada arbol por este valor 
                        'max_features': [4, 5], #nº de variables a tener en cuenta para las divisiones
                        'min_samples_split': [5, 10]} #nº mínimo de observaciones necesarias para dividir un nodo interno (n.minobsinnode en R)

                
#Cantidad de splits para el Cross Validation
folds=8

#Regresor
gb_model_rd_search = ensemble.GradientBoostingRegressor()

#Metrica que quiero optimizar MSE
scorer_fn = make_scorer(sklearn.metrics.mean_squared_error)

#Random Search Cross Validation
randomcv = RandomizedSearchCV(estimator=gb_model_rd_search,
                              param_distributions = params_grid,
                              scoring=scorer_fn,
                              n_iter=n, cv=folds, random_state=5) 


#Busco los hiperparamtros que optimizan MSE
randomcv.fit(x_train,y_train)

In [None]:
#Mejores hiperparametros
print(randomcv.best_params_)

#Mejor métrica
mse = randomcv.best_score_
print("MSE en datos de entrnamiento: " + str((mse)))
print("RMSE en datos de entrnamiento: " + str(np.sqrt(mse)))

{'n_estimators': 50, 'min_samples_split': 10, 'max_features': 4, 'learning_rate': 0.01}
MSE en datos de entrnamiento: 11191550767.050606
RMSE en datos de entrnamiento: 105790.12603759675


In [None]:
gb_model = ensemble.GradientBoostingRegressor().set_params(**randomcv.best_params_)
gb_model.fit(x_train, y_train)

In [None]:
from sklearn.metrics import mean_squared_error

y_pred = gb_model.predict(x_test)

rmse = mean_squared_error(y_test, y_pred, squared=False)
mse = mean_squared_error(y_test, y_pred, squared=True)

print("MSE en datos de test: " + str(mse))
print("RMSE en datos de test: " + str(rmse))

MSE en datos de test: 11224736345.367195
RMSE en datos de test: 105946.85623163717


In [None]:
#Atributos considerados y su importancia
sorted(list(zip(x_train.columns.to_list(), gb_model.feature_importances_)), key=lambda x: -x[1])

[('cp_2', 0.607149393302342),
 ('cp_1', 0.22115644453649388),
 ('cp_6', 0.07551045268782061),
 ('cp_4', 0.07269170591048728),
 ('cp_5', 0.0136765701038798),
 ('cp_3', 0.009815433458976505)]

Volvemos a buscar los hiperparametros que optimicen el MSE, y usamos el RMSE para analizar la performnce

Nuevamente vemos que la performance en el conjunto de entrenamiento y evaluación es similar. No hay overfitting, pero las métricas vuelven a dar un poco más elevadas con respecto a los otros dos algoritmos

La performance tanto con el dataset reducido, como en el dataset sin reducir fue muy similar. Se puede apreciar una leve mejora en la métricas en modelo que usa el dataset sin reducir. La mayor diferencia la notamos en el tiempo de ejecución, donde el modelo que usa el dataset sin reducir se ejcutó en menor tiempo

Guardamos el modelo

In [None]:
#filename = "gradient_boost_reducido"
#pickle.dump(modelo_boostingR, open(filename, 'wb'))

## Conclusiones

El algoritmo que peor performa es claramente el de GradientBoost. Entre los tres algoritmos, es el que peores métricas produce. Además es el que más tiempo tarda en ejecutar. 

XGBoost y KNN tienen performances similares, con KNN mostrando una pequeña mejoría en las métricas. Sin embargo, el tiempo de ejecución de KNN es menor. Por lo tanto, consideramos que los modelos de KNN son los mejores.

Como mencionamos más arriba, el modelo de KNN que usa el dataset reducido es levemente más preciso que el que usa el dataset original, y es un poco más rápido a la hora de ejecutarse. De esta forma, nos parece que el mejor modelo es el de KNN que utiliza el dataset reducido. Sin embargo, el resto de los modelos de KNN y XGBoost le siguen de cerca.
