In [1]:
import pandas as pd
import numpy as np
import xgboost
from sklearn.metrics import mean_squared_error

import warnings
warnings.simplefilter("ignore", category=DeprecationWarning)

# http://xgboost.readthedocs.io/en/latest/python/python_api.html

In [2]:
def obtener_rmse(col_true, col_pred):
    return mean_squared_error(col_true, col_pred)**0.5

In [3]:
propiedades = pd.read_csv('/home/agustin/Escritorio/escritorio/fiuba/Organizacion de datos/datos para el tp2/set_datos_propiedades.csv')

In [4]:
propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull()),\
                             ['place_name_encoded', 'property_type_encoded','price_aprox_usd','superficie',\
                             'Year','Month','seguridad','aire','gimnasio','cochera','pileta']]

In [6]:
propiedades.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1132495 entries, 0 to 1413024
Data columns (total 11 columns):
place_name_encoded       1132495 non-null int64
property_type_encoded    1132495 non-null int64
price_aprox_usd          1132495 non-null float64
superficie               1132495 non-null float64
Year                     1132495 non-null int64
Month                    1132495 non-null int64
seguridad                1132495 non-null bool
aire                     1132495 non-null bool
gimnasio                 1132495 non-null bool
cochera                  1132495 non-null bool
pileta                   1132495 non-null bool
dtypes: bool(5), float64(2), int64(4)
memory usage: 65.9 MB


# XGBoost

In [5]:
columnas = ['superficie','place_name_encoded','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

In [6]:
set_entrenamiento = propiedades.loc[(propiedades.Year >= 2016) &((propiedades.Year < 2017) | (propiedades.Month < 6))\
                                    ,columnas_precio]
set_pruebas = propiedades.loc[(propiedades.Year == 2017) & (propiedades.Month == 6),columnas_precio].head(20000)

set_entrenamiento_datos = set_entrenamiento.loc[:,columnas]
set_entrenamiento_resultado = set_entrenamiento.loc[:,'price_aprox_usd']

In [7]:
xgb = xgboost.XGBRegressor()
xgb.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
set_pruebas.loc[:,'resultado'] = xgb.predict(set_pruebas.loc[:,columnas])
error = mean_squared_error(set_pruebas.price_aprox_usd, set_pruebas.resultado)
print('Error: ', error)

('Error: ', 70627765788.652054)


## Ahora que tenemos una intuicion, probamos cambiando los parametros

In [57]:
columnas = ['superficie','place_name_encoded','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

In [58]:
set_entrenamiento = propiedades.loc[(propiedades.Year >= 2016) &((propiedades.Year < 2017) | (propiedades.Month < 6))\
                                    ,columnas_precio]
set_pruebas = propiedades.loc[(propiedades.Year == 2017) & (propiedades.Month == 6),columnas_precio].head(20000)

set_entrenamiento_datos = set_entrenamiento.loc[:,columnas]
set_entrenamiento_resultado = set_entrenamiento.loc[:,'price_aprox_usd']

res = []

In [59]:
max_depth = [1, 3, 7]
learning = [0.1, 0.3, 0.5]
n_estimators = [50, 100]
booster = ['gbtree', 'gblinear', 'dart']

for m in max_depth:
    for n in n_estimators:
        for l in learning:
            for b in booster:
                xgb = xgboost.XGBRegressor(n_estimators = n, max_depth = m, learning_rate = l, booster = b)
                xgb.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
                set_pruebas.loc[:,'resultado'] = xgb.predict(set_pruebas.loc[:,columnas])
                error = mean_squared_error(set_pruebas.price_aprox_usd, set_pruebas.resultado)
                res.append((m, n, l, b, error))
                print(m, n, l, b)

(1, 50, 0.1, 'gbtree')
(1, 50, 0.1, 'gblinear')
(1, 50, 0.1, 'dart')
(1, 50, 0.3, 'gbtree')
(1, 50, 0.3, 'gblinear')
(1, 50, 0.3, 'dart')
(1, 50, 0.5, 'gbtree')
(1, 50, 0.5, 'gblinear')
(1, 50, 0.5, 'dart')
(1, 100, 0.1, 'gbtree')
(1, 100, 0.1, 'gblinear')
(1, 100, 0.1, 'dart')
(1, 100, 0.3, 'gbtree')
(1, 100, 0.3, 'gblinear')
(1, 100, 0.3, 'dart')
(1, 100, 0.5, 'gbtree')
(1, 100, 0.5, 'gblinear')
(1, 100, 0.5, 'dart')
(3, 50, 0.1, 'gbtree')
(3, 50, 0.1, 'gblinear')
(3, 50, 0.1, 'dart')
(3, 50, 0.3, 'gbtree')
(3, 50, 0.3, 'gblinear')
(3, 50, 0.3, 'dart')
(3, 50, 0.5, 'gbtree')
(3, 50, 0.5, 'gblinear')
(3, 50, 0.5, 'dart')
(3, 100, 0.1, 'gbtree')
(3, 100, 0.1, 'gblinear')
(3, 100, 0.1, 'dart')
(3, 100, 0.3, 'gbtree')
(3, 100, 0.3, 'gblinear')
(3, 100, 0.3, 'dart')
(3, 100, 0.5, 'gbtree')
(3, 100, 0.5, 'gblinear')
(3, 100, 0.5, 'dart')
(7, 50, 0.1, 'gbtree')
(7, 50, 0.1, 'gblinear')
(7, 50, 0.1, 'dart')
(7, 50, 0.3, 'gbtree')
(7, 50, 0.3, 'gblinear')
(7, 50, 0.3, 'dart')
(7, 50, 0.5, 'gb

In [60]:
max_depth = [7, 10]
l = 0.5
n_estimators = [300, 500]
b = 'gbtree'
for m in max_depth:
    for n in n_estimators:
        xgb = xgboost.XGBRegressor(n_estimators = n, max_depth = m, learning_rate = l, booster = b)
        xgb.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
        set_pruebas.loc[:,'resultado'] = xgb.predict(set_pruebas.loc[:,columnas])
        error = mean_squared_error(set_pruebas.price_aprox_usd, set_pruebas.resultado)
        res.append((m, n, l, b, error))
        print(m, n, l, b)

(7, 300, 0.5, 'gbtree')
(7, 500, 0.5, 'gbtree')
(10, 300, 0.5, 'gbtree')
(10, 500, 0.5, 'gbtree')


In [61]:
for r in res:
    print("Max_depth = {}, n_estimators = {}, learning_rate = {} , booster = {}, error = {}".format(r[0],r[1],r[2],r[3], r[4]))

Max_depth = 1, n_estimators = 50, learning_rate = 0.1 , booster = gbtree, error = 89451293300.6
Max_depth = 1, n_estimators = 50, learning_rate = 0.1 , booster = gblinear, error = 1.19920619905e+11
Max_depth = 1, n_estimators = 50, learning_rate = 0.1 , booster = dart, error = 89451293300.6
Max_depth = 1, n_estimators = 50, learning_rate = 0.3 , booster = gbtree, error = 87059794761.6
Max_depth = 1, n_estimators = 50, learning_rate = 0.3 , booster = gblinear, error = 1.19146619035e+11
Max_depth = 1, n_estimators = 50, learning_rate = 0.3 , booster = dart, error = 87059794761.6
Max_depth = 1, n_estimators = 50, learning_rate = 0.5 , booster = gbtree, error = 85218127548.2
Max_depth = 1, n_estimators = 50, learning_rate = 0.5 , booster = gblinear, error = 1.19071791597e+11
Max_depth = 1, n_estimators = 50, learning_rate = 0.5 , booster = dart, error = 85218127548.2
Max_depth = 1, n_estimators = 100, learning_rate = 0.1 , booster = gbtree, error = 87961505560.7
Max_depth = 1, n_estimators

In [62]:
min_error = float('inf')
tupla_min_error = ()
for r in res:
    if r[4] < min_error:
        min_error = r[4]
        tupla_min_error = r
        
print("Max_depth = {}, n_estimators = {}, learning_rate = {} , booster = {}, error = {}".\
    format(tupla_min_error[0],tupla_min_error[1],tupla_min_error[2],tupla_min_error[3], tupla_min_error[4]))

Max_depth = 10, n_estimators = 500, learning_rate = 0.5 , booster = gbtree, error = 12974389431.9


## Elegimos max_depth = 7, n_estimators = 100, learning_rate = 0.5 y booster = gbtree

In [15]:
columnas = ['superficie','place_name_encoded','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

In [16]:
set_entrenamiento = propiedades.loc[(propiedades.Year >= 2016) &((propiedades.Year < 2017) | (propiedades.Month < 6))\
                                    ,columnas_precio]
set_pruebas = propiedades.loc[(propiedades.Year == 2017) & (propiedades.Month == 6),columnas_precio].head(20000)

set_entrenamiento_datos = set_entrenamiento.loc[:,columnas]
set_entrenamiento_resultado = set_entrenamiento.loc[:,'price_aprox_usd']

In [17]:
m = 7
l = 0.5
n = 100
b = 'gbtree'

xgb = xgboost.XGBRegressor(n_estimators = n, max_depth = m, learning_rate = l, booster = b)
xgb.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
set_pruebas.loc[:,'resultado'] = xgb.predict(set_pruebas.loc[:,columnas])
error = mean_squared_error(set_pruebas.price_aprox_usd, set_pruebas.resultado)
print(error)

34462614151.3


## Elegimos max_depth = 10, n_estimators = 500, learning_rate = 0.5 y booster = gbtree

In [47]:
columnas = ['superficie','place_name_encoded','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

In [48]:
set_entrenamiento = propiedades.loc[(propiedades.Year >= 2016) &((propiedades.Year < 2017) | (propiedades.Month < 6))\
                                    ,columnas_precio]
set_pruebas = propiedades.loc[(propiedades.Year == 2017) & (propiedades.Month == 6),columnas_precio].head(20000)

set_entrenamiento_datos = set_entrenamiento.loc[:,columnas]
set_entrenamiento_resultado = set_entrenamiento.loc[:,'price_aprox_usd']

In [49]:
m = 10
l = 0.5
n = 500
b = 'gbtree'

xgb = xgboost.XGBRegressor(n_estimators = n, max_depth = m, learning_rate = l, booster = b)
xgb.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
set_pruebas.loc[:,'resultado'] = xgb.predict(set_pruebas.loc[:,columnas])
error = mean_squared_error(set_pruebas.price_aprox_usd, set_pruebas.resultado)
print(error)

12974389431.9


# calculo con los verdaderos datos a analizar

In [50]:
analizar = pd.read_csv("/home/agustin/Escritorio/escritorio/fiuba/Organizacion de datos/datos para el tp2/properati_dataset_modificado.csv")

In [51]:
analizar.loc[:,'price_usd'] = xgb.predict(analizar.loc[:,columnas])

In [52]:
analizar.price_usd.describe()

count    1.416600e+04
mean     2.380542e+05
std      4.528047e+05
min     -8.993336e+05
25%      1.032099e+05
50%      1.543094e+05
75%      2.629287e+05
max      4.404158e+07
Name: price_usd, dtype: float64

In [53]:
# Las predicciones con precio negativo las convierto en valores positivos
analizar.loc[:,'price_usd'] = analizar.loc[:,"price_usd"].apply(lambda x: abs(x))

In [54]:
analizar.price_usd.describe()

count    1.416600e+04
mean     2.393106e+05
std      4.521419e+05
min      2.949538e+02
25%      1.037648e+05
50%      1.547995e+05
75%      2.633302e+05
max      4.404158e+07
Name: price_usd, dtype: float64

In [55]:
resultado = analizar.loc[:,['id','price_usd']]

In [56]:
resultado.to_csv('resultados/XGBoost_resultados_2.csv', index = False)