In [1]:
import pandas as pd
import numpy as np
from sklearn.ensemble import ExtraTreesRegressor
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import GridSearchCV
from sklearn.externals import joblib
import time
from sklearn.decomposition import TruncatedSVD
from sklearn.model_selection import train_test_split

import warnings
warnings.simplefilter("ignore", category=DeprecationWarning)

In [2]:
propiedades = pd.read_csv('../../set_datos_propiedades.csv')

In [3]:
propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull()),\
                             ['place_name_encoded', 'property_type_encoded','price_aprox_usd','superficie',\
                             'Year','Month','seguridad','aire','gimnasio','cochera','pileta']]

# Extra Trees

In [5]:
columnas = ['superficie','place_name_encoded','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

In [6]:
set_entrenamiento = propiedades.loc[(propiedades.Year >= 2016) &((propiedades.Year < 2017) | (propiedades.Month < 6))\
                                    ,columnas_precio]
set_pruebas = propiedades.loc[(propiedades.Year == 2017) & (propiedades.Month == 6),columnas_precio].head(20000)

set_entrenamiento_datos = set_entrenamiento.loc[:,columnas]
set_entrenamiento_resultado = set_entrenamiento.loc[:,'price_aprox_usd']

In [7]:
tree = ExtraTreesRegressor()
tree.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply(lambda x: tree.predict([x])[0],axis = 1)
precision = tree.score(set_pruebas.loc[:,columnas],set_pruebas.price_aprox_usd) * 100
error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
print("Precision = {:.2f} % , error = {}".format(precision, error))

Precision = 91.10 % , error = 12283571587.994453


In [8]:
for i in range (10):
    tree = ExtraTreesRegressor(warm_start = True)
    tree.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
    set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply(lambda x: tree.predict([x])[0],axis = 1)
    precision = tree.score(set_pruebas.loc[:,columnas],set_pruebas.price_aprox_usd) * 100
    error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
    print("{} - Precision = {:.2f} % , error = {}".format(i, precision, error))

0 - Precision = 91.04 % , error = 12364606457.395063
1 - Precision = 91.01 % , error = 12401141721.729986
2 - Precision = 91.01 % , error = 12400642509.67664
3 - Precision = 91.02 % , error = 12382131275.855284
4 - Precision = 91.05 % , error = 12347604610.34062
5 - Precision = 91.03 % , error = 12376616074.84907
6 - Precision = 91.02 % , error = 12395149588.84798
7 - Precision = 91.04 % , error = 12368032690.276468
8 - Precision = 91.03 % , error = 12374965587.690071
9 - Precision = 91.04 % , error = 12367679923.832384


#### Warm start no influye mucho por lo que decidimos no utilizarlo.

## Ahora que tenemos una intuicion, probamos cambiando los parametros

In [4]:
columnas = ['superficie','place_name_encoded','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

In [5]:
set_entrenamiento = propiedades.loc[(propiedades.Year >= 2016) &((propiedades.Year < 2017) | (propiedades.Month < 6))\
                                    ,columnas_precio]
set_pruebas = propiedades.loc[(propiedades.Year == 2017) & (propiedades.Month == 6),columnas_precio].head(20000)

set_entrenamiento_datos = set_entrenamiento.loc[:,columnas]
set_entrenamiento_resultado = set_entrenamiento.loc[:,'price_aprox_usd']

res = []

In [None]:
lista_criterio = ['mse']
lista_max_depth = [None,1,5,10]
lista_features = [0.4,0.6,1.0]
lista_estimators = [5, 10, 20, 50]

for criterio in lista_criterio:
    for max_depth in lista_max_depth:
        for estimator in lista_estimators:
            for feature in lista_features:

                tree = ExtraTreesRegressor(criterion = criterio, max_depth = max_depth, n_estimators = estimator,\
                                max_features = feature)
                tree.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
                set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply\
                        (lambda x: tree.predict(x)[0],axis = 1)
                precision = tree.score(set_pruebas.loc[:,columnas],set_pruebas.loc[:,'price_aprox_usd']) * 100
                error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
                res.append((criterio,max_depth,estimator,feature,precision,error))
                print(criterio,' - ',max_depth,' - ',estimator,' - ',feature)

In [7]:
for r in res:
    print("Criterio = {}, max_depth = {}, n_estimators = {}, features = {}, precision = {:.2f} % , error = {}"\
          .format(r[0],r[1],r[2],r[3],r[4],r[5]))

Criterio = mse, max_depth = None, n_estimators = 5, features = 0.4, precision = 91.03 % , error = 12368260838.480778
Criterio = mse, max_depth = None, n_estimators = 5, features = 0.6, precision = 91.02 % , error = 12384470260.495207
Criterio = mse, max_depth = None, n_estimators = 5, features = 1.0, precision = 91.03 % , error = 12373499765.923872
Criterio = mse, max_depth = None, n_estimators = 10, features = 0.4, precision = 91.01 % , error = 12402224812.661474
Criterio = mse, max_depth = None, n_estimators = 10, features = 0.6, precision = 91.01 % , error = 12408602399.492172
Criterio = mse, max_depth = None, n_estimators = 10, features = 1.0, precision = 90.98 % , error = 12449835718.443325
Criterio = mse, max_depth = None, n_estimators = 20, features = 0.4, precision = 91.03 % , error = 12372884685.18024
Criterio = mse, max_depth = None, n_estimators = 20, features = 0.6, precision = 91.04 % , error = 12356921945.141111
Criterio = mse, max_depth = None, n_estimators = 20, feature

In [8]:
min_error = float('inf')
max_precision = 0
tupla_min_error = ()
tupla_max_precision = ()
for r in res:
    if r[5] < min_error:
        min_error = r[5]
        tupla_min_error = r
    if r[4] > max_precision:
        max_precision = r[4]
        tupla_max_precision = r
        
print("Mayor precision = Criterio = {}, max_depth = {}, n_estimators = {}, features = {}, precision = {:.2f} % , error = {}".\
              format(tupla_max_precision[0],tupla_max_precision[1],tupla_max_precision[2],tupla_max_precision[3],tupla_max_precision[4],tupla_max_precision[5]))
print("Menor error = Criterio = {}, max_depth = {}, n_estimators = {}, features = {}, precision = {:.2f} % , error = {}".\
              format(tupla_min_error[0],tupla_min_error[1],tupla_min_error[2],tupla_min_error[3],tupla_min_error[4],tupla_min_error[5]))

Mayor precision = Criterio = mse, max_depth = None, n_estimators = 50, features = 0.6, precision = 91.07 % , error = 12324003203.223608
Menor error = Criterio = mse, max_depth = None, n_estimators = 50, features = 0.6, precision = 91.07 % , error = 12324003203.223608


### Vemos que los mejores resultados no varian demasiado del default
## Tomamos los parametros por default

In [36]:
#Probamos distintas combinaciones de columnas, esta es la que dio mejores resultados

columnas = ['superficie','place_name_encoded','property_type_encoded','seguridad','gimnasio','aire','pileta','cochera']
columnas_precio = columnas + ['price_aprox_usd']

In [37]:
set_entrenamiento = propiedades.loc[(propiedades.Year >= 2017) &((propiedades.Year < 2017) | (propiedades.Month < 6))\
                                    ,columnas_precio]
set_pruebas = propiedades.loc[(propiedades.Year == 2017) & (propiedades.Month == 6),columnas_precio].head(20000)

set_entrenamiento_datos = set_entrenamiento.loc[:,columnas]
set_entrenamiento_resultado = set_entrenamiento.loc[:,'price_aprox_usd']

In [38]:
tree = ExtraTreesRegressor()
tree.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply(lambda x: tree.predict(x)[0],axis = 1)
precision = tree.score(set_pruebas.loc[:,columnas],set_pruebas.price_aprox_usd) * 100
error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
print("Precision = {:.2f} % , error = {}".format(precision, error))

Precision = 91.30 % , error = 12005480261.044409


# calculo con los verdaderos datos a analizar

In [39]:
analizar = pd.read_csv("../properati_dataset_modificado.csv")

In [40]:
analizar.loc[:,'price_usd'] = analizar.loc[:,columnas].apply(lambda x: tree.predict(x)[0],axis = 1)

In [41]:
resultado = analizar.loc[:,['id','price_usd']]

In [42]:
resultado.to_csv('resultados/Extra_trees.csv', index = False)

# Ahora uso lat y lon en lugar de place name

In [3]:
propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()),\
                             ['lat', 'lon', 'property_type_encoded','price_aprox_usd','superficie',\
                             'Year','Month','seguridad','aire','gimnasio','cochera','pileta']]

In [4]:
columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

In [5]:
set_entrenamiento = propiedades.loc[(propiedades.Year >= 2016) &((propiedades.Year < 2017) | (propiedades.Month < 6))\
                                    ,columnas_precio]
set_pruebas = propiedades.loc[(propiedades.Year == 2017) & (propiedades.Month == 6),columnas_precio].head(20000)

set_entrenamiento_datos = set_entrenamiento.loc[:,columnas]
set_entrenamiento_resultado = set_entrenamiento.loc[:,'price_aprox_usd']

In [6]:
tree = ExtraTreesRegressor()
tree.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply(lambda x: tree.predict([x])[0],axis = 1)
precision = tree.score(set_pruebas.loc[:,columnas],set_pruebas.price_aprox_usd) * 100
error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
print("Precision = {:.2f} % , error = {}".format(precision, error))

Precision = 98.48 % , error = 1758674510.4602613


In [7]:
res = []

In [None]:
lista_criterio = ['mse']
lista_max_depth = [None,1,5,10]
lista_features = [0.4,0.6,1.0]
lista_estimators = [5, 10, 20, 50]

for criterio in lista_criterio:
    for max_depth in lista_max_depth:
        for estimator in lista_estimators:
            for feature in lista_features:

                tree = ExtraTreesRegressor(criterion = criterio, max_depth = max_depth, n_estimators = estimator,\
                                max_features = feature)
                tree.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
                set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply\
                        (lambda x: tree.predict(x)[0],axis = 1)
                precision = tree.score(set_pruebas.loc[:,columnas],set_pruebas.loc[:,'price_aprox_usd']) * 100
                error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
                res.append((criterio,max_depth,estimator,feature,precision,error))
                print(criterio,' - ',max_depth,' - ',estimator,' - ',feature)

In [9]:
for r in res:
    print("Criterio = {}, max_depth = {}, n_estimators = {}, features = {}, precision = {:.2f} % , error = {}"\
          .format(r[0],r[1],r[2],r[3],r[4],r[5]))

Criterio = mse, max_depth = None, n_estimators = 5, features = 0.4, precision = 98.35 % , error = 1915206367.0457602
Criterio = mse, max_depth = None, n_estimators = 5, features = 0.6, precision = 98.47 % , error = 1769817440.7403753
Criterio = mse, max_depth = None, n_estimators = 5, features = 1.0, precision = 98.43 % , error = 1820225390.1640992
Criterio = mse, max_depth = None, n_estimators = 10, features = 0.4, precision = 98.42 % , error = 1826549098.0249176
Criterio = mse, max_depth = None, n_estimators = 10, features = 0.6, precision = 98.53 % , error = 1704458798.5872374
Criterio = mse, max_depth = None, n_estimators = 10, features = 1.0, precision = 98.52 % , error = 1711365561.7320929
Criterio = mse, max_depth = None, n_estimators = 20, features = 0.4, precision = 98.54 % , error = 1686884065.0109363
Criterio = mse, max_depth = None, n_estimators = 20, features = 0.6, precision = 98.57 % , error = 1656624489.9679508
Criterio = mse, max_depth = None, n_estimators = 20, featur

In [10]:
min_error = float('inf')
max_precision = 0
tupla_min_error = ()
tupla_max_precision = ()
for r in res:
    if r[5] < min_error:
        min_error = r[5]
        tupla_min_error = r
    if r[4] > max_precision:
        max_precision = r[4]
        tupla_max_precision = r
        
print("Mayor precision = Criterio = {}, max_depth = {}, n_estimators = {}, features = {}, precision = {:.2f} % , error = {}".\
              format(tupla_max_precision[0],tupla_max_precision[1],tupla_max_precision[2],tupla_max_precision[3],tupla_max_precision[4],tupla_max_precision[5]))
print("Menor error = Criterio = {}, max_depth = {}, n_estimators = {}, features = {}, precision = {:.2f} % , error = {}".\
              format(tupla_min_error[0],tupla_min_error[1],tupla_min_error[2],tupla_min_error[3],tupla_min_error[4],tupla_min_error[5]))

Mayor precision = Criterio = mse, max_depth = None, n_estimators = 20, features = 0.6, precision = 98.57 % , error = 1656624489.9679508
Menor error = Criterio = mse, max_depth = None, n_estimators = 20, features = 0.6, precision = 98.57 % , error = 1656624489.9679508


## Tomamos los parametros por default, porque no cambia mucho

In [27]:
#Probamos distintas combinaciones de columnas, esta es la que dio mejores resultados

columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

In [28]:
set_entrenamiento = propiedades.loc[(propiedades.Year >= 2016) &((propiedades.Year < 2017) | (propiedades.Month < 6))\
                                    ,columnas_precio]
set_pruebas = propiedades.loc[(propiedades.Year == 2017) & (propiedades.Month == 6),columnas_precio].head(20000)

set_entrenamiento_datos = set_entrenamiento.loc[:,columnas]
set_entrenamiento_resultado = set_entrenamiento.loc[:,'price_aprox_usd']

In [29]:
tree = ExtraTreesRegressor()
tree.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply(lambda x: tree.predict(x)[0],axis = 1)
precision = tree.score(set_pruebas.loc[:,columnas],set_pruebas.price_aprox_usd) * 100
error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
print("Precision = {:.2f} % , error = {}".format(precision, error))

Precision = 98.61 % , error = 1605873834.2964687


# Calculo de los verdaderos datos a analizar

In [30]:
analizar = pd.read_csv("../properati_dataset_modificado.csv")

In [31]:
analizar.loc[:,'price_usd'] = analizar.loc[:,columnas].apply(lambda x: tree.predict(x)[0],axis = 1)

In [32]:
resultado = analizar.loc[:,['id','price_usd']]

resultado.to_csv('resultados/Extra_trees_2.csv', index = False)

# Usando Grid Search y Cross Validation

In [2]:
propiedades = pd.read_csv('../../set_datos_propiedades.csv')

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2016)]

columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

set_entrenamiento_datos = propiedades.loc[:,columnas]
set_entrenamiento_resultado = propiedades.loc[:,'price_aprox_usd']

In [3]:
# Parametros

criterios = ['mse']
max_depth = [None,1,5,10]
features = [0.4,0.6,1.0]
estimators = [5, 10, 20, 30]

parametros = {"criterion" : criterios, "max_depth" : max_depth, \
              "n_estimators" : estimators, "max_features" : features}

iteraciones_cross_validation = 30
arbol = ExtraTreesRegressor()

In [4]:
inicio = time.strftime("%X")

grid = GridSearchCV( estimator = arbol, param_grid = parametros, n_jobs = -1, cv = iteraciones_cross_validation)

grid.fit(set_entrenamiento_datos, set_entrenamiento_resultado)

score = grid.best_score_ * 100
mejores_parametros = grid.best_params_
fin = time.strftime("%X")

print("Tiempo: {} --- {} \n Precision: {:.2f} \n Parametros = {}".format(inicio,fin,score,mejores_parametros))

Tiempo: 13:48:57 --- 17:10:15 
 Precision: 96.28 
 Parametros = {'criterion': 'mse', 'max_depth': None, 'max_features': 1.0, 'n_estimators': 10}


In [5]:
#Con 10 iteraciones:    Precision: 93.71       12:32:41 --- 13:34:00 
#               Parametros = {'criterion': 'mse', 'max_depth': None, 'max_features': 1.0, 'n_estimators': 30}

In [6]:
analizar = pd.read_csv("../properati_dataset_modificado.csv")

analizar.loc[:,'price_usd'] = analizar.loc[:,columnas].apply(lambda x: grid.predict(x)[0],axis = 1)

resultado = analizar.loc[:,['id','price_usd']]

resultado.to_csv('resultados/Extra_trees_GridSearch.csv', index = False)

In [9]:
joblib.dump(grid, 'algoritmos/extra_trees.pkl')

['algoritmos/extra_trees.pkl']

## Hago Bagging con el mejor algoritmo

In [2]:
propiedades = pd.read_csv('../../set_datos_propiedades.csv')

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2016)]

columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

set_pruebas = analizar = pd.read_csv("../properati_dataset_modificado.csv")
set_pruebas.loc[:,'price_usd'] = 0.0

In [3]:
cant = 10

for i in range(cant):
    datos = propiedades.sample(frac = 0.4)
    set_entrenamiento_datos = datos.loc[:,columnas]
    set_entrenamiento_resultado = datos.loc[:,'price_aprox_usd']
    
    tree = ExtraTreesRegressor(criterion = 'mse', max_depth = None, max_features = 1.0, n_estimators = 10)
    
    tree.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
    set_pruebas.loc[:,'res'] = set_pruebas.loc[:,columnas].apply(lambda x: tree.predict(x)[0],axis = 1)
    set_pruebas.loc[:,'price_usd'] = set_pruebas.loc[:,'price_usd'] + set_pruebas.loc[:,'res']

In [4]:
set_pruebas.loc[:,'price_usd'] = set_pruebas.loc[:,'price_usd'] / cant

resultado = set_pruebas.loc[:,['id','price_usd']]

resultado.to_csv('resultados/Extra_Trees_Cross_Validation.csv', index = False)

# Usando SVD con varias dimensiones

In [2]:
propiedades = pd.read_csv('../../set_datos_propiedades.csv')

sup_min = 10
sup_max = 300
lat_min = -35
lat_max = -34
lon_min = -59
lon_max = -58
precio_min = 30000
precio_max = 3000000

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2016)\
                        & (propiedades.price_aprox_usd <= precio_max) & (propiedades.price_aprox_usd >= precio_min) &\
                         (propiedades.superficie <= sup_max) & (propiedades.superficie >= sup_min) &\
                      (propiedades.lat <= lat_max) & (propiedades.lat >= lat_min) &\
                       (propiedades.lon <= lon_max) & (propiedades.lon >= lon_min),:]

columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

In [3]:
X = propiedades.loc[:,columnas]
y = propiedades.loc[:,'price_aprox_usd']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

for i in range(2,len(columnas)):
    svd = TruncatedSVD(n_components = i)
    datos = svd.fit_transform(X_train)
    test = svd.transform(X_test)
    
    tree = ExtraTreesRegressor()
    tree.fit(datos,y_train)
    precision = tree.score(test,y_test) * 100
    error = mean_squared_error(tree.predict(test),y_test)
    
    print("Dim = {}, Precision = {:.2f}, error = {}, digitos = {}".\
                  format(i,precision,error,len(str(int(round(error,0))))))

Dim = 2, Precision = 95.23, error = 614094012.124, digitos = 9
Dim = 3, Precision = 96.21, error = 488466104.05, digitos = 9
Dim = 4, Precision = 96.04, error = 509694181.673, digitos = 9
Dim = 5, Precision = 96.07, error = 505640896.107, digitos = 9
Dim = 6, Precision = 96.06, error = 507787276.501, digitos = 9
Dim = 7, Precision = 96.04, error = 510308700.766, digitos = 9
Dim = 8, Precision = 96.04, error = 509450488.954, digitos = 9


In [5]:
set_pruebas = analizar = pd.read_csv("../properati_dataset_modificado.csv")

svd = TruncatedSVD(n_components = 3)
datos = svd.fit_transform(propiedades.loc[:,columnas])
test = svd.transform(set_pruebas.loc[:,columnas])

tree = ExtraTreesRegressor()
tree.fit(datos,propiedades.loc[:,'price_aprox_usd'])
set_pruebas.loc[:,'price_usd'] = tree.predict(test)

resultado = set_pruebas.loc[:,['id','price_usd']]
resultado.to_csv('resultados/Extra_Trees_SVD.csv', index = False)

# Agregando el resultado de SVD dimension 2 al Dataframe

In [6]:
propiedades = pd.read_csv('../../set_datos_propiedades.csv')

sup_min = 10
sup_max = 300
lat_min = -35
lat_max = -34
lon_min = -59
lon_max = -58
precio_min = 30000
precio_max = 3000000

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2016)\
                        & (propiedades.price_aprox_usd <= precio_max) & (propiedades.price_aprox_usd >= precio_min) &\
                         (propiedades.superficie <= sup_max) & (propiedades.superficie >= sup_min) &\
                      (propiedades.lat <= lat_max) & (propiedades.lat >= lat_min) &\
                       (propiedades.lon <= lon_max) & (propiedades.lon >= lon_min),:]

prop = propiedades.loc[(propiedades.Year >= 2016), :]

columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

In [7]:
set_entrenamiento = prop.loc[(prop.Year >= 2016) &((prop.Year < 2017) | (prop.Month < 6))\
                                    ,columnas_precio]
set_pruebas = prop.loc[(prop.Year == 2017) & (prop.Month == 6),columnas_precio].head(20000)

set_entrenamiento_datos = set_entrenamiento.loc[:,columnas]
set_entrenamiento_resultado = set_entrenamiento.loc[:,'price_aprox_usd']

In [8]:
svd = TruncatedSVD()
resultado = svd.fit_transform(set_entrenamiento_datos)
resultado = pd.DataFrame(resultado)
pruebas = svd.transform(set_pruebas.loc[:,columnas])
pruebas = pd.DataFrame(pruebas)

In [9]:
set_entrenamiento_datos.reset_index(drop = True, inplace = True)
set_entrenamiento_datos.loc[:,'SVD 1'] = resultado.loc[:,0]
set_entrenamiento_datos.loc[:,'SVD 2'] = resultado.loc[:,1]
set_entrenamiento_datos['SVD 1'].describe()

count    334935.000000
mean         95.098990
std          24.394078
min          52.920358
25%          75.951302
50%          88.599928
75%         110.070518
max         157.152840
Name: SVD 1, dtype: float64

In [10]:
set_pruebas.reset_index(drop = True, inplace = True)
set_pruebas.loc[:,'SVD 1'] = pruebas.loc[:,0]
set_pruebas.loc[:,'SVD 2'] = pruebas.loc[:,1]
set_pruebas['SVD 1'].describe()

count    20000.000000
mean        96.581427
std         24.831401
min         52.920358
25%         76.701836
50%         90.073607
75%        112.379512
max        157.152840
Name: SVD 1, dtype: float64

In [11]:
columnas = columnas + ['SVD 1', 'SVD 2']

In [12]:
tree = ExtraTreesRegressor()
tree.fit(set_entrenamiento_datos, set_entrenamiento_resultado)
set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply(lambda x: tree.predict([x])[0],axis = 1)
precision = tree.score(set_pruebas.loc[:,columnas],set_pruebas.price_aprox_usd) * 100
error = mean_squared_error(set_pruebas.price_aprox_usd, set_pruebas.resultado)
print("Precision = {:.2f} % , error = {}".format(precision, error))

Precision = 97.65 % , error = 327729879.181


In [13]:
res = []

In [None]:
lista_criterio = ['mse']
lista_max_depth = [None,1,5,10]
lista_features = [0.4,0.6,1.0]
lista_estimators = [5, 10, 20, 50]

for criterio in lista_criterio:
    for max_depth in lista_max_depth:
        for estimator in lista_estimators:
            for feature in lista_features:
                    
                    tree = ExtraTreesRegressor(criterion = criterio, max_depth = max_depth, n_estimators = estimator,\
                                max_features = feature)
                    tree.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
                    set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply\
                            (lambda x: tree.predict([x])[0],axis = 1)
                    precision = tree.score(set_pruebas.loc[:,columnas],set_pruebas.price_aprox_usd) * 100
                    error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
                    res.append((criterio, max_depth, estimator, feature, precision, error))
                    print(criterio,' - ',max_depth,' - ',estimator,' - ',feature)

In [15]:
for r in res:
    print("Criterio = {}, max_depth = {}, n_estimators = {}, max_features = {}, precision = {:.2f} % , error = {}"\
          .format(r[0],r[1],r[2],r[3],r[4],r[5]))

Criterio = mse, max_depth = None, n_estimators = 5, max_features = 0.4, precision = 97.46 % , error = 353229345.8
Criterio = mse, max_depth = None, n_estimators = 5, max_features = 0.6, precision = 97.56 % , error = 340049115.876
Criterio = mse, max_depth = None, n_estimators = 5, max_features = 1.0, precision = 97.54 % , error = 342911595.589
Criterio = mse, max_depth = None, n_estimators = 10, max_features = 0.4, precision = 97.56 % , error = 339475496.744
Criterio = mse, max_depth = None, n_estimators = 10, max_features = 0.6, precision = 97.58 % , error = 336244035.868
Criterio = mse, max_depth = None, n_estimators = 10, max_features = 1.0, precision = 97.63 % , error = 329944149.874
Criterio = mse, max_depth = None, n_estimators = 20, max_features = 0.4, precision = 97.59 % , error = 335591268.386
Criterio = mse, max_depth = None, n_estimators = 20, max_features = 0.6, precision = 97.59 % , error = 336111948.182
Criterio = mse, max_depth = None, n_estimators = 20, max_features = 1

In [17]:
min_error = float('inf')
max_precision = 0
tupla_min_error = ()
tupla_max_precision = ()
for r in res:
    if r[5] < min_error:
        min_error = r[5]
        tupla_min_error = r
    if r[4] > max_precision:
        max_precision = r[4]
        tupla_max_precision = r
        
print("Mayor precision = Criterio = {}, max_depth = {}, n_estimators = {}, max_features = {}, precision = {:.2f} % , error = {}".\
              format(tupla_max_precision[0],tupla_max_precision[1],tupla_max_precision[2],tupla_max_precision[3],tupla_max_precision[4],tupla_max_precision[5]))
print("Menor error = Criterio = {}, max_depth = {}, n_estimators = {}, max_features = {}, precision = {:.2f} % , error = {}".\
              format(tupla_min_error[0],tupla_min_error[1],tupla_min_error[2],tupla_min_error[3],tupla_min_error[4],tupla_min_error[5]))

Mayor precision = Criterio = mse, max_depth = None, n_estimators = 50, max_features = 1.0, precision = 97.68 % , error = 322520266.947
Menor error = Criterio = mse, max_depth = None, n_estimators = 50, max_features = 1.0, precision = 97.68 % , error = 322520266.947


In [18]:
criterio = 'mse'
max_depth = None
n_estimators = 50
max_features = 1.0

In [19]:
tree = ExtraTreesRegressor(criterion = criterio, max_depth = max_depth, n_estimators = estimator,\
                                max_features = feature)
tree.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply(lambda x: tree.predict([x])[0],axis = 1)
precision = tree.score(set_pruebas.loc[:,columnas],set_pruebas.price_aprox_usd) * 100
error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
print("Precision = {:.2f} % , error = {}".format(precision, error))

Precision = 97.69 % , error = 321091779.696


# calculo con los verdaderos datos a analizar

In [20]:
analizar = pd.read_csv("../properati_dataset_modificado.csv")

In [21]:
columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
analisis = svd.transform(analizar.loc[:,columnas])
analisis = pd.DataFrame(analisis)

In [22]:
analizar.loc[:,'SVD 1'] = analisis.loc[:,0]
analizar.loc[:,'SVD 2'] = analisis.loc[:,1]
analizar['SVD 1'].describe()

count    1.416600e+04
mean     3.301517e+02
std      2.023766e+04
min      4.621164e+01
25%      8.041788e+01
50%      1.004089e+02
75%      1.568249e+02
max      2.405964e+06
Name: SVD 1, dtype: float64

In [23]:
columnas += ['SVD 1', 'SVD 2']
analizar.loc[:,'price_usd'] = analizar.loc[:,columnas].apply(lambda x: tree.predict([x])[0],axis = 1)
analizar.price_usd.describe()

count     14166.000000
mean     182684.106345
std      117467.774672
min       23852.000000
25%      105617.000000
50%      150818.666667
75%      218988.000000
max      962600.000000
Name: price_usd, dtype: float64

In [25]:
resultado = analizar.loc[:,['id','price_usd']]

In [26]:
resultado.to_csv('resultados/Extra_Trees_menos_datos_svd_agregada', index = False)

# Grid Search y Cross Validation definitivo

In [2]:
sup_min = 10
sup_max = 300
lat_min = -35
lat_max = -34
lon_min = -59
lon_max = -58
precio_min = 30000
precio_max = 3000000

In [7]:
propiedades = pd.read_csv('../../datos_con_fecha.csv')

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2017)\
                        & (propiedades.price_aprox_usd <= precio_max) & (propiedades.price_aprox_usd >= precio_min) &\
                         (propiedades.superficie <= sup_max) & (propiedades.superficie >= sup_min) &\
                      (propiedades.lat <= lat_max) & (propiedades.lat >= lat_min) &\
                       (propiedades.lon <= lon_max) & (propiedades.lon >= lon_min),:]

columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera',\
            'doble piso', 'jardin', 'servicios','comercio','transporte','fecha']
columnas_precio = columnas + ['price_aprox_usd']

set_entrenamiento_datos = propiedades.loc[:,columnas]
set_entrenamiento_resultado = propiedades.loc[:,'price_aprox_usd']

In [8]:
# Parametros

criterios = ['mse']
max_depth = [None,50,75,100]
features = [0.4,0.6,1.0]
estimators = [5, 10, 20, 30,50]

parametros = {"criterion" : criterios, "max_depth" : max_depth, \
              "n_estimators" : estimators, "max_features" : features}

iteraciones_cross_validation = 25
arbol = ExtraTreesRegressor()

In [9]:
inicio = time.strftime("%X")

grid = GridSearchCV( estimator = arbol, param_grid = parametros, n_jobs = 2, cv = iteraciones_cross_validation)

grid.fit(set_entrenamiento_datos, set_entrenamiento_resultado)

score = grid.best_score_ * 100
mejores_parametros = grid.best_params_
fin = time.strftime("%X")

print("Tiempo: {} --- {} \n Precision: {:.2f} \n Parametros = {}".format(inicio,fin,score,mejores_parametros))

Tiempo: 12:30:31 --- 23:14:26 
 Precision: 96.81 
 Parametros = {'criterion': 'mse', 'max_depth': 100, 'max_features': 1.0, 'n_estimators': 50}


In [10]:
analizar = pd.read_csv("../properati_dataset_modificado2.csv")

analizar.loc[:,'price_usd'] = analizar.loc[:,columnas].apply(lambda x: grid.predict(x)[0],axis = 1)

resultado = analizar.loc[:,['id','price_usd']]

resultado.to_csv('resultados/Extra_trees_GridSearch_definitivo.csv', index = False)

In [11]:
joblib.dump(grid, 'algoritmos/extra_trees_definitivo.pkl')

['algoritmos/extra_trees_definitivo.pkl']

## Hago Bagging con el mejor algoritmo

In [14]:
propiedades = pd.read_csv('../../datos_con_fecha.csv')

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2017)\
                        & (propiedades.price_aprox_usd <= precio_max) & (propiedades.price_aprox_usd >= precio_min) &\
                         (propiedades.superficie <= sup_max) & (propiedades.superficie >= sup_min) &\
                      (propiedades.lat <= lat_max) & (propiedades.lat >= lat_min) &\
                       (propiedades.lon <= lon_max) & (propiedades.lon >= lon_min),:]

set_pruebas = analizar = pd.read_csv("../properati_dataset_modificado2.csv")
set_pruebas.loc[:,'price_usd'] = 0.0

In [15]:
cant = 10
col = ['superficie','lat', 'lon','property_type_encoded','fecha']
comodidades = ['seguridad','gimnasio', 'aire', 'pileta', 'cochera',\
               'doble piso', 'jardin', 'servicios','comercio','transporte']

for i in range(cant):
    com = list(np.random.choice(comodidades,6,replace = False))
    columnas = col + com
    
    set_entrenamiento_datos = propiedades.loc[:,columnas]
    set_entrenamiento_resultado = propiedades.loc[:,'price_aprox_usd']
    
    tree = ExtraTreesRegressor(criterion = 'mse', max_depth = 100, max_features = 1.0, n_estimators = 50)
    
    tree.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
    set_pruebas.loc[:,'res'] = set_pruebas.loc[:,columnas].apply(lambda x: tree.predict(x)[0],axis = 1)
    set_pruebas.loc[:,'price_usd'] = set_pruebas.loc[:,'price_usd'] + set_pruebas.loc[:,'res']

In [16]:
set_pruebas.loc[:,'price_usd'] = set_pruebas.loc[:,'price_usd'] / cant

resultado = set_pruebas.loc[:,['id','price_usd']]

resultado.to_csv('resultados/Extra_Trees_Bagging_definitivo.csv', index = False)

# Pruebo con muchos estimadores

In [None]:
sup_min = 10
sup_max = 300
lat_min = -35
lat_max = -34
lon_min = -59
lon_max = -58
precio_min = 30000
precio_max = 3000000

In [None]:
propiedades = pd.read_csv('../../datos_con_fecha.csv')

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2017)\
                        & (propiedades.price_aprox_usd <= precio_max) & (propiedades.price_aprox_usd >= precio_min) &\
                         (propiedades.superficie <= sup_max) & (propiedades.superficie >= sup_min) &\
                      (propiedades.lat <= lat_max) & (propiedades.lat >= lat_min) &\
                       (propiedades.lon <= lon_max) & (propiedades.lon >= lon_min),:]

columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera',\
            'doble piso', 'jardin', 'servicios','comercio','transporte','fecha']
columnas_precio = columnas + ['price_aprox_usd']

set_entrenamiento_datos = propiedades.loc[:,columnas]
set_entrenamiento_resultado = propiedades.loc[:,'price_aprox_usd']

In [None]:
inicio = time.strftime("%X")

tree = ExtraTreesRegressor(criterion = 'mse', max_depth = 75, max_features = 1.0, n_estimators = 1000)

tree.fit(set_entrenamiento_datos, set_entrenamiento_resultado)

fin = time.strftime("%X")

print("Tiempo: {} --- {}".format(inicio,fin))

In [None]:
analizar = pd.read_csv("../properati_dataset_modificado2.csv")

analizar.loc[:,'price_usd'] = analizar.loc[:,columnas].apply(lambda x: tree.predict(x)[0],axis = 1)

resultado = analizar.loc[:,['id','price_usd']]

resultado.to_csv('resultados/Extra_trees_GridSearch_5kEst.csv', index = False)
joblib.dump(tree, 'algoritmos/extra_trees_5kEst.pkl')

# Grid Search y Cross Validation definitivo sin fecha

In [2]:
sup_min = 10
sup_max = 300
lat_min = -35
lat_max = -34
lon_min = -59
lon_max = -58
precio_min = 30000
precio_max = 3000000

In [3]:
propiedades = pd.read_csv('../../datos_con_fecha.csv')

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2017)\
                        & (propiedades.price_aprox_usd <= precio_max) & (propiedades.price_aprox_usd >= precio_min) &\
                         (propiedades.superficie <= sup_max) & (propiedades.superficie >= sup_min) &\
                      (propiedades.lat <= lat_max) & (propiedades.lat >= lat_min) &\
                       (propiedades.lon <= lon_max) & (propiedades.lon >= lon_min),:]

columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera',\
            'doble piso', 'jardin', 'servicios','comercio','transporte']
columnas_precio = columnas + ['price_aprox_usd']

set_entrenamiento_datos = propiedades.loc[:,columnas]
set_entrenamiento_resultado = propiedades.loc[:,'price_aprox_usd']

In [4]:
# Parametros

criterios = ['mse']
max_depth = [None,100]
features = [0.4,0.6,1.0]
estimators = [20, 30,50]

parametros = {"criterion" : criterios, "max_depth" : max_depth, \
              "n_estimators" : estimators, "max_features" : features}

iteraciones_cross_validation = 10
arbol = ExtraTreesRegressor()

In [5]:
inicio = time.strftime("%X")

grid = GridSearchCV( estimator = arbol, param_grid = parametros, n_jobs = 2, cv = iteraciones_cross_validation)

grid.fit(set_entrenamiento_datos, set_entrenamiento_resultado)

score = grid.best_score_ * 100
mejores_parametros = grid.best_params_
fin = time.strftime("%X")

print("Tiempo: {} --- {} \n Precision: {:.2f} \n Parametros = {}".format(inicio,fin,score,mejores_parametros))

Tiempo: 22:24:49 --- 23:57:42 
 Precision: 97.58 
 Parametros = {'criterion': 'mse', 'max_depth': None, 'max_features': 0.4, 'n_estimators': 50}


In [6]:
analizar = pd.read_csv("../properati_dataset_modificado2.csv")

analizar.loc[:,'price_usd'] = analizar.loc[:,columnas].apply(lambda x: grid.predict(x)[0],axis = 1)

resultado = analizar.loc[:,['id','price_usd']]

resultado.to_csv('resultados/Extra_trees_GridSearch_definitivo_sin_fecha.csv', index = False)

In [7]:
joblib.dump(grid, 'algoritmos/extra_trees_definitivo_sin_fecha.pkl')

['algoritmos/extra_trees_definitivo_sin_fecha.pkl']

## Hago Bagging con el mejor algoritmo

In [15]:
propiedades = pd.read_csv('../../datos_con_fecha.csv')

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2017)\
                        & (propiedades.price_aprox_usd <= precio_max) & (propiedades.price_aprox_usd >= precio_min) &\
                         (propiedades.superficie <= sup_max) & (propiedades.superficie >= sup_min) &\
                      (propiedades.lat <= lat_max) & (propiedades.lat >= lat_min) &\
                       (propiedades.lon <= lon_max) & (propiedades.lon >= lon_min),:]

set_pruebas = analizar = pd.read_csv("../properati_dataset_modificado2.csv")
set_pruebas.loc[:,'price_usd'] = 0.0

In [16]:
cant = 10
col = ['superficie','lat', 'lon','property_type_encoded']
comodidades = ['seguridad','gimnasio', 'aire', 'pileta', 'cochera',\
               'doble piso', 'jardin', 'servicios','comercio','transporte']

for i in range(cant):
    com = list(np.random.choice(comodidades,6,replace = False))
    columnas = col + com
    
    set_entrenamiento_datos = propiedades.loc[:,columnas]
    set_entrenamiento_resultado = propiedades.loc[:,'price_aprox_usd']
    
    tree = ExtraTreesRegressor(criterion = 'mse', max_depth = None, max_features = 0.4, n_estimators = 50)
    
    tree.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
    set_pruebas.loc[:,'res'] = set_pruebas.loc[:,columnas].apply(lambda x: tree.predict(x)[0],axis = 1)
    set_pruebas.loc[:,'price_usd'] = set_pruebas.loc[:,'price_usd'] + set_pruebas.loc[:,'res']

In [17]:
set_pruebas.loc[:,'price_usd'] = set_pruebas.loc[:,'price_usd'] / cant

resultado = set_pruebas.loc[:,['id','price_usd']]

resultado.to_csv('resultados/Extra_Trees_Bagging_definitivo_sin_fecha.csv', index = False)

# Pruebo con muchos estimadores sin fecha

In [2]:
sup_min = 10
sup_max = 300
lat_min = -35
lat_max = -34
lon_min = -59
lon_max = -58
precio_min = 30000
precio_max = 3000000

In [3]:
propiedades = pd.read_csv('../../datos_con_fecha.csv')

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2017)\
                        & (propiedades.price_aprox_usd <= precio_max) & (propiedades.price_aprox_usd >= precio_min) &\
                         (propiedades.superficie <= sup_max) & (propiedades.superficie >= sup_min) &\
                      (propiedades.lat <= lat_max) & (propiedades.lat >= lat_min) &\
                       (propiedades.lon <= lon_max) & (propiedades.lon >= lon_min),:]

columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera',\
            'doble piso', 'jardin', 'servicios','comercio','transporte']
columnas_precio = columnas + ['price_aprox_usd']

set_entrenamiento_datos = propiedades.loc[:,columnas]
set_entrenamiento_resultado = propiedades.loc[:,'price_aprox_usd']

In [4]:
inicio = time.strftime("%X")

tree = ExtraTreesRegressor(criterion = 'mse', max_depth = 75, max_features = 1.0, n_estimators = 1000)

tree.fit(set_entrenamiento_datos, set_entrenamiento_resultado)

fin = time.strftime("%X")

print("Tiempo: {} --- {}".format(inicio,fin))

Tiempo: 01:37:34 --- 01:56:38


In [5]:
analizar = pd.read_csv("../properati_dataset_modificado2.csv")

analizar.loc[:,'price_usd'] = analizar.loc[:,columnas].apply(lambda x: tree.predict([x])[0],axis = 1)

resultado = analizar.loc[:,['id','price_usd']]

resultado.to_csv('resultados/Extra_trees_GridSearch_5kEst_sinfecha.csv', index = False)
joblib.dump(tree, 'algoritmos/extra_trees_5kEst_sinfecha.pkl')

['algoritmos/extra_trees_5kEst_sinfecha.pkl']

## Bagging con menos columnas

In [3]:
sup_min = 10
sup_max = 300
lat_min = -35
lat_max = -34
lon_min = -59
lon_max = -58
precio_min = 30000
precio_max = 3000000

propiedades = pd.read_csv('../../datos_con_fecha.csv')

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2017)\
                        & (propiedades.price_aprox_usd <= precio_max) & (propiedades.price_aprox_usd >= precio_min) &\
                         (propiedades.superficie <= sup_max) & (propiedades.superficie >= sup_min) &\
                      (propiedades.lat <= lat_max) & (propiedades.lat >= lat_min) &\
                       (propiedades.lon <= lon_max) & (propiedades.lon >= lon_min),:]

set_pruebas = analizar = pd.read_csv("../properati_dataset_modificado2.csv")
set_pruebas.loc[:,'price_usd'] = 0.0

In [9]:
cant = 10
col = ['superficie','lat', 'lon','property_type_encoded']
comodidades = ['seguridad','gimnasio', 'aire', 'pileta', 'cochera']


for i in range(cant):
    com = list(np.random.choice(comodidades,4,replace = False))
    columnas = col + com
    
    set_entrenamiento_datos = propiedades.loc[:,columnas]
    set_entrenamiento_resultado = propiedades.loc[:,'price_aprox_usd']
    
    tree = ExtraTreesRegressor(criterion = 'mse', max_depth = None, max_features = 0.4, n_estimators = 50)
    
    tree.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
    set_pruebas.loc[:,'res'] = set_pruebas.loc[:,columnas].apply(lambda x: tree.predict([x])[0],axis = 1)
    set_pruebas.loc[:,'price_usd'] = set_pruebas.loc[:,'price_usd'] + set_pruebas.loc[:,'res']

In [10]:
set_pruebas.loc[:,'price_usd'] = set_pruebas.loc[:,'price_usd'] / cant

resultado = set_pruebas.loc[:,['id','price_usd']]

resultado.to_csv('resultados/Extra Trees/Extra_Trees_Bagging_definitivo_menos_columnas.csv', index = False)