In [1]:
import pandas as pd
import numpy as np
from sklearn.metrics import mean_squared_error
from sklearn.ensemble import BaggingRegressor
from sklearn.model_selection import GridSearchCV
from sklearn.externals import joblib
import time
from sklearn.decomposition import TruncatedSVD
from sklearn.model_selection import train_test_split

import warnings
warnings.simplefilter("ignore", category=DeprecationWarning)

In [2]:
propiedades = pd.read_csv('../../set_datos_propiedades.csv')

In [3]:
propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull()),\
                             ['place_name_encoded', 'property_type_encoded','price_aprox_usd','superficie',\
                             'Year','Month','seguridad','aire','gimnasio','cochera','pileta']]

# Bagging Regressor

In [5]:
columnas = ['superficie','place_name_encoded','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

In [6]:
set_entrenamiento = propiedades.loc[(propiedades.Year >= 2016) &((propiedades.Year < 2017) | (propiedades.Month < 6))\
                                    ,columnas_precio]
set_pruebas = propiedades.loc[(propiedades.Year == 2017) & (propiedades.Month == 6),columnas_precio].head(20000)

set_entrenamiento_datos = set_entrenamiento.loc[:,columnas]
set_entrenamiento_resultado = set_entrenamiento.loc[:,'price_aprox_usd']

In [7]:
bag = BaggingRegressor()
bag.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply(lambda x: bag.predict(x)[0],axis = 1)
precision = bag.score(set_pruebas.loc[:,columnas],set_pruebas.price_aprox_usd) * 100
error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
print("Precision = {:.2f} % , error = {}".format(precision, error))

Precision = 85.47 % , error = 20048219881.71454


### Ahora que tenemos una intuicion, probamos variando los parametros

In [8]:
columnas = ['superficie','place_name_encoded','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

In [9]:
set_entrenamiento = propiedades.loc[(propiedades.Year >= 2016) &((propiedades.Year < 2017) | (propiedades.Month < 6))\
                                    ,columnas_precio]
set_pruebas = propiedades.loc[(propiedades.Year == 2017) & (propiedades.Month == 6),columnas_precio].head(20000)

set_entrenamiento_datos = set_entrenamiento.loc[:,columnas]
set_entrenamiento_resultado = set_entrenamiento.loc[:,'price_aprox_usd']

res = []

In [14]:
lista_estimators = [60,100]
lista_samples = [1.0,0.8,0.6]
lista_features = [1.0,0.7,0.5]

for estimator in lista_estimators:
    for sample in lista_samples:
        for feature in lista_features:
            bag = BaggingRegressor(n_estimators = estimator, max_samples = sample, max_features = feature)
            bag.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
            set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply(lambda x: bag.predict(x)[0],axis = 1)
            precision = bag.score(set_pruebas.loc[:,columnas],set_pruebas.price_aprox_usd) * 100
            error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
            res.append((estimator,sample,feature,precision,error))
            print(estimator,' - ',sample,' - ',feature)

In [15]:
for r in res:
    print ("estimator = {}, sample = {}, feature = {}, precision = {:.2f} % ,error = {}".format(r[0],r[1],r[2],r[3],r[4]))

estimator = 5, sample = 1.0, feature = 1.0, precision = 84.66 % ,error = 21165263855.557373
estimator = 5, sample = 1.0, feature = 0.7, precision = 73.85 % ,error = 36082398204.61202
estimator = 5, sample = 1.0, feature = 0.5, precision = 50.50 % ,error = 68290148675.160324
estimator = 5, sample = 0.8, feature = 1.0, precision = 85.39 % ,error = 20157385553.401493
estimator = 5, sample = 0.8, feature = 0.7, precision = 63.98 % ,error = 49695832898.52946
estimator = 5, sample = 0.8, feature = 0.5, precision = 40.39 % ,error = 82241128407.55803
estimator = 5, sample = 0.6, feature = 1.0, precision = 80.32 % ,error = 27148648359.931187
estimator = 5, sample = 0.6, feature = 0.7, precision = 62.62 % ,error = 51571637501.82258
estimator = 5, sample = 0.6, feature = 0.5, precision = 42.16 % ,error = 79794947337.227
estimator = 10, sample = 1.0, feature = 1.0, precision = 87.29 % ,error = 17534216742.50338
estimator = 10, sample = 1.0, feature = 0.7, precision = 69.06 % ,error = 42685566934.1

In [16]:
min_error = float('inf')
max_precision = 0
tupla_min_error = ()
tupla_max_precision = ()
for r in res:
    if r[4] < min_error:
        min_error = r[4]
        tupla_min_error = r
    if r[3] > max_precision:
        max_precision = r[3]
        tupla_max_precision = r
        
print("Mayor precision = estimator = {}, sample = {}, feature = {}, precision = {:.2f} % ,error = {}".\
              format(tupla_max_precision[0],tupla_max_precision[1],tupla_max_precision[2],tupla_max_precision[3],tupla_max_precision[4]))
print("Menor error = estimator = {}, sample = {}, feature = {}, precision = {:.2f} % ,error = {}".\
              format(tupla_min_error[0],tupla_min_error[1],tupla_min_error[2],tupla_min_error[3],tupla_min_error[4]))

Mayor precision = estimator = 5, sample = 1.0, feature = 1.0, precision = 84.66 % ,error = 21165263855.557373
Menor error = estimator = 5, sample = 0.8, feature = 0.5, precision = 40.39 % ,error = 82241128407.55803


# Elegimos estimator = 5, sample = 1, feature = 1

In [64]:
#Probamos varias combinaciones de columnas, la de mejor resultado fue esta

columnas = ['superficie','place_name_encoded','property_type_encoded','seguridad','gimnasio','aire','pileta','cochera']
columnas_precio = columnas + ['price_aprox_usd']

In [65]:
set_entrenamiento = propiedades.loc[(propiedades.Year >= 2015) &((propiedades.Year < 2017) | (propiedades.Month < 6))\
                                    ,columnas_precio]
set_pruebas = propiedades.loc[(propiedades.Year == 2017) & (propiedades.Month == 6),columnas_precio].head(20000)

set_entrenamiento_datos = set_entrenamiento.loc[:,columnas]
set_entrenamiento_resultado = set_entrenamiento.loc[:,'price_aprox_usd']

In [66]:
estimator = 5
sample = 1.0
feature = 1.0

In [67]:
bag = BaggingRegressor(n_estimators = estimator, max_samples = sample, max_features = feature)
bag.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply(lambda x: bag.predict(x)[0],axis = 1)
precision = bag.score(set_pruebas.loc[:,columnas],set_pruebas.price_aprox_usd) * 100
error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
print("Precision = {:.2f} % , error = {}".format(precision, error))

Precision = 88.12 % , error = 16395593552.139215


# Calculamos los verdaderos datos

In [68]:
analizar = pd.read_csv('../properati_dataset_modificado.csv')

In [69]:
analizar.loc[:,'price_usd'] = analizar.loc[:,columnas].apply(lambda x: bag.predict(x)[0],axis = 1)

In [70]:
resultado = analizar.loc[:,['id','price_usd']]

In [71]:
resultado.to_csv('resultados/Bagging_Regresor_resultados.csv', index = False)

# Ahora uso lat y lon en lugar de place name

In [2]:
propiedades = pd.read_csv('../../set_datos_propiedades.csv')

In [3]:
propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()),\
                             ['lat', 'lon', 'property_type_encoded','price_aprox_usd','superficie',\
                             'Year','Month','seguridad','aire','gimnasio','cochera','pileta']]

In [4]:
columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

In [6]:
set_entrenamiento = propiedades.loc[(propiedades.Year >= 2016) &((propiedades.Year < 2017) | (propiedades.Month < 6))\
                                    ,columnas_precio]
set_pruebas = propiedades.loc[(propiedades.Year == 2017) & (propiedades.Month == 6),columnas_precio].head(20000)

set_entrenamiento_datos = set_entrenamiento.loc[:,columnas]
set_entrenamiento_resultado = set_entrenamiento.loc[:,'price_aprox_usd']

In [7]:
bag = BaggingRegressor()
bag.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply(lambda x: bag.predict(x)[0],axis = 1)
precision = bag.score(set_pruebas.loc[:,columnas],set_pruebas.price_aprox_usd) * 100
error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
print("Precision = {:.2f} % , error = {}".format(precision, error))

Precision = 95.73 % , error = 4943209822.381698


In [8]:
res = []

In [None]:
lista_estimators = [5,10,20,30,60]
lista_samples = [1.0,0.8,0.6]
lista_features = [1.0,0.7,0.5]

for estimator in lista_estimators:
    for sample in lista_samples:
        for feature in lista_features:
            bag = BaggingRegressor(n_estimators = estimator, max_samples = sample, max_features = feature)
            bag.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
            set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply(lambda x: bag.predict(x)[0],axis = 1)
            precision = bag.score(set_pruebas.loc[:,columnas],set_pruebas.price_aprox_usd) * 100
            error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
            res.append((estimator,sample,feature,precision,error))
            print(estimator,' - ',sample,' - ',feature)

In [10]:
for r in res:
    print ("estimator = {}, sample = {}, feature = {}, precision = {:.2f} % ,error = {}".format(r[0],r[1],r[2],r[3],r[4]))

estimator = 5, sample = 1.0, feature = 1.0, precision = 94.95 % ,error = 5842586565.634796
estimator = 5, sample = 1.0, feature = 0.7, precision = 93.00 % ,error = 8102370802.097091
estimator = 5, sample = 1.0, feature = 0.5, precision = 75.84 % ,error = 27975154372.92071
estimator = 5, sample = 0.8, feature = 1.0, precision = 92.69 % ,error = 8459730763.015385
estimator = 5, sample = 0.8, feature = 0.7, precision = 90.59 % ,error = 10895870717.338966
estimator = 5, sample = 0.8, feature = 0.5, precision = 81.22 % ,error = 21747450863.43158
estimator = 5, sample = 0.6, feature = 1.0, precision = 92.36 % ,error = 8847762756.185787
estimator = 5, sample = 0.6, feature = 0.7, precision = 88.11 % ,error = 13765182715.10855
estimator = 5, sample = 0.6, feature = 0.5, precision = 78.40 % ,error = 25014997141.053345
estimator = 10, sample = 1.0, feature = 1.0, precision = 95.90 % ,error = 4745785723.037289
estimator = 10, sample = 1.0, feature = 0.7, precision = 92.27 % ,error = 8953670001.35

In [11]:
min_error = float('inf')
max_precision = 0
tupla_min_error = ()
tupla_max_precision = ()
for r in res:
    if r[4] < min_error:
        min_error = r[4]
        tupla_min_error = r
    if r[3] > max_precision:
        max_precision = r[3]
        tupla_max_precision = r
        
print("Mayor precision = estimator = {}, sample = {}, feature = {}, precision = {:.2f} % ,error = {}".\
              format(tupla_max_precision[0],tupla_max_precision[1],tupla_max_precision[2],tupla_max_precision[3],tupla_max_precision[4]))
print("Menor error = estimator = {}, sample = {}, feature = {}, precision = {:.2f} % ,error = {}".\
              format(tupla_min_error[0],tupla_min_error[1],tupla_min_error[2],tupla_min_error[3],tupla_min_error[4]))

Mayor precision = estimator = 5, sample = 1.0, feature = 1.0, precision = 94.95 % ,error = 5842586565.634796
Menor error = estimator = 10, sample = 0.6, feature = 0.5, precision = 73.70 % ,error = 30450986259.416325


# Elegimos estimator = 5, sample = 1, feature = 1

In [47]:
#Probamos distintas combinaciones de columnas, esta es la que dio mejores resultados

columnas = ['superficie','lat', 'lon','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

In [48]:
set_entrenamiento = propiedades.loc[(propiedades.Year >= 2016) &((propiedades.Year < 2017) | (propiedades.Month < 6))\
                                    ,columnas_precio]
set_pruebas = propiedades.loc[(propiedades.Year == 2017) & (propiedades.Month == 6),columnas_precio].head(20000)

set_entrenamiento_datos = set_entrenamiento.loc[:,columnas]
set_entrenamiento_resultado = set_entrenamiento.loc[:,'price_aprox_usd']

In [49]:
estimator = 5
sample = 1.0
feature = 1.0

In [50]:
bag = BaggingRegressor(n_estimators = estimator, max_samples = sample, max_features = feature)
bag.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply(lambda x: bag.predict(x)[0],axis = 1)
precision = bag.score(set_pruebas.loc[:,columnas],set_pruebas.price_aprox_usd) * 100
error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
print("Precision = {:.2f} % , error = {}".format(precision, error))

Precision = 95.75 % , error = 4925943468.576762


# Calculo de los verdaderos datos a analizar

In [51]:
analizar = pd.read_csv("../properati_dataset_modificado.csv")

In [52]:
analizar.loc[:,'price_usd'] = analizar.loc[:,columnas].apply(lambda x: bag.predict(x)[0],axis = 1)

In [53]:
resultado = analizar.loc[:,['id','price_usd']]

resultado.to_csv('resultados/Bagging_Regresor_2.csv', index = False)

# Usando Grid Search y Cross Validation

In [2]:
propiedades = pd.read_csv('../../set_datos_propiedades.csv')

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2016)]

columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

set_entrenamiento_datos = propiedades.loc[:,columnas]
set_entrenamiento_resultado = propiedades.loc[:,'price_aprox_usd']

In [3]:
# Parametros

estimators = [5,10,15,20,30]
samples = [1.0,0.8,0.6]
features = [1.0,0.7,0.5,0.4]

parametros = {"n_estimators" : estimators, "max_samples" : samples, "max_features" : features}

iteraciones_cross_validation = 25
bag = BaggingRegressor()

In [4]:
inicio = time.strftime("%X")

grid = GridSearchCV( estimator = bag, param_grid = parametros, n_jobs = -1, cv = iteraciones_cross_validation)

grid.fit(set_entrenamiento_datos, set_entrenamiento_resultado)

score = grid.best_score_ * 100
mejores_parametros = grid.best_params_
fin = time.strftime("%X")

print("Tiempo: {} --- {} \n Precision: {:.2f} \n Parametros = {}".format(inicio,fin,score,mejores_parametros))

Tiempo: 23:01:12 --- 07:02:55 
 Precision: 95.03 
 Parametros = {'max_features': 1.0, 'max_samples': 1.0, 'n_estimators': 20}


In [5]:
analizar = pd.read_csv("../properati_dataset_modificado.csv")

analizar.loc[:,'price_usd'] = analizar.loc[:,columnas].apply(lambda x: grid.predict(x)[0],axis = 1)

resultado = analizar.loc[:,['id','price_usd']]

resultado.to_csv('resultados/Bagging_Regressor_GridSearch.csv', index = False)

In [6]:
joblib.dump(grid, 'algoritmos/bagging_regressor.pkl')

['algoritmos/bagging_regressor.pkl']

## Hago Bagging con el mejor algoritmo

In [2]:
propiedades = pd.read_csv('../../set_datos_propiedades.csv')

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2016)]

columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

set_pruebas = analizar = pd.read_csv("../properati_dataset_modificado.csv")
set_pruebas.loc[:,'price_usd'] = 0.0

In [3]:
cant = 10

for i in range(cant):
    datos = propiedades.sample(frac = 0.4)
    set_entrenamiento_datos = datos.loc[:,columnas]
    set_entrenamiento_resultado = datos.loc[:,'price_aprox_usd']
    
    bag = BaggingRegressor(n_estimators =  20, max_samples = 1.0, max_features = 1.0)
    
    bag.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
    set_pruebas.loc[:,'res'] = set_pruebas.loc[:,columnas].apply(lambda x: bag.predict(x)[0],axis = 1)
    set_pruebas.loc[:,'price_usd'] = set_pruebas.loc[:,'price_usd'] + set_pruebas.loc[:,'res']

In [4]:
set_pruebas.loc[:,'price_usd'] = set_pruebas.loc[:,'price_usd'] / cant

resultado = set_pruebas.loc[:,['id','price_usd']]

resultado.to_csv('resultados/Bagging_Regressor_Cross_Validation.csv', index = False)

# Usando SVD con varias dimensiones

In [9]:
propiedades = pd.read_csv('../../set_datos_propiedades.csv')

sup_min = 10
sup_max = 300
lat_min = -35
lat_max = -34
lon_min = -59
lon_max = -58
precio_min = 30000
precio_max = 3000000

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2016)\
                        & (propiedades.price_aprox_usd <= precio_max) & (propiedades.price_aprox_usd >= precio_min) &\
                         (propiedades.superficie <= sup_max) & (propiedades.superficie >= sup_min) &\
                      (propiedades.lat <= lat_max) & (propiedades.lat >= lat_min) &\
                       (propiedades.lon <= lon_max) & (propiedades.lon >= lon_min),:]

columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

In [10]:
X = propiedades.loc[:,columnas]
y = propiedades.loc[:,'price_aprox_usd']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

for i in range(2,len(columnas)):
    svd = TruncatedSVD(n_components = i)
    datos = svd.fit_transform(X_train)
    test = svd.transform(X_test)
    
    bag = BaggingRegressor()
    bag.fit(datos,y_train)
    precision = bag.score(test,y_test) * 100
    error = mean_squared_error(bag.predict(test),y_test)
    
    print("Dim = {}, Precision = {:.2f}, error = {}, digitos = {}".\
                  format(i,precision,error,len(str(int(round(error,0))))))

Dim = 2, Precision = 94.18, error = 742079762.6405972, digitos = 9
Dim = 3, Precision = 95.39, error = 586918479.8282863, digitos = 9
Dim = 4, Precision = 95.54, error = 568881687.4473774, digitos = 9
Dim = 5, Precision = 95.48, error = 576089127.3039472, digitos = 9
Dim = 6, Precision = 95.62, error = 557835986.7974316, digitos = 9
Dim = 7, Precision = 95.55, error = 566653723.3869418, digitos = 9
Dim = 8, Precision = 95.56, error = 565981776.6011834, digitos = 9


In [11]:
set_pruebas = analizar = pd.read_csv("../properati_dataset_modificado.csv")

svd = TruncatedSVD(n_components = 6)
datos = svd.fit_transform(propiedades.loc[:,columnas])
test = svd.transform(set_pruebas.loc[:,columnas])

bag = BaggingRegressor()
bag.fit(datos,propiedades.loc[:,'price_aprox_usd'])
set_pruebas.loc[:,'price_usd'] = bag.predict(test)

resultado = set_pruebas.loc[:,['id','price_usd']]
resultado.to_csv('resultados/Bagging_Regressor_SVD.csv', index = False)

# Agregando el resultado de SVD dimension 2 al Dataframe

In [2]:
propiedades = pd.read_csv('../../set_datos_propiedades.csv')

sup_min = 10
sup_max = 300
lat_min = -35
lat_max = -34
lon_min = -59
lon_max = -58
precio_min = 30000
precio_max = 3000000

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2016)\
                        & (propiedades.price_aprox_usd <= precio_max) & (propiedades.price_aprox_usd >= precio_min) &\
                         (propiedades.superficie <= sup_max) & (propiedades.superficie >= sup_min) &\
                      (propiedades.lat <= lat_max) & (propiedades.lat >= lat_min) &\
                       (propiedades.lon <= lon_max) & (propiedades.lon >= lon_min),:]

prop = propiedades.loc[(propiedades.Year >= 2016), :]

columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

In [3]:
set_entrenamiento = prop.loc[(prop.Year >= 2016) &((prop.Year < 2017) | (prop.Month < 6))\
                                    ,columnas_precio]
set_pruebas = prop.loc[(prop.Year == 2017) & (prop.Month == 6),columnas_precio].head(20000)

set_entrenamiento_datos = set_entrenamiento.loc[:,columnas]
set_entrenamiento_resultado = set_entrenamiento.loc[:,'price_aprox_usd']

In [4]:
svd = TruncatedSVD()
resultado = svd.fit_transform(set_entrenamiento_datos)
resultado = pd.DataFrame(resultado)
pruebas = svd.transform(set_pruebas.loc[:,columnas])
pruebas = pd.DataFrame(pruebas)

In [5]:
set_entrenamiento_datos.reset_index(drop = True, inplace = True)
set_entrenamiento_datos.loc[:,'SVD 1'] = resultado.loc[:,0]
set_entrenamiento_datos.loc[:,'SVD 2'] = resultado.loc[:,1]
set_entrenamiento_datos['SVD 1'].describe()

count    334935.000000
mean         95.098990
std          24.394078
min          52.920358
25%          75.951302
50%          88.599928
75%         110.070518
max         157.152840
Name: SVD 1, dtype: float64

In [6]:
set_pruebas.reset_index(drop = True, inplace = True)
set_pruebas.loc[:,'SVD 1'] = pruebas.loc[:,0]
set_pruebas.loc[:,'SVD 2'] = pruebas.loc[:,1]
set_pruebas['SVD 1'].describe()

count    20000.000000
mean        96.581427
std         24.831401
min         52.920358
25%         76.701836
50%         90.073607
75%        112.379512
max        157.152840
Name: SVD 1, dtype: float64

In [8]:
columnas = columnas + ['SVD 1', 'SVD 2']

In [18]:
estimator = 5
sample = 1.0
feature = 1.0

bag = BaggingRegressor(n_estimators = estimator, max_samples = sample, max_features = feature)
bag.fit(set_entrenamiento_datos, set_entrenamiento_resultado)
set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply(lambda x: bag.predict([x])[0],axis = 1)
precision = bag.score(set_pruebas.loc[:,columnas],set_pruebas.price_aprox_usd) * 100
error = mean_squared_error(set_pruebas.price_aprox_usd, set_pruebas.resultado)
print("Precision = {:.2f} % , error = {}".format(precision, error))

Precision = 96.21 % , error = 527215711.4873154


In [20]:
res = []

In [None]:
lista_estimators = [60,100]
lista_samples = [1.0,0.8,0.6]
lista_features = [1.0,0.7,0.5]

for estimator in lista_estimators:
    for sample in lista_samples:
        for feature in lista_features:
                    
            bag = BaggingRegressor(n_estimators = estimator, max_samples = sample, max_features = feature)
            bag.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
            set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply\
                    (lambda x: bag.predict([x])[0],axis = 1)
            precision = bag.score(set_pruebas.loc[:,columnas],set_pruebas.price_aprox_usd) * 100
            error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
            res.append((estimator, sample, feature,precision,error))
            print(estimator,' - ',sample,' - ',feature)

In [24]:
for r in res:
    print("n_estimators = {}, max_samples = {}, max_features = {}, precision = {:.2f} % , error = {}"\
          .format(r[0],r[1],r[2],r[3],r[4]))

n_estimators = 60, max_samples = 1.0, max_features = 1.0, precision = 96.71 % , error = 457317675.24042726
n_estimators = 60, max_samples = 1.0, max_features = 0.7, precision = 96.98 % , error = 420809419.9334196
n_estimators = 60, max_samples = 1.0, max_features = 0.5, precision = 96.19 % , error = 530576246.9507699
n_estimators = 60, max_samples = 0.8, max_features = 1.0, precision = 96.40 % , error = 500812557.9113044
n_estimators = 60, max_samples = 0.8, max_features = 0.7, precision = 96.50 % , error = 486792577.7693648
n_estimators = 60, max_samples = 0.8, max_features = 0.5, precision = 95.45 % , error = 632764717.7126248
n_estimators = 60, max_samples = 0.6, max_features = 1.0, precision = 95.89 % , error = 572512085.5446295
n_estimators = 60, max_samples = 0.6, max_features = 0.7, precision = 95.97 % , error = 560928106.550521
n_estimators = 60, max_samples = 0.6, max_features = 0.5, precision = 95.47 % , error = 630700665.294202
n_estimators = 100, max_samples = 1.0, max_feat

In [25]:
min_error = float('inf')
max_precision = 0
tupla_min_error = ()
tupla_max_precision = ()
for r in res:
    if r[4] < min_error:
        min_error = r[4]
        tupla_min_error = r
    if r[3] > max_precision:
        max_precision = r[3]
        tupla_max_precision = r
        
print("Mayor precision = n_estimators = {}, max_samples = {}, max_features = {}, precision = {:.2f} % , error = {}".\
              format(tupla_max_precision[0],tupla_max_precision[1],tupla_max_precision[2],tupla_max_precision[3],tupla_max_precision[4]))
print("Menor error = n_estimators = {}, max_samples = {}, max_features = {}, precision = {:.2f} % , error = {}".\
              format(tupla_min_error[0],tupla_min_error[1],tupla_min_error[2],tupla_min_error[3],tupla_min_error[4]))


Mayor precision = n_estimators = 60, max_samples = 1.0, max_features = 0.7, precision = 96.98 % , error = 420809419.9334196
Menor error = n_estimators = 60, max_samples = 1.0, max_features = 0.7, precision = 96.98 % , error = 420809419.9334196


In [9]:
estimator = 500
sample = 1.0
feature = 0.7

In [10]:
bag = BaggingRegressor(n_estimators = estimator, max_samples = sample, max_features = feature)
bag.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply(lambda x: bag.predict([x])[0],axis = 1)
precision = bag.score(set_pruebas.loc[:,columnas],set_pruebas.price_aprox_usd) * 100
error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
print("Precision = {:.2f} % , error = {}".format(precision, error))

Precision = 96.98 % , error = 420648009.9607006


In [None]:
for e in [600, 1000, 2000]:
    bag = BaggingRegressor(n_estimators = e, max_samples = sample, max_features = feature)
    bag.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
    set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply(lambda x: bag.predict([x])[0],axis = 1)
    precision = bag.score(set_pruebas.loc[:,columnas],set_pruebas.price_aprox_usd) * 100
    error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
    print("Precision = {:.2f} % , error = {}".format(precision, error))

Precision = 96.98 % , error = 420522468.70961887


# calculo con los verdaderos datos a analizar

In [11]:
analizar = pd.read_csv("../properati_dataset_modificado.csv")

In [12]:
columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
analisis = svd.transform(analizar.loc[:,columnas])
analisis = pd.DataFrame(analisis)

In [13]:
analizar.loc[:,'SVD 1'] = analisis.loc[:,0]
analizar.loc[:,'SVD 2'] = analisis.loc[:,1]
analizar['SVD 1'].describe()

count    1.416600e+04
mean     3.301517e+02
std      2.023766e+04
min      4.621164e+01
25%      8.041788e+01
50%      1.004089e+02
75%      1.568249e+02
max      2.405964e+06
Name: SVD 1, dtype: float64

In [14]:
columnas += ['SVD 1', 'SVD 2']
analizar.loc[:,'price_usd'] = analizar.loc[:,columnas].apply(lambda x: bag.predict([x])[0],axis = 1)
analizar.price_usd.describe()

count     14166.000000
mean     185268.991240
std      105771.987265
min       27870.725481
25%      111715.005248
50%      160767.450917
75%      223447.186538
max      810403.488154
Name: price_usd, dtype: float64

In [19]:
resultado = analizar.loc[:,['id','price_usd']]

In [20]:
resultado.to_csv('resultados/Bagging_Regressor_menos_datos_svd_agregada', index = False)

In [21]:
joblib.dump(bag, 'algoritmos/bagging_regressor_svd_agregada.pkl')

['algoritmos/bagging_regressor_svd_agregada.pkl']

# Grid Search y cross validation definitivo

In [2]:
sup_min = 10
sup_max = 300
lat_min = -35
lat_max = -34
lon_min = -59
lon_max = -58
precio_min = 30000
precio_max = 3000000

In [3]:
propiedades = pd.read_csv('../../datos_con_fecha.csv')

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2017)\
                        & (propiedades.price_aprox_usd <= precio_max) & (propiedades.price_aprox_usd >= precio_min) &\
                         (propiedades.superficie <= sup_max) & (propiedades.superficie >= sup_min) &\
                      (propiedades.lat <= lat_max) & (propiedades.lat >= lat_min) &\
                       (propiedades.lon <= lon_max) & (propiedades.lon >= lon_min),:]

columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', \
            'pileta', 'cochera','transporte','comercio', 'servicios', 'doble piso', 'jardin','fecha']

set_entrenamiento_datos = propiedades.loc[:,columnas]
set_entrenamiento_resultado = propiedades.loc[:,'price_aprox_usd']

In [4]:
# Parametros

estimators = [5,10,20,30,50]
samples = [1.0,0.8,0.6]
features = [1.0,0.7,0.5,0.4]

parametros = {"n_estimators" : estimators, "max_samples" : samples, "max_features" : features}

iteraciones_cross_validation = 10
bag = BaggingRegressor()

In [5]:
inicio = time.strftime("%X")

grid = GridSearchCV( estimator = bag, param_grid = parametros, n_jobs = 2, cv = iteraciones_cross_validation)

grid.fit(set_entrenamiento_datos, set_entrenamiento_resultado)

score = grid.best_score_ * 100
mejores_parametros = grid.best_params_
fin = time.strftime("%X")

print("Tiempo: {} --- {} \n Precision: {:.2f} \n Parametros = {}".format(inicio,fin,score,mejores_parametros))

Tiempo: 22:09:15 --- 01:40:54 
 Precision: 96.98 
 Parametros = {'max_features': 1.0, 'max_samples': 1.0, 'n_estimators': 50}


In [6]:
analizar = pd.read_csv("../properati_dataset_modificado2.csv")

analizar.loc[:,'price_usd'] = analizar.loc[:,columnas].apply(lambda x: grid.predict(x)[0],axis = 1)

resultado = analizar.loc[:,['id','price_usd']]

resultado.to_csv('resultados/Bagging_Regressor_GridSearch_definitivo.csv', index = False)
joblib.dump(grid, 'algoritmos/Bagging_Regressor_definitivo.pkl')

['algoritmos/Bagging_Regressor_definitivo.pkl']

# Haciendo bagging

In [2]:
propiedades = pd.read_csv('../../datos_con_fecha.csv')

sup_min = 10
sup_max = 300
lat_min = -35
lat_max = -34
lon_min = -59
lon_max = -58
precio_min = 30000
precio_max = 3000000

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2017)\
                        & (propiedades.price_aprox_usd <= precio_max) & (propiedades.price_aprox_usd >= precio_min) &\
                         (propiedades.superficie <= sup_max) & (propiedades.superficie >= sup_min) &\
                      (propiedades.lat <= lat_max) & (propiedades.lat >= lat_min) &\
                       (propiedades.lon <= lon_max) & (propiedades.lon >= lon_min),:]

set_pruebas = pd.read_csv("../properati_dataset_modificado2.csv")
set_pruebas.loc[:,'price_usd'] = 0.0

In [3]:
cant = 10
col = ['superficie','lat', 'lon','property_type_encoded','fecha']
comodidades = ['seguridad','gimnasio','aire','pileta','cochera','transporte','comercio','servicios','doble piso','jardin']

for i in range(cant):
    com = list(np.random.choice(comodidades,6,replace = False))
    columnas = col + com
    set_entrenamiento_datos = propiedades.loc[:,columnas]
    set_entrenamiento_resultado = propiedades.loc[:,'price_aprox_usd']
    
    bag = BaggingRegressor(n_estimators = 50, max_samples = 1.0, max_features = 1.0)
    
    bag.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
    set_pruebas.loc[:,'res'] = set_pruebas.loc[:,columnas].apply(lambda x: bag.predict(x)[0],axis = 1)
    set_pruebas.loc[:,'price_usd'] = set_pruebas.loc[:,'price_usd'] + set_pruebas.loc[:,'res']

In [4]:
set_pruebas.loc[:,'price_usd'] = set_pruebas.loc[:,'price_usd'] / cant

resultado = set_pruebas.loc[:,['id','price_usd']]

resultado.to_csv('resultados/Bagging_regressor_bagging_definitivo.csv', index = False)

# Pruebo con muchos estimadores

In [16]:
sup_min = 10
sup_max = 300
lat_min = -35
lat_max = -34
lon_min = -59
lon_max = -58
precio_min = 30000
precio_max = 3000000

In [17]:
propiedades = pd.read_csv('../../datos_con_fecha.csv')

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2017)\
                        & (propiedades.price_aprox_usd <= precio_max) & (propiedades.price_aprox_usd >= precio_min) &\
                         (propiedades.superficie <= sup_max) & (propiedades.superficie >= sup_min) &\
                      (propiedades.lat <= lat_max) & (propiedades.lat >= lat_min) &\
                       (propiedades.lon <= lon_max) & (propiedades.lon >= lon_min),:]

columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', \
            'pileta', 'cochera','transporte','comercio', 'servicios', 'doble piso', 'jardin','fecha']

set_entrenamiento_datos = propiedades.loc[:,columnas]
set_entrenamiento_resultado = propiedades.loc[:,'price_aprox_usd']

In [26]:
# Parametros

estimators = [1000]
samples = [1.0]
features = [1.0]

parametros = {"n_estimators" : estimators, "max_samples" : samples, "max_features" : features}

iteraciones_cross_validation = 3
bag = BaggingRegressor()

In [27]:
inicio = time.strftime("%X")

grid = GridSearchCV( estimator = bag, param_grid = parametros, n_jobs = 2, cv = iteraciones_cross_validation)

grid.fit(set_entrenamiento_datos, set_entrenamiento_resultado)

score = grid.best_score_ * 100
mejores_parametros = grid.best_params_
fin = time.strftime("%X")

print("Tiempo: {} --- {} \n Precision: {:.2f} \n Parametros = {}".format(inicio,fin,score,mejores_parametros))

Tiempo: 11:03:17 --- 13:16:44 
 Precision: 96.94 
 Parametros = {'max_features': 1.0, 'n_estimators': 1000, 'max_samples': 1.0}


In [28]:
analizar = pd.read_csv("../properati_dataset_modificado2.csv")

analizar.loc[:,'price_usd'] = analizar.loc[:,columnas].apply(lambda x: grid.predict([x])[0],axis = 1)

resultado = analizar.loc[:,['id','price_usd']]

resultado.to_csv('resultados/Bagging_Regressor_1kEst.csv', index = False)
joblib.dump(grid, 'algoritmos/Bagging_Regressor_1kEst.pkl')

['algoritmos/Bagging_Regressor_50kEst.pkl']

# Grid Search y cross validation definitivo sin fecha

In [8]:
sup_min = 10
sup_max = 300
lat_min = -35
lat_max = -34
lon_min = -59
lon_max = -58
precio_min = 30000
precio_max = 3000000

In [9]:
propiedades = pd.read_csv('../../datos_con_fecha.csv')

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2017)\
                        & (propiedades.price_aprox_usd <= precio_max) & (propiedades.price_aprox_usd >= precio_min) &\
                         (propiedades.superficie <= sup_max) & (propiedades.superficie >= sup_min) &\
                      (propiedades.lat <= lat_max) & (propiedades.lat >= lat_min) &\
                       (propiedades.lon <= lon_max) & (propiedades.lon >= lon_min),:]

columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', \
            'pileta', 'cochera','transporte','comercio', 'servicios', 'doble piso', 'jardin']

set_entrenamiento_datos = propiedades.loc[:,columnas]
set_entrenamiento_resultado = propiedades.loc[:,'price_aprox_usd']

In [10]:
# Parametros

estimators = [5,10,20,30,50]
samples = [1.0,0.8,0.6]
features = [1.0,0.7,0.5,0.4]

parametros = {"n_estimators" : estimators, "max_samples" : samples, "max_features" : features}

iteraciones_cross_validation = 10
bag = BaggingRegressor()

In [11]:
inicio = time.strftime("%X")

grid = GridSearchCV( estimator = bag, param_grid = parametros, n_jobs = 2, cv = iteraciones_cross_validation)

grid.fit(set_entrenamiento_datos, set_entrenamiento_resultado)

score = grid.best_score_ * 100
mejores_parametros = grid.best_params_
fin = time.strftime("%X")

print("Tiempo: {} --- {} \n Precision: {:.2f} \n Parametros = {}".format(inicio,fin,score,mejores_parametros))

Tiempo: 09:37:00 --- 11:38:07 
 Precision: 97.29 
 Parametros = {'max_features': 1.0, 'n_estimators': 50, 'max_samples': 1.0}


In [12]:
analizar = pd.read_csv("../properati_dataset_modificado2.csv")

analizar.loc[:,'price_usd'] = analizar.loc[:,columnas].apply(lambda x: grid.predict([x])[0],axis = 1)

resultado = analizar.loc[:,['id','price_usd']]

resultado.to_csv('resultados/Bagging_Regressor_GridSearch_definitivo_sin_fecha.csv', index = False)
joblib.dump(grid, 'algoritmos/Bagging_Regressor_definitivo_sinfecha.pkl')

['algoritmos/Bagging_Regressor_definitivo_sinfecha.pkl']

# Haciendo bagging sin fecha

In [13]:
propiedades = pd.read_csv('../../datos_con_fecha.csv')

sup_min = 10
sup_max = 300
lat_min = -35
lat_max = -34
lon_min = -59
lon_max = -58
precio_min = 30000
precio_max = 3000000

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2017)\
                        & (propiedades.price_aprox_usd <= precio_max) & (propiedades.price_aprox_usd >= precio_min) &\
                         (propiedades.superficie <= sup_max) & (propiedades.superficie >= sup_min) &\
                      (propiedades.lat <= lat_max) & (propiedades.lat >= lat_min) &\
                       (propiedades.lon <= lon_max) & (propiedades.lon >= lon_min),:]

set_pruebas = pd.read_csv("../properati_dataset_modificado2.csv")
set_pruebas.loc[:,'price_usd'] = 0.0

In [14]:
cant = 10
col = ['superficie','lat', 'lon','property_type_encoded']
comodidades = ['seguridad','gimnasio','aire','pileta','cochera','transporte','comercio','servicios','doble piso','jardin']

for i in range(cant):
    com = list(np.random.choice(comodidades,6,replace = False))
    columnas = col + com
    set_entrenamiento_datos = propiedades.loc[:,columnas]
    set_entrenamiento_resultado = propiedades.loc[:,'price_aprox_usd']
    
    bag = BaggingRegressor(n_estimators = 50, max_samples = 1.0, max_features = 1.0)
    
    bag.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
    set_pruebas.loc[:,'res'] = set_pruebas.loc[:,columnas].apply(lambda x: bag.predict([x])[0],axis = 1)
    set_pruebas.loc[:,'price_usd'] = set_pruebas.loc[:,'price_usd'] + set_pruebas.loc[:,'res']

In [15]:
set_pruebas.loc[:,'price_usd'] = set_pruebas.loc[:,'price_usd'] / cant

resultado = set_pruebas.loc[:,['id','price_usd']]

resultado.to_csv('resultados/Bagging_regressor_bagging_definitivo_sinfecha.csv', index = False)

# Pruebo con muchos estimadores sin fecha

In [2]:
sup_min = 10
sup_max = 300
lat_min = -35
lat_max = -34
lon_min = -59
lon_max = -58
precio_min = 30000
precio_max = 3000000

In [3]:
propiedades = pd.read_csv('../../datos_con_fecha.csv')

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2017)\
                        & (propiedades.price_aprox_usd <= precio_max) & (propiedades.price_aprox_usd >= precio_min) &\
                         (propiedades.superficie <= sup_max) & (propiedades.superficie >= sup_min) &\
                      (propiedades.lat <= lat_max) & (propiedades.lat >= lat_min) &\
                       (propiedades.lon <= lon_max) & (propiedades.lon >= lon_min),:]

columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', \
            'pileta', 'cochera','transporte','comercio', 'servicios', 'doble piso', 'jardin']

set_entrenamiento_datos = propiedades.loc[:,columnas]
set_entrenamiento_resultado = propiedades.loc[:,'price_aprox_usd']

In [4]:
# Parametros

estimators = [1000]
samples = [1.0]
features = [1.0]

parametros = {"n_estimators" : estimators, "max_samples" : samples, "max_features" : features}

iteraciones_cross_validation = 3
bag = BaggingRegressor()

In [5]:
inicio = time.strftime("%X")

grid = GridSearchCV( estimator = bag, param_grid = parametros, n_jobs = 2, cv = iteraciones_cross_validation)

grid.fit(set_entrenamiento_datos, set_entrenamiento_resultado)

score = grid.best_score_ * 100
mejores_parametros = grid.best_params_
fin = time.strftime("%X")

print("Tiempo: {} --- {} \n Precision: {:.2f} \n Parametros = {}".format(inicio,fin,score,mejores_parametros))

Tiempo: 02:14:06 --- 04:25:40 
 Precision: 97.09 
 Parametros = {'n_estimators': 1000, 'max_features': 1.0, 'max_samples': 1.0}


In [6]:
analizar = pd.read_csv("../properati_dataset_modificado2.csv")

analizar.loc[:,'price_usd'] = analizar.loc[:,columnas].apply(lambda x: grid.predict([x])[0],axis = 1)

resultado = analizar.loc[:,['id','price_usd']]

resultado.to_csv('resultados/Bagging_Regressor_1kEst_sinfecha.csv', index = False)
joblib.dump(grid, 'algoritmos/Bagging_Regressor_1kEst_sinfecha.pkl')

['algoritmos/Bagging_Regressor_1kEst_sinfecha.pkl']

# Con muchas columnas de descripcion

In [2]:
sup_min = 10
sup_max = 300
lat_min = -35
lat_max = -34
lon_min = -59
lon_max = -58
precio_min = 30000
precio_max = 3000000

In [3]:
propiedades = pd.read_csv('../../set_datos_sup_desc.csv')

propiedades.loc[:, 'Year'] = propiedades.loc[:,'created_on'].apply(lambda x: int(x.split('-')[0]))

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2017)\
                        & (propiedades.price_aprox_usd <= precio_max) & (propiedades.price_aprox_usd >= precio_min) &\
                         (propiedades.superficie <= sup_max) & (propiedades.superficie >= sup_min) &\
                      (propiedades.lat <= lat_max) & (propiedades.lat >= lat_min) &\
                       (propiedades.lon <= lon_max) & (propiedades.lon >= lon_min),:]

columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', \
'pileta', 'cochera','transporte','cocina','comedor', 'living', 'banos', 'balcon','ambientes',\
'departamento', 'dormitorios','quincho', 'granito','porcelanato','completo', 'excelente', 'edificio',\
'lavadero', 'amplio', 'planta', 'cuadras', 'placard', 'terraza', 'acceso', 'parrilla', 'luminoso',\
'madera', 'credito', 'calidad', 'cucicba', 'amenities']

set_entrenamiento_datos = propiedades.loc[:,columnas]
set_entrenamiento_resultado = propiedades.loc[:,'price_aprox_usd']

In [4]:
inicio = time.strftime("%X")

bag = BaggingRegressor(n_estimators = 250, max_samples = 1.0, max_features = 1.0)
    
bag.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
joblib.dump(bag, 'algoritmos/BaggingRegressor_muchasColumnasDescripciones.pkl')

fin = time.strftime("%X")

print("Tiempo: {} --- {} ".format(inicio,fin))

Tiempo: 00:47:28 --- 01:04:00 


In [5]:
analizar = pd.read_csv("../properati_dataset_modificado_descripciones.csv")

analizar.loc[:,'price_usd'] = analizar.loc[:,columnas].apply(lambda x: bag.predict([x])[0],axis = 1)

resultado = analizar.loc[:,['id','price_usd']]

resultado.to_csv('resultados/BaggingRegressor_MuchasColumnasDescripcion.csv', index = False)