In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import Ridge
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import GridSearchCV
from sklearn.externals import joblib
import time
from sklearn.decomposition import TruncatedSVD
from sklearn.model_selection import train_test_split

import warnings
warnings.simplefilter("ignore", category=DeprecationWarning)

In [2]:
propiedades = pd.read_csv('../../set_datos_propiedades.csv')

sup_min = 10
sup_max = 150

lat_min = -35
lat_max = -34

lon_min = -59
lon_max = -58

precio_min = 5000
precio_max = 1000000

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2016)\
                        & (propiedades.price_aprox_usd <= precio_max) & (propiedades.price_aprox_usd >= precio_min) &\
                         (propiedades.superficie <= sup_max) & (propiedades.superficie >= sup_min) &\
                      (propiedades.lat <= lat_max) & (propiedades.lat >= lat_min) &\
                       (propiedades.lon <= lon_max) & (propiedades.lon >= lon_min),:]

columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

In [3]:
set_entrenamiento = propiedades.loc[(propiedades.Year >= 2016) &((propiedades.Year < 2017) | (propiedades.Month < 6))\
                                    ,columnas_precio]
set_pruebas = propiedades.loc[(propiedades.Year == 2017) & (propiedades.Month == 6),columnas_precio].head(20000)

set_entrenamiento_datos = set_entrenamiento.loc[:,columnas]
set_entrenamiento_resultado = set_entrenamiento.loc[:,'price_aprox_usd']

In [4]:
ridge = Ridge()
ridge.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply(lambda x: ridge.predict(x)[0],axis = 1)
precision = ridge.score(set_pruebas.loc[:,columnas],set_pruebas.price_aprox_usd) * 100
error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
print("Precision = {:.2f} % , error = {}, digitos = {}".format(precision, error,len(str(int(round(error,0))))))

Precision = 45.48 % , error = 7588749196.682586, digitos = 10


# Usando grid search y cross validation

In [11]:
# Parametros

alpha = [0.1,0.5,0.7,1.0,1.2,2.0]
normalize = [True,False]
solver = ['auto', 'svd', 'cholesky', 'lsqr', 'sparse_cg', 'sag']

parametros = {"alpha" : alpha, "normalize" : normalize, "solver" : solver}

iteraciones_cross_validation = 50
ridge = Ridge()

set_entrenamiento_datos = propiedades.loc[:,columnas]
set_entrenamiento_resultado = propiedades.loc[:,'price_aprox_usd']

In [12]:
inicio = time.strftime("%X")

grid = GridSearchCV( estimator = ridge, param_grid = parametros, n_jobs = 2, cv = iteraciones_cross_validation)

grid.fit(set_entrenamiento_datos, set_entrenamiento_resultado)

score = grid.best_score_ * 100
mejores_parametros = grid.best_params_
fin = time.strftime("%X")

print("Tiempo: {} --- {} \n Precision: {:.2f} \n Parametros = {}".format(inicio,fin,score,mejores_parametros))

Tiempo: 21:19:42 --- 22:28:58 
 Precision: 41.34 
 Parametros = {'alpha': 1.0, 'normalize': False, 'solver': 'sag'}


In [13]:
analizar = pd.read_csv("../properati_dataset_modificado.csv")

analizar.loc[:,'price_usd'] = analizar.loc[:,columnas].apply(lambda x: grid.predict(x)[0],axis = 1)

resultado = analizar.loc[:,['id','price_usd']]

resultado.to_csv('resultados/Ridge_GridSearch.csv', index = False)
joblib.dump(grid, 'algoritmos/ridge.pkl')

['algoritmos/ridge.pkl']

# Haciendo bagging

In [15]:
set_pruebas = pd.read_csv("../properati_dataset_modificado.csv")
set_pruebas.loc[:,'price_usd'] = 0.0

cant = 10

for i in range(cant):
    datos = propiedades.sample(frac = 0.7)
    set_entrenamiento_datos = datos.loc[:,columnas]
    set_entrenamiento_resultado = datos.loc[:,'price_aprox_usd']
    
    ridge = Ridge(alpha = 1.0, normalize = False, solver = 'sag')
    
    ridge.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
    set_pruebas.loc[:,'res'] = set_pruebas.loc[:,columnas].apply(lambda x: ridge.predict(x)[0],axis = 1)
    set_pruebas.loc[:,'price_usd'] = set_pruebas.loc[:,'price_usd'] + set_pruebas.loc[:,'res']

In [16]:
set_pruebas.loc[:,'price_usd'] = set_pruebas.loc[:,'price_usd'] / cant

resultado = set_pruebas.loc[:,['id','price_usd']]
resultado.loc[:,'price_usd'] = abs(resultado.loc[:,'price_usd'])

resultado.to_csv('resultados/Ridge_Cross_Validation.csv', index = False)

# Grid Search y Cross Validation definitivo sin fechas

In [2]:
sup_min = 10
sup_max = 300
lat_min = -35
lat_max = -34
lon_min = -59
lon_max = -58
precio_min = 30000
precio_max = 3000000

In [3]:
propiedades = pd.read_csv('../../set_datos_propiedades.csv')

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2017)\
                        & (propiedades.price_aprox_usd <= precio_max) & (propiedades.price_aprox_usd >= precio_min) &\
                         (propiedades.superficie <= sup_max) & (propiedades.superficie >= sup_min) &\
                      (propiedades.lat <= lat_max) & (propiedades.lat >= lat_min) &\
                       (propiedades.lon <= lon_max) & (propiedades.lon >= lon_min),:]

columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', \
            'pileta', 'cochera','transporte','comercio', 'servicios', 'doble piso', 'jardin']

set_entrenamiento_datos = propiedades.loc[:,columnas]
set_entrenamiento_resultado = propiedades.loc[:,'price_aprox_usd']

In [4]:
alpha = [0.1,0.5,0.7,1.0,1.2,2.0]
normalize = [True,False]
solver = ['auto', 'svd', 'cholesky', 'lsqr', 'sparse_cg', 'sag']

parametros = {"alpha" : alpha, "normalize" : normalize, "solver" : solver}

iteraciones_cross_validation = 50
ridge = Ridge()

In [5]:
inicio = time.strftime("%X")

grid = GridSearchCV( estimator = ridge, param_grid = parametros, n_jobs = 2, cv = iteraciones_cross_validation)

grid.fit(set_entrenamiento_datos, set_entrenamiento_resultado)

score = grid.best_score_ * 100
mejores_parametros = grid.best_params_
fin = time.strftime("%X")

print("Tiempo: {} --- {} \n Precision: {:.2f} \n Parametros = {}".format(inicio,fin,score,mejores_parametros))

Tiempo: 11:54:59 --- 13:21:52 
 Precision: 42.97 
 Parametros = {'normalize': False, 'alpha': 2.0, 'solver': 'sag'}


In [6]:
analizar = pd.read_csv("../properati_dataset_modificado2.csv")

analizar.loc[:,'price_usd'] = analizar.loc[:,columnas].apply(lambda x: abs(grid.predict([x])[0]),axis = 1)

resultado = analizar.loc[:,['id','price_usd']]

resultado.to_csv('resultados/Ridge_GridSearch_definitivo_sinFecha.csv', index = False)
joblib.dump(grid, 'algoritmos/Ridge_definitivo_sinFecha.pkl')

['algoritmos/Ridge_definitivo_sinFecha.pkl']

# Haciendo bagging

In [7]:
propiedades = pd.read_csv('../../set_datos_propiedades.csv')

sup_min = 10
sup_max = 300
lat_min = -35
lat_max = -34
lon_min = -59
lon_max = -58
precio_min = 30000
precio_max = 3000000

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2017)\
                        & (propiedades.price_aprox_usd <= precio_max) & (propiedades.price_aprox_usd >= precio_min) &\
                         (propiedades.superficie <= sup_max) & (propiedades.superficie >= sup_min) &\
                      (propiedades.lat <= lat_max) & (propiedades.lat >= lat_min) &\
                       (propiedades.lon <= lon_max) & (propiedades.lon >= lon_min),:]

set_pruebas = pd.read_csv("../properati_dataset_modificado2.csv")
set_pruebas.loc[:,'price_usd'] = 0.0

In [9]:
cant = 10
col = ['superficie','lat', 'lon','property_type_encoded']
comodidades = ['seguridad','gimnasio','aire','pileta','cochera','transporte','comercio','servicios','doble piso','jardin']

for i in range(cant):
    com = list(np.random.choice(comodidades,6,replace = False))
    columnas = col + com
    set_entrenamiento_datos = propiedades.loc[:,columnas]
    set_entrenamiento_resultado = propiedades.loc[:,'price_aprox_usd']
    
    ridge = Ridge(alpha = 2.0, normalize = False, solver = 'sag')
    
    ridge.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
    set_pruebas.loc[:,'res'] = set_pruebas.loc[:,columnas].apply(lambda x: abs(ridge.predict([x])[0]),axis = 1)
    set_pruebas.loc[:,'price_usd'] = set_pruebas.loc[:,'price_usd'] + set_pruebas.loc[:,'res']

In [10]:
set_pruebas.loc[:,'price_usd'] = set_pruebas.loc[:,'price_usd'] / cant

resultado = set_pruebas.loc[:,['id','price_usd']]

resultado.to_csv('resultados/Ridge_bagging_definitivo_sinFecha.csv', index = False)

# Grid Search y Cross Validation definitivo con fechas

In [11]:
sup_min = 10
sup_max = 300
lat_min = -35
lat_max = -34
lon_min = -59
lon_max = -58
precio_min = 30000
precio_max = 3000000

In [12]:
propiedades = pd.read_csv('../../datos_con_fecha.csv')

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2017)\
                        & (propiedades.price_aprox_usd <= precio_max) & (propiedades.price_aprox_usd >= precio_min) &\
                         (propiedades.superficie <= sup_max) & (propiedades.superficie >= sup_min) &\
                      (propiedades.lat <= lat_max) & (propiedades.lat >= lat_min) &\
                       (propiedades.lon <= lon_max) & (propiedades.lon >= lon_min),:]

columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', \
            'pileta', 'cochera','transporte','comercio', 'servicios', 'doble piso', 'jardin','fecha']

set_entrenamiento_datos = propiedades.loc[:,columnas]
set_entrenamiento_resultado = propiedades.loc[:,'price_aprox_usd']

In [13]:
alpha = [0.1,0.5,0.7,1.0,1.2,2.0]
normalize = [True,False]
solver = ['auto', 'svd', 'cholesky', 'lsqr', 'sparse_cg', 'sag']

parametros = {"alpha" : alpha, "normalize" : normalize, "solver" : solver}

iteraciones_cross_validation = 50
ridge = Ridge()

In [14]:
inicio = time.strftime("%X")

grid = GridSearchCV( estimator = ridge, param_grid = parametros, n_jobs = 2, cv = iteraciones_cross_validation)

grid.fit(set_entrenamiento_datos, set_entrenamiento_resultado)

score = grid.best_score_ * 100
mejores_parametros = grid.best_params_
fin = time.strftime("%X")

print("Tiempo: {} --- {} \n Precision: {:.2f} \n Parametros = {}".format(inicio,fin,score,mejores_parametros))

Tiempo: 13:28:03 --- 14:57:07 
 Precision: 42.94 
 Parametros = {'normalize': False, 'alpha': 0.5, 'solver': 'sag'}


In [15]:
analizar = pd.read_csv("../properati_dataset_modificado2.csv")

analizar.loc[:,'price_usd'] = analizar.loc[:,columnas].apply(lambda x: abs(grid.predict([x])[0]),axis = 1)

resultado = analizar.loc[:,['id','price_usd']]

resultado.to_csv('resultados/Ridge_GridSearch_definitivo_conFecha.csv', index = False)
joblib.dump(grid, 'algoritmos/Ridge_definitivo_conFecha.pkl')

['algoritmos/Ridge_definitivo_conFecha.pkl']

# Haciendo Bagging

In [16]:
propiedades = pd.read_csv('../../datos_con_fecha.csv')

sup_min = 10
sup_max = 300
lat_min = -35
lat_max = -34
lon_min = -59
lon_max = -58
precio_min = 30000
precio_max = 3000000

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2017)\
                        & (propiedades.price_aprox_usd <= precio_max) & (propiedades.price_aprox_usd >= precio_min) &\
                         (propiedades.superficie <= sup_max) & (propiedades.superficie >= sup_min) &\
                      (propiedades.lat <= lat_max) & (propiedades.lat >= lat_min) &\
                       (propiedades.lon <= lon_max) & (propiedades.lon >= lon_min),:]

set_pruebas = pd.read_csv("../properati_dataset_modificado2.csv")
set_pruebas.loc[:,'price_usd'] = 0.0

In [17]:
cant = 10
col = ['superficie','lat', 'lon','property_type_encoded','fecha']
comodidades = ['seguridad','gimnasio','aire','pileta','cochera','transporte','comercio','servicios','doble piso','jardin']

for i in range(cant):
    com = list(np.random.choice(comodidades,6,replace = False))
    columnas = col + com
    set_entrenamiento_datos = propiedades.loc[:,columnas]
    set_entrenamiento_resultado = propiedades.loc[:,'price_aprox_usd']
    
    ridge = Ridge(alpha = 0.5, normalize = False, solver = 'sag')    
    
    ridge.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
    set_pruebas.loc[:,'res'] = set_pruebas.loc[:,columnas].apply(lambda x: abs(ridge.predict([x])[0]),axis = 1)
    set_pruebas.loc[:,'price_usd'] = set_pruebas.loc[:,'price_usd'] + set_pruebas.loc[:,'res']

In [18]:
set_pruebas.loc[:,'price_usd'] = set_pruebas.loc[:,'price_usd'] / cant

resultado = set_pruebas.loc[:,['id','price_usd']]

resultado.to_csv('resultados/Ridge_bagging_definitivo_conFecha.csv', index = False)