In [None]:
import pandas as pd
import numpy as np
from sklearn.metrics import mean_squared_error
from sklearn.neighbors import KNeighborsRegressor
from sklearn.preprocessing import StandardScaler 
from sklearn.model_selection import GridSearchCV
from sklearn.externals import joblib
import time
from sklearn.decomposition import TruncatedSVD
from sklearn.model_selection import train_test_split

import warnings
warnings.simplefilter("ignore", category=DeprecationWarning)

# Grid Search y Cross Validation definitivo

In [None]:
sup_min = 10
sup_max = 300
lat_min = -35
lat_max = -34
lon_min = -59
lon_max = -58
precio_min = 30000
precio_max = 3000000

In [None]:
propiedades = pd.read_csv('../../datos_con_fecha.csv')

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2017)\
                        & (propiedades.price_aprox_usd <= precio_max) & (propiedades.price_aprox_usd >= precio_min) &\
                         (propiedades.superficie <= sup_max) & (propiedades.superficie >= sup_min) &\
                      (propiedades.lat <= lat_max) & (propiedades.lat >= lat_min) &\
                       (propiedades.lon <= lon_max) & (propiedades.lon >= lon_min),:]

columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', \
            'pileta', 'cochera','transporte','comercio', 'servicios', 'doble piso', 'jardin','fecha']

set_entrenamiento_datos = propiedades.loc[:,columnas]
set_entrenamiento_resultado = propiedades.loc[:,'price_aprox_usd']


In [None]:
# Parametros

lista_k = [2,3,10,15,20,30,50]
lista_dist = [1,2,5]

parametros = {"n_neighbors" : lista_k, "p" : lista_dist}

iteraciones_cross_validation = 5
knn = KNeighborsRegressor()

In [None]:
inicio = time.strftime("%X")

grid = GridSearchCV( estimator = knn, param_grid = parametros, n_jobs = 2, cv = iteraciones_cross_validation)

grid.fit(set_entrenamiento_datos, set_entrenamiento_resultado)

score = grid.best_score_ * 100
mejores_parametros = grid.best_params_
fin = time.strftime("%X")

print("Tiempo: {} --- {} \n Precision: {:.2f} \n Parametros = {}".format(inicio,fin,score,mejores_parametros))

In [None]:
analizar = pd.read_csv("../properati_dataset_modificado2.csv")

analizar.loc[:,'price_usd'] = analizar.loc[:,columnas].apply(lambda x: grid.predict([x])[0],axis = 1)

resultado = analizar.loc[:,['id','price_usd']]

resultado.to_csv('resultados/Knn_GridSearch_definitivo_conFecha.csv', index = False)
joblib.dump(grid, 'algoritmos/Knn_definitivo_conFecha.pkl')

# Haciendo bagging

In [None]:
propiedades = pd.read_csv('../../datos_con_fecha.csv')

sup_min = 10
sup_max = 300
lat_min = -35
lat_max = -34
lon_min = -59
lon_max = -58
precio_min = 30000
precio_max = 3000000

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2017)\
                        & (propiedades.price_aprox_usd <= precio_max) & (propiedades.price_aprox_usd >= precio_min) &\
                         (propiedades.superficie <= sup_max) & (propiedades.superficie >= sup_min) &\
                      (propiedades.lat <= lat_max) & (propiedades.lat >= lat_min) &\
                       (propiedades.lon <= lon_max) & (propiedades.lon >= lon_min),:]

set_pruebas = pd.read_csv("../properati_dataset_modificado2.csv")
set_pruebas.loc[:,'price_usd'] = 0.0

In [None]:
cant = 10
col = ['superficie','lat', 'lon','property_type_encoded','fecha']
comodidades = ['seguridad','gimnasio','aire','pileta','cochera','transporte','comercio','servicios','doble piso','jardin']

for i in range(cant):
    com = list(np.random.choice(comodidades,6,replace = False))
    columnas = col + com
    set_entrenamiento_datos = propiedades.loc[:,columnas]
    set_entrenamiento_resultado = propiedades.loc[:,'price_aprox_usd']
    
    knn = KNeighborsRegressor(n_neighbors = , p = )
    
    knn.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
    set_pruebas.loc[:,'res'] = set_pruebas.loc[:,columnas].apply(lambda x: knn.predict([x])[0],axis = 1)
    set_pruebas.loc[:,'price_usd'] = set_pruebas.loc[:,'price_usd'] + set_pruebas.loc[:,'res']

In [None]:
set_pruebas.loc[:,'price_usd'] = set_pruebas.loc[:,'price_usd'] / cant

resultado = set_pruebas.loc[:,['id','price_usd']]

resultado.to_csv('resultados/Knn_bagging_definitivo_conFecha.csv', index = False)

# Haciendo bagging con Standard Scaler

In [None]:
propiedades = pd.read_csv('../../datos_con_fecha.csv')

sup_min = 10
sup_max = 300
lat_min = -35
lat_max = -34
lon_min = -59
lon_max = -58
precio_min = 30000
precio_max = 3000000

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2017)\
                        & (propiedades.price_aprox_usd <= precio_max) & (propiedades.price_aprox_usd >= precio_min) &\
                         (propiedades.superficie <= sup_max) & (propiedades.superficie >= sup_min) &\
                      (propiedades.lat <= lat_max) & (propiedades.lat >= lat_min) &\
                       (propiedades.lon <= lon_max) & (propiedades.lon >= lon_min),:]

set_pruebas = pd.read_csv("../properati_dataset_modificado2.csv")
set_pruebas.loc[:,'price_usd'] = 0.0

In [None]:
cant = 10
col = ['superficie','lat', 'lon','property_type_encoded','fecha']
comodidades = ['seguridad','gimnasio','aire','pileta','cochera','transporte','comercio','servicios','doble piso','jardin']

for i in range(cant):
    com = list(np.random.choice(comodidades,6,replace = False))
    columnas = col + com
    set_entrenamiento_datos = propiedades.loc[:,columnas]
    set_entrenamiento_resultado = propiedades.loc[:,'price_aprox_usd']
    
    scaler = StandardScaler()
    set_entrenamiento_datos = scaler.fit_transform(set_entrenamiento_datos)
    
    knn = KNeighborsRegressor(n_neighbors = , p = )
    
    knn.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
    set_pruebas.loc[:,'res'] = set_pruebas.loc[:,columnas].apply(lambda x: knn.predict([scaler.transform(x)])[0],axis = 1)
    set_pruebas.loc[:,'price_usd'] = set_pruebas.loc[:,'price_usd'] + set_pruebas.loc[:,'res']

In [None]:
set_pruebas.loc[:,'price_usd'] = set_pruebas.loc[:,'price_usd'] / cant

resultado = set_pruebas.loc[:,['id','price_usd']]

resultado.to_csv('resultados/Knn_bagging_definitivo_conFecha_StandardScaler.csv', index = False)