In [1]:
import pandas as pd
import numpy as np
from sklearn import preprocessing
from sklearn.neural_network import MLPRegressor
from sklearn.metrics import mean_squared_error

from sklearn.model_selection import GridSearchCV
from sklearn.externals import joblib
import time

import warnings
warnings.simplefilter("ignore", category=DeprecationWarning)

In [2]:
def obtener_rmse(col_true, col_pred):
    return mean_squared_error(col_true, col_pred)**0.5

In [3]:
propiedades = pd.read_csv('/home/agustin/Escritorio/escritorio/fiuba/Organizacion de datos/datos para el tp2/set_datos_propiedades.csv')

In [4]:
propiedades.drop(['lat','lon','fecha_de_publicacion', 'expenses', 'state_name',\
                  'distancia_villas', 'description'], axis = 1, inplace = True)
propiedades = propiedades.loc[propiedades.superficie.notnull(),:]

## Convierto los indices con preprocesamiento

In [5]:
barrios = {}
for x in list(propiedades.place_name_encoded):
    if x not in barrios:
        barrios[x] = [x]

In [6]:
tipos = preprocessing.OneHotEncoder()
tipos.fit([[0],[1],[2], [3]]) 

OneHotEncoder(categorical_features='all', dtype=<type 'numpy.float64'>,
       handle_unknown='error', n_values='auto', sparse=True)

In [7]:
pre_barrios = preprocessing.OneHotEncoder()
pre_barrios.fit(barrios.values())

OneHotEncoder(categorical_features='all', dtype=<type 'numpy.float64'>,
       handle_unknown='error', n_values='auto', sparse=True)

In [8]:
propiedades.loc[:,'place_name_encoded_2'] = propiedades.loc[:,'place_name_encoded']\
.apply(lambda x: pre_barrios.transform([[x]]))

In [9]:
propiedades.loc[:,'property_type_encoded_2'] = propiedades.loc[:,'property_type_encoded']\
.apply(lambda x: tipos.transform([[x]]))

In [10]:
propiedades.to_csv('/home/agustin/Escritorio/datos_indice.csv', index = False)

In [11]:
entrenar = propiedades.loc[(propiedades.Year >= 2016) & ((propiedades.Month < 6) | (propiedades.Year < 2017)),:]

In [12]:
adivinar = propiedades.loc[(propiedades.Year == 2017) & (propiedades.Month == 6),:]

## Perceptron sin indices de preprocesamiento

In [44]:
def adivinar_precio(fila, perceptron):
    return  perceptron.predict([fila])[0]

In [7]:
condiciones = ['place_name_encoded', 'property_type_encoded', 'superficie', 'gimnasio',\
               'pileta', 'seguridad']

precios = condiciones + ['price_aprox_usd']

In [41]:
funcion = ['adam', 'lbfgs', 'sgd']
activacion = ['relu','identity', 'logistic', 'tanh']
tolerancia = [1e-5, 1e-8, 1e-10]

In [None]:
impresion = []
for i in range (0, len(funcion)):
    for j in range(0, len(activacion)):
        for k in range(0, len(tolerancia)):
            perceptron = MLPRegressor(solver = funcion[i], activation = activacion[j], tol = tolerancia[k])
            perceptron.fit(entrenar.loc[:,condiciones], entrenar.loc[:, 'price_aprox_usd'])
            adivinar.loc[:,'precio_adivinado_perceptron'] = adivinar.loc[:, condiciones]\
            .apply(lambda x: adivinar_precio(x, perceptron), axis = 1)
            error = obtener_rmse(adivinar.loc[:,'price_aprox_usd'], adivinar.loc[:,'precio_adivinado_perceptron'])
            impresion.append((funcion[i], activacion[j], tolerancia[k], error))

In [21]:
for i in range (0, len(impresion)):
    print("Funcion = {} , activacion = {}, tolerancia = {}, error = {}".format(impresion[i][0], impresion[i][1], impresion[i][2], impresion[i][3]))

Funcion = adam , activacion = relu, tolerancia = 1e-05, error = 2856923.30569
Funcion = adam , activacion = relu, tolerancia = 1e-08, error = 7885404.28854
Funcion = adam , activacion = relu, tolerancia = 1e-10, error = 983892.01563
Funcion = adam , activacion = identity, tolerancia = 1e-05, error = 8068786.87283
Funcion = adam , activacion = identity, tolerancia = 1e-08, error = 6847308.97947
Funcion = adam , activacion = identity, tolerancia = 1e-10, error = 7189725.68045
Funcion = adam , activacion = logistic, tolerancia = 1e-05, error = 446011.124687
Funcion = adam , activacion = logistic, tolerancia = 1e-08, error = 446001.878031
Funcion = adam , activacion = logistic, tolerancia = 1e-10, error = 446003.376714
Funcion = adam , activacion = tanh, tolerancia = 1e-05, error = 445965.857984
Funcion = adam , activacion = tanh, tolerancia = 1e-08, error = 445964.564555
Funcion = adam , activacion = tanh, tolerancia = 1e-10, error = 445965.56429
Funcion = lbfgs , activacion = relu, toler

#### Algunos de sgd no corrieron porque tiraron error. El mejor resultado se obtuvo con solver = lbfgs, activation = logistic y tol = 1e-8

## Corro nuevamente lbfgs pero con iteraciones de aprendizaje

In [46]:
impresion_2 = []
for k in range(0, len(tolerancia)):
        perceptron = MLPRegressor(solver = 'lbfgs', activation = 'logistic', tol = tolerancia[k], warm_start = True)
        for j in range(15):
            perceptron.fit(entrenar.loc[:,condiciones], entrenar.loc[:, 'price_aprox_usd'])
        adivinar.loc[:,'precio_adivinado_perceptron'] = adivinar.loc[:, condiciones]\
        .apply(lambda x: adivinar_precio(x, perceptron), axis = 1)
        error = obtener_rmse(adivinar.loc[:,'price_aprox_usd'], adivinar.loc[:,'precio_adivinado_perceptron'])
        impresion_2.append(('lbfgs', 'logistic', tolerancia[k], error))

In [47]:
for i in range (0, len(impresion_2)):
    print("Funcion = {} , activacion = {}, tolerancia = {}, error = {}".format(impresion_2[i][0], impresion_2[i][1], impresion_2[i][2], impresion_2[i][3]))
    #print("Funcion = {} , activacion = {}, tolerancia = {}, error = {}".format(impresion_2[i]))

Funcion = lbfgs , activacion = logistic, tolerancia = 1e-05, error = 374794.999012
Funcion = lbfgs , activacion = logistic, tolerancia = 1e-08, error = 387524.296117
Funcion = lbfgs , activacion = logistic, tolerancia = 1e-10, error = 383514.002996


## Calculo con los verdaderos datos con indices simples

In [4]:
entrenar = propiedades.loc[(propiedades.Year >= 2016) & ((propiedades.Month >= 6) | (propiedades.Year == 2017)),:]

In [8]:
perceptron = MLPRegressor(solver = 'lbfgs', activation = 'logistic', tol=1e-10,  warm_start = True)
for k in range(6):
    perceptron.fit(entrenar.loc[:,condiciones], entrenar.loc[:, 'price_aprox_usd'])

In [9]:
analizar = pd.read_csv('/home/agustin/Escritorio/escritorio/fiuba/Organizacion de datos/datos para el tp2/properati_dataset_modificado.csv')

In [12]:
analizar.loc[:,'price_usd'] = analizar.loc[:,condiciones].apply(lambda x: perceptron.predict([x])[0],axis = 1)

In [14]:
analizar.price_usd.describe()

count     14166.000000
mean     273737.920575
std       13839.190497
min      257696.031603
25%      263776.557855
50%      263816.677580
75%      282017.209480
max      296299.883654
Name: price_usd, dtype: float64

In [16]:
resultado = analizar.loc[:,['id','price_usd']]

In [17]:
resultado.to_csv('Perceptron_resultados.csv', index = False)

## Con preprocesamiento de standarizacion

In [5]:
entrenar = propiedades.loc[((propiedades.Year == 2016) & (propiedades.Month >= 6)) | ((propiedades.Year == 2017) & (propiedades.Month < 6)),:]
adivinar = propiedades.loc[(propiedades.Year == 2017) & (propiedades.Month >= 6),:]

In [11]:
from sklearn.preprocessing import StandardScaler  
scaler = StandardScaler()  
scaler.fit(entrenar.loc[:,condiciones])  

StandardScaler(copy=True, with_mean=True, with_std=True)

In [40]:
perceptron = MLPRegressor(solver = 'lbfgs', activation = 'logistic', tol=1e-10,  warm_start = True)
for k in range(6):
    perceptron.fit(scaler.transform(entrenar.loc[:,condiciones]), entrenar.loc[:, 'price_aprox_usd'])
    print(k)

In [34]:
adivinar.loc[:,'precio_adivinado_perceptron'] = adivinar.loc[:, condiciones]\
.apply(lambda x: perceptron.predict(scaler.transform([x]))[0],axis = 1)
obtener_rmse(adivinar.loc[:,'price_aprox_usd'], adivinar.loc[:,'precio_adivinado_perceptron'])

371377.69918790885

In [35]:
perceptron.fit(scaler.transform(adivinar.loc[:,condiciones]), adivinar.loc[:, 'price_aprox_usd'])

MLPRegressor(activation='logistic', alpha=0.0001, batch_size='auto',
       beta_1=0.9, beta_2=0.999, early_stopping=False, epsilon=1e-08,
       hidden_layer_sizes=(100,), learning_rate='constant',
       learning_rate_init=0.001, max_iter=200, momentum=0.9,
       nesterovs_momentum=True, power_t=0.5, random_state=None,
       shuffle=True, solver='lbfgs', tol=1e-10, validation_fraction=0.1,
       verbose=False, warm_start=True)

In [36]:
adivinar.loc[:,'precio_adivinado_perceptron'] = adivinar.loc[:, condiciones]\
.apply(lambda x: perceptron.predict(scaler.transform([x]))[0],axis = 1)
obtener_rmse(adivinar.loc[:,'price_aprox_usd'], adivinar.loc[:,'precio_adivinado_perceptron'])

371163.71740396123

In [37]:
adivinar.precio_adivinado_perceptron.describe()

count     84605.000000
mean     275410.730227
std      111632.520567
min       51843.428600
25%      179065.385049
50%      275235.405024
75%      368577.680155
max      484760.297554
Name: precio_adivinado_perceptron, dtype: float64

In [25]:
analizar = pd.read_csv('/home/agustin/Escritorio/escritorio/fiuba/Organizacion de datos/datos para el tp2/properati_dataset_modificado.csv')

In [38]:
analizar.loc[:,'price_usd'] = analizar.loc[:,condiciones]\
.apply(lambda x: abs(perceptron.predict(scaler.transform([x]))[0]),axis = 1)

In [39]:
analizar.price_usd.describe()

count     14166.000000
mean     241770.056467
std       95024.671605
min       51843.637336
25%      179065.385049
50%      204477.225855
75%      325592.993634
max      478662.318505
Name: price_usd, dtype: float64

In [30]:
resultado = analizar.loc[:,['id','price_usd']]

In [31]:
resultado.to_csv('Perceptron_resultados_con_standard_scaler.csv', index = False)

## Ahora uso lat y lon en lugar de place name

In [4]:
propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()),\
                             ['lat', 'lon', 'property_type_encoded','price_aprox_usd','superficie',\
                             'Year','Month','seguridad','aire','gimnasio','cochera','pileta']]

In [5]:
columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

In [6]:
set_entrenamiento = propiedades.loc[(propiedades.Year >= 2016) &((propiedades.Year < 2017) | (propiedades.Month < 6))\
                                    ,columnas_precio]
set_pruebas = propiedades.loc[(propiedades.Year == 2017) & (propiedades.Month == 6),columnas_precio].head(20000)

set_entrenamiento_datos = set_entrenamiento.loc[:,columnas]
set_entrenamiento_resultado = set_entrenamiento.loc[:,'price_aprox_usd']

In [9]:
perceptron = MLPRegressor(solver = 'lbfgs', activation = 'logistic', tol=1e-10,  warm_start = True)
for k in range(6):
    perceptron.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply(lambda x: perceptron.predict([x])[0],axis = 1)
precision = perceptron.score(set_pruebas.loc[:,columnas],set_pruebas.price_aprox_usd) * 100
error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
print("Precision = {:.2f} % , error = {}".format(precision, error))

Precision = 20.15 % , error = 92449448897.9


#### El resultado obtenido no es bueno por lo que no continuamos 

## Usando Gridsearch y Cross Validation

In [None]:
propiedades = pd.read_csv('/home/agustin/Escritorio/escritorio/fiuba/Organizacion de datos/datos para el tp2/set_datos_propiedades.csv')

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2016)]

columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

set_entrenamiento_datos = propiedades.loc[:,columnas]
set_entrenamiento_resultado = propiedades.loc[:,'price_aprox_usd']

In [None]:
# Parametros

funcion = ['adam', 'lbfgs']
activacion = ['relu','identity', 'logistic', 'tanh']
tolerancia = [1e-8, 1e-10]

parametros = {"solver" : funcion, "activation" : activacion, "tol" : tolerancia}

iteraciones_cross_validation = 5
perceptron = MLPRegressor()

In [None]:
inicio = time.strftime("%X")

grid = GridSearchCV( estimator = perceptron, param_grid = parametros, n_jobs = 2, cv = iteraciones_cross_validation)

grid.fit(set_entrenamiento_datos, set_entrenamiento_resultado)

score = grid.best_score_ * 100
mejores_parametros = grid.best_params_
fin = time.strftime("%X")

print("Tiempo: {} --- {} \n Precision: {:.2f} \n Parametros = {}".format(inicio,fin,score,mejores_parametros))

In [None]:
analizar = pd.read_csv("../properati_dataset_modificado.csv")

analizar.loc[:,'price_usd'] = analizar.loc[:,columnas].apply(lambda x: grid.predict(x)[0],axis = 1)

resultado = analizar.loc[:,['id','price_usd']]

resultado.to_csv('resultados/Perceptron_GridSearch.csv', index = False)

joblib.dump(grid, '/home/agustin/Escritorio/Perceptron.pkl')

# Hago Bagging con el mejor algoritmo

In [None]:
propiedades = pd.read_csv('/home/agustin/Escritorio/escritorio/fiuba/Organizacion de datos/datos para el tp2/set_datos_propiedades.csv')

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2016)]

columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

set_pruebas = analizar = pd.read_csv("../properati_dataset_modificado.csv")
set_pruebas.loc[:,'price_usd'] = 0.0

In [None]:
cant = 10

for i in range(cant):
    datos = propiedades.sample(frac = 0.7)
    set_entrenamiento_datos = datos.loc[:,columnas]
    set_entrenamiento_resultado = datos.loc[:,'price_aprox_usd']
    
    perceptron = MLPRegressor(solver = , activation = , tol = )
    
    perceptron.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
    set_pruebas.loc[:,'res'] = set_pruebas.loc[:,columnas].apply(lambda x: perceptron.predict(x)[0],axis = 1)
    set_pruebas.loc[:,'price_usd'] = set_pruebas.loc[:,'price_usd'] + set_pruebas.loc[:,'res']

In [None]:
set_pruebas.loc[:,'price_usd'] = set_pruebas.loc[:,'price_usd'] / cant

resultado = set_pruebas.loc[:,['id','price_usd']]

resultado.to_csv('resultados/Perceptron_Cross_Validation.csv', index = False)