In [2]:
import pandas as pd
import numpy as np
from sklearn.metrics import mean_squared_error
from sklearn.ensemble import AdaBoostRegressor

import warnings
warnings.simplefilter("ignore", category=DeprecationWarning)

In [2]:
propiedades = pd.read_csv('/home/mati/Desktop/set_datos_propiedades.csv')

In [3]:
propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull()),\
                             ['place_name_encoded', 'property_type_encoded','price_aprox_usd','superficie',\
                             'Year','Month','seguridad','aire','gimnasio','cochera','pileta']]

In [4]:
propiedades.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1132495 entries, 0 to 1413024
Data columns (total 11 columns):
place_name_encoded       1132495 non-null int64
property_type_encoded    1132495 non-null int64
price_aprox_usd          1132495 non-null float64
superficie               1132495 non-null float64
Year                     1132495 non-null int64
Month                    1132495 non-null int64
seguridad                1132495 non-null bool
aire                     1132495 non-null bool
gimnasio                 1132495 non-null bool
cochera                  1132495 non-null bool
pileta                   1132495 non-null bool
dtypes: bool(5), float64(2), int64(4)
memory usage: 65.9 MB


# Ada Boost

In [5]:
columnas = ['superficie','place_name_encoded','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

In [6]:
set_entrenamiento = propiedades.loc[(propiedades.Year >= 2016) &((propiedades.Year < 2017) | (propiedades.Month < 6))\
                                    ,columnas_precio]
set_pruebas = propiedades.loc[(propiedades.Year == 2017) & (propiedades.Month == 6),columnas_precio].head(20000)

set_entrenamiento_datos = set_entrenamiento.loc[:,columnas]
set_entrenamiento_resultado = set_entrenamiento.loc[:,'price_aprox_usd']

In [7]:
ada = AdaBoostRegressor()
ada.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply(lambda x: ada.predict(x)[0],axis = 1)
precision = ada.score(set_pruebas.loc[:,columnas],set_pruebas.price_aprox_usd) * 100
error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
print("Precision = {:.2f} % , error = {}".format(precision, error))

Precision = 19.43 % , error = 111158957920.4786


### Ahora que tenemos una intuicion, probamos variando los parametros

In [8]:
columnas = ['superficie','place_name_encoded','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

In [9]:
set_entrenamiento = propiedades.loc[(propiedades.Year >= 2016) &((propiedades.Year < 2017) | (propiedades.Month < 6))\
                                    ,columnas_precio]
set_pruebas = propiedades.loc[(propiedades.Year == 2017) & (propiedades.Month == 6),columnas_precio].head(20000)

set_entrenamiento_datos = set_entrenamiento.loc[:,columnas]
set_entrenamiento_resultado = set_entrenamiento.loc[:,'price_aprox_usd']

res = []

In [14]:
lista_estimators = [2,3,4,6,7,8,9]
lista_loss = ['square']

for estimator in lista_estimators:
    for loss in lista_loss:
            ada = AdaBoostRegressor(n_estimators = estimator, loss = loss)
            ada.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
            set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply(lambda x: ada.predict(x)[0],axis = 1)
            precision = ada.score(set_pruebas.loc[:,columnas],set_pruebas.price_aprox_usd) * 100
            error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
            res.append((estimator,loss,precision,error))
            print(estimator,' - ',loss)

2  -  square
3  -  square
4  -  square
6  -  square
7  -  square
8  -  square
9  -  square


In [15]:
for r in res:
    print ("estimator = {}, loss = {}, precision = {:.2f} % ,error = {}".format(r[0],r[1],r[2],r[3]))

estimator = 5, loss = linear, precision = 32.13 % ,error = 93630226703.13373
estimator = 5, loss = square, precision = 34.31 % ,error = 90632374291.81346
estimator = 5, loss = exponential, precision = 1.51 % ,error = 135883111824.44695
estimator = 10, loss = linear, precision = 22.75 % ,error = 106576850575.38762
estimator = 10, loss = square, precision = 32.36 % ,error = 93310837266.75972
estimator = 10, loss = exponential, precision = -9.61 % ,error = 151221086248.75476
estimator = 20, loss = linear, precision = 19.78 % ,error = 110673588583.70625
estimator = 20, loss = square, precision = 25.97 % ,error = 102136082638.34029
estimator = 20, loss = exponential, precision = -29.00 % ,error = 177962620514.4057
estimator = 30, loss = linear, precision = 15.17 % ,error = 117025175411.09717
estimator = 30, loss = square, precision = 32.69 % ,error = 92865597001.814
estimator = 30, loss = exponential, precision = -154.98 % ,error = 351764422658.5229
estimator = 50, loss = linear, precision 

In [16]:
min_error = float('inf')
max_precision = 0
tupla_min_error = ()
tupla_max_precision = ()
for r in res:
    if r[3] < min_error:
        min_error = r[3]
        tupla_min_error = r
    if r[2] > max_precision:
        max_precision = r[2]
        tupla_max_precision = r
        
print("Mayor precision = estimator = {}, loss = {}, precision = {:.2f} % ,error = {}".\
              format(tupla_max_precision[0],tupla_max_precision[1],tupla_max_precision[2],tupla_max_precision[3]))
print("Menor error = estimator = {}, loss = {}, precision = {:.2f} % ,error = {}".\
              format(tupla_min_error[0],tupla_min_error[1],tupla_min_error[2],tupla_min_error[3]))

Mayor precision = estimator = 3, loss = square, precision = 35.10 % ,error = 89531247481.83997
Menor error = estimator = 3, loss = square, precision = 35.10 % ,error = 89531247481.83997


# Elegimos estimator = 3, loss = square

In [70]:
#Probamos varias combinaciones de columnas, la de mejor resultado fue esta

columnas = ['superficie','place_name_encoded','property_type_encoded','seguridad','gimnasio','aire','pileta','cochera']
columnas_precio = columnas + ['price_aprox_usd']

In [71]:
set_entrenamiento = propiedades.loc[(propiedades.Year >= 2016) &((propiedades.Year < 2017) | (propiedades.Month < 6))\
                                    ,columnas_precio]
set_pruebas = propiedades.loc[(propiedades.Year == 2017) & (propiedades.Month == 6),columnas_precio].head(20000)

set_entrenamiento_datos = set_entrenamiento.loc[:,columnas]
set_entrenamiento_resultado = set_entrenamiento.loc[:,'price_aprox_usd']

In [72]:
estimator = 3
loss = 'square'

In [73]:
ada = AdaBoostRegressor(n_estimators = estimator, loss = loss)
ada.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply(lambda x: ada.predict(x)[0],axis = 1)
precision = ada.score(set_pruebas.loc[:,columnas],set_pruebas.price_aprox_usd) * 100
error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
print("Precision = {:.2f} % , error = {}".format(precision, error))

Precision = 33.18 % , error = 92185282012.8887


# Calculamos los verdaderos datos

In [74]:
analizar = pd.read_csv('/home/mati/Desktop/properati_dataset_modificado.csv')

In [75]:
analizar.loc[:,'price_usd'] = analizar.loc[:,columnas].apply(lambda x: ada.predict(x)[0],axis = 1)

In [76]:
resultado = analizar.loc[:,['id','price_usd']]

In [77]:
resultado.to_csv('Ada_Boost_resultados.csv', index = False)

## Ahora uso lat y lon en lugar de place name

In [3]:
propiedades = pd.read_csv('/home/agustin/Escritorio/escritorio/fiuba/Organizacion de datos/datos para el tp2/set_datos_propiedades.csv')

In [4]:
propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()),\
                             ['lat', 'lon', 'property_type_encoded','price_aprox_usd','superficie',\
                             'Year','Month','seguridad','aire','gimnasio','cochera','pileta']]

In [5]:
columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

In [6]:
set_entrenamiento = propiedades.loc[(propiedades.Year >= 2016) &((propiedades.Year < 2017) | (propiedades.Month < 6))\
                                    ,columnas_precio]
set_pruebas = propiedades.loc[(propiedades.Year == 2017) & (propiedades.Month == 6),columnas_precio].head(20000)

set_entrenamiento_datos = set_entrenamiento.loc[:,columnas]
set_entrenamiento_resultado = set_entrenamiento.loc[:,'price_aprox_usd']

In [8]:
ada = AdaBoostRegressor()
ada.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply(lambda x: ada.predict([x])[0],axis = 1)
precision = ada.score(set_pruebas.loc[:,columnas],set_pruebas.price_aprox_usd) * 100
error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
print("Precision = {:.2f} % , error = {}".format(precision, error))

Precision = -9.57 % , error = 1.26863901639e+11


In [9]:
res = []

In [11]:
lista_estimators = [2,3,4,6,7,8,9]
lista_loss = ['linear', 'square', 'exponential']
learning = [0.1, 0.3, 0.5]

for estimator in lista_estimators:
    for loss in lista_loss:
        for lr in learning:
            ada = AdaBoostRegressor(n_estimators = estimator, loss = loss, learning_rate = lr)
            ada.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
            set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply(lambda x: ada.predict([x])[0],axis = 1)
            precision = ada.score(set_pruebas.loc[:,columnas],set_pruebas.price_aprox_usd) * 100
            error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
            res.append((estimator, loss, lr, precision, error))
            print(estimator,' - ',loss, '-', lr)

(2, ' - ', 'linear', '-', 0.1)
(2, ' - ', 'linear', '-', 0.3)
(2, ' - ', 'linear', '-', 0.5)
(2, ' - ', 'square', '-', 0.1)
(2, ' - ', 'square', '-', 0.3)
(2, ' - ', 'square', '-', 0.5)
(2, ' - ', 'exponential', '-', 0.1)
(2, ' - ', 'exponential', '-', 0.3)
(2, ' - ', 'exponential', '-', 0.5)
(3, ' - ', 'linear', '-', 0.1)
(3, ' - ', 'linear', '-', 0.3)
(3, ' - ', 'linear', '-', 0.5)
(3, ' - ', 'square', '-', 0.1)
(3, ' - ', 'square', '-', 0.3)
(3, ' - ', 'square', '-', 0.5)
(3, ' - ', 'exponential', '-', 0.1)
(3, ' - ', 'exponential', '-', 0.3)
(3, ' - ', 'exponential', '-', 0.5)
(4, ' - ', 'linear', '-', 0.1)
(4, ' - ', 'linear', '-', 0.3)
(4, ' - ', 'linear', '-', 0.5)
(4, ' - ', 'square', '-', 0.1)
(4, ' - ', 'square', '-', 0.3)
(4, ' - ', 'square', '-', 0.5)
(4, ' - ', 'exponential', '-', 0.1)
(4, ' - ', 'exponential', '-', 0.3)
(4, ' - ', 'exponential', '-', 0.5)
(6, ' - ', 'linear', '-', 0.1)
(6, ' - ', 'linear', '-', 0.3)
(6, ' - ', 'linear', '-', 0.5)
(6, ' - ', 'square', '-',

In [26]:
for r in res[9:]:
    print ("n_estimators = {}, loss = {}, learning_rate = {}, precision = {:.2f} % , error = {}".format(r[0],r[1],r[2],r[3], r[4]))

n_estimators = 2, loss = linear, learning_rate = 0.1, precision = 28.84 % , error = 82397323104.6
n_estimators = 2, loss = linear, learning_rate = 0.3, precision = 28.76 % , error = 82482787855.2
n_estimators = 2, loss = linear, learning_rate = 0.5, precision = 16.03 % , error = 97228407150.8
n_estimators = 2, loss = square, learning_rate = 0.1, precision = 28.78 % , error = 82459835853.2
n_estimators = 2, loss = square, learning_rate = 0.3, precision = 27.13 % , error = 84373804046.7
n_estimators = 2, loss = square, learning_rate = 0.5, precision = 27.47 % , error = 83975408201.2
n_estimators = 2, loss = exponential, learning_rate = 0.1, precision = 28.79 % , error = 82452163909.7
n_estimators = 2, loss = exponential, learning_rate = 0.3, precision = 28.65 % , error = 82615783269.4
n_estimators = 2, loss = exponential, learning_rate = 0.5, precision = 28.76 % , error = 82489174151.4
n_estimators = 3, loss = linear, learning_rate = 0.1, precision = 28.46 % , error = 82831239035.6
n_est

In [31]:
min_error = float('inf')
max_precision = 0
tupla_min_error = ()
tupla_max_precision = ()
for r in res[9:]:
    if r[4] < min_error:
        min_error = r[4]
        tupla_min_error = r
    if r[3] > max_precision:
        max_precision = r[3]
        tupla_max_precision = r
        
print("Mayor precision = estimator = {}, loss = {}, learning_rate = {}, precision = {:.2f} % ,error = {}".\
              format(tupla_max_precision[0],tupla_max_precision[1],tupla_max_precision[2],tupla_max_precision[3], tupla_max_precision[4]))
print("Menor error = estimator = {}, loss = {}, learning_rate = {}, precision = {:.2f} % ,error = {}".\
              format(tupla_min_error[0],tupla_min_error[1],tupla_min_error[2],tupla_min_error[3], tupla_max_precision[4]))

Mayor precision = estimator = 6, loss = linear, learning_rate = 0.3, precision = 33.23 % ,error = 77305125329.2
Menor error = estimator = 6, loss = linear, learning_rate = 0.3, precision = 33.23 % ,error = 77305125329.2


## Elegimos n_estimators = 6, loss = linear, learning_rate = 0.3

In [32]:
estimator = 6
loss = 'linear'
lr = 0.3

In [53]:
ada = AdaBoostRegressor(n_estimators = estimator, loss = loss, learning_rate = lr)
ada.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply(lambda x: ada.predict([x])[0],axis = 1)
precision = ada.score(set_pruebas.loc[:,columnas],set_pruebas.price_aprox_usd) * 100
error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
print("Precision = {:.2f} % , error = {}".format(precision, error))

Precision = 33.03 % , error = 77536289297.0


## Calculamos los verdaderos datos

In [36]:
analizar = pd.read_csv("/home/agustin/Escritorio/escritorio/fiuba/Organizacion de datos/tpDatos/properati_dataset_modificado.csv")

In [54]:
analizar.loc[:,'price_usd'] = analizar.loc[:,columnas].apply(lambda x: ada.predict([x])[0],axis = 1)

In [55]:
analizar.price_usd.describe()

count    1.416600e+04
mean     2.631090e+05
std      4.425128e+05
min      1.000000e+05
25%      1.238464e+05
50%      1.990295e+05
75%      3.186828e+05
max      4.654544e+07
Name: price_usd, dtype: float64

In [56]:
resultado = analizar.loc[:,['id','price_usd']]

In [57]:
resultado.to_csv('resultados/Ada_Boost_latlon_resultados.csv', index = False)