In [59]:
import pandas as pd
import numpy as np
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import GridSearchCV
from sklearn.externals import joblib
import time
from sklearn.decomposition import TruncatedSVD
from sklearn.model_selection import train_test_split


import warnings
warnings.simplefilter("ignore", category=DeprecationWarning)

In [2]:
pruebas = pd.read_csv('properati_dataset_modificado.csv')

In [28]:
sup_min = 9
sup_max = 150

lat_min = -35
lat_max = -34

lon_min = -59
lon_max = -58

precio_min = 5000
precio_max = 1000000

propiedades = pruebas
p = propiedades.loc[  (propiedades.superficie >= sup_max) | (propiedades.superficie <= sup_min) |\
                      (propiedades.lat >= lat_max) | (propiedades.lat <= lat_min) |\
                       (propiedades.lon >= lon_max) | (propiedades.lon <= lon_min),:]

columnas = ['superficie','lat', 'lon']

In [29]:
p.loc[:,columnas].describe()

Unnamed: 0,superficie,lat,lon
count,4170.0,4170.0,4170.0
mean,1144.53,-34.667977,-58.460659
std,50278.28,0.347734,0.320623
min,1.0,-38.416097,-63.616672
25%,167.0,-34.756526,-58.63298
50%,224.5681,-34.646625,-58.45983
75%,320.0,-34.598624,-58.381905
max,3243242.0,-29.424917,-57.5585


In [30]:
p.loc[:,columnas].count()

superficie    4170
lat           4170
lon           4170
dtype: int64

## Hay 4000 propiedades con datos "malos" en las pruebas a analizar

## Quizas por eso tenemos muy malos resultados

In [31]:
sup = propiedades.loc[  (propiedades.superficie >= sup_max) | (propiedades.superficie <= sup_min),:]
lat = propiedades.loc[  (propiedades.lat >= lat_max) | (propiedades.lat <= lat_min) ,:]
lon = propiedades.loc[  (propiedades.lon >= lon_max) | (propiedades.lon <= lon_min),:]

columnas = ['superficie','lat', 'lon']


In [32]:
s = sup.loc[:,'id'].count()
l = lat.loc[:,'id'].count()
lo = lon.loc[:,'id'].count()

In [33]:
print("Mal superficie   {}\nMal Latitud   {}\nMal longitud   {}".format(s,l,lo))

Mal superficie   3677
Mal Latitud   70
Mal longitud   637


### El principal problema es la superficie

In [37]:
sup.loc[:,['property_type','superficie','surface_total_in_m2','surface_covered_in_m2']].sample(10)

Unnamed: 0,property_type,superficie,surface_total_in_m2,surface_covered_in_m2
13157,house,260.0,260.0,130.0
11590,apartment,289.0,289.0,270.0
2081,house,419.0,419.0,70.0
10286,house,340.0,340.0,195.0
4727,house,583.0,583.0,583.0
10951,PH,176.0,176.0,176.0
8590,apartment,295.0,295.0,280.0
825,house,160.0,,160.0
963,house,300.0,,300.0
7348,house,170.0,,170.0


In [52]:
def normalizar_sup(s):
    if s < sup_min:
        return sup_min
    while (s > sup_max):
        s = s / 2
    return s

def normalizar_lat(s):
    if s > lat_min and s < lat_max:
        return s
    return propiedades.loc[:,'lat'].mean()

def normalizar_lon(s):
    if s > lon_min and s < lon_max:
        return s
    return propiedades.loc[:,'lon'].mean()

In [41]:
sup.loc[:,'superficie'] = sup.loc[:,'superficie'].apply(lambda x: normalizar_sup(x))

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self.obj[item] = s


In [42]:
sup.loc[:,'superficie'].describe()

count    3677.000000
mean      105.439971
std        27.163999
min         9.000000
25%        87.500000
50%       102.500000
75%       125.000000
max       150.000000
Name: superficie, dtype: float64

In [51]:
pruebas = pd.read_csv('properati_dataset_modificado.csv')

In [45]:
pruebas.loc[:,'superficie'] = pruebas.loc[:,'superficie'].apply(lambda x: normalizar_sup(x))
pruebas.loc[:,'superficie'].describe()

count    14166.000000
mean        76.443202
std         34.037244
min          9.000000
25%         47.000000
50%         74.000000
75%        100.000000
max        150.000000
Name: superficie, dtype: float64

In [54]:
pruebas.loc[:,'lat'] = pruebas.loc[:,'lat'].apply(lambda x: normalizar_lat(x))
pruebas.loc[:,'lon'] = pruebas.loc[:,'lon'].apply(lambda x: normalizar_lon(x))
pruebas.loc[:,['lat','lon','superficie']].describe()

Unnamed: 0,lat,lon,superficie
count,14166.0,14166.0,14166.0
mean,-34.633584,-58.480782,76.443202
std,0.090769,0.12455,34.037244
min,-34.991982,-58.975341,9.0
25%,-34.651573,-58.510157,47.0
50%,-34.612545,-58.452145,74.0
75%,-34.587729,-58.412486,100.0
max,-34.112857,-58.008589,150.0


In [55]:
pruebas.to_csv('properati_dataset_modificado2.csv')

In [56]:
propiedades = pd.read_csv('../set_datos_propiedades.csv')

sup_min = 10
sup_max = 150
lat_min = -35
lat_max = -34
lon_min = -59
lon_max = -58
precio_min = 5000
precio_max = 1000000

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2016)\
                        & (propiedades.price_aprox_usd <= precio_max) & (propiedades.price_aprox_usd >= precio_min) &\
                         (propiedades.superficie <= sup_max) & (propiedades.superficie >= sup_min) &\
                      (propiedades.lat <= lat_max) & (propiedades.lat >= lat_min) &\
                       (propiedades.lon <= lon_max) & (propiedades.lon >= lon_min),:]

columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

set_pruebas = analizar = pd.read_csv("properati_dataset_modificado2.csv")
set_pruebas.loc[:,'price_usd'] = 0.0

In [57]:
cant = 10

for i in range(cant):
    datos = propiedades.sample(frac = 0.7)
    set_entrenamiento_datos = datos.loc[:,columnas]
    set_entrenamiento_resultado = datos.loc[:,'price_aprox_usd']
    
    tree = DecisionTreeRegressor(criterion = 'friedman_mse', max_depth = 75, max_features = 0.8)
    
    tree.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
    set_pruebas.loc[:,'res'] = set_pruebas.loc[:,columnas].apply(lambda x: tree.predict(x)[0],axis = 1)
    set_pruebas.loc[:,'price_usd'] = set_pruebas.loc[:,'price_usd'] + set_pruebas.loc[:,'res']

In [58]:
set_pruebas.loc[:,'price_usd'] = set_pruebas.loc[:,'price_usd'] / cant

resultado = set_pruebas.loc[:,['id','price_usd']]

resultado.to_csv('prueba_decisionTree_datos_modificados.csv', index = False)

In [60]:
resultado.describe()

Unnamed: 0,id,price_usd
count,14166.0,14166.0
mean,2285382.0,173559.26428
std,42909.68,105794.360735
min,3632.0,5005.03
25%,2271809.0,105000.0
50%,2290284.0,144000.0
75%,2309395.0,210275.714286
max,2332338.0,912800.0
