In [1]:
import pandas as pd
import numpy as np
from sklearn.metrics import mean_squared_error
from sklearn.neighbors import KNeighborsRegressor
from sklearn.preprocessing import StandardScaler 
from sklearn.model_selection import GridSearchCV
from sklearn.externals import joblib
import time

import warnings
warnings.simplefilter("ignore", category=DeprecationWarning)

In [2]:
#propiedades = pd.read_csv('/home/mati/Desktop/set_datos_propiedades.csv')
propiedades = pd.read_csv('/home/agustin/Escritorio/escritorio/fiuba/Organizacion de datos/datos para el tp2/set_datos_propiedades.csv')

In [3]:
propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull()),\
                             ['place_name_encoded', 'property_type_encoded','price_aprox_usd','superficie',\
                             'Year','Month','seguridad','aire','gimnasio','cochera','pileta']]

In [4]:
propiedades.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1132495 entries, 0 to 1413024
Data columns (total 11 columns):
place_name_encoded       1132495 non-null int64
property_type_encoded    1132495 non-null int64
price_aprox_usd          1132495 non-null float64
superficie               1132495 non-null float64
Year                     1132495 non-null int64
Month                    1132495 non-null int64
seguridad                1132495 non-null bool
aire                     1132495 non-null bool
gimnasio                 1132495 non-null bool
cochera                  1132495 non-null bool
pileta                   1132495 non-null bool
dtypes: bool(5), float64(2), int64(4)
memory usage: 65.9 MB


# KNN

In [5]:
columnas = ['superficie','place_name_encoded','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

In [6]:
set_entrenamiento = propiedades.loc[(propiedades.Year >= 2016) &((propiedades.Year < 2017) | (propiedades.Month < 6))\
                                    ,columnas_precio]
set_pruebas = propiedades.loc[(propiedades.Year == 2017) & (propiedades.Month == 6),columnas_precio].head(20000)

set_entrenamiento_datos = set_entrenamiento.loc[:,columnas]
set_entrenamiento_resultado = set_entrenamiento.loc[:,'price_aprox_usd']

In [7]:
knn = KNeighborsRegressor()
knn.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply(lambda x: knn.predict(x)[0],axis = 1)
precision = knn.score(set_pruebas.loc[:,columnas],set_pruebas.price_aprox_usd) * 100
error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
print("Precision = {:.2f} % , error = {}".format(precision, error))

Precision = 66.47 % , error = 46257434434.250084


### Ahora que tenemos una intuicion, probamos variando los parametros

In [8]:
columnas = ['superficie','place_name_encoded','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

In [9]:
set_entrenamiento = propiedades.loc[(propiedades.Year >= 2016) &((propiedades.Year < 2017) | (propiedades.Month < 6))\
                                    ,columnas_precio]
set_pruebas = propiedades.loc[(propiedades.Year == 2017) & (propiedades.Month == 6),columnas_precio].head(20000)

set_entrenamiento_datos = set_entrenamiento.loc[:,columnas]
set_entrenamiento_resultado = set_entrenamiento.loc[:,'price_aprox_usd']

res = []

In [14]:
lista_k = [1,2,3,4,6,7,8,9]
lista_dist = [1,2]

for k in lista_k:
    for d in lista_dist:
        knn = KNeighborsRegressor(n_neighbors = k, p = d)
        knn.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
        set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply(lambda x: knn.predict(x)[0],axis = 1)
        precision = knn.score(set_pruebas.loc[:,columnas],set_pruebas.price_aprox_usd) * 100
        error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
        res.append((k,d,precision,error))
        print(k,' - ',d)

1  -  1
1  -  2
2  -  1
2  -  2
3  -  1
3  -  2
4  -  1
4  -  2
6  -  1
6  -  2
7  -  1
7  -  2
8  -  1
8  -  2
9  -  1
9  -  2


In [15]:
for r in res:
    print ("k = {}, dist = {}, precision = {:.2f} % , error = {}".format(r[0],r[1],r[2],r[3]))

k = 5, dist = 1, precision = 67.74 % , error = 44503444653.57036
k = 5, dist = 2, precision = 66.47 % , error = 46257434434.250084
k = 5, dist = 3, precision = 66.06 % , error = 46820485517.495285
k = 5, dist = 4, precision = 66.03 % , error = 46867165037.71839
k = 5, dist = 5, precision = 66.08 % , error = 46801194633.71839
k = 5, dist = 10, precision = 66.06 % , error = 46821186305.59339
k = 5, dist = 20, precision = 66.09 % , error = 46788773386.83274
k = 5, dist = 50, precision = 66.03 % , error = 46866233647.49688
k = 10, dist = 1, precision = 62.22 % , error = 52115549467.72854
k = 10, dist = 2, precision = 60.77 % , error = 54118163984.20072
k = 10, dist = 3, precision = 60.70 % , error = 54223673067.69754
k = 10, dist = 4, precision = 60.67 % , error = 54266007937.41873
k = 10, dist = 5, precision = 60.71 % , error = 54204845526.91873
k = 10, dist = 10, precision = 60.70 % , error = 54219505276.91873
k = 10, dist = 20, precision = 60.76 % , error = 54139068474.28264
k = 10, dis

In [16]:
min_error = float('inf')
max_precision = 0
tupla_min_error = ()
tupla_max_precision = ()
for r in res:
    if r[3] < min_error:
        min_error = r[3]
        tupla_min_error = r
    if r[2] > max_precision:
        max_precision = r[2]
        tupla_max_precision = r
        
print("Mayor precision = k = {}, dist = {}, precision = {:.2f} % , error = {}".\
              format(tupla_max_precision[0],tupla_max_precision[1],tupla_max_precision[2],tupla_max_precision[3]))
print("Menor error = k = {}, dist = {}, precision = {:.2f} % , error = {}".\
              format(tupla_min_error[0],tupla_min_error[1],tupla_min_error[2],tupla_min_error[3]))

Mayor precision = k = 1, dist = 2, precision = 87.78 % , error = 16858607479.777966
Menor error = k = 1, dist = 2, precision = 87.78 % , error = 16858607479.777966


# Elegimos k = 1  y dist = 1

In [52]:
#Probamos varias combinaciones de columnas, la de mejor resultado fue esta

columnas = ['superficie','place_name_encoded','property_type_encoded','seguridad','gimnasio','aire','pileta','cochera']
columnas_precio = columnas + ['price_aprox_usd']

In [53]:
set_entrenamiento = propiedades.loc[(propiedades.Year >= 2016) &((propiedades.Year < 2017) | (propiedades.Month < 6))\
                                    ,columnas_precio]
set_pruebas = propiedades.loc[(propiedades.Year == 2017) & (propiedades.Month == 6),columnas_precio].head(20000)

set_entrenamiento_datos = set_entrenamiento.loc[:,columnas]
set_entrenamiento_resultado = set_entrenamiento.loc[:,'price_aprox_usd']

In [54]:
k = 1
d = 1

In [55]:
knn = KNeighborsRegressor(n_neighbors = k, p = d)
knn.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply(lambda x: knn.predict(x)[0],axis = 1)
precision = knn.score(set_pruebas.loc[:,columnas],set_pruebas.price_aprox_usd) * 100
error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
print("Precision = {:.2f} % , error = {}".format(precision, error))

Precision = 87.78 % , error = 16865005472.822279


# Calculamos los verdaderos datos

In [56]:
analizar = pd.read_csv('/home/mati/Desktop/properati_dataset_modificado.csv')

In [57]:
analizar.loc[:,'price_usd'] = analizar.loc[:,columnas].apply(lambda x: knn.predict(x)[0],axis = 1)

In [58]:
resultado = analizar.loc[:,['id','price_usd']]

In [59]:
resultado.to_csv('KNN_resultados.csv', index = False)

# Utilizando standard scaler

In [4]:
columnas = ['superficie','place_name_encoded','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

In [5]:
set_entrenamiento = propiedades.loc[(propiedades.Year >= 2016) &((propiedades.Year < 2017) | (propiedades.Month < 6))\
                                    ,columnas_precio]
set_pruebas = propiedades.loc[(propiedades.Year == 2017) & (propiedades.Month == 6),columnas_precio].head(20000)

set_entrenamiento_datos = set_entrenamiento.loc[:,columnas]
set_entrenamiento_resultado = set_entrenamiento.loc[:,'price_aprox_usd']

In [7]:
scaler = StandardScaler()  
scaler.fit(set_entrenamiento_datos)

StandardScaler(copy=True, with_mean=True, with_std=True)

In [9]:
knn = KNeighborsRegressor(n_neighbors = 1, p = 1)
knn.fit(scaler.transform(set_entrenamiento_datos),set_entrenamiento_resultado)
set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply(lambda x: knn.predict(scaler.transform([x]))[0],axis = 1)
precision = knn.score(scaler.transform(set_pruebas.loc[:,columnas]),set_pruebas.price_aprox_usd) * 100
error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
print("Precision = {:.2f} % , error = {}".format(precision, error))

Precision = 87.76 % , error = 16880708784.0


In [10]:
analizar = pd.read_csv('/home/agustin/Escritorio/escritorio/fiuba/Organizacion de datos/datos para el tp2/properati_dataset_modificado.csv')

In [11]:
analizar.loc[:,'price_usd'] = analizar.loc[:,columnas].apply(lambda x: knn.predict(scaler.transform([x]))[0],axis = 1)

In [12]:
analizar.price_usd.describe()

count    1.416600e+04
mean     2.275825e+05
std      2.618315e+05
min      5.005030e+03
25%      9.652500e+04
50%      1.459000e+05
75%      2.600000e+05
max      5.800000e+06
Name: price_usd, dtype: float64

In [13]:
resultado = analizar.loc[:,['id','price_usd']]

In [14]:
resultado.to_csv('resultados/KNN_standard_scaler_resultados.csv', index = False)

# Ahora uso lat y lon en lugar de place name

In [2]:
propiedades = pd.read_csv('/home/mati/Desktop/set_datos_propiedades.csv')

In [3]:
propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()),\
                             ['lat', 'lon', 'property_type_encoded','price_aprox_usd','superficie',\
                             'Year','Month','seguridad','aire','gimnasio','cochera','pileta']]

In [4]:
columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

In [5]:
set_entrenamiento = propiedades.loc[(propiedades.Year >= 2016) &((propiedades.Year < 2017) | (propiedades.Month < 6))\
                                    ,columnas_precio]
set_pruebas = propiedades.loc[(propiedades.Year == 2017) & (propiedades.Month == 6),columnas_precio].head(20000)

set_entrenamiento_datos = set_entrenamiento.loc[:,columnas]
set_entrenamiento_resultado = set_entrenamiento.loc[:,'price_aprox_usd']

In [6]:
knn = KNeighborsRegressor()
knn.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply(lambda x: knn.predict(x)[0],axis = 1)
precision = knn.score(set_pruebas.loc[:,columnas],set_pruebas.price_aprox_usd) * 100
error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
print("Precision = {:.2f} % , error = {}".format(precision, error))

Precision = 75.80 % , error = 28024909874.83337


In [7]:
res = []

In [8]:
lista_k = [1,2,3,4,6,7,8,9,10,20,30,50,100]
lista_dist = [1,2,3,30]

for k in lista_k:
    for d in lista_dist:
        knn = KNeighborsRegressor(n_neighbors = k, p = d)
        knn.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
        set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply(lambda x: knn.predict(x)[0],axis = 1)
        precision = knn.score(set_pruebas.loc[:,columnas],set_pruebas.price_aprox_usd) * 100
        error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
        res.append((k,d,precision,error))
        print(k,' - ',d)

1  -  1
1  -  2
1  -  3
1  -  30
2  -  1
2  -  2
2  -  3
2  -  30
3  -  1
3  -  2
3  -  3
3  -  30
4  -  1
4  -  2
4  -  3
4  -  30
6  -  1
6  -  2
6  -  3
6  -  30
7  -  1
7  -  2
7  -  3
7  -  30
8  -  1
8  -  2
8  -  3
8  -  30
9  -  1
9  -  2
9  -  3
9  -  30
10  -  1
10  -  2
10  -  3
10  -  30
20  -  1
20  -  2
20  -  3
20  -  30
30  -  1
30  -  2
30  -  3
30  -  30
50  -  1
50  -  2
50  -  3
50  -  30
100  -  1
100  -  2
100  -  3
100  -  30


In [9]:
for r in res:
    print ("k = {}, dist = {}, precision = {:.2f} % , error = {}".format(r[0],r[1],r[2],r[3]))

k = 1, dist = 1, precision = 97.46 % , error = 2941056207.548492
k = 1, dist = 2, precision = 96.99 % , error = 3487607112.906904
k = 1, dist = 3, precision = 96.99 % , error = 3487240629.3464584
k = 1, dist = 30, precision = 96.57 % , error = 3969315224.422367
k = 2, dist = 1, precision = 87.79 % , error = 14138083682.573963
k = 2, dist = 2, precision = 87.37 % , error = 14620230850.039059
k = 2, dist = 3, precision = 87.29 % , error = 14711338500.938713
k = 2, dist = 30, precision = 87.03 % , error = 15020235388.52279
k = 3, dist = 1, precision = 82.82 % , error = 19886139472.03235
k = 3, dist = 2, precision = 82.49 % , error = 20268813210.69347
k = 3, dist = 3, precision = 82.38 % , error = 20405921651.98053
k = 3, dist = 30, precision = 81.86 % , error = 21000861693.281067
k = 4, dist = 1, precision = 78.81 % , error = 24528951834.158386
k = 4, dist = 2, precision = 78.53 % , error = 24853818722.2917
k = 4, dist = 3, precision = 78.38 % , error = 25032399105.134636
k = 4, dist = 30

In [10]:
min_error = float('inf')
max_precision = 0
tupla_min_error = ()
tupla_max_precision = ()
for r in res:
    if r[3] < min_error:
        min_error = r[3]
        tupla_min_error = r
    if r[2] > max_precision:
        max_precision = r[2]
        tupla_max_precision = r
        
print("Mayor precision = k = {}, dist = {}, precision = {:.2f} % , error = {}".\
              format(tupla_max_precision[0],tupla_max_precision[1],tupla_max_precision[2],tupla_max_precision[3]))
print("Menor error = k = {}, dist = {}, precision = {:.2f} % , error = {}".\
              format(tupla_min_error[0],tupla_min_error[1],tupla_min_error[2],tupla_min_error[3]))

Mayor precision = k = 1, dist = 1, precision = 97.46 % , error = 2941056207.548492
Menor error = k = 1, dist = 1, precision = 97.46 % , error = 2941056207.548492


# Elegimos k = 1  dist = 1

In [39]:
#Probamos distintas combinaciones de columnas, esta es la que dio mejores resultados

columnas = ['superficie','lat', 'lon','property_type_encoded','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

In [40]:
set_entrenamiento = propiedades.loc[(propiedades.Year >= 2016) &((propiedades.Year < 2017) | (propiedades.Month < 6))\
                                    ,columnas_precio]
set_pruebas = propiedades.loc[(propiedades.Year == 2017) & (propiedades.Month == 6),columnas_precio].head(20000)

set_entrenamiento_datos = set_entrenamiento.loc[:,columnas]
set_entrenamiento_resultado = set_entrenamiento.loc[:,'price_aprox_usd']

In [41]:
k = 1
d = 1     

In [42]:
knn = KNeighborsRegressor(n_neighbors = k, p = d)
knn.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply(lambda x: knn.predict(x)[0],axis = 1)
precision = knn.score(set_pruebas.loc[:,columnas],set_pruebas.price_aprox_usd) * 100
error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
print("Precision = {:.2f} % , error = {}".format(precision, error))

Precision = 97.54 % , error = 2853986652.665258


# Calculamos los verdaderos datos

In [43]:
analizar = pd.read_csv('/home/mati/Desktop/properati_dataset_modificado.csv')

In [44]:
analizar.loc[:,'price_usd'] = analizar.loc[:,columnas].apply(lambda x: knn.predict(x)[0],axis = 1)

In [45]:
resultado = analizar.loc[:,['id','price_usd']]

In [46]:
resultado.to_csv('resultados/KNN_2.csv', index = False)

# Utilizando standard scaler

In [50]:
scaler = StandardScaler()  
scaler.fit(set_entrenamiento_datos)

StandardScaler(copy=True, with_mean=True, with_std=True)

In [51]:
knn = KNeighborsRegressor(n_neighbors = k, p = d)
knn.fit(scaler.transform(set_entrenamiento_datos),set_entrenamiento_resultado)
set_pruebas.loc[:,'resultado'] = set_pruebas.loc[:,columnas].apply(lambda x: knn.predict(scaler.transform([x]))[0],axis = 1)
precision = knn.score(scaler.transform(set_pruebas.loc[:,columnas]),set_pruebas.price_aprox_usd) * 100
error = mean_squared_error(set_pruebas.price_aprox_usd,set_pruebas.resultado)
print("Precision = {:.2f} % , error = {}".format(precision, error))

Precision = 96.61 % , error = 3927713227.278155


In [52]:
analizar.loc[:,'price_usd'] = analizar.loc[:,columnas].apply(lambda x: knn.predict(scaler.transform([x]))[0],axis = 1)

In [53]:
resultado = analizar.loc[:,['id','price_usd']]

In [54]:
resultado.to_csv('resultados/KNN_standard_scaler_2.csv', index = False)

# Usando Grid Search y Cross Validation

In [2]:
propiedades = pd.read_csv('/home/mati/Desktop/set_datos_propiedades.csv')

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2016)]

columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

set_entrenamiento_datos = propiedades.loc[:,columnas]
set_entrenamiento_resultado = propiedades.loc[:,'price_aprox_usd']

In [3]:
# Parametros

lista_k = [2,3,10,15,20,30,50]
lista_dist = [1,2,5]

parametros = {"n_neighbors" : lista_k, "p" : lista_dist}

iteraciones_cross_validation = 10
knn = KNeighborsRegressor()

In [4]:
inicio = time.strftime("%X")

grid = GridSearchCV( estimator = knn, param_grid = parametros, n_jobs = 2, cv = iteraciones_cross_validation)

grid.fit(set_entrenamiento_datos, set_entrenamiento_resultado)

score = grid.best_score_ * 100
mejores_parametros = grid.best_params_
fin = time.strftime("%X")

print("Tiempo: {} --- {} \n Precision: {:.2f} \n Parametros = {}".format(inicio,fin,score,mejores_parametros))

Tiempo: 20:52:00 --- 07:53:16 
 Precision: 86.96 
 Parametros = {'n_neighbors': 2, 'p': 2}


In [5]:
analizar = pd.read_csv("/home/mati/Desktop/properati_dataset_modificado.csv")

analizar.loc[:,'price_usd'] = analizar.loc[:,columnas].apply(lambda x: grid.predict(x)[0],axis = 1)

resultado = analizar.loc[:,['id','price_usd']]

resultado.to_csv('resultados/KNN_GridSearch.csv', index = False)

In [6]:
joblib.dump(grid, 'algoritmos/knn.pkl')

['algoritmos/knn.pkl']

## Haciendo Bagging

In [2]:
propiedades = pd.read_csv('/home/mati/Desktop/set_datos_propiedades.csv')

propiedades = propiedades.loc[(propiedades.price_aprox_usd.notnull()) & (propiedades.superficie.notnull())\
                              & (propiedades.lat.notnull()) & (propiedades.lon.notnull()) & (propiedades.Year >=2016)]

columnas = ['superficie','lat', 'lon','property_type_encoded','seguridad','gimnasio', 'aire', 'pileta', 'cochera']
columnas_precio = columnas + ['price_aprox_usd']

set_pruebas = analizar = pd.read_csv("/home/mati/Desktop/properati_dataset_modificado.csv")
set_pruebas.loc[:,'price_usd'] = 0.0

In [3]:
cant = 10

for i in range(cant):
    datos = propiedades.sample(frac = 0.4)
    set_entrenamiento_datos = datos.loc[:,columnas]
    set_entrenamiento_resultado = datos.loc[:,'price_aprox_usd']
    
    knn = KNeighborsRegressor(n_neighbors = 2, p = 2)
    
    knn.fit(set_entrenamiento_datos,set_entrenamiento_resultado)
    set_pruebas.loc[:,'res'] = set_pruebas.loc[:,columnas].apply(lambda x: knn.predict(x)[0],axis = 1)
    set_pruebas.loc[:,'price_usd'] = set_pruebas.loc[:,'price_usd'] + set_pruebas.loc[:,'res']

In [4]:
set_pruebas.loc[:,'price_usd'] = set_pruebas.loc[:,'price_usd'] / cant

resultado = set_pruebas.loc[:,['id','price_usd']]

resultado.to_csv('resultados/KNN_Cross_Validation.csv', index = False)