# Proyecto 3: Predicción de precios de propiedades

¡Bienvenidos al tercer proyecto de la carrera de Data Science de Acamica! 

En este proyecto vamos a seguir trabajando con el dataset de propiedades en venta publicadas en el portal [Properati](www.properati.com.ar). El objetivo en este caso armar nuestros primeros modelos para predecir el precio de las propiedades en dólares.

Las columnas que se agregan son:

* `barrios_match`: si coincide el barrio publicado con el geográfico vale 1, si no 0.

* `PH`, `apartment`, `house`: variables binarias que indican el tipo de propiedad.

* dummies de barrios: variables binarias con 1 o 0 según el barrio.

La métrica que vamos a usar para medir es RMSE (raíz del error cuadrático medio), cuya fórmula es:

$$RMSE = \sqrt{\frac{\sum_{t=1}^n (\hat y_t - y_t)^2}{n}}$$

In [10]:
import pandas as pd
import numpy as np
path_dataset = 'datos_properati_limpios_model.csv'
df = pd.read_csv(path_dataset)

In [None]:
df.head()

In [5]:
from sklearn.model_selection import train_test_split

X = df.drop(['price_aprox_usd'], axis=1)
y = df['price_aprox_usd']

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2)

print(f'El conjunto X_train tiene {X_train.shape[0]} observaciones')
print(f'El conjunto X_test tiene {X_test.shape[0]} observaciones')

El conjunto X_train tiene 5100 observaciones
El conjunto X_test tiene 1276 observaciones


## KNN

In [24]:
from sklearn.metrics import mean_squared_error,r2_score
from sklearn.neighbors import KNeighborsRegressor as KNR
from sklearn.preprocessing import StandardScaler


# Estandarizamos los datos, como es habitual para el KNN
scaler = StandardScaler()
scaler.fit(X_train)
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)
 
# Aplicamos KNN
knr1 = KNR()
knr1.fit(X_train_scaled,y_train)
y_train_pred_knr1 = knr1.predict(X_train_scaled)
y_test_pred_knr1 = knr1.predict(X_test_scaled)

# Calculamos RMSE y R2
rmse_knr1_train = np.sqrt(mean_squared_error(y_train,y_train_pred_knr1))
rmse_knr1_test = np.sqrt(mean_squared_error(y_test,y_test_pred_knr1))
r2_knr1_train = r2_score(y_train,y_train_pred_knr1)
r2_knr1_test = r2_score(y_test,y_test_pred_knr1)

# Output metricas
print(f"El RMSE en el conjunto de train es {rmse_knr1_train}")
print(f"El RMSE en el conjunto de test es {rmse_knr1_test}")
print(f"El R2 en el conjunto de train es {r2_knr1_train}")
print(f"El R2 en el conjunto de test es {r2_knr1_test}")

El RMSE en el conjunto de train es 22762.305508872152
El RMSE en el conjunto de test es 28873.70323188165
El R2 en el conjunto de train es 0.46641618536627216
El R2 en el conjunto de test es 0.18654574976849125


A modo de comparación, aplicamos un regresor KNN a los datos sin escalar

In [7]:
# Aplicamos KNN a los datos sin escalar
knr2 = KNR()
knr2.fit(X_train,y_train)
y_train_pred_knr2 = knr2.predict(X_train)
y_test_pred_knr2 = knr2.predict(X_test)

# Calculamos RMSE y R2
rmse_knr2_train = np.sqrt(mean_squared_error(y_train,y_train_pred_knr2))
rmse_knr2_test = np.sqrt(mean_squared_error(y_test,y_test_pred_knr2))
r2_knr2_train = r2_score(y_train,y_train_pred_knr2)
r2_knr2_test = r2_score(y_test,y_test_pred_knr2)

# Output metricas
print(f"El RMSE en el conjunto de train es {rmse_knr2_train}")
print(f"El RMSE en el conjunto de test es {rmse_knr2_test}")
print(f"El R2 en el conjunto de train es {r2_knr2_train}")
print(f"El R2 en el conjunto de test es {r2_knr2_test}")

El RMSE en el conjunto de train es 18422.512271695054
El RMSE en el conjunto de test es 23744.80677978518
El R2 en el conjunto de train es 0.6504833569947567
El R2 en el conjunto de test es 0.4498698646368303


Como vemos, la performance mejora notablemente. Qué es lo que está pasando aquí? La sabiduría convencional sobre kNN indica que los datos deben ser reescalados antes de calcular las distancias Por ejemplo, [en este post de Medium](https://medium.com/analytics-vidhya/why-is-scaling-required-in-knn-and-k-means-8129e4d88ed7). La justificación (a simple vista razonable) para este procedimiento es que las magnitudes de los features no afecten el cálculo. Pero esto de ningún modo garantiza que el kNN resultante explique mejor los datos. Como vimos en nuestro caso, el modelo resultante puede ser mucho peor; aquí hay otro ejemplo en [Stack Overflow](https://stackoverflow.com/questions/42092448/accuracy-difference-on-normalization-in-knn).

El problema radica en que las medidas de distancia que utilizamos (euclideana en el default de sklearn) asignan <b>la misma importancia</b> a todos los features (cuando éstos están estandarizados). Por ejemplo, en el caso de nuestro dataset, supongamos que hay una propiedad en <b>Palermo</b>, que está pegadita a <b>Recoleta</b>, y que tiene <b>cuatro habitaciones</b>. Para un kNN escalado, una propiedad en <b>Parque Patricios</b> con <b>cuatro habitaciones</b> puede estar "más cerca" de la propiedad de Palermo que otra propiedad en <b>Recoleta</b> con <b>dos habitaciones</b>. 

Intuitivamente, eso no tiene demasiado sentido: probablemente la localización geográfica sea más determinante que la cantidad de habitaciones para determinar el precio por metro cuadrado de una propiedad. Cuando usamos los datos sin escalar, los pesos de los features dependen de sus magnitudes, y si bien esto es arbitrario, terminamos evaluando las distancias de una manera que <b>refleja mejor la "feature importance" que suponerlas todas iguales</b>. Siguiendo con nuestro ejemplo, en los datos sin escalar la información geográfica (lat-lon) tiene más peso que la cantidad de habitaciones porque sus magnitudes (absolutas) están en el rango de 30-60, mientras que las habitaciones están en el rango de 1-10. La distancia euclideana, al elevar al cuadrado, exagera esas magnitudes. Los pesos resultantes de las magnitudes no dejan de ser arbitrarios, pero terminan reflejando mejor  las relaciones entre features y target que la uniformidad. Naturalmente, la solución ideal sería encontrar ponderaciones para la función de distancia que reflejen lo mejor posible la importancia de cada feature.

Existen algunas propuestas para atacar este problema: en [este paper](https://arxiv.org/abs/1811.05062) se propone ponderar según la feature importance extraída de un Random Forest, el artículo de [Wikipedia](https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm) hace referencias al uso de medidas como la mutual information o de algoritmos evolutivos e inclusive existen modelos bastante más complicados que <b>aprenden la métrica</b> que mejor separa las clases (como [este](https://en.wikipedia.org/wiki/Neighbourhood_components_analysis) o [este](https://en.wikipedia.org/wiki/Large_margin_nearest_neighbor)). De todos modos, en lo sucesivo haremos uso de los datos sin escalar.

## Cross validation

In [86]:
%matplotlib inline
import matplotlib.pyplot as plt
from sklearn.pipeline import Pipeline
from sklearn.model_selection import cross_val_score

def nmsq2rmse(score):
    return np.sqrt(-score)

k_max = 20

In [87]:
# Lista de RMSEs para distintos valores de k (modelo escalado)

rmses_knr1_cv = []

for i in range(1,k_max):
    knr_pipei = Pipeline([('scaler',StandardScaler()),('knr1',KNR(n_neighbors=i))]).fit(X_train,y_train)
    knr_pipe_scores = nmsq2rmse(cross_val_score(knr_pipei, X_train, y_train, cv=10,scoring='neg_mean_squared_error'))
    rmses_knr1_cv.append(knr_pipe_scores.mean())

In [1]:
plot_list = rmses_knr1_cv
plt.plot(range(1,k_max), plot_list, label='CV RMSE Mean')
plt.ylim((np.min(plot_list)-1000, np.amax(plot_list)+1000))
plt.legend(loc="best")
plt.title("RMSE Cross Validation")
plt.show()
print(f'Valor minimo: {int(np.amin(plot_list))}')
print(f'k minimo: {int(np.argmin(plot_list))}')

NameError: name 'rmses_knr1_cv' is not defined

In [89]:
# Lista de RMSEs para distintos valores de k (valores originales)

rmses_knr2_cv = []

for i in range(1,k_max):
    knr2 = KNR(n_neighbors=i)
    knr2 = nmsq2rmse(cross_val_score(knr2, X_train, y_train, cv=10,scoring='neg_mean_squared_error'))
    rmses_knr2_cv.append(knr2.mean())

In [2]:
plot_list = rmses_knr2_cv
plt.plot(range(1,k_max), plot_list, label='CV RMSE Mean')
plt.ylim((np.min(plot_list)-1000, np.amax(plot_list)+1000))
plt.legend(loc="best")
plt.title("RMSE Cross Validation")
plt.show()
print(f'Valor minimo: {int(np.amin(plot_list))}')
print(f'k minimo: {int(np.argmin(plot_list))}')

NameError: name 'rmses_knr2_cv' is not defined

In [110]:
# Lista de RMSEs para distintos valores de k (modelo escalado, pesos iguales)

rmses_knr3_cv = []

weight_list3 = [1/X.shape[1] for i in range(0,X.shape[1])]

for i in range(1,k_max):
    knr3 = KNR(n_neighbors=i,metric='wminkowski', p=2, 
                metric_params={'w': weight_list3})
    knr3_scores = nmsq2rmse(cross_val_score(knr3, X_train, y_train, cv=10,scoring='neg_mean_squared_error'))
    rmses_knr3_cv.append(knr3_scores.mean())

In [3]:
plot_list = rmses_knr3_cv
plt.plot(range(1,k_max), plot_list, label='CV RMSE Mean')
plt.ylim((np.min(plot_list)-1000, np.amax(plot_list)+1000))
plt.legend(loc="best")
plt.title("RMSE Cross Validation")
plt.show()
print(f'Valor minimo: {int(np.amin(plot_list))}')
print(f'k minimo: {int(np.argmin(plot_list))}')

NameError: name 'rmses_knr3_cv' is not defined

In [114]:
# Lista de RMSEs para distintos valores de k (modelo escalado, pesos iguales)

rmses_knr4_cv = []

weight_list4 = [1/X.shape[1] for i in range(0,X.shape[1])]

for i in range(1,k_max):
    knr4 = Pipeline([('scaler',StandardScaler()),
                        ('knr1',KNR(n_neighbors=i,metric='wminkowski', p=2, 
                         metric_params={'w': weight_list4}))])
    knr4_scores = nmsq2rmse(cross_val_score(knr4, X_train, y_train, cv=10,scoring='neg_mean_squared_error'))
    rmses_knr4_cv.append(knr4_scores.mean())

In [234]:
square_means = np.mean(np.power(X,2))
implicit_weights = square_means / np.sum(square_means)
implicit_weights *=1000000 
implicit_weights.head(9)

lat                        261.197
lon                        744.851
surface_total_in_m2     501583.824
surface_covered_in_m2   497408.179
rooms                        1.363
barrio_match                 0.150
PH                           0.021
apartment                    0.192
house                        0.005
dtype: float64

In [126]:
# Lista de RMSEs para distintos valores de k (modelo escalado, pesos implicitos)

rmses_knr5_cv = []

weight_list5 = implicit_weights

for i in range(1,k_max):
    knr5 = Pipeline([('scaler',StandardScaler()), 
                        ('knr1',KNR(n_neighbors=i,metric='wminkowski', p=2, 
                         metric_params={'w': weight_list5}))])
    knr5_scores = nmsq2rmse(cross_val_score(knr5, X_train, y_train, cv=10,scoring='neg_mean_squared_error'))
    rmses_knr5_cv.append(knr5_scores.mean())

## PROBAR INFORMATION GAIN, OPTIMIZACION!!!

In [226]:
# Lista de RMSEs para distintos valores de k (modelo escalado, pesos proporcionales a su correlacion)

rmses_knr6_cv = []

weight_list6 = corr_list

for i in range(1,k_max):
    knr6 = Pipeline([('scaler',StandardScaler()),
                        ('knr1',KNR(n_neighbors=i,metric='wminkowski', p=2, 
                         metric_params={'w': weight_list6}))])
    knr6_scores = nmsq2rmse(cross_val_score(knr6, X_train, y_train, cv=10,scoring='neg_mean_squared_error'))
    rmses_knr6_cv.append(knr6_scores.mean())

KeyboardInterrupt: 

In [151]:
from scipy.optimize import minimize

In [236]:
# X.columns[0:9]
df_adhoc = pd.DataFrame(np.random.permutation(df),columns=df.columns).iloc[0:50,:]
y_adhoc = df_adhoc.loc[:,'price_aprox_usd']
X_adhoc = df_adhoc.drop(columns=['price_aprox_usd']).iloc[:,0:9]
X_train2 = X_train[['lat','lon','surface_total_in_m2','surface_covered_in_m2']]
X_train2

Unnamed: 0,lat,lon,surface_total_in_m2,surface_covered_in_m2
3905,-34.640,-58.475,158.000,103.000
4183,-34.630,-58.492,51.000,45.000
1245,-34.620,-58.384,69.000,60.000
4053,-34.597,-58.378,31.000,31.000
2837,-34.603,-58.395,50.000,50.000
...,...,...,...,...
971,-34.558,-58.452,39.000,34.000
4015,-34.597,-58.375,45.000,45.000
4576,-34.612,-58.446,55.000,55.000
4202,-34.633,-58.409,76.000,63.000


In [207]:
def objective_cv(weight_list):
    knr_sc = Pipeline([('scaler',StandardScaler()),
                        ('knr1',KNR(n_neighbors=10,metric='wminkowski', p=2, 
                         metric_params={'w': weight_list}))])
    scores = nmsq2rmse(cross_val_score(knr_sc, X_train2, y_train, cv=10,scoring='neg_mean_squared_error'))
    return scores.mean()

def constraint_cv(weight_list):
    return np.sum(weight_list) - 1000000

b = (0,1000000)
bnds = (b,b,b,b,b,b,b,b,b)
x0 = np.array([261.197,744.851,501583.824,497408.179,1.363,0.150,0.021,0.192,0.005])

cons_cv = [{'type': 'eq', 'fun': constraint_cv}]

solution_cv = minimize(objective_cv,x0,method='SLSQP',bounds=bnds,constraints=cons_cv)
    
solution_cv
# MINIMIZAR knr_sc sujeto a sum(weight_list_sc) = 1000000

     fun: 32640.17294870484
     jac: array([0., 0., 0., 0., 0., 0., 0., 0., 0.])
 message: 'Optimization terminated successfully.'
    nfev: 22
     nit: 2
    njev: 2
  status: 0
 success: True
       x: array([2.61221222e+02, 7.44875222e+02, 5.01583848e+05, 4.97408203e+05,
       1.38722222e+00, 1.74222222e-01, 4.52222222e-02, 2.16222222e-01,
       2.92222222e-02])

In [192]:
solution_cv.fun

22242.082348929493

In [201]:
X_train2, X_test2, y_train2, y_test2 = train_test_split(X.iloc[:,0:9],y,test_size=0.2)

scaler2 = StandardScaler()
scaler2.fit(X_train2)
X_train_scaled2 = scaler2.transform(X_train2)
X_test_scaled2 = scaler2.transform(X_test2)

def objective(weight_list):
    knr_sc = KNR(n_neighbors=10,metric='wminkowski', p=2, 
                         metric_params={'w': weight_list})
    knr_sc.fit(X_train_scaled2,y_train2)
    y_test_pred_knrsc2 = knr_sc.predict(X_test_scaled2)
    score = np.sqrt(mean_squared_error(y_test2,y_test_pred_knrsc2))
    return score

def constraint(weight_list):
    return np.sum(weight_list) - 1000000

b = (0,1000000)
bnds = (b,b,b,b,b,b,b,b,b)
x0 = np.array([261.197,744.851,501583.824,497408.179,1.363,0.150,0.021,0.192,0.005])

solution_cv = minimize(objective_cv,x0,method='SLSQP',bounds=bnds,constraints=cons_cv)
    
solution_cv

cons = [{'type': 'eq', 'fun': constraint}]


In [None]:
'''
Optimizacion sin restricciones

algo_list = ['Powell','CG','BFGS','L-BFGS-B','TNC','COBYLA','SLSQP','dogleg']

Powell 21834.923331386326 [2.61158143e+02 7.44762383e+02 5.01586412e+05 4.97410767e+05
 3.95092896e+00 2.73792896e+00 2.60892896e+00 2.77992896e+00
 2.59292896e+00]
CG 21834.923331386326 [2.61197000e+02 7.44851000e+02 5.01583824e+05 4.97408179e+05
 1.36300000e+00 1.50000000e-01 2.10000000e-02 1.92000000e-01
 5.00000000e-03]
BFGS 21834.923331386326 [2.61197000e+02 7.44851000e+02 5.01583824e+05 4.97408179e+05
 1.36300000e+00 1.50000000e-01 2.10000000e-02 1.92000000e-01
 5.00000000e-03]
 L-BFGS-B 22540.701418804216 [2.61197000e+02 7.44851000e+02 5.01583824e+05 4.97408179e+05
 1.36300000e+00 1.50000000e-01 2.10000000e-02 1.92000000e-01
 5.00000000e-03]
TNC 22540.701418804216 [2.61197000e+02 7.44851000e+02 5.01583824e+05 4.97408179e+05
 1.36300000e+00 1.50000000e-01 2.10000000e-02 1.92000000e-01
 5.00000000e-03]
'''

In [216]:

weight_list7 = [34055.55555556,34055.55555556,533055.55555556,233055.55555556,
        33155.55555556,33155.55555556,33155.55555556,33155.55555556,
        33155.55555556]
weight_list7.extend([0 for i in range(58-9)])

In [217]:
rmses_knr7_cv = []

weight_list7 = weight_list7

for i in range(1,k_max):
    knr7 = Pipeline([('scaler',StandardScaler()),
                        ('knr1',KNR(n_neighbors=i,metric='wminkowski', p=2, 
                         metric_params={'w': weight_list7}))])
    knr7_scores = nmsq2rmse(cross_val_score(knr7, X_train, y_train, cv=10,scoring='neg_mean_squared_error'))
    rmses_knr7_cv.append(knr7_scores.mean())

In [None]:
lat                        261.197
lon                        744.851
surface_total_in_m2     501583.824
surface_covered_in_m2   497408.179
rooms                        1.363

In [244]:
rmses_knr8_cv = []

weight_list8 = [261,745,501584,49740]

for i in range(1,k_max):
    knr8 = Pipeline([('scaler',StandardScaler()),
                        ('knr1',KNR(n_neighbors=i,metric='wminkowski', p=2, 
                         metric_params={'w': weight_list8}))])
    knr8_scores = nmsq2rmse(cross_val_score(knr8, X_train2, y_train, cv=10,scoring='neg_mean_squared_error'))
    rmses_knr8_cv.append(knr8_scores.mean())

In [245]:
df_comp = pd.DataFrame({'k':range(1,k_max),'scl_unw':rmses_knr1_cv,'scl_wprop':rmses_knr4_cv,'unscl_wprop':rmses_knr3_cv,
                        'unscl_unw':rmses_knr2_cv,'scl_wimpl':rmses_knr5_cv,'scl_wcorr':rmses_knr7_cv,'8':rmses_knr8_cv})
df_comp

Unnamed: 0,k,scl_unw,scl_wprop,unscl_wprop,unscl_unw,scl_wimpl,scl_wcorr,8
0,1,33290.875,33293.181,26610.56,26610.56,26756.813,28102.421,25989.611
1,2,30072.776,30072.238,24440.652,24441.036,23764.905,25335.203,23236.74
2,3,28920.212,28919.894,23520.784,23520.043,22770.683,24506.125,22388.852
3,4,28541.078,28543.555,23160.579,23160.021,22482.513,24213.231,22158.632
4,5,28197.399,28196.736,22964.037,22965.065,22364.457,24107.759,21899.928
5,6,28053.324,28053.453,22911.034,22910.09,22199.873,24084.716,21710.701
6,7,27927.041,27926.758,22859.496,22858.799,22169.256,24084.533,21592.166
7,8,27842.679,27842.119,22834.304,22833.968,22131.203,24118.952,21555.65
8,9,27745.125,27744.944,22838.166,22836.923,22095.216,24105.45,21547.141
9,10,27674.898,27674.603,22837.516,22837.545,22052.839,24139.706,21524.754


Para ver el resultado final, reentrenamos al regresor y mostramos en un dataframe la comparación entre los valores reales, los predichos y su diferencia

In [None]:
tree.fit(X_train, y_train)
y_pred = tree.predict(X_test)
val_real = pd.Series(y_test.values)
val_pred = pd.Series(y_pred)

In [None]:
predicciones = pd.concat([val_real.rename('Valor real'),val_pred.rename('Valor Pred') ,abs(val_real-val_pred).rename('Dif(+/-)')] ,  axis=1)

In [None]:
predicciones.head(10)