# Proyecto: Análisis del mercado inmobiliario de la Ciudad de Buenos Aires

Mentor: Javier Lezama.

javitolez@gmail.com

En este proyecto vamos a trabajar con un dataset de propiedades en venta publicadas en el portal www.Properati.com.ar.

#### Autor: Pablo Borja

# El dataset: propiedades en venta en Ciudad de Buenos Aires.

En este proyecto, trabajaremos con una muestra del conjunto de datos de propiedades en venta mencionado. En este dataset, cada fila es una propiedad en venta. 

#Los atributos

A continuación vamos a describir los atributos que consideramos en esta muestra:
* id: id de la propiedad
* created_on: fecha en la que la propiedad ingresó al sitio
* operation: alquiler (rent) o venta (sell)
* property_type: tipo de propiedad (casa, departamento, ph, etcétera)
* place_with_parent_names: nombre del lugar donde se encuentra la propiedad según el publicador
* lat-lon: coordenadas concatenadas
* lat: latitud
* lon: longitud
* price: precio en la moneda especificada en currency
* currency: divisa en la que está expresada la publicación
* price_aprox_usd: precio aproximado en dólares estadounidenses
* surface_total_in_m2: superficie total (en metros cuadrados)
* surface_covered_in_m2: superficie cubierta (en metros cuadrados)
* price_usd_per_m2: precio por metro cuadrado en dólares (precio dólares / superficie)
* floor: número de piso (si corresponde)
* rooms: cantidad de ambientes
* expenses: expensas (si corresponde)
* barrio: barrio según cartografía oficial
* properati_url: url de la publicación en Properati

Objetivos del practico introducción al aprendizaje automático:

El objetivo de este practico es trabajar con el mismo dateset trabajado en el práctico dos, específicamente el objetivo es que se introduzcan en el desarrollo de un esquema para hacer tareas de aprendizaje automático: selección de un modelo, ajuste de hiperparámetros y evaluación.

Para eso trabajaremos con el dataset resultante del practico dos para armar nuestros primeros modelos para predecir el precio de las propiedades en dólares.

# Manos a la obra

Partiremos con el dataset resultante del práctico dos. El práctico está basado en el práctico final de la materia introducción al aprendizaje automatico del año 2018.

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv("../Mentoria Análisis y Curación de Datos/df_filtered.csv")

In [3]:
df = df.select_dtypes([np.number])

# Ejercicio 1: División de datos en conjuntos de entrenamiento y evaluación.

La primer tarea consiste en dividir el conjunto de datos cargados en el apartado anterior en conjuntos de entrenamiento (o training) y evaluación (o test).

In [4]:
from sklearn.model_selection import train_test_split

In [5]:
X = df.drop('price_aprox_usd', axis=1)
y = df['price_aprox_usd']

In [6]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)


# Ejercicio 2: Elección de un modelo de regresión.

Basándose en lo visto en el teórico escojan y justifiquen un modelo de aprendizaje automático de regresión, para predecir el precio de las propiedades en dólares. Selección de regulizador, selección de la función de coste, etc.

In [10]:
# Se escoge el modelo de SGD
# Hay que estandarizar
# se escogió este modelo debido a que necesitamos un modelo que nos prediga un monto continuo
# sobre variables varias.

In [7]:
from sklearn.linear_model import SGDRegressor

clas = SGDRegressor()

# Ejercicio 3: Selección de hiperparámetros.

Utilizando búsqueda exhaustiva (grid search) con 5-fold cross-validation y utilizando como métrica el área bajo la curva de ROC (o ROC-AUC), hagan una selección de los mejores hiperparámetros para su conjunto de datos y el modelo que hayan elegido en el apartado anterior.

In [8]:
from sklearn.model_selection import GridSearchCV

params = {"n_iter": [1000, 5000],
            "alpha": [0.0001, 0.001, 0.01, 0.1],
            "penalty": ["l1", "l2"]}
grid = GridSearchCV(clas, param_grid=params, scoring='neg_mean_squared_error', cv=5)

In [9]:
grid.fit(X_train, y_train)







GridSearchCV(cv=5, error_score='raise-deprecating',
       estimator=SGDRegressor(alpha=0.0001, average=False, early_stopping=False, epsilon=0.1,
       eta0=0.01, fit_intercept=True, l1_ratio=0.15,
       learning_rate='invscaling', loss='squared_loss', max_iter=None,
       n_iter=None, n_iter_no_change=5, penalty='l2', power_t=0.25,
       random_state=None, shuffle=True, tol=None, validation_fraction=0.1,
       verbose=0, warm_start=False),
       fit_params=None, iid='warn', n_jobs=None,
       param_grid={'n_iter': [1000, 5000], 'alpha': [0.0001, 0.001, 0.01, 0.1], 'penalty': ['l1', 'l2']},
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring='neg_mean_squared_error', verbose=0)

In [10]:
grid.best_estimator_

SGDRegressor(alpha=0.01, average=False, early_stopping=False, epsilon=0.1,
       eta0=0.01, fit_intercept=True, l1_ratio=0.15,
       learning_rate='invscaling', loss='squared_loss', max_iter=None,
       n_iter=5000, n_iter_no_change=5, penalty='l2', power_t=0.25,
       random_state=None, shuffle=True, tol=None, validation_fraction=0.1,
       verbose=0, warm_start=False)

# Ejercicio 4: Métricas sobre el conjunto de evaluación

Una vez encontrados los mejores hiperparámetros para el modelo seleccionado en los apartados anteriores se evalúa el modelo final entrenado sobre el conjunto de datos de evaluación seleccionado en el ejercicio 1. Pueden utilizar las métricas que crean convenientes.

In [11]:
from sklearn.metrics import mean_squared_error

y_som = grid.best_estimator_.predict(X_test)
error = np.sqrt(mean_squared_error(y_test, y_som))

In [12]:
print('The error of the SGD Model is: {}'.format(error)) 

The error of the SGD Model is: 1004354490463641.8


# Informe final

Presentar un informe final con los datos inferidos del dataset utilizando herramientas gráficas y escritas teniendo en cuenta los destinatarios. En este caso colegas de la diplomatura para preparar el informe con un background adecuado al destinatario.

In [None]:
# INFORME FINAL
#
# Se levantó el dataset que ya se habia dejado curado de los pŕacticos anteriores.
# Se seleccionó solo las variables que sean numéricas para poder trabajar con el algoritmo SGD.
# Luego, se dividió el dataset en dos grupos, uno para entrenamiento y otro para testing.
# Se instanció el modelo y se creo una grilla para pasarle al GrodSearch y de esa manera encontrar los mejores 
# hiperparámetros.
# Luego se utilizó el grupo de testing para comprobar los resultados.
# El error fue demasiado grande, debido a que hay atributos que están siendo más tenidos en cuenta por
# su gran valor absoluto que por su importancia.
# Del manaul de scikit-learn esto puede ser porque el algoritmo SGD es muy sensible a atributos con valores 
# mayores, por lo que seria una mejor estadarizarlos, pero tambien hay que tener en cuenta que algunos
# atributos fueron están binarizados por lo que se debe mejorar esa parte.