# Proyecto Final

El objetivo del proyecto fue probar y determinar el mejor modelo para predecir el precio de venta de una propiedad residencial, es decir, entrenar un modelo de regresión que logre el error cuadrático medio (RMSE) más bajo que pueda lograr cuando se evalúa frente a un subconjunto de datos de prueba.

Este modelo dependerá de varios factores, tales como la antigüedad de la propiedad, la disponibilidad de servicios locales, distancia estación de trenes y la ubicación:

Los datos consisten en las siguientes variables:

- **transaction_date**: la fecha de la transacción (por ejemplo, 2013.250=marzo de 2013, etc.)
- **house_age** - la edad de la casa (en años)
- **transit_distance** - la distancia a la estación de tren ligero más cercana (expresado metros)
- **local_convenience_stores**: la cantidad de tiendas de conveniencia a poca distancia
- **latitude** - la coordenada geográfica, latitud
- **longitude** - la coordenada geográfica, longitud
- **price_per_unit** precio de la vivienda por unidad de superficie


Por lo cual, se utilizará un conjunto de datos de transacciones de venta de bienes raíces para predecir el precio por unidad de una propiedad en función de sus características. El precio por unidad en estos datos se basa en una unidad de medida de 3,3 metros cuadrados.

**Cita**: Los datos utilizados provienen del siguiente estudio:

*Yeh, I. C. y Hsu, T. K. (2018). Construcción de modelos de valoración inmobiliaria con enfoque comparativo mediante razonamiento basado en casos. Informática blanda aplicada, 65, 260-271.*

Se obtuvo del repositorio de conjuntos de datos de la UCI (Dua, D. y Graff, C. (2019). [UCI Machine Learning Repository](http://archive.ics.uci.edu/ml). Irvine, CA: University de California, Escuela de Información y Ciencias de la Computación).

# Proceso de Limpieza

1.- Se parte con rápida descripcion de los datos, observándose la dispersión de los datos.

2.- Se realizan etiquetas y gráficos (histograma y boxplot) para tener otra perspectiva. Se observa que existen datos outliers de precios que se deben corregir.

3.- Se realiza un filtro por precio, dejándolos en un rango de 10 < x < 65.

4.- Nuevamente se realiza un histograma y un boxplot, destacando la media y la mediana, siendo muy similares, descartando algún tipo de asimetría significativa.

5.- Se realizan gráficos de correlación entre las distintas variables, observandose que existe una relación positiva entre el precio y la cantidad de tiendas de conveniencias cercanas. Ahora bien, también se observa que no existe relación alguna entre el precio y la fecha de la transacción, o es insignificante el cual se descartará en forma posterior para los modelos.

6.- Tanto transaction_date como local_convenience_stores, podríamos considerarlos como valores discretos, siendo mucho mejor si se tratan como características categóricas. Para eso se realizan dos boxplot, en la cual se observa en el caso de transaction_date, que la media no tiene mucha variación, asi como los datos en general. Sin embargo, con los local_convenience_stores, se observa claramente como aumenta la media en la medida que la cantidad de tiendas de conveniencias aumenta.

# Modelos

1.- Considerando lo visualizado en el proceso de limpieza, se procede a descartar "transaction_date".

2.- Se evaluan 6 modelos:
    
    a) LinearRegression  : RMSE: 7.8 , R2: 0.59
    
    b) Lasso             : RMSE: 8.1 , R2:0.56
    
    c) DecisionTree      : RMSE: 7.3 , R2:0.64
    
    d) RandomForest      : RMSE: 6.2 , R2:0.74
    
    e) GradientBoosting  : RMSE: 6.4  , R2:0.73
                

![image.png](attachment:image.png)

![image-2.png](attachment:image-2.png) **El mejor modelo es Random Forest**

Tanto Regresión Lineal, como Lasso y Arbol de decisión, tiene un RMSE muy superior al mejor modelo y con sus respectivos R2 con valores más bajos, o sea, menor predicción.

El valor 6.2 de RMSE correspondiente al mejor modelo que fue Random Forest, se interpreta que en promedio el modelo se está equivocando en 6.2 millones, considerando que son millones el valor.

Respecto del R2 con un valor 0.74, aun cuando es cercano con GradientBoosting, es un poco mejor.

Tal como se había pensando, al analizar los datos se observó una correlación muy similar entre la ubicación y la distancia a los locales o servicios. También fue relevante la importancia de los años que tiene la vivienda.

Ahora bien, lo que me llamó la atención que la fecha de transacción no aporta en nada a los modelos, pensando más que nada en una estacionalidad de compras de viviendas, pero dicha situación está afecta principalmente a variables del mercado, las cuales acá no han sido considerados.

# Conclusiones

Fue interesante darle un valor objetivo a una actividad que en general es mucho de "guata" de los corredores o de quienes venden una vivienda.

Claramente, es necesario incorporar una mayor cantidad de variables que sean representativas de los que buscan quienes las adquieren, ahí surge un concepto interesante que es "buyer persona", como por ejemplo si es una vivienda esquina, tasa de delincuencia en una zona buffer, cantidad de habitaciones, cantidad de baños, tipo de infraestructura, cuantos pisos, superficie externa (patio), tipo de vivienda (pareada, no pareada).