# First Assignment for Data Science Course by Digital House

La inmobiliaria Properati publica periódicamente información sobre ofertas de propiedades para venta y alquiler. 

<b> En este proyecto nos proponemos desarrollar un modelo de regresión que permita predecir el precio en dólares por metro cuadrado de una propiedad. El objetivo final, es desarrollar un tasador automático para ser aplicado a las próximas propiedades que sean comercializadas por la empresa.</b>

Para ello, la empresa le provee de un dataset correspondiente al primer semestre de 2017. 

Será importante tener en cuenta el problema de la <i>influencia espacial en los precios por metro cuadrado</i>. En efecto, es probable que existan diferencias importantes de en las diferentes geografías, barrios y zonas analizadas.


Objetivos de la primera etapa:

● Efectuar una limpieza del dataset provisto. Particularmente, deberá diseñar estrategias para lidiar con los datos perdidos en ciertas variables.

● Realizar un análisis descriptivo de las principales variables.

● Crear nuevas columnas a partir de las características dadas que puedan tener valor predictivo.

Para la presentación en clase se deben armar algunos slides no técnicos para exponer en no más de 10 minutos (PPT o Google Slides). 
La presentación debe constar:
* una introducción (planteo del problema, la pregunta, la descripción del dataset, etc.) 
* un desarrollo de los análisis realizados (análisis descriptivo, análisis de correlaciones preliminares, visualizaciones preliminares) 
* una exposición de los principales resultados y conclusiones.

## Introducción

Problema: automatizar el proceso de predecir el precio por metro cuadrado de una propiedad en USD, creando así un tasador automático.

Entonces, ¿a qué features nos debemos basar para predecir el valor?


<img src = "https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/DS0103EN/labs/images/lab1_fig2_datascience_methodology_flowchart.png" width = 500> 

Vamos a definir el enfoque analítico para resolver el problema, identificando qué tipo de patrones serán necesarios para abordar la cuestión de manera más efectiva. Aquí utilizaremos técnicas estadísticas y de aprendizaje automático.

## Preparación de datos

In [18]:
import pandas as pd
import numpy as np
df=pd.read_csv("properatti.csv")

In [19]:
df.shape

(121220, 26)

In [20]:
df.columns

Index(['Unnamed: 0', 'operation', 'property_type', 'place_name',
       'place_with_parent_names', 'country_name', 'state_name', 'geonames_id',
       'lat-lon', 'lat', 'lon', 'price', 'currency',
       'price_aprox_local_currency', 'price_aprox_usd', 'surface_total_in_m2',
       'surface_covered_in_m2', 'price_usd_per_m2', 'price_per_m2', 'floor',
       'rooms', 'expenses', 'properati_url', 'description', 'title',
       'image_thumbnail'],
      dtype='object')

In [21]:
df.rename(columns={"Unnamed: 0":"a","operation":"operacion","property_type":"tipo_inmueble","place_name":"barrio","place_with_parent_names":"localizacion","country_name":"argentina","state_name":"localidad","geonames_id":"id_geoname","lat-lon":"coordenadas","lat":"latitud","lon":"longitud","price":"precio","currency":"moneda","price_aprox_local_currency":"precio_pesos","price_aprox_usd":"precio_usd","surface_total_in_m2":"sup_total","surface_covered_in_m2":"sup_cubierta","price_usd_per_m2":"precio_usd_sup","price_per_m2":"precio_pesos_sup","floor":"nivel","rooms":"ambientes","expenses":"expensas","properati_url":"url","description":"observaciones","title":"titulo","image_thumbnail":"url_imagen"}, inplace=True)

In [22]:
df.drop(columns="a", inplace=True)

In [23]:
df.head()

Unnamed: 0,operacion,tipo_inmueble,barrio,localizacion,argentina,localidad,id_geoname,coordenadas,latitud,longitud,...,sup_cubierta,precio_usd_sup,precio_pesos_sup,nivel,ambientes,expensas,url,observaciones,titulo,url_imagen
0,sell,PH,Mataderos,|Argentina|Capital Federal|Mataderos|,Argentina,Capital Federal,3430787.0,"-34.6618237,-58.5088387",-34.661824,-58.508839,...,40.0,1127.272727,1550.0,,,,http://www.properati.com.ar/15bo8_venta_ph_mat...,"2 AMBIENTES TIPO CASA PLANTA BAJA POR PASILLO,...",2 AMB TIPO CASA SIN EXPENSAS EN PB,https://thumbs4.properati.com/8/BluUYiHJLhgIIK...
1,sell,apartment,La Plata,|Argentina|Bs.As. G.B.A. Zona Sur|La Plata|,Argentina,Bs.As. G.B.A. Zona Sur,3432039.0,"-34.9038831,-57.9643295",-34.903883,-57.96433,...,,,,,,,http://www.properati.com.ar/15bob_venta_depart...,Venta de departamento en décimo piso al frente...,VENTA Depto 2 dorm. a estrenar 7 e/ 36 y 37 ...,https://thumbs4.properati.com/7/ikpVBu2ztHA7jv...
2,sell,apartment,Mataderos,|Argentina|Capital Federal|Mataderos|,Argentina,Capital Federal,3430787.0,"-34.6522615,-58.5229825",-34.652262,-58.522982,...,55.0,1309.090909,1309.090909,,,,http://www.properati.com.ar/15bod_venta_depart...,2 AMBIENTES 3ER PISO LATERAL LIVING COMEDOR AM...,2 AMB 3ER PISO CON ASCENSOR APTO CREDITO,https://thumbs4.properati.com/5/SXKr34F_IwG3W_...
3,sell,PH,Liniers,|Argentina|Capital Federal|Liniers|,Argentina,Capital Federal,3431333.0,"-34.6477969,-58.5164244",-34.647797,-58.516424,...,,,,,,,http://www.properati.com.ar/15boh_venta_ph_lin...,PH 3 ambientes con patio. Hay 3 deptos en lote...,PH 3 amb. cfte. reciclado,https://thumbs4.properati.com/3/DgIfX-85Mog5SP...
4,sell,apartment,Centro,|Argentina|Buenos Aires Costa Atlántica|Mar de...,Argentina,Buenos Aires Costa Atlántica,3435548.0,"-38.0026256,-57.5494468",-38.002626,-57.549447,...,35.0,1828.571429,1828.571429,,,,http://www.properati.com.ar/15bok_venta_depart...,DEPARTAMENTO CON FANTÁSTICA ILUMINACIÓN NATURA...,DEPTO 2 AMB AL CONTRAFRENTE ZONA CENTRO/PLAZA ...,https://thumbs4.properati.com/5/xrRqlNcSI_vs-f...


In [24]:
df.describe()

Unnamed: 0,id_geoname,latitud,longitud,precio,precio_pesos,precio_usd,sup_total,sup_cubierta,precio_usd_sup,precio_pesos_sup,nivel,ambientes,expensas
count,102503.0,69670.0,69670.0,100810.0,100810.0,100810.0,81892.0,101313.0,68617.0,87658.0,7899.0,47390.0,14262.0
mean,3574442.0,-34.62621,-59.26629,468525.9,4229397.0,239700.6,233.795328,133.050181,2160.086916,6912.216,17.452336,3.08084,5009.234
std,354130.6,1.980936,2.299922,2260101.0,6904714.0,391323.9,1782.222147,724.351479,2759.288621,28378.64,120.243621,1.860773,120440.3
min,3427208.0,-54.823985,-75.678931,0.0,0.0,0.0,0.0,0.0,0.6,1.510204,1.0,1.0,1.0
25%,3430234.0,-34.669065,-58.72704,110000.0,1583309.0,89733.88,50.0,45.0,1218.181818,1550.0,1.0,2.0,1000.0
50%,3433910.0,-34.597985,-58.480128,185000.0,2558452.0,145000.0,84.0,75.0,1800.0,2213.115,3.0,3.0,2000.0
75%,3836668.0,-34.441299,-58.395908,420000.0,4675792.0,265000.0,200.0,150.0,2486.411765,3355.549,6.0,4.0,4000.0
max,6948895.0,4.545843,-53.73333,650000000.0,821271100.0,46545440.0,200000.0,187000.0,206333.333333,4000000.0,3150.0,32.0,10001500.0


In [25]:
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
from sklearn import datasets

In [34]:
nulos=df.isnull().sum()
pd.DataFrame(nulos)

Unnamed: 0,0
operacion,0
tipo_inmueble,0
barrio,23
localizacion,0
argentina,0
localidad,0
id_geoname,18717
coordenadas,51550
latitud,51550
longitud,51550


<h5> Completando valores nulos 

De dónde sacar los datos:

    -barrio: localidad
    -id_geoname: ¿qué utilidad tiene?
    -coordenadas, latitud y longitud: ver
    -precios usd es lo más completo, nos sirve para completar los 10000 faltantes dentro de superficie
    -de que sirve la imagen????? al día de hoy no podemos codificar imagenes y viceversa ----> eliminar
    -
    -
    -
    -

In [47]:
nulos.loc[["barrio","id_geoname","coordenadas","latitud","longitud","precio","moneda","precio_pesos","precio_usd","precio_pesos_sup","precio_usd_sup","sup_total","sup_cubierta","nivel","ambientes","expensas","url_imagen"]]

barrio                  23
id_geoname           18717
coordenadas          51550
latitud              51550
longitud             51550
precio               20410
moneda               20411
precio_pesos         20410
precio_usd           20410
precio_pesos_sup     33562
precio_usd_sup       52603
sup_total            39328
sup_cubierta         19907
nivel               113321
ambientes            73830
expensas            106958
url_imagen            3112
dtype: int64

In [44]:
df.observaciones[0]

'2 AMBIENTES TIPO CASA PLANTA BAJA POR PASILLO, REFACCIONADO A NUEVO, PATIO GRANDE, CON LAVADERO, LIVING COMEDOR CON COCINA INTEGRADA, ARTEFACTO DE COCINA, ALACENA, BAÑO COMPLETO, Y DORMITORIO. TODO EN EXCELENTE ESTADO, PARA HABITAR.NO ES APTO CREDITO Aviso publicado por Pixel Inmobiliario (Servicio de Páginas Web para Inmobiliarias).'

In [45]:
df.observaciones[10]

'Hermosa casa sin terminar de 3 dormitorios, baño, living comedor, cocina, cochera.Techo de Madera. Con escritura y servicios. Lote de 1514 metros.                     Aviso publicado por Pixel Inmobiliario (Servicio de Páginas Web para Inmobiliarias).'

In [46]:
df.observaciones[1000]

'Sobre terreno  de 4.700 m2 con vista a campo abierto y monte, casa de 110m2 , con 3 dormitorios y 2 baños,cocina integrada, living comedor con chimenea. Casa de depósito.  Pileta con filtro. Gran arboleda, terreno parquizado .                  Aviso publicado por Pixel Inmobiliario (Servicio de Páginas Web para Inmobiliarias).'

<h3>Boludeses mías


http://localhost:8888/notebooks/Documents/data%20science%20DH/IBM%20cuadernos%20J%20coursera/data%20methodology/DS0103EN-4-4-1-From-Modeling-to-Evaluation-v2.0.ipynb

http://localhost:8888/notebooks/Documents/data%20science%20DH/IBM%20cuadernos%20J%20coursera/data%20visualization/DV0101EN-1-1-1-Introduction-to-Matplotlib-and-Line-Plots-py-v2.0.ipynb
        
        
        ingredients = list(recipes.columns.values)

print([match.group(0) for ingredient in ingredients for match in [(re.compile(".*(rice).*")).search(ingredient)] if match])

In [None]:
recipes["country"].value_counts() # frequency table

In [None]:
recipes["cuisine"] = recipes["cuisine"].str.lower()

In [None]:
recipes.loc[recipes["cuisine"] == "irish", "cuisine"] = "uk-and-irish"

In [None]:
cuisines = recipes.groupby("cuisine").mean()

In [None]:
def print_top_ingredients(row):
    print(row.name.upper())
    row_sorted = row.sort_values(ascending=False)*100
    top_ingredients = list(row_sorted.index.values)[0:num_ingredients]
    row_sorted = list(row_sorted)[0:num_ingredients]

    for ind, ingredient in enumerate(top_ingredients):
        print("%s (%d%%)" % (ingredient, row_sorted[ind]), end=' ')
    print("\n")

# apply function to cuisines dataframe
create_cuisines_profiles = cuisines.apply(print_top_ingredients, axis=1)

In [None]:
random.seed(1234) # set random seed
bamboo_test = bamboo.groupby("cuisine", group_keys=False).apply(lambda x: x.sample(sample_n))

bamboo_test_ingredients = bamboo_test.iloc[:,1:] # ingredients
bamboo_test_cuisines = bamboo_test["cuisine"] # correspond