# Dataset Properati - Proyecto 2

### Limpieza

Descargamos el dataset de Properati con propiedades en venta en Argentina de los últimos 6 meses.

In [1]:
import requests

url = 'https://www.properati.com.ar/static/data/AR/properati-AR-2018-02-01-properties-sell-six_months.csv.gz'

#r = requests.get(url)

In [2]:
#with open('./datos_properati.csv.gz', 'wb') as f:  
#    f.write(r.content)

Leemos el archivo descargado.

In [3]:
import pandas as pd

df = pd.read_csv('./datos_properati.csv.gz', parse_dates=['created_on'])

FileNotFoundError: [Errno 2] No such file or directory: './datos_properati.csv.gz'

Nos deshacemos del algunas columnas.

In [None]:
df.drop(columns=[
    'id', # no hace falta
    'place_name', # vamos a usar la rama entera
    'country_name', # son todas propiedades de argentina
    'state_name', # en algún momento nos vamos a quedar con propiedades de CABA solamente
    'geonames_id', # no hace falta
    'price', # usamos en dolares directamente
    'currency', #idem
    'price_aprox_local_currency', # ídem
    'price_per_m2', # ídem
    'description', # no hace falta, es texto
    'title', # idem
    'image_thumbnail', # no aporta nada en esta etapa
], inplace=True)

Ahora nos vamos a quedar con propiedades:

* geolocalizadas,
* ~~que sean casas o departamentos,~~
* ~~que informen al menos una superficie (cubierta o total),~~
* ~~que informen cantidad de ambientes,~~
* ~~que informen precio de venta.~~

In [None]:
geo        =  df.lat.notnull() & df.lon.notnull()
#tipo       =  df.property_type.isin(['house', 'apartment'])
#superficie =  df.surface_covered.notnull() | df.surface_total.notnull() 
#ambientes  =  df.rooms.notnull()
#precio     =  df.price_usd.notnull()

df = df[geo]
#df = df[geo & tipo & superficie & ambientes & precio]

#### Filtro las que tienen coordenadas fuera de CABA (con GeoPandas)

In [None]:
import geopandas as gpd
from shapely.geometry import Point

barrios = gpd.read_file('barrios_caba.geojson')
barrios.drop(columns=['AREA', 'PERIMETRO'], inplace=True)
barrios.rename(columns={'COMUNA':'comuna', 'BARRIO':'barrio'}, inplace=True)

In [None]:
df = gpd.GeoDataFrame(df, crs={'init':'epsg:4326'})
df.geometry = df.apply(lambda row: Point(row.lon, row.lat), axis=1)
df = gpd.sjoin(df, barrios, how='inner', op='intersects')

#### Registros duplicados

Tiramos propiedades repetidas, según todas las columnas exceptuando `created_on`. Las inmobiliarias suelen volver a publicar sus propiedades para que aparezcan múltiples veces en el sitio. A veces lo hacen en momentos diferentes, en este caso la fecha de creación haría que dos filas de la tabla que coincidan en el resto de sus atributos no sean consideradas la misma propiedad, por eso no la usamos para la comparación.

In [None]:
df.drop_duplicates([
    'property_type',
    'place_name',
    'state_name',
    'lat',
    'lon',
    'price_usd_usd',
    'surface_total_in_m2',
    'surface_covered_in_m2',
    'floor',
    'rooms',
    'expenses',
    'description',
    'title',
], inplace=True)

In [None]:
df.drop(columns=['index_right', 'geometry', 'comuna'], inplace=True)

#### Persistencia

In [None]:
df.to_csv('./datos_properati_limpios.csv.gz', compression='gzip', index=False)