# Dataset Properati - Proyecto 1

### Limpieza

Descargamos el dataset de Properati con propiedades en venta en Argentina de los últimos 6 meses.

In [None]:
import requests

url = 'https://www.properati.com.ar/static/data/AR/properati-AR-2018-02-01-properties-sell-six_months.csv.gz'

r = requests.get(url)

In [None]:
with open('./datos_properati.csv.gz', 'wb') as f:  
    f.write(r.content)

Leemos el archivo descargado.

In [None]:
import pandas as pd

df = pd.read_csv('./datos_properati.csv.gz', parse_dates=['created_on'])

Nos deshacemos del algunas columnas.

In [None]:
df.drop(columns=[
    'id', # no hace falta
    #'place_name', # vamos a usar la rama entera
    'country_name', # son todas propiedades de argentina
    'state_name', # en algún momento nos vamos a quedar con propiedades de CABA solamente
    'geonames_id', # no hace falta
    'price', # usamos en dolares directamente
    'currency', #idem
    'price_aprox_local_currency', # ídem
    'price_per_m2', # ídem
    'description', # no hace falta, es texto
    'title', # idem
    'image_thumbnail', # no aporta nada en esta etapa
], inplace=True)

__Reemplazo variables con superficies intercambiabdas__

In [None]:
wrong_surface_rows = df[df.surface_total_in_m2 < df.surface_covered_in_m2]
df.at[wrong_surface_rows.index, 'surface_total_in_m2'] = wrong_surface_rows.surface_covered_in_m2
df.at[wrong_surface_rows.index, 'surface_covered_in_m2'] = wrong_surface_rows.surface_total_in_m2

__Quito las que tienen mal las coordenadas__

In [None]:
conteo_puntos = df.groupby(['lat', 'lon']).size()
conteo_puntos.name = 'conteo'

df= df.join(conteo_puntos, on=['lat', 'lon'])

df = df[df.conteo <= 5]

Ahora nos vamos a quedar con propiedades:

* geolocalizadas,
* ~~que sean casas o departamentos,~~
* ~~que informen al menos una superficie (cubierta o total),~~
* ~~que informen cantidad de ambientes,~~
* ~~que informen precio de venta.~~

In [None]:
geo        =  df.lat.notnull() & df.lon.notnull()
tipo       =  df.property_type.isin(['house', 'apartment', 'PH'])
fecha = df.created_on.notnull()
superficie =  df.surface_covered_in_m2.notnull() | df.surface_total_in_m2.notnull() 
precio     =  df.price_aprox_usd.notnull()

df= df[geo & tipo & fecha & superficie & precio]

#### Filtro las que tienen coordenadas fuera de CABA (con GeoPandas)

In [None]:
import geopandas as gpd
from shapely.geometry import Point

barrios = gpd.read_file('barrios_caba.geojson')
barrios.drop(columns=['AREA', 'PERIMETRO'], inplace=True)
barrios.rename(columns={'COMUNA':'comuna', 'BARRIO':'barrio'}, inplace=True)

In [None]:
df = gpd.GeoDataFrame(df, crs={'init':'epsg:4326'})
df.geometry = df.apply(lambda row: Point(row.lon, row.lat), axis=1)
df = gpd.sjoin(df, barrios, how='inner', op='intersects')

#### Registros duplicados

Tiramos propiedades repetidas, según todas las columnas exceptuando `created_on`. Las inmobiliarias suelen volver a publicar sus propiedades para que aparezcan múltiples veces en el sitio. A veces lo hacen en momentos diferentes, en este caso la fecha de creación haría que dos filas de la tabla que coincidan en el resto de sus atributos no sean consideradas la misma propiedad, por eso no la usamos para la comparación.

In [None]:
df.drop_duplicates([
    'property_type',
    'place_name',
    'state_name',
    'lat',
    'lon',
    'price_usd_usd',
    'surface_total_in_m2',
    'surface_covered_in_m2',
    'floor',
    'rooms',
    'expenses',
    'description',
    'title',
], inplace=True)

In [None]:
df.drop(columns=['index_right', 'geometry', 'comuna'], inplace=True)

#### [NO] Genero missings al azar (10%) en `property_type` para el ejercicio de imputar variables categóricas.

In [None]:
#property_type_nans = df.property_type.copy()
#p = 0.1
#ix = np.random.choice(property_type_nans.size, int(np.round(p*property_type_nans.size)), replace=False)
#property_type_nans.ravel()[ix] = np.nan
#df['property_type'] = property_type_nans

In [None]:
df.isnull().sum() / df.shape[0]

In [None]:
df.head()

In [None]:
df.shape[0]

#### Persistencia

In [None]:
df.to_csv('./datos_properati_limpios.csv.gz', compression='gzip', index=False)