In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
#properati = pd.read_csv('/Users/palazzom/Dropbox/acamica/01_EDA/datos_properati.csv', delimiter=',')
properati = pd.read_csv('/home/martin/Dropbox/acamica/01_EDA/datos_properati.csv', delimiter=',', parse_dates = ['created_on'])

In [3]:
properati.head()

Unnamed: 0,created_on,operation,property_type,place_with_parent_names,lat-lon,lat,lon,price_aprox_usd,surface_total_in_m2,surface_covered_in_m2,price_usd_per_m2,floor,rooms,expenses,properati_url,barrio,comuna
0,2017-09-22,sell,house,|Argentina|Capital Federal|Palermo|Palermo Viejo|,"-34.5889531469,-58.4298817776",-34.588953,-58.429882,2000000.0,312.0,,6410.25641,,,,https://www.properati.com.ar/2os_venta_casa_pa...,PALERMO,14.0
1,2017-08-01,sell,store,|Argentina|Capital Federal|Palermo|,"-34.586069,-58.414431",-34.586069,-58.414431,790000.0,121.0,121.0,6528.92562,,,,https://www.properati.com.ar/1cl7l_venta_local...,PALERMO,14.0
2,2017-08-02,sell,store,|Argentina|Capital Federal|Palermo|Palermo Soho|,"-34.589723,-58.4325664",-34.589723,-58.432566,343000.0,122.0,108.0,2811.47541,,2.0,,https://www.properati.com.ar/1cm8w_venta_local...,PALERMO,14.0
3,2017-08-03,sell,store,|Argentina|Capital Federal|Palermo|,"-34.5923646,-58.4144028",-34.592365,-58.414403,145000.0,24.0,24.0,6041.666667,,,,https://www.properati.com.ar/1covk_venta_local...,PALERMO,14.0
4,2017-08-08,sell,store,|Argentina|Capital Federal|Barrio Norte|,"-34.585652875,-58.4114933233",-34.585653,-58.411493,175000.0,24.0,24.0,7291.666667,,,,https://www.properati.com.ar/1csk7_venta_local...,PALERMO,14.0


# Feature Engineering

Parte de las acciones que realizaremos consistiràn en crear nuevas features / atributos. Recordemos que los modelos que construiremos aprenderàn y reconoceràn patrones en base a estos atributos / features. Construiremos 3 features, una con el año en que fue publicada cada casa, otra con el mes, y otra con el dia, partiendo de la columna 'created_on' (recordemos que esta columna fue procesada con el comando parse_dates al importar el .csv).

In [4]:
properati['anio'] = pd.DataFrame((properati['created_on'].map(lambda x: x.year)))

In [5]:
properati['mes'] = pd.DataFrame((properati['created_on'].map(lambda x: x.month)))

In [6]:
properati['dia'] = pd.DataFrame((properati['created_on'].map(lambda x: x.day)))

In [7]:
# observamos que existen 3 nuevas columnas en properati.
properati.columns

Index(['created_on', 'operation', 'property_type', 'place_with_parent_names',
       'lat-lon', 'lat', 'lon', 'price_aprox_usd', 'surface_total_in_m2',
       'surface_covered_in_m2', 'price_usd_per_m2', 'floor', 'rooms',
       'expenses', 'properati_url', 'barrio', 'comuna', 'anio', 'mes', 'dia'],
      dtype='object')

# Eliminamos instancias con valores faltantes

Procedemos a filtrar el dataset properati eliminando las instancias (renglones) de las columnas 'price_usd_per_m2' y 'surface_total_in_m2' con el comando 'dropna'.

In [8]:
# eliminamos los NaNs en las columnas seleccionadas. Cada regnlon del dataset "properati"
# el parametro "subset" lo utilizamos para aplicar dropna a varias columnas
properati_filt = properati.dropna(subset=['price_usd_per_m2', 'surface_total_in_m2'])

In [9]:
# contabilizamos cuantas instancias quedaron afuera luego de realizar el "dropna"
instancias_eliminadas = np.shape(properati)[0] - np.shape(properati_filt)[0]
print("se han eliminado " + str(instancias_eliminadas) + " instancias por valores faltantes")

se han eliminado 2942 instancias por valores faltantes


# Calculamos el precio promedio del m2 por barrio

In [10]:
# creo una tabla pivote que me indique el promedio del precio promedio (via el parametro aggfunc) de cada barrio
# para la variable "price_usd_per_m2"
precio_prom_barrio = pd.pivot_table(properati_filt, index = 'barrio', values = 'price_usd_per_m2', aggfunc= np.mean)

In [11]:
# observamos los primeros 5 renglones de nuestra tabla pivote obtenida
precio_prom_barrio.head()

barrio
AGRONOMIA    1996.459243
ALMAGRO      2415.711642
BALVANERA    2059.894816
BARRACAS     2040.355693
BELGRANO     3338.725206
Name: price_usd_per_m2, dtype: float64

In [12]:
#nuestra tabla pivote es una series de pandas -> es equivalente a un vector de 1 sola dimension
type(precio_prom_barrio)

pandas.core.series.Series

In [13]:
# como es una serie transformamos nuestro objeto de pandas en un dataframe (2 dimensiones)
# ya que nos servira mas adelante
precio_prom_barrio = pd.DataFrame(precio_prom_barrio)

In [14]:
type(precio_prom_barrio)

pandas.core.frame.DataFrame

In [15]:
precio_prom_barrio.head()

Unnamed: 0_level_0,price_usd_per_m2
barrio,Unnamed: 1_level_1
AGRONOMIA,1996.459243
ALMAGRO,2415.711642
BALVANERA,2059.894816
BARRACAS,2040.355693
BELGRANO,3338.725206


In [16]:
# a la columna 0 de nuestro dataframe "precio_prom_barrio" le asignamos un nombre mas apropiado en funcion del
# valor que contiene, que es el precio promedio por m2
precio_prom_barrio.columns.values[0] = 'precio_prom_m2'

In [17]:
# imprimimos en pantalla las columnas de nuestro dataframe que contiene los precios promedio por m2 para cada barrio
precio_prom_barrio.columns

Index(['precio_prom_m2'], dtype='object')

In [31]:
# imprimimos en pantalla los primeros 5 renglones para ver como queda nuestro nuevo dataframe
# recordemos que este dataframe lo generamos a partir de la tabla pivote.
precio_prom_barrio.head()

Unnamed: 0_level_0,precio_prom_m2
barrio,Unnamed: 1_level_1
AGRONOMIA,1996.459243
ALMAGRO,2415.711642
BALVANERA,2059.894816
BARRACAS,2040.355693
BELGRANO,3338.725206
