![](https://i.imgur.com/zkhjRGO.png
 "Datos")

# Análisis de propiedades de CABA y GBA publicadas en Properati entre 2013 y 2017


### 1 - Pre procesamiento:
- 1.1 - Análisis de datasets dados por properati
- 1.2 - Generación de un único dataset con más información

### 2 - Análisis por barrios
- 2.1 - Barrios de mayor precio por m2
- 2.2 - Barrios de mayor precio por propiedad (GBA y CABA)
- 2.3 - Top de propiedades más caras por barrio

### 3 - Análisis de propiedades más comunes
- 3.1 - Distribución por tipo de propiedad

### 4 - Análisis geográfico
- 4.1 - Variación del precio respecto a cercanía al Obelisco

### 5 - Análisis histórico
- 5.1 - Análisis de fluctuación de precios

### 6 - Análisis de puntos de interés
- 6.1 - Líneas de subte
- 6.2 - Escuelas
- 6.3 - Hospitales

### 7 - Análisis de precios vs contaminación sonora
- 7.1 - Vs promedio de decibeles por barrio

### 8- Comparación de precio de propiedades con otras variables económicas
- 8.1 - Vs Dólar
- 8.2 - Vs Salario Mínimo
- 8.3 - Vs Inflación del Peso


In [1]:
import pandas as pd
import numpy as np
from datetime import datetime
import matplotlib.pyplot as plt
from datetime import timedelta, date
import matplotlib.dates as mdates

%matplotlib inline

## 1 - Pre procesamiento:

### 1.1 - Análisis de datasets dados por properati

Se analizan los datos provistos por Properati en el dataset de Agosto del 2017.

In [2]:
properties = pd.read_csv('data/props/properati-AR-2017-08-01-properties-sell.csv')

#### Eliminamos duplicados y datos sin precio por metro cuadrado

In [3]:
properties.drop_duplicates(inplace=True)
properties.dropna(subset=['price_usd_per_m2'], inplace=True)

#### Contamos los datos por año

In [26]:
def showCountPerYear(dataframe):
    quantityPerYear = {'2013':len(dataframe.loc[dataframe.created_on.str.contains('2013'), :])\
                            ,'2014': len(dataframe.loc[dataframe.created_on.str.contains('2014'), :])\
                            ,'2015': len(dataframe.loc[dataframe.created_on.str.contains('2015'), :])\
                            ,'2016': len(dataframe.loc[dataframe.created_on.str.contains('2016'), :])\
                            ,'2017': len(dataframe.loc[dataframe.created_on.str.contains('2017'), :])}
    print pd.Series(quantityPerYear)

#### Observamos que hay muy pocos datos de los primeros años, sobre todo del 2013.
Revisando los datos en el último conjunto provisto (Agosto 2017) se especula con la posibilidad de que sólo se tomen las publicaciones activas a la hora de crear el dataset.
Por esto, se vas a analizar los demás sets de datos provistos por properati, con el objetivo de tener más información sobre esos años.

In [10]:
dfAgosto2013 = pd.read_csv('data/props/2013/properati-AR-2013-08-01-properties-sell.csv')
dfSept2013 = pd.read_csv('data/props/2013/properati-AR-2013-09-01-properties-sell.csv')
dfOct2013 = pd.read_csv('data/props/2013/properati-AR-2013-10-01-properties-sell.csv')
dfNov2013 = pd.read_csv('data/props/2013/properati-AR-2013-11-01-properties-sell.csv')
dfDic2013 = pd.read_csv('data/props/2013/properati-AR-2013-12-01-properties-sell.csv')

dfEnero2014 = pd.read_csv('data/props/2014/properati-AR-2014-01-01-properties-sell.csv')
dfFeb2014 = pd.read_csv('data/props/2014/properati-AR-2014-02-01-properties-sell.csv')
dfMar2014 = pd.read_csv('data/props/2014/properati-AR-2014-03-01-properties-sell.csv')
dfAbril2014 = pd.read_csv('data/props/2014/properati-AR-2014-04-01-properties-sell.csv')
dfMayo2014 = pd.read_csv('data/props/2014/properati-AR-2014-05-01-properties-sell.csv')
dfJun2014 = pd.read_csv('data/props/2014/properati-AR-2014-06-01-properties-sell.csv')
dfJul2014 = pd.read_csv('data/props/2014/properati-AR-2014-07-01-properties-sell.csv')
dfAgo2014 = pd.read_csv('data/props/2014/properati-AR-2014-08-01-properties-sell.csv')
dfSept2014 = pd.read_csv('data/props/2014/properati-AR-2014-09-01-properties-sell.csv')
dfOct2014 = pd.read_csv('data/props/2014/properati-AR-2014-10-01-properties-sell.csv')
dfNov2014 = pd.read_csv('data/props/2014/properati-AR-2014-11-01-properties-sell.csv')
dfDic2014 = pd.read_csv('data/props/2014/properati-AR-2014-12-01-properties-sell.csv')

dfEnero2015 = pd.read_csv('data/props/2015/properati-AR-2015-01-01-properties-sell.csv')
dfFeb2015 = pd.read_csv('data/props/2015/properati-AR-2015-02-01-properties-sell.csv')
dfMar2015 = pd.read_csv('data/props/2015/properati-AR-2015-03-01-properties-sell.csv')
dfAbril2015 = pd.read_csv('data/props/2015/properati-AR-2015-04-01-properties-sell.csv')
dfMayo2015 = pd.read_csv('data/props/2015/properati-AR-2015-05-01-properties-sell.csv')
dfJul2015 = pd.read_csv('data/props/2015/properati-AR-2015-07-01-properties-sell.csv')
dfAgo2015 = pd.read_csv('data/props/2015/properati-AR-2015-08-01-properties-sell.csv')
dfSept2015 = pd.read_csv('data/props/2015/properati-AR-2015-09-01-properties-sell.csv')
dfOct2015 = pd.read_csv('data/props/2015/properati-AR-2015-10-01-properties-sell.csv')
dfNov2015 = pd.read_csv('data/props/2015/properati-AR-2015-11-01-properties-sell.csv')
dfDic2015 = pd.read_csv('data/props/2015/properati-AR-2015-12-01-properties-sell.csv')

dfEnero2016 = pd.read_csv('data/props/2016/properati-AR-2016-01-01-properties-sell.csv')
dfFeb2016 = pd.read_csv('data/props/2016/properati-AR-2016-02-01-properties-sell.csv')
dfMar2016 = pd.read_csv('data/props/2016/properati-AR-2016-03-01-properties-sell.csv')
dfAbril2016 = pd.read_csv('data/props/2016/properati-AR-2016-04-01-properties-sell.csv')
dfMayo2016 = pd.read_csv('data/props/2016/properati-AR-2016-05-01-properties-sell.csv')
dfJun2016 = pd.read_csv('data/props/2016/properati-AR-2016-06-01-properties-sell.csv')
dfJul2016 = pd.read_csv('data/props/2016/properati-AR-2016-07-01-properties-sell.csv')
dfAgo2016 = pd.read_csv('data/props/2016/properati-AR-2016-08-01-properties-sell.csv')
dfSept2016 = pd.read_csv('data/props/2016/properati-AR-2016-09-01-properties-sell.csv')
dfOct2016 = pd.read_csv('data/props/2016/properati-AR-2016-10-01-properties-sell.csv')
dfNov2016 = pd.read_csv('data/props/2016/properati-AR-2016-11-01-properties-sell.csv')
dfDic2016 = pd.read_csv('data/props/2016/properati-AR-2016-12-01-properties-sell.csv')

dfEnero2017 = pd.read_csv('data/props/2017/properati-AR-2017-01-01-properties-sell.csv')
dfAgostoSixMonths2017 = pd.read_csv('data/props/2017/properati-AR-2017-08-01-properties-sell-six_months.csv')

properties = pd.concat([dfAgosto2013,dfSept2013,dfOct2013,dfNov2013,dfDic2013,dfEnero2014,dfFeb2014,dfMar2014, dfAbril2014,dfMayo2014,dfJun2014,dfJul2014,dfAgo2014,dfSept2014,dfOct2014,dfNov2014,dfDic2014,dfEnero2015, dfFeb2015, dfMar2015, dfAbril2015, dfMayo2015,dfJul2015,dfAgo2015,dfSept2015,dfOct2015, dfNov2015, dfDic2015,dfEnero2016,dfFeb2016,dfMar2016, dfAbril2016,dfMayo2016,dfJun2016,dfJul2016, dfAgo2016, dfSept2016,dfOct2016, dfNov2016, dfDic2016,dfEnero2017,dfAgostoSixMonths2017])

  interactivity=interactivity, compiler=compiler, result=result)
  interactivity=interactivity, compiler=compiler, result=result)


### 1.2 - Generación de un dataset con más información

In [None]:
properties.info()

In [12]:
len(properties)

2849283

#### Se eliminan duplicados

In [13]:
properties.drop_duplicates(inplace=True)

In [9]:
showCountPerYear(properties)

2013      432
2014     3538
2015     7187
2016    21324
2017    72540
dtype: int64


In [14]:
len(properties)

2235260

#### Se eliminan los que no tengan precio por metro cuadrado, se guardan los demás para posible recuperación de esa información

In [15]:
propertiesWithoutM2Price = properties[pd.isnull(properties['price_usd_per_m2'])]

In [16]:
properties.dropna(subset=['price_usd_per_m2'], inplace=True)

In [17]:
recoverablePropertiesData = propertiesWithoutM2Price[pd.notnull(propertiesWithoutM2Price['surface_covered_in_m2']) & pd.notnull(propertiesWithoutM2Price['price_aprox_usd']) & pd.notnull(propertiesWithoutM2Price['price'])]

In [18]:
len(recoverablePropertiesData.loc[recoverablePropertiesData.created_on.str.contains('2013'), :])

642

In [19]:
len(properties.loc[properties.created_on.str.contains('2013'), :])

397179

Se desestiman los datos que podrían recuperarse calculando el precio por metro cuadrado, al ser muchos menos que los que lo tienen directamente.

#### Checkpoint para analizar del estado de los datos por año

In [21]:
showCountPerYear(properties)

2013    397179
2014    380698
2015    327666
2016     59761
2017     75953
dtype: int64


Se ve que los años 2013, 2014 y 2015 cuentan con muchos más datos que los años más recientes. Se analiza por qué.

#### Analizo propiedades que compartan ciertas características, que den a sospechar una re-publicación, lo cual alteraría el análisis teniendo en cuenta una propiedad más de una vez.

In [27]:
showCountPerYear(republishedCandidates)

2013    268796
2014    252634
2015    139518
2016      2557
2017      4620
dtype: int64


#### Se aprecia que en los años donde había demasiados más datos, encontramos muchas potenciales re-publicaciones.
Se borran las mismas.

In [28]:
properties.drop_duplicates(subset=['title','property_type', 'rooms', 'surface_covered_in_m2', 'surface_in_m2', 'price', 'price_aprox_usd', 'price_usd_per_m2', 'geonames_id', 'state_name', 'expenses'], inplace=True)

In [29]:
showCountPerYear(properties)

2013    128383
2014    128064
2015    188148
2016     57204
2017     71333
dtype: int64


#### Vemos que sigue habiendo mucha diferencia, aunque se redujo notablemente. Hilamos más fino.

In [30]:
republishedCandidates = properties[properties.duplicated(subset=['property_type', 'rooms', 'surface_covered_in_m2', 'surface_in_m2', 'price', 'price_aprox_usd', 'price_usd_per_m2', 'geonames_id', 'state_name'])]
showCountPerYear(republishedCandidates)

2013     4186
2014    19420
2015    53629
2016     2737
2017     5644
dtype: int64


#### Tomamos una muestra para ver si este filtro es excesivo

In [31]:
republishedCandidates = properties[properties.duplicated(subset=['property_type', 'rooms', 'surface_covered_in_m2', 'surface_in_m2', 'price', 'price_aprox_usd', 'price_usd_per_m2', 'geonames_id', 'state_name'])]

In [32]:
republishedCandidates.groupby(['property_type', 'rooms', 'surface_in_m2', 'price', 'price_aprox_usd', 'price_usd_per_m2', 'geonames_id']).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,Unnamed: 6_level_0,country_name,created_on,currency,description,expenses,extra,floor,id,image_thumbnail,lat,...,operation,place_name,place_with_parent_names,price_aprox_local_currency,price_per_m2,properati_url,state_name,surface_covered_in_m2,surface_total_in_m2,title
property_type,rooms,surface_in_m2,price,price_aprox_usd,price_usd_per_m2,geonames_id,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1
PH,1.0,19.0,35000.0,35000.00,1842.105263,3430863.0,0,2,2,2,0,2,0,0,2,1,...,2,2,2,2,0,2,0,0,0,2
PH,1.0,20.0,26000.0,26000.00,1300.000000,3430863.0,0,1,1,1,0,1,0,0,1,0,...,1,1,1,1,0,1,0,0,0,1
PH,1.0,20.0,27000.0,27000.00,1350.000000,3428123.0,0,2,2,2,0,2,0,0,2,0,...,2,2,2,2,0,2,0,0,0,2
PH,1.0,23.0,50000.0,50000.00,2173.913043,3430116.0,0,1,1,1,0,1,0,0,1,1,...,1,1,1,1,0,1,0,0,0,1
PH,1.0,24.0,49000.0,49000.00,2041.666667,3430114.0,0,1,1,1,0,1,0,0,1,1,...,1,1,1,1,0,1,0,0,0,1
PH,1.0,25.0,50000.0,50000.00,2000.000000,3430116.0,0,1,1,1,0,1,0,0,1,1,...,1,1,1,1,0,1,0,0,0,1
PH,1.0,25.0,70000.0,70000.00,2800.000000,3435506.0,0,2,2,2,0,2,0,0,2,2,...,2,2,2,2,0,2,0,0,0,2
PH,1.0,26.0,50000.0,50000.00,1923.076923,3430863.0,0,2,2,2,0,2,0,0,2,1,...,2,2,2,2,0,2,0,0,0,2
PH,1.0,26.0,50500.0,50500.00,1942.307692,3430863.0,0,4,4,4,0,4,0,0,4,3,...,4,4,4,4,0,4,0,0,0,4
PH,1.0,27.0,55000.0,55000.00,2037.037037,3430116.0,0,1,1,1,0,1,0,0,1,1,...,1,1,1,1,0,1,0,0,0,1


In [35]:
df = republishedCandidates[(republishedCandidates['property_type'] == 'PH')\
 & (republishedCandidates['rooms'] == 1)\
 & (republishedCandidates['surface_in_m2'] == 19)]

In [36]:
df

Unnamed: 0,country_name,created_on,currency,description,expenses,extra,floor,geonames_id,id,image_thumbnail,...,price_per_m2,price_usd_per_m2,properati_url,property_type,rooms,state_name,surface_covered_in_m2,surface_in_m2,surface_total_in_m2,title
23420,,2014-06-11,USD,Excelente local independiente <br>\nA 1 cuadra...,,"{""images"":[""http://www.inmokey.com/files/c-196...",,3430863.0,,http://d1t4y5hzjn9jnl.cloudfront.net/p6mteeIay...,...,,1842.105263,http://www.properati.com.ar/gir4_venta_ph_mar-...,PH,1.0,,,19.0,,PH en Venta. 1 Ambiente. 19 m2. 19 m2c. Local ...
79974,,2015-05-14,USD,Excelente local independiente A 1 cuadra de Av...,,"{""address"":""Calle sin nombre"",""original_url"":""...",,3430863.0,,http://thumbs3.properati.com/3/FDBjKmrvhu5waZ6...,...,,1842.105263,http://mar-del-plata.properati.com.ar/plcb_ven...,PH,1.0,,,19.0,,Local independiente ESPAÑA y FALUCHO. 1 Ambien...


In [37]:
df.loc[23420, 'image_thumbnail']

'http://d1t4y5hzjn9jnl.cloudfront.net/p6mteeIayISZ_Fi-Ie4HT5XqPT8=/trim/198x0/smart/filters:strip_icc()/www.inmokey.com/files/c-1965/properties/2/7/p-71027-300114050947-766704.jpg'

In [38]:
df.loc[79974, 'image_thumbnail']

'http://thumbs3.properati.com/3/FDBjKmrvhu5waZ6BJD2P_tjDQyo=/trim/198x0/smart/filters:strip_icc()/cdn.inmokey.com/properties/2/7/p-71027-300114050947-766704.jpg'

#### Visitando los links, se ve que corresponde a la misma propiedad. Si bien podría ser correcto mantener las re publicaciones, se borrarán dejando la primer aparición del duplicado, ya que contempla el precio dado a la propiedad al momento de publicarse por primera vez (que luego se mantuvo).

In [39]:
properties.drop_duplicates(subset=['property_type', 'rooms', 'surface_covered_in_m2', 'surface_in_m2', 'price', 'price_aprox_usd', 'price_usd_per_m2', 'geonames_id', 'state_name'], inplace=True)

In [40]:
showCountPerYear(properties)

2013    124197
2014    108644
2015    134519
2016     54467
2017     65689
dtype: int64


#### Utilizaremos el set de datos filtrado para el análisis