![](https://i.imgur.com/zkhjRGO.png
 "Datos")

# Análisis de propiedades de CABA y GBA publicadas en Properati entre 2013 y 2017


### 1 - Pre procesamiento:
- 1.1 - Análisis de datasets dados por properati
- 1.2 - Generación de un único dataset con más información

### 2 - Análisis por barrios
- 2.1 - Barrios de mayor precio por m2
- 2.2 - Barrios de mayor precio por propiedad (GBA y CABA)
- 2.3 - Top de propiedades más caras por barrio

### 3 - Análisis de propiedades más comunes
- 3.1 - Distribución por tipo de propiedad

### 4 - Análisis geográfico
- 4.1 - Variación del precio respecto a cercanía al Obelisco

### 5 - Análisis histórico
- 5.1 - Análisis de fluctuación de precios

### 6 - Análisis de puntos de interés
- 6.1 - Líneas de subte
- 6.2 - Escuelas
- 6.3 - Hospitales

### 7 - Análisis de precios vs contaminación sonora
- 7.1 - Vs promedio de decibeles por barrio

### 8- Comparación de precio de propiedades con otras variables económicas
- 8.1 - Vs Dólar
- 8.2 - Vs Salario Mínimo
- 8.3 - Vs Inflación del Peso


In [3]:
import pandas as pd
import numpy as np
from datetime import datetime
import matplotlib.pyplot as plt
from datetime import timedelta, date
import matplotlib.dates as mdates

%matplotlib inline

## 1 - Pre procesamiento:

### 1.1 - Análisis de datasets dados por properati

Se analizan los datos provistos por Properati en el dataset de Agosto del 2017.

In [4]:
properties = pd.read_csv('data/props/properati-AR-2017-08-01-properties-sell.csv')

#### Eliminamos duplicados y datos sin precio por metro cuadrado

In [5]:
properties.drop_duplicates(inplace=True)
properties.dropna(subset=['price_usd_per_m2'], inplace=True)

#### Contamos los datos por año

In [6]:
def showCountPerYear(dataframe):
    quantityPerYear = {'2013':len(dataframe.loc[dataframe.created_on.str.contains('2013'), :])\
                            ,'2014': len(dataframe.loc[dataframe.created_on.str.contains('2014'), :])\
                            ,'2015': len(dataframe.loc[dataframe.created_on.str.contains('2015'), :])\
                            ,'2016': len(dataframe.loc[dataframe.created_on.str.contains('2016'), :])\
                            ,'2017': len(dataframe.loc[dataframe.created_on.str.contains('2017'), :])}
    print pd.Series(quantityPerYear)

#### Observamos que hay muy pocos datos de los primeros años, sobre todo del 2013.
Revisando los datos en el último conjunto provisto (Agosto 2017) se especula con la posibilidad de que sólo se tomen las publicaciones activas a la hora de crear el dataset.
Por esto, se vas a analizar los demás sets de datos provistos por properati, con el objetivo de tener más información sobre esos años.

In [7]:
dfAgosto2013 = pd.read_csv('data/props/2013/properati-AR-2013-08-01-properties-sell.csv')
dfSept2013 = pd.read_csv('data/props/2013/properati-AR-2013-09-01-properties-sell.csv')
dfOct2013 = pd.read_csv('data/props/2013/properati-AR-2013-10-01-properties-sell.csv')
dfNov2013 = pd.read_csv('data/props/2013/properati-AR-2013-11-01-properties-sell.csv')
dfDic2013 = pd.read_csv('data/props/2013/properati-AR-2013-12-01-properties-sell.csv')

dfEnero2014 = pd.read_csv('data/props/2014/properati-AR-2014-01-01-properties-sell.csv')
dfFeb2014 = pd.read_csv('data/props/2014/properati-AR-2014-02-01-properties-sell.csv')
dfMar2014 = pd.read_csv('data/props/2014/properati-AR-2014-03-01-properties-sell.csv')
dfAbril2014 = pd.read_csv('data/props/2014/properati-AR-2014-04-01-properties-sell.csv')
dfMayo2014 = pd.read_csv('data/props/2014/properati-AR-2014-05-01-properties-sell.csv')
dfJun2014 = pd.read_csv('data/props/2014/properati-AR-2014-06-01-properties-sell.csv')
dfJul2014 = pd.read_csv('data/props/2014/properati-AR-2014-07-01-properties-sell.csv')
dfAgo2014 = pd.read_csv('data/props/2014/properati-AR-2014-08-01-properties-sell.csv')
dfSept2014 = pd.read_csv('data/props/2014/properati-AR-2014-09-01-properties-sell.csv')
dfOct2014 = pd.read_csv('data/props/2014/properati-AR-2014-10-01-properties-sell.csv')
dfNov2014 = pd.read_csv('data/props/2014/properati-AR-2014-11-01-properties-sell.csv')
dfDic2014 = pd.read_csv('data/props/2014/properati-AR-2014-12-01-properties-sell.csv')

dfEnero2015 = pd.read_csv('data/props/2015/properati-AR-2015-01-01-properties-sell.csv')
dfFeb2015 = pd.read_csv('data/props/2015/properati-AR-2015-02-01-properties-sell.csv')
dfMar2015 = pd.read_csv('data/props/2015/properati-AR-2015-03-01-properties-sell.csv')
dfAbril2015 = pd.read_csv('data/props/2015/properati-AR-2015-04-01-properties-sell.csv')
dfMayo2015 = pd.read_csv('data/props/2015/properati-AR-2015-05-01-properties-sell.csv')
dfJul2015 = pd.read_csv('data/props/2015/properati-AR-2015-07-01-properties-sell.csv')
dfAgo2015 = pd.read_csv('data/props/2015/properati-AR-2015-08-01-properties-sell.csv')
dfSept2015 = pd.read_csv('data/props/2015/properati-AR-2015-09-01-properties-sell.csv')
dfOct2015 = pd.read_csv('data/props/2015/properati-AR-2015-10-01-properties-sell.csv')
dfNov2015 = pd.read_csv('data/props/2015/properati-AR-2015-11-01-properties-sell.csv')
dfDic2015 = pd.read_csv('data/props/2015/properati-AR-2015-12-01-properties-sell.csv')

dfEnero2016 = pd.read_csv('data/props/2016/properati-AR-2016-01-01-properties-sell.csv')
dfFeb2016 = pd.read_csv('data/props/2016/properati-AR-2016-02-01-properties-sell.csv')
dfMar2016 = pd.read_csv('data/props/2016/properati-AR-2016-03-01-properties-sell.csv')
dfAbril2016 = pd.read_csv('data/props/2016/properati-AR-2016-04-01-properties-sell.csv')
dfMayo2016 = pd.read_csv('data/props/2016/properati-AR-2016-05-01-properties-sell.csv')
dfJun2016 = pd.read_csv('data/props/2016/properati-AR-2016-06-01-properties-sell.csv')
dfJul2016 = pd.read_csv('data/props/2016/properati-AR-2016-07-01-properties-sell.csv')
dfAgo2016 = pd.read_csv('data/props/2016/properati-AR-2016-08-01-properties-sell.csv')
dfSept2016 = pd.read_csv('data/props/2016/properati-AR-2016-09-01-properties-sell.csv')
dfOct2016 = pd.read_csv('data/props/2016/properati-AR-2016-10-01-properties-sell.csv')
dfNov2016 = pd.read_csv('data/props/2016/properati-AR-2016-11-01-properties-sell.csv')
dfDic2016 = pd.read_csv('data/props/2016/properati-AR-2016-12-01-properties-sell.csv')

dfEnero2017 = pd.read_csv('data/props/2017/properati-AR-2017-01-01-properties-sell.csv')
dfAgostoSixMonths2017 = pd.read_csv('data/props/2017/properati-AR-2017-08-01-properties-sell-six_months.csv')

properties = pd.concat([dfAgosto2013,dfSept2013,dfOct2013,dfNov2013,dfDic2013,dfEnero2014,dfFeb2014,dfMar2014, dfAbril2014,dfMayo2014,dfJun2014,dfJul2014,dfAgo2014,dfSept2014,dfOct2014,dfNov2014,dfDic2014,dfEnero2015, dfFeb2015, dfMar2015, dfAbril2015, dfMayo2015,dfJul2015,dfAgo2015,dfSept2015,dfOct2015, dfNov2015, dfDic2015,dfEnero2016,dfFeb2016,dfMar2016, dfAbril2016,dfMayo2016,dfJun2016,dfJul2016, dfAgo2016, dfSept2016,dfOct2016, dfNov2016, dfDic2016,dfEnero2017,dfAgostoSixMonths2017])

  interactivity=interactivity, compiler=compiler, result=result)
  interactivity=interactivity, compiler=compiler, result=result)


### 1.2 - Generación de un dataset con más información

In [8]:
properties.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2849283 entries, 0 to 121219
Data columns (total 29 columns):
country_name                  object
created_on                    object
currency                      object
description                   object
expenses                      object
extra                         object
floor                         float64
geonames_id                   float64
id                            object
image_thumbnail               object
lat                           float64
lat-lon                       object
lon                           float64
operation                     object
place_name                    object
place_with_parent_names       object
price                         float64
price_aprox_local_currency    float64
price_aprox_usd               float64
price_per_m2                  float64
price_usd_per_m2              float64
properati_url                 object
property_type                 object
rooms                       

In [9]:
len(properties)

2849283

#### Se eliminan duplicados

In [10]:
properties.drop_duplicates(inplace=True)

In [11]:
showCountPerYear(properties)

2013    576070
2014    737542
2015    637484
2016    114490
2017    133035
dtype: int64


In [12]:
len(properties)

2235260

#### Se eliminan los que no tengan precio por metro cuadrado, se guardan los demás para posible recuperación de esa información

In [13]:
propertiesWithoutM2Price = properties[pd.isnull(properties['price_usd_per_m2'])]

In [14]:
properties.dropna(subset=['price_usd_per_m2'], inplace=True)

In [15]:
recoverablePropertiesData = propertiesWithoutM2Price[pd.notnull(propertiesWithoutM2Price['surface_covered_in_m2']) & pd.notnull(propertiesWithoutM2Price['price_aprox_usd']) & pd.notnull(propertiesWithoutM2Price['price'])]

In [16]:
len(recoverablePropertiesData.loc[recoverablePropertiesData.created_on.str.contains('2013'), :])

642

In [17]:
len(properties.loc[properties.created_on.str.contains('2013'), :])

397179

Se desestiman los datos que podrían recuperarse calculando el precio por metro cuadrado, al ser muchos menos que los que lo tienen directamente.

#### Checkpoint para analizar del estado de los datos por año

In [18]:
showCountPerYear(properties)

2013    397179
2014    380698
2015    327666
2016     59761
2017     75953
dtype: int64


Se ve que los años 2013, 2014 y 2015 cuentan con muchos más datos que los años más recientes. Se analiza por qué.

#### Analizo propiedades que compartan ciertas características, que den a sospechar una re-publicación, lo cual alteraría el análisis teniendo en cuenta una propiedad más de una vez.

In [None]:
republishedCandidates = properties[properties.duplicated(subset=['title','property_type', 'rooms', 'surface_covered_in_m2', 'surface_in_m2', 'price', 'price_aprox_usd', 'price_usd_per_m2', 'geonames_id', 'state_name', 'expenses'])]
showCountPerYear(republishedCandidates)

#### Se aprecia que en los años donde había demasiados más datos, encontramos muchas potenciales re-publicaciones.
Se borran las mismas.

In [None]:
properties.drop_duplicates(subset=['title','property_type', 'rooms', 'surface_covered_in_m2', 'surface_in_m2', 'price', 'price_aprox_usd', 'price_usd_per_m2', 'geonames_id', 'state_name', 'expenses'], inplace=True)

In [None]:
showCountPerYear(properties)

#### Vemos que sigue habiendo mucha diferencia, aunque se redujo notablemente. Hilamos más fino.

In [None]:
republishedCandidates = properties[properties.duplicated(subset=['property_type', 'rooms', 'surface_covered_in_m2', 'surface_in_m2', 'price', 'price_aprox_usd', 'price_usd_per_m2', 'geonames_id', 'state_name'])]
showCountPerYear(republishedCandidates)

#### Tomamos una muestra para ver si este filtro es excesivo

In [None]:
republishedCandidates = properties[properties.duplicated(subset=['property_type', 'rooms', 'surface_covered_in_m2', 'surface_in_m2', 'price', 'price_aprox_usd', 'price_usd_per_m2', 'geonames_id', 'state_name'])]

In [None]:
republishedCandidates.groupby(['property_type', 'rooms', 'surface_in_m2', 'price', 'price_aprox_usd', 'price_usd_per_m2', 'geonames_id']).count()

In [None]:
df = republishedCandidates[(republishedCandidates['property_type'] == 'PH')\
 & (republishedCandidates['rooms'] == 1)\
 & (republishedCandidates['surface_in_m2'] == 19)]

In [None]:
df

In [None]:
df.loc[23420, 'image_thumbnail']

In [None]:
df.loc[79974, 'image_thumbnail']

#### Visitando los links, se ve que corresponde a la misma propiedad. Si bien podría ser correcto mantener las re publicaciones, se borrarán dejando la primer aparición del duplicado, ya que contempla el precio dado a la propiedad al momento de publicarse por primera vez (que luego se mantuvo).

In [None]:
properties.drop_duplicates(subset=['property_type', 'rooms', 'surface_covered_in_m2', 'surface_in_m2', 'price', 'price_aprox_usd', 'price_usd_per_m2', 'geonames_id', 'state_name'], inplace=True)

In [None]:
showCountPerYear(properties)

#### Utilizaremos el set de datos filtrado para el análisis

## 8- Comparación de precio de propiedades con otras variables económicas
Analizar la variación de los precios de propiedades en comparación a algunas variables económicas, para desprender conclusiones como:
- ¿Podemos asociar el valor del dólar a los precios de las propiedades?
- ¿Podemos asociar la inflación del peso a los precios de las propiedades?
- ¿Podemos asociar el valor del salario mínimo a los precios de las propiedades?
- ¿Qué puede decirse sobre la “accesibilidad” a la compra de propiedades?

### 8.1 - Vs Dólar

In [None]:
propertiesEconomicAnalysis = properties

#### Nos quedamos con datos bajo el percentil 95 para eliminar ruido

In [None]:
propertiesEconomicAnalysis = propertiesEconomicAnalysis.loc[propertiesEconomicAnalysis.price_per_m2 < propertiesEconomicAnalysis.price_per_m2.quantile(0.85), :]

In [None]:
propertiesEconomicAnalysis['created_on'] = pd.to_datetime(propertiesEconomicAnalysis['created_on'], format = "%Y-%m-%d")
propertiesEconomicAnalysis['year_created'] = propertiesEconomicAnalysis['created_on'].map(lambda x: x.year)
propertiesEconomicAnalysis['month_created'] = propertiesEconomicAnalysis['created_on'].map(lambda x: x.month)
propertiesEconomicAnalysis['month_year_created'] = propertiesEconomicAnalysis['created_on'].map(lambda x: str(x.month) + '-' + str(x.year))

#### ¿Podemos asociar el valor del dólar a los precios de las propiedades?

Normalizamos los valores del metro cuadrado y del dolar, y comparamos su variación.

In [None]:
dolarEvolution = pd.read_csv('data/economic/dolar-daily.csv')
dolarEvolution = dolarEvolution.loc[:,['date', 'open']]

In [None]:
#Normalizamos valor del dolar
max_value = dolarEvolution['open'].max()
min_value = dolarEvolution['open'].min()
normalized = (dolarEvolution['open'] - min_value) / (max_value - min_value)

In [None]:
dolarEvolution['normalized'] = normalized

In [None]:
propertiesNormDf = propertiesEconomicAnalysis.loc[:,['created_on', 'year_created', 'month_created', 'month_year_created', 'price_usd_per_m2', 'price_per_m2']]

In [None]:
#Obtengo columna de precios en pesos normalizada
max_value = propertiesNormDf['price_per_m2'].max()
min_value = propertiesNormDf['price_per_m2'].min()
propertiesPriceNormalized = (propertiesNormDf['price_per_m2'] - min_value) / (max_value - min_value)
propertiesNormDf['price_m2_normalized'] = propertiesPriceNormalized

In [None]:
#Obtengo columna de precios en dolares normalizada
max_value = propertiesNormDf['price_usd_per_m2'].max()
min_value = propertiesNormDf['price_usd_per_m2'].min()
propertiesPriceNormalized = (propertiesNormDf['price_usd_per_m2'] - min_value) / (max_value - min_value)
propertiesNormDf['price_usd_m2_normalized'] = propertiesPriceNormalized

In [None]:
dolarEvolution['date'] = pd.to_datetime(dolarEvolution['date'], format = "%d.%m.%Y")
dolarEvolution['year-month'] = dolarEvolution['date'].map(lambda x: str(x.month) + '-' + str(x.year))
dolarEvolution['year'] = dolarEvolution['date'].map(lambda x: x.year)
dolarEvolution['month'] = dolarEvolution['date'].map(lambda x: x.month)

In [None]:
dolarPriceByMonth = (dolarEvolution.groupby('year-month').mean().reset_index()).sort_values(by=['year','month'])
dolarPriceByMonth = dolarPriceByMonth.loc[:,['year-month', 'normalized']].rename(columns={'normalized':'value'})
dolarPriceByMonth.rename(columns={'year-month':'Mes', 'value':'Evolucion Dolar'}, inplace=True)

In [None]:
propertiesPriceGroupedByMonth = (propertiesNormDf.groupby(['month_year_created']).mean().reset_index()).loc[:,['month_created', 'year_created', 'month_year_created', 'price_m2_normalized']].sort_values(by=['year_created', 'month_created'])
propertiesPriceGroupedByMonth = propertiesPriceGroupedByMonth.loc[:, ['month_year_created', 'price_m2_normalized']]
propertiesPriceGroupedByMonth.rename(columns={'month_year_created':'Mes', 'price_m2_normalized':'Evolucion $/m2'}, inplace=True)

In [None]:
propertiesPriceUSDGroupedByMonth = (propertiesNormDf.groupby(['month_year_created']).mean().reset_index()).loc[:,['month_created', 'year_created', 'month_year_created', 'price_usd_m2_normalized']].sort_values(by=['year_created', 'month_created'])
propertiesPriceUSDGroupedByMonth = propertiesPriceUSDGroupedByMonth.loc[:, ['month_year_created', 'price_usd_m2_normalized']]
propertiesPriceUSDGroupedByMonth.rename(columns={'month_year_created':'Mes', 'price_usd_m2_normalized':'Evolucion USD/m2'}, inplace=True)

In [None]:
propertiesAndDolar = pd.merge(dolarPriceByMonth, propertiesPriceGroupedByMonth, how='inner', on='Mes')
propertiesAndDolar = pd.merge(propertiesAndDolar, propertiesPriceUSDGroupedByMonth, how='inner', on='Mes')

In [None]:
propertiesAndDolar.plot(x="Mes", y=["Evolucion $/m2", "Evolucion Dolar"])
plt.title('Evolucion del precio del metro cuadrado en pesos vs dolar (Valores normalizados)')

#### ¿Podemos asociar el valor del salario mínimo a los precios de las propiedades?

Normalizamos los valores del metro cuadrado y del salario, y comparamos su variación.

In [None]:
salaryEvolution = pd.read_csv('data/economic/salario-minimo.csv')

In [None]:
max_value = salaryEvolution['salario_minimo'].max()
min_value = salaryEvolution['salario_minimo'].min()
normalized = (salaryEvolution['salario_minimo'] - min_value) / (max_value - min_value)

In [None]:
salaryEvolution['normalized'] = normalized

In [None]:
salaryEvolution['mes'] = pd.to_datetime(salaryEvolution['mes'], format = "%m-%Y")
salaryEvolution['year-month'] = salaryEvolution['mes'].map(lambda x: str(x.month) + '-' + str(x.year))
salaryEvolution['year'] = salaryEvolution['mes'].map(lambda x: x.year)
salaryEvolution['month'] = salaryEvolution['mes'].map(lambda x: x.month)

In [None]:
salaryByMonth = (salaryEvolution.groupby('year-month').mean().reset_index()).sort_values(by=['year','month'])
salaryByMonth = salaryByMonth.loc[:,['year-month', 'normalized']].rename(columns={'normalized':'value'})
salaryByMonth.rename(columns={'year-month':'Mes', 'value':'Evolucion salario minimo'}, inplace=True)

In [None]:
propertiesAndSalary = pd.merge(salaryByMonth, propertiesPriceGroupedByMonth, how='inner', on='Mes')

In [None]:
propertiesAndSalary.plot(x="Mes", y=["Evolucion $/m2", "Evolucion salario minimo"])
plt.title('Evolucion del precio del metro cuadrado en pesos vs salario minimo (Valores normalizados)')

#### ¿Podemos asociar la inflación a los precios de las propiedades?

In [None]:
inflationEvolution = pd.read_csv('data/economic/inflacion-argentina.csv')

In [None]:
inflationEvolution['FECHA'] = pd.to_datetime(inflationEvolution['FECHA'], format = "%d/%m/%Y")

In [None]:
inflationEvolution['year-month'] = inflationEvolution['FECHA'].map(lambda x: str(x.month) + '-' + str(x.year))
inflationEvolution['year'] = inflationEvolution['FECHA'].map(lambda x: x.year)
inflationEvolution['month'] = inflationEvolution['FECHA'].map(lambda x: x.month)

In [None]:
#Calculo variacion mes a mes de los precios del metro cuadrado
s = pd.Series([propertiesPriceGroupedByMonth.iloc[0]['Evolucion $/m2']])
s = s.append(propertiesPriceGroupedByMonth['Evolucion $/m2'])
sdf = s.reset_index()
propertiesPriceGroupedByMonth.reset_index(inplace=True)
propertiesPriceGroupedByMonth['previous'] = sdf[0]

propertiesPriceGroupedByMonth['var'] = propertiesPriceGroupedByMonth.apply(lambda x : (x['Evolucion $/m2']-x['previous'])/x['previous'], axis=1)

In [None]:
propertiesAndInflation = pd.merge(propertiesPriceGroupedByMonth, inflationEvolution, how='inner', left_on='Mes', right_on='year-month')

In [None]:
propertiesAndInflation.rename(columns={'var':'Variacion mensual precio m2', 'IPC-CONGRESO':'Inflacion mensual (IPC-Congreso)'}, inplace=True)
propertiesAndInflation.plot(x="Mes", y=["Variacion mensual precio m2", "Inflacion mensual (IPC-Congreso)"])
plt.title('Variacion mensual del precio por metro cuadrado vs inflacion')