# LAB: Utilizando Pandas con datos de oferta de departamentos en la CABA

## Introducción

El objetivo de este LAB es trabajar con los conceptos de agregación a través de `groupby` y `pivot tables` mencionadas en la sección teórica. 

> Para eso usaremos un dataset elaborado por el Gobierno de la Ciudad de Buenos Aires que releva el precio de oferta de venta de terrenos de la Ciudad Autónoma de Buenos Aires, representado en puntos de valor del suelo correspondientes a cada parcela. Con el fin de analizar el precio de oferta, se toma como unidad de referencia el precio del metro cuadrado (m2). Se utiliza el precio en dólares, puesto que ésta es la moneda que se usa en el mercado como referencia para este tipo de transacciones. Otras variables consideradas son las dimensiones, ubicación geográfica, y la normativa del Código de Planeamiento Urbano que rige la zona en que el terreno analizado se localiza. 

Pueden descargar el dataset y otros elaborados para los años 2001-2015 desde este [link](
https://data.buenosaires.gob.ar/dataset/departamentos-en-venta). En el pdf adjunto pueden encontrar una descripción sucinta de las variables relevadas.

Importamos los paquetes necesarios y cargamos los datos.

In [1]:
import numpy as np
import pandas as pd
from scipy import stats, integrate
import seaborn as sns
import matplotlib.pyplot as plt
sns.set(style="ticks")

In [2]:
df = pd.read_csv("../Data/ED_deptos_venta_2014.csv",encoding = "latin1", sep=";")

In [3]:
# Veamos los tipos de las columnas...
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 12724 entries, 1 to 12724
Data columns (total 17 columns):
CALLE         12724 non-null object
NUMERO        12724 non-null int64
M2            12724 non-null int64
DOLARES       12724 non-null int64
U_S_M2        12724 non-null float64
AMBIENTES     12724 non-null int64
ANTIGUEDAD    9942 non-null float64
ORIENT        12724 non-null object
BAULERA       12724 non-null object
COCHERA       12724 non-null object
BAÃ.OS        12724 non-null int64
LAVADERO      12724 non-null object
TERRAZA       12724 non-null object
BARRIO        12724 non-null object
COMUNA        12724 non-null int64
LON           12724 non-null float64
LAT           12724 non-null float64
dtypes: float64(4), int64(6), object(7)
memory usage: 1.7+ MB


In [4]:
# Revisamos que los datos se han importado correctamente
df.head()


Unnamed: 0,CALLE,NUMERO,M2,DOLARES,U_S_M2,AMBIENTES,ANTIGUEDAD,ORIENT,BAULERA,COCHERA,BAÃ.OS,LAVADERO,TERRAZA,BARRIO,COMUNA,LON,LAT
1,11 DE SEPTIEMBRE DE 1888,700,560,1270000,2267.9,5,20.0,FRENTE,Si,Si,4,No,Si,PALERMO,14,-58.439523,-34.570692
2,11 DE SEPTIEMBRE DE 1888,800,126,295000,2341.3,4,45.0,S/D,No,Si,0,No,No,PALERMO,14,-58.440256,-34.570313
3,11 DE SEPTIEMBRE DE 1888,900,109,320000,2935.8,4,20.0,FRENTE,Si,Si,3,Si,Si,PALERMO,14,-58.441321,-34.569487
4,11 DE SEPTIEMBRE DE 1888,900,150,400000,2666.7,4,37.0,FRENTE,Si,Si,2,Si,Si,PALERMO,14,-58.441321,-34.569487
5,11 DE SEPTIEMBRE DE 1888,900,270,950000,3518.5,4,30.0,FRENTE,No,No,3,No,Si,PALERMO,14,-58.441321,-34.569487


### 1. ¿Cuál es el valor promedio del metro cuadrado en la CABA?

In [8]:
df['U_S_M2'].mean()

2320.509525306507

### 2. ¿Cómo es el precio promedio para cada cuartil de antigüedad de las viviendas en la CABA?
Resolver utilizando groupby()

In [17]:
df['qant'] = pd.qcut(df['ANTIGUEDAD'],4)
df.groupby('qant')['DOLARES'].mean()


qant
(-0.001, 5.0]    183477.107300
(5.0, 30.0]      250570.962068
(30.0, 40.0]     180525.217157
(40.0, 115.0]    212822.615945
Name: DOLARES, dtype: float64

### 3. ¿Cómo es el precio promedio para cada decil de tamaño (columna M2)?
Resolver utilizando groupby()

In [18]:
df['qm2'] = pd.qcut(df['M2'],10)
df.groupby('qm2')['DOLARES'].mean()


qm2
(13.999, 34.0]      72342.990719
(34.0, 40.0]        85343.722772
(40.0, 47.0]        99520.104380
(47.0, 55.0]       112046.517564
(55.0, 63.0]       130499.336339
(63.0, 74.0]       152753.276744
(74.0, 89.1]       173960.781775
(89.1, 115.0]      226988.144186
(115.0, 170.0]     343407.225730
(170.0, 1500.0]    717688.368254
Name: DOLARES, dtype: float64

### 4. ¿Cuál es la media de precio por metro cuadrado para cada barrio de la CABA? Ordenar los datos para indicar cuál es el barrio más caro.
Nota: realizar el cálculo tanto con groupby como con pivot tables

In [22]:
df.groupby('BARRIO')['DOLARES'].mean().sort_values(ascending = False)

BARRIO
PUERTO MADERO        999475.961538
RETIRO               427053.558052
PALERMO              403157.171960
RECOLETA             338458.760000
BELGRANO             264917.589286
VILLA DEVOTO         214946.938776
NUÃEZ               204392.721805
COLEGIALES           184189.470899
SAAVEDRA             175867.122807
VILLA ORTUZAR        174837.242647
BARRACAS             170413.749153
CABALLITO            168226.041078
SAN TELMO            165583.761905
COGHLAN              152419.780220
VILLA GRAL. MITRE    150588.188976
VILLA CRESPO         149815.472103
MONTSERRAT           146956.454183
LINIERS              139464.285714
VILLA URQUIZA        138776.289720
AGRONOMIA            137285.714286
FLORES               132332.893993
VILLA LURO           131881.818182
VILLA DEL PARQUE     131768.977099
VILLA PUEYRREDON     130363.265306
PARQUE CHACABUCO     130183.746154
CHACARITA            127846.643939
ALMAGRO              127730.219459
PARQUE CHAS          127326.845070
SAN NICOLAS  

In [29]:
df.pivot_table('DOLARES','BARRIO').sort_values(by='DOLARES',ascending = False)

Unnamed: 0_level_0,DOLARES
BARRIO,Unnamed: 1_level_1
PUERTO MADERO,999475.961538
RETIRO,427053.558052
PALERMO,403157.17196
RECOLETA,338458.76
BELGRANO,264917.589286
VILLA DEVOTO,214946.938776
NUÃEZ,204392.721805
COLEGIALES,184189.470899
SAAVEDRA,175867.122807
VILLA ORTUZAR,174837.242647


### 5. ¿En qué barrio hay una mayor dispersión de precios de metro cuadrado? Ordenar los valores para identificar el mayor.

(Recordar la fórmula del coeficiente de variación para medir la dispersión)

**Pistas**
* Una primera opción es definir una función con arrays y utilizar `.apply()`

* Una segunda, es generar dos series: 
  - una con el método `.std()` y dividirla por otra serie generada con `mean()`

**Bonus:** ¿cuál le parece mejor y por qué?

### 6. ¿En qué barrio los departamentos son más grandes? 
¿Conviene usar la media o la mediana?

Nota: se puede realizar el cálculo tanto con groupby como con pivot tables

### 7. En general, puede observarse alguna diferencia entre el precio mediano de aquellos departamentos que tienen terraza y los que no? ¿Y en el tamaño?

### 8. Genere un `DataFrame` que agregue la información  promedio del precio por M2 (`U_S_M2`), ambientes (`AMBIENTES`) y antigüedad (`ANTIGUEDAD`) a nivel de `COMUNA` y barrio (`BARRIO`). Proporcione información tanto de la tendencia central como de la dispersión de ambas distribuciones.

### 9. Si tuvieran que tomar una decisión sobre dónde invertir en una casa... ¿qué barrio elegirían? ¿Por qué?