## Curso Python para Economistas
### Trabajo Práctico Nº 5

### Fecha de entrega:
Lunes 28/11 a las 23:59 hs

### Modalidad de entrega y trabajo
- Este TP es **individual**.
- Un repositorio **privado** debe ser creado en GitHub para el TP, y dar acceso a los 5 profesores. Los nombres de usuario son: `belenmichel`, `rbonazzola`,  `Queeno11`, `agoszulli` y `pilarch`.
- Recuerden comentar cada commit con un mensaje específico (esto es simplemente una buena práctica, pero no los evaluaremos por esto; sólo el mensaje final es obligatorio, como indica el siguiente inciso).  
- Cuando hayan hecho el último commit, copien la URL para clonar su repositorio y péguenla en [este Google Sheet](https://docs.google.com/spreadsheets/d/1byFOKyV7UnBuPuF9X2JWFVOUZX36b2_CEDw9ColP7VQ/edit?usp=sharing), en la hoja del TP5. Al ser un repositorio privado, solo los colaboradores habilitados podrán clonarlo.
- Al finalizar el trabajo práctico deben hacer un último commit y push en su repositorio de GitHub con el mensaje `"Entrega final del TP5"`. Antes de la fecha y hora de entrega pueden hacer cuantos cambios quieran en el repositorio, pero luego de la hora de corte no deben hacer más cambios. Si un commit con el mensaje anterior se realiza luego de la hora de entrega, se supondrá que la entrega tardía fue intencional y se utilizarán los días de gracia. La última versión en el repositorio es la que será evaluada.

___

## Objetivo

El objetivo de este trabajo es integrar datos de anuncios de compraventa/alquiler de Argentina, provenientes del sitio www.properati.com, con datos censales de población de los partidos de la provincia de Buenos Aires (del año 2010, ya que los del último censo no están todavía disponibles); para luego visualizarlos en mapas y gráficos. <br> 
Si les interesaría trabajar con otras provincias (en lugar de la provincia de Buenos Aires), **son bienvenidos a hacerlo**; pero, por simplicidad, las consignas se redactarán suponiendo que trabajan con partidos de la provincia de Buenos Aires.<br>

___

## Datos

En este trabajo vamos a utilizar dos nuevos conjuntos de datos, llamémoslos `propiedades` y `población_censo2010`. Además, vamos a trabajar con datos georreferenciados de provincias y departamentos/partidos, con los que ya trabajamos en la clase sincrónica 5.

#### `propiedades`
Es un archivo tabular CSV comprimido (extensión `.csv.gz`) que se pueden bajar de este [link](https://drive.google.com/file/d/1quoz5gQ1lMHAHwH5Kp19Mxy1nlZ-kf-v/view?usp=sharing) y pesa 289MB. <br>Este archivo contiene una series de registros (filas), donde cada uno corresponde a una propiedad que está en compra/venta o en alquiler en un dado período.

#### `población_censo2010`
Usar el archivo `data/poblacion_PBA.xls` (ya está en el repositorio), que contiene la población para cada partido de la provincia de Buenos Aires. Si desean trabajar con otra provincia, pueden realizar la consulta correspondiente en https://www.indec.gob.ar/indec/web/Nivel4-Tema-2-41-135.

#### `departamentos_georef` y `provincias_georef`
Estos archivos, ya conocidos de la clase 5, contienen los datos georreferenciados de los departamentos y provincias de Argentina.


___

## Consignas

### Ejercicio 1

1. a. **Cargar y procesar los datos de propiedades** <br>
Leer los datos de propiedades (recordar que se trata de un CSV) en un `DataFrame` llamado `propiedades_df`. Notar que los datos están comprimidos (tiene extensión `.gz`). En lugar de descomprimir el archivo en el disco, usar el argumento `compression='gzip'` en la función de lectura.
    - Examinar el número de filas y columnas del DataFrame resultante.
    - Eliminar las columnas `id`, `ad_type`, `title`, `description`, `l1`, `l4`, `l5` y `l6`.
    - Usar la columna adecuada para filtrar los registros correspondientes a la provincia de Buenos Aires (u otra provincia de Argentina o CABA si así lo desean). Para esto puede ser útil el método `unique` el cual les permitirá examinar los valores únicos correspondientes a una columna. También puede resultar útil el método `isin`. Examinar nuevamente el número de filas y columnas del DataFrame resultante.
    - Filtrar los registros que tengan datos faltantes en las columnas de precio, superficie (total y cubierta), latitud y longitud. Para eso será util el método `dropna`, y para usarlo deben prestar atención a los argumentos `axis` y `subset`. Examinar nuevamente el número de filas y columnas del DataFrame resultante.    
    - Guardar el DataFrame como csv. Esto es sólo por conveniencia, para que no tengan que leer el archivo original y preprocesarlo desde cero si necesitan reiniciar el kernel de Jupyter. En el futuro pueden leer directamente el archivo final. Como referencia, este archivo (para la provincia de Buenos Aires) debería pesar unos 23 MB. No hace falta que lo incluyan en la entrega del trabajo.

    b. **Cargar los datos de población por partido.** <br>
Deben cargar la información de población en un DataFrame usando Pandas, y producir un DataFrame final que contenga dos columnas: el nombre del partido y la población en 2010.

In [2]:
import pandas as pd

In [None]:
cd "C:\Users\ferma\OneDrive\Documentos\UNLP-ME\Python\unlp-python-tp5\"

In [None]:
#Cargar y procesar datos de propiedades
propiedades_df = pd.read_csv("C:/Users/ferma/OneDrive/Documentos/UNLP-ME/Python/ar_properties.csv.gz", compression="gzip", header=0, sep=",", quotechar='"')
propiedades_df 

In [None]:
#Examino número de filas y columnas
propiedades_df.shape 

In [None]:
#Eliminar las columnas `id`, `ad_type`, `title`, `description`, `l1`, `l4`, `l5` y `l6`
propiedades_df = propiedades_df.drop(["id", "ad_type", "title", "description", "l1", "l4", "l5", "l6"], axis="columns") 
propiedades_df.shape

In [None]:
#Filtro los registros de la Provincia de Buenos Aires:
#Primero, me fijo valores unicos de la variable "l2", que indica la provincia
unique_l2 = propiedades_df["l2"].unique()
print(unique_l2)


In [None]:
#Me quedo con las observaciones donde la columna "l2" incluya la expresión "Bs.As." o "Buenos Aires"
import re
filtro_bsas = propiedades_df["l2"].str.contains(r"Bs\.As|Buenos Aires", flags=re.IGNORECASE, regex=True)
propiedades_df = propiedades_df[filtro_bsas]
propiedades_df.shape

In [None]:
propiedades_df.head(10)

In [None]:
#Corroboro los valores unicos de la variable nuevamente
unique_l2 = propiedades_df["l2"].unique()
print(unique_l2)

In [None]:
#Filtro observaciones con datos faltantes en las columnas de precio, superficie (total y cubierta), latitud y longitud. 
propiedades_df = propiedades_df.dropna(subset=["price", "surface_total", "surface_covered", "lat", "lon"])
propiedades_df.shape

In [69]:
#Guardar el DF resultante como csv. 
propiedades_df.to_csv(r"output/propiedades_df.csv", index=False)

In [None]:
#Importo la base de población de PBA
poblacion_PBA = pd.read_excel("data/poblacion_PBA.xls")
poblacion_PBA.shape

In [None]:
poblacion_PBA

### Ejercicio 2

2. **Convertir el DataFrame de Properati en GeoDataFrame. (13 pts)** <br>
El DataFrame generado tiene dos columnas para las coordenadas de latitud y longitud del inmueble. En este ejercicio, lo convertiremos en un GeoDataFrame.
- Utilizando el método `apply`,  generar una Series cuyo contenido sean puntos de `shapely` (es decir, objetos geométricos), cada uno construido a partir de la latitud y longitud del inmueble. Para eso, definir una función auxiliar llamada `generar_geometria`, que reciba una fila del DataFrame y devuelva un `Point` (prestar atención al orden de la longitud y la latitud). Agregar esta Series como una nueva columna llamada `geometry`. Eliminar las columnas de latitud y longitud.
- Generar un GeoDataFrame a partir del DataFrame anterior. Esto se puede hacer llamando al constructor de GeoDataFrame usando el argumento `geometry` al que se le pasa el nombre de la columna que se va a usar como la geometría asociada a cada registro.

In [72]:
from shapely.geometry import Point
import geopandas as gpd

Ejemplo de cómo inicializar un punto:

In [None]:
latitud, longitud = -34.93, -57.95
la_plata = Point(longitud, latitud)
la_plata

In [None]:
#Defino una función auxiliar que devuelva un point, tomando los datos de latitud y longitud
def generar_geometria(propiedades_df):
    '''
    
    '''
    
    # Completar
    return Point(propiedades_df["lon"], propiedades_df["lat"]) 

#Creo una nueva variable en el df, donde se crea este point
propiedades_df["geometry"] = propiedades_df.apply(generar_geometria, axis=1)
propiedades_df.head(2)

In [75]:
#Elimino varaibles de latitud y longitud
propiedades_df = propiedades_df.drop(columns=["lat", "lon"])

In [None]:
# Convierto a GeoDataFrame el df de propiedades
propiedades_gdf = gpd.GeoDataFrame(propiedades_df, geometry="geometry")
propiedades_gdf.head(2)

### Ejercicio 3

3. **Generar un GeoDataFrame con los partidos de Buenos Aires (7pts)**

Usando Geopandas, cargar los shapefiles de departamentos/partidos y provincias en sendos geodataframes. Repetir el procedimiento seguido en la clase sincrónica 5 para asociar los departamentos/partidos a sus respectivas provincias. Filtrar el GeoDataFrame resultante de manera de quedarse con los registros correspondientes a sólo la provincia de Buenos Aires (o la provincia que hayan elegido). Llamarlo `partidos_bsas_gdf` o `departamentos_<provincia>_gdf`.

In [None]:
#Cargo shapefile de provincias 
provincias_gdf = gpd.read_file(filename="data/provincia.zip")
provincias_gdf.head()

In [None]:
#Examino numero de filas y columnas
provincias_gdf.shape

In [None]:
provincias_gdf = provincias_gdf[["nam", "geometry"]]
provincias_gdf

In [80]:
#Cargo shape file de departamentos
departamentos_gdf = gpd.read_file("data/departamento.zip")

In [81]:
# Extraemos las columnas de interés, objectid es un identificador único para cada departamento a nivel país 
departamentos_gdf = departamentos_gdf[["objectid", "nam", "geometry"]]

# Renombramos la columna que da el nombre del departamento
departamentos_gdf = departamentos_gdf.rename({"nam": "departamento"}, axis=1)

In [None]:
departamentos_gdf

**Problema**: El df no tiene el nombre de la provincia asociada a cada departamento. Se la infiere mediante relaciones espaciales. Se repite procedimiento de la clase 5

In [83]:
departamentos_punto_adentro_gdf = departamentos_gdf.copy()
departamentos_punto_adentro_gdf["geometry"] = departamentos_gdf.geometry.representative_point();

In [None]:
departamentos_punto_adentro_gdf

In [None]:
prov_dep_gdf = departamentos_punto_adentro_gdf.sjoin(provincias_gdf, predicate="within")
prov_dep_gdf

In [86]:
prov_dep_df = prov_dep_gdf[["objectid", "nam"]]

In [87]:
departamentos_gdf = departamentos_gdf.merge(prov_dep_df, how="inner", on="objectid")

In [88]:
departamentos_gdf = departamentos_gdf.rename({"nam_x": "nam"}, axis=1)

In [89]:
provincias = set(departamentos_gdf.nam.to_list())

In [None]:
departamentos_gdf

In [None]:
# Filtro el gdf para tener los registros de provincia de Buenos Aires
# Primero, me fijo los valores que toma la columna "nam", que indica la provincia
unique_nam = departamentos_gdf["nam"].unique()
print(unique_nam)

In [None]:
#Me quedo con las observaciones donde la columna "nam" sea "Buenos Aires"
filtro_dep_bsas = departamentos_gdf["nam"].str.match(r"Buenos Aires", flags=re.IGNORECASE)
departamentos_bsas_gdf = departamentos_gdf[filtro_dep_bsas]
departamentos_bsas_gdf.shape

In [None]:
departamentos_bsas_gdf

### Ejercicio 4

5. **Asociar inmuebles a sus respectivos partidos mediante información georreferenciada** <br>
Notar que en el GeoDataFrame de Properati tenemos la columna `l3`, pero no es claro si esto representa una localidad o un partido. 
En este ejercicio, vamos a realizar un join espacial (`sjoin`) de `propiedades_gdf` con el `partidos_bsas_gdf` generado en el punto anterior. Luego, deben determinar para cuántos de los registros, la columna `l3` coincide con el nombre del partido proveniente de `partidos_bsas_gdf`. Dejar mencionado como comentario algunos casos que detecten en los que no coinciden estos valores. <br>
Finalmente, descartar los departamentos con menos de 10 registros (recordar `groupby(...).filter` de la clase 4).

In [None]:
#Se realiza un join espacial y se crea un nuevo df con los datos de cada propiedad y su departamento correspondiente, identificando los inmuebles que se encuentran dentro de cada departamento con "intersects"
prop_dep_bsas = departamentos_bsas_gdf.sjoin(propiedades_gdf, predicate="intersects")
prop_dep_bsas.sample(10)

In [None]:
prop_dep_bsas["l3"].dtype

In [None]:
prop_dep_bsas["departamento"].dtype

In [97]:
#Creo una dummy que toma el valor 1 si la variables "l3" del df de propiedades y la varible "departamento" del df de departmantamentos son iguales
prop_dep_bsas["match"] = (prop_dep_bsas["l3"] == prop_dep_bsas["departamento"]).astype(int)

In [None]:
prop_dep_bsas.shape

In [None]:
#Hago la suma de la dummy "match"
#El resultado es el número de observaciones donde match ==1, es decir que "l3" y "departamento" coinciden
prop_dep_bsas["match"].sum() 

In [None]:
# Veo una sample aleatoria de las observaciones donde las variables "l3" y "departamento" no coinciden
prop_dep_bsas[prop_dep_bsas["match"] == 0].sample(n=10) 

Algunos casos observados: 
- "departamento" = San Nicolás & "l3" = San Nicolás de los Arroyos
- "departamento" = José C. Paz & "l3" = José C Paz
- "departamento" = General Pueyrredón & "l3" = Mar del Plata
- "departamento" = La Costa & "l3" = Santa Teresita
- "departamento" = La Costa & "l3" = San Bernardo

In [101]:
#Descarto los departamentos con menos de 10 registros
#Para esto creo una variable que cuenta el numero de observaciones agrupando por departamentos
prop_dep_bsas["freq_dep"] = prop_dep_bsas.groupby("departamento")["departamento"].transform("count")

In [None]:
#Me fijo el numero de filas actual 
prop_dep_bsas.shape

In [None]:
# Mantengo solo las observaciones donde la variable "freq_dep" es mayor o igual a 10
prop_dep_bsas.groupby("departamento").filter(lambda x: x['freq_dep'].iloc[0] >= 10)

In [None]:
#Me fijo el numero de filas luego de eliminar los departamentos con menos de 10 registros 
prop_dep_bsas.shape

### Ejercicio 5

7. **Número de anuncios por partido, per cápita**. <br>
Generar un mapa de la provincia de Buenos Aires, coloreando cada partido de acuerdo al número de registros normalizado por la población del mismo (en 2010). Utilizar un widget reactivo para visualizar el mapa de acuerdo al tipo de operación: venta, alquiler o alquiler temporal. _Se evaluará la presentación del mapa_.


Hago un merge del gdf `prop_dep_bsas` con `poblacion_PBA` 

In [104]:
import ipywidgets as widgets 
from ipywidgets import interact
from matplotlib import pyplot as plt

In [None]:
mapa_data2= prop_dep_bsas.merge(poblacion_PBA, right_on="partido", left_on="departamento", how="outer")
type(mapa_data2)

In [None]:
mapa_data2.sample(5)

Creo variable de la cantidad de registros por departamento, normalizada por la población del mismo

In [107]:
# Creo una variable que indica cuantos registros hay por departamento. 
mapa_data2["freq_dep"] = mapa_data2.groupby("departamento")["departamento"].transform("count")
# Divido la variable recien creada en la población de 2010 
mapa_data2["reg_norm"] = (mapa_data2["freq_dep"]  / mapa_data2["poblacion_2010"])

Mapa de la provincia de Buenos Aires que muestra la cantidad de registros por departamento (normalizada por la población), según tipo de operación. 

In [None]:
mapa_data2["operation_type"] = mapa_data2["operation_type"].astype(str)
mapa_data2_w = widgets.Dropdown(options=sorted(mapa_data2["operation_type"].unique()), description="Tipo de operación")

@interact(tipo=mapa_data2_w)
def mostrar_deptos_por_operacion(tipo):

    mapa_filtrado = mapa_data2[mapa_data2["operation_type"] == tipo]

    mapa_filtrado.plot(
        column="reg_norm",
        cmap="Set3",
        figsize=(10, 10),
        edgecolor="black",
        legend=True,
        legend_kwds={"label": "Cant. de registros (normalizado por la población)", "orientation": "horizontal"}
    )
