<a href="https://colab.research.google.com/github/rpasquini/urban_gradient_and_covid/blob/main/Trabajo_final_2021.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Metodos Cuantitativos Aplicados a Estudios Urbanos** \\
Profesor Ricardo Pasquini \\
Universidad Torcuato Di Tella \\
rpasquini@gmail.com

En este trabajo final vamos a analizar si el gradiente de alquileres asociado a la teoria de la aglomeracion, ha cambiado a raiz del COVID. Analizaremos  ciudades seleccionadas de América Latina, utilizando datos de Properati. (https://www.properati.com.ar/data/). Cada grupo trabajara con una única ciudad.

**Importante:**


*   El trabajo se realiza en grupos de hasta 2 personas.
*   Las instrucciones para registrar su grupo y ciudad están en el sitio del campus UTDT de la materia. Deben buscar Trabajo Final.
*   La entrega se realiza **exclusivamente** mediante el Campus UTDT. 



# Preparacion del ambiente de trabajo y del geodataframe

In [None]:
!pip install geopandas



In [None]:
import geopandas as gpd
import statsmodels.api as sm

  import pandas.util.testing as tm


En la siguiente celda de codigo, modifique la url correspondiente a la ciudad con la que va a trabajar.

In [None]:
gdf=gpd.GeoDataFrame.from_file("https://github.com/rpasquini/urban_gradient_and_covid/blob/main/data/bogota.zip?raw=true")

In [None]:
gdf.plot()

Vamos a trabajar eliminar el 5% de las propiedades de mayor precio de manera de evitar problemas de outliers. 

In [None]:
gdf=gdf.loc[gdf.price<gdf.price.quantile(.95)]

Las variables disponibles en el dataframe son las siguientes:

In [None]:
gdf.columns

Index(['type', 'type_i18n', 'country', 'developmen', 'operation', 'operation_',
       'rooms', 'bedrooms', 'bathrooms', 'surface_to', 'surface_co', 'price',
       'currency', 'price_peri', 'title', 'lat', 'lon', 'l1', 'l2', 'l3', 'l4',
       'l5', 'l6', 'distanciaC', 'start_mont', 'start_year', 'infla',
       'adjprice', 'geometry', 'post'],
      dtype='object')

Nos interesan las siguientes:
- 'bedrooms': Numero de habitaciones
- 'surface_to': Superficie total
- 'price': Valor de alquiler en la moneda local
- 'start_mont' Mes en que se empezo a ofrecer el anuncio. Ojo que dice mont y no month.
- 'start_year': Año en el que se comenzó a ofrecer
- 'adjprice': Precio ajustado por inflacion
- 'distanciaC': Distancia al centro de negocios o *central business district* CBD.


# Pregunta 1
Estimaremos un modelo para identificar la presencia de un gradiente urbano. Nuestra intención es verificar si existe una relación entre la distancia al centro de negocios de la ciudad y el valor de los alquileres.  

Propondremos inicialmente la estimación del siguiente modelo
$$
alquiler_i=\beta_0+\beta_1distanciaC_i+\epsilon_i
$$
Donde alquiler_i es el valor del alquiler del inmueble $i$, y $dist_i$ representa la distancia respecto al centro de negocios de la ciudad en cuestión. La distancia está computada en metros. La moneda del alquiler depende de la ciudad en cuestión (ver detalles en planilla de referencias)


**Importante:** Los que trabajen con datos de Argentina deben utilizar la variable *adjprice* en vez de *price*


1.a Estime el modelo. Interprete los coeficientes estimados. \\
1.b. Diagnostique si la variable $distancia$ tiene un efecto estadísticamente significativo en el alquiler. \\
1.c Evalue la bondad de ajuste del modelo sobre la variabilidad del alquiler \\
1.d ¿Que dicen los resultados sobre la hipotesis de efectos de la aglomeracion en el valor del alquiler?

# Pregunta 2
En base a los resultados del modelo anterior: \\
a. Realice una predicción para el valor de un alquiler a 100 metros del CBD \\
b. Realice una predicción para el valor de un alquiler a 5km del CBD. \\
c. Realice un grafico cross-plot con las distancias al CBD en el eje horizontal y los precios en el eje vertical. Superponga la predicción del modelo. Ayuda: puede consultar este [notebook](https://github.com/rpasquini/metodos_cuantitativos_2021/blob/main/1_Introduccion.ipynb)

## Pregunta 3

Analice el cumplimiento del supuesto de errores normales. Utilice para ello alguno de los gráficos de diagnóstico sobre los mismos que  vimos en clase.
 Luego responda, explicando sus resultados: \\
a. ¿Presentan los residuos una distribución normal? \\
b. ¿Puede considerarse válido el test de hipótesis en este caso particular? Por qué si o por qué no? \\

## Pregunta 4

Reestime el modelo anterior haciendo alguna transformación en la forma funcional que ayude al cumplimiento de la normalidad de los errores. Provea una interpretación de los coeficientes obtenidos  luego de la transformación.

## Pregunta 5

Siguiendo con el objetivo de identificar el efecto de la aglomeración usando la distancia al CBD, vamos a considerar ahora la incorporación del control de la superficie del departamento como una variable de control. \\
 a. En términos téoricos: ¿Es la superficie del departamento una  variable *relevante* que no puede ser omitida? ¿Por
   qué si o por qué no? \\
 b.Incorpore la superificie del departamento al modelo. Compute el modelo y explique todos los resultados. En particular, compare los resultados del coeficiente que acompaña a distancia antes y después de la incorporación del control.

# Pregunta 6
Siguiendo con el punto anterior, ahora vamos a considerar la incorporación del control adicional de la cantidad de habitaciones del departamento. \\
a. En términos téoricos, y para los efectos de entender el efecto de la aglomeracion (distanciaCBD): ¿Es la cantidad de habitaciones una variable relevante que no puede ser omitida? ¿Por qué si o por qué no? \\
b.Incorpore la cantidad de habitaciones al modelo. Compute el modelo y explique todos los resultados. En particular, compare los resultados del coeficiente que acompaña a distancia antes y después de la incorporación del nuevo control. \\
c. Como cambio el coeficiente de la variable superficie al incorporar la cantidad de habitaciones al modelo? Como se explica este cambio?

# Pregunta 7
Las variables **start_year** y **start_mont** presentan la informacion del año y mes en el que el anuncio se publico respectivamente. \\
a. Genere una variable dummy para identificar las observaciones posteriores al advenimiento del covid en marzo 2020 (i.e., 1 si es posterior a marzo 2020 y 0 de otro modo) \\
b. Ingrese la variable dummy al modelo con el que viene trabajando. Interprete el coeficiente.

# Pregunta 8

En esta punto vamos a indagar la hipótesis de que el COVID afectó el gradiente urbano de alquileres. Vamos a estimar el siguiente modelo:

$$
alquiler_i=\beta_0+\beta_1distanciaC_i+\beta_2(distanciaC_i * Post_t)+\epsilon_i
$$

donde $Post_t$ es una variable dummy que identifica si la oferta fue realizada posterior a marzo 2020 y 0 de otro modo (calculada en el punto anterior).
Note que la variable que acompaña a $\beta_2$ en la ecuacion ($distanciaC_i * Post_t$)  es la multiplicación entre la distancia al CBD y la variable dummy $Post_t$. **Esta es una variable que usted debera generar por separado.** \\
a. Estime el modelo. Interprete los coeficientes obtenidos. \\
b. Es $\beta_2$ estadisticamente significativo? Como se interpreta este resultado? \\
c. (Opcional) Realice un grafico de las predicciones del modelo contra la variable distancia, de manera similar al punto 2.c
d. ¿Cuáles son sus conclusiones en relacion al efecto del Covid sobre el gradiente de alquileres?
