In [None]:
%pip install linearmodels --quiet

import pandas as pd
import numpy as np
import io


import matplotlib.pyplot as plt

import statsmodels.formula.api as smf
from linearmodels import IV2SLS  # módulo específico de variables instrumentales

# Introducción a la Inferencia Causal

# Ejercicios - Clase 3

## Ejercicio 1: Variables Instrumentales


Para este ejercicio usaremos los datos del trabajo de [Galiani, Rossi, & Schargrodsky (2011). Conscription and crime...](https://www.povertyactionlab.org/sites/default/files/research-paper/227_348%20Military%20conscription%20and%20crime%20in%20Argentina%20AER%20Apr%202011.pdf) que mencionamos durante la clase. Son datos reales.


Los autores quieren ver si ir al servicio militar en Argentina aumentaba las chances de luego cometer un crimen. Para poder identificar ese efecto aprovechan los sorteos anuales que se hacían para determinar quiénes debían cumplir con el servicio militar. Primero, se asignaba un número para cada grupo de personas de la cohorte correspondiente a ese año que tengan el DNI terminado en los mismos tres dígitos. Más tarde se anunciaba un número de corte y aquellos con número por encima debían hacer el servicio militar. Además, debían pasar un examen médico para poder hacerlo.

#### Datos

Para esta práctica usaremos los datos correspondientes a la cohorte de 1962.
Cada observación corresponde a un grupo de personas: aquellas que tienen los mismos 3 últimos números de DNI (por confidencialidad no se compartieron los DNI completos) en la cohorte de ese año. 

Variables:
*   $sm_{i} $ es la proporción de personas con DNI terminado en $i$ que efectivamente hicieron el servicio militar. Es la variable de **tratamiento**, cuyo efecto sobre el crimen nos interesa estimar.
*   $numalto_{i} = 1$ si el número de la lotería para los DNIs terminados en $i$ en la cohorte $c$ fue "ALTO". Es una variable de **intención de tratamiento** (o _intention to treat_, ITT) . Los que fueron sorteados con número alto deberían ir al servicio militar, deberían recibir tratamiento. 
*  $tasacrimen_{i} $ es la tasa de crimen para el grupo de personas con DNI terminado en $i$. Es la variable de **resultado**, sobre la que queremos medir el efecto.
*  $enfermedad_{i}$ es la proporción de personas del grupo $i$ que no pasan el examen médico.

In [None]:
# Importar datos
cc = pd.read_csv("https://storage.googleapis.com/humai-datasets/causalidad/consc_crime_1962.csv")
cc.head()

#### PARTE A: variables instrumentales para identificar el efecto causal

1. [TEÓRICA]. Si regresamos la tasa de crimen directamente en la variable $sm$ (participar o no en el servicio militar), ¿identificaríamos el efecto causal? ¿Por qué? 


In [None]:
# Respuesta

print(    
    '''
    
    ''')



2. [TEÓRICA]. Los autores usan $numalto$ para instrumentar $sm$. ¿Cuáles son las condiciones que deben cumplirse para poder identificar el efecto causal? ¿Cómo podemos mostrar que se cumplen?

In [None]:
# Respuesta

print(    
    '''
    
    ''')



3. [PRÁCTICA]. Estimar la primera etapa de Variables Instrumentales. ¿$numalto$ es relevante para $sm$?


In [None]:
# Respuesta


4. [PRÁCTICA].  Estimar la segunda etapa. Estimar "de una sola vez" el estimador de variables instrumentales. ¿Hay efecto causal? ¿Qué sentido tiene? 

In [None]:
# Respuesta


#### PARTE B: cumplidores y no cumplidores


1.  [TEÓRICA]. ¿Qué significa en este ejemplo que estimamos el LATE y no el ATE?






In [None]:
# Respuesta 

print(
    '''
     
    '''
)


2.  [PRÁCTICA]. Estimar la diferencia de medias de cuántos aprueban el examen médico según si tienen o no número alto. Para hacerlo, se puede regresar $enfermedad$  en $numalto$. Los autores dicen que los resultados de esa diferencia de medias *sugieren que los exámenes médicos eran manipulados y que, por lo tanto, la participación en el servicio militar es endógena*. ¿Quiénes serían los *no-cumplidores* en este ejemplo?


In [None]:
# Respuesta



3.  [PRÁCTICA] Estimar el ITT: regrese directamente la tasa de crimen en el número de sorteo. Grafique la relación entre tener número alto y la tasa de crimen. _Los autores estiman solamente el ITT para las cohortes 29-55 y 73-95, dado que no cuentan con el dato de tasa de participación en el servicio militar para esos años._

In [None]:
# Respuesta


### Ejercicio 2: Diferencias en diferencias

Este es un pequeño ejercicio para usar el estimador de Diferencias en Diferencias.  Di Tella & Schagrodsky [en este trabajo](https://www.aeaweb.org/articles?id=10.1257/000282804322970733) quieren responder a la pregunta de si poner más policía en una cuadra ayuda a reducir el crimen.

Tras el atentado terrorista a la AMIA en julio de 1994, se decidió poner policía en aquellas cuadras de la Ciudad de Buenos Aires donde hubiera instituciones judías. Los autores aprovechan este aumento en la cantidad de policía para medir su efecto sobre el crimen. Cuentan con datos de robos de autos entre abril y diciembre de 1994 a nivel de cuadra, así como con la dirección donde se ubican las instituciones judías en varios barrios de la ciudad de Buenos Aires.

Noten que cuentan con datos _de panel_. El tratamiento (poner más policía) varía:
* en el tiempo: antes y después de julio de 1994
* en el espacio: entre cuadras con y sin instituciones 


La unidad de observación, entonces, es una cuadra en un mes. Para cada cuadra y mes se cuenta con las siguientes variables:
* $totrob_cm$ es el número de robos de auto en la cuadra $c$ en el mes $m$. Si el robo sucede en una esquina, le asignan un 0.25 a cada cuadra.
* $instit_c = 1$ si hay una institución judía en esa cuadra ($0$ si no). Noten que esta variable sólo varía por cuadra, y es constante en el tiempo.
* $postjul_m = 1$ si el mes es posterior a julio de 1994, es decir, posterior al atentado. Noten que esta variable sólo varía en el tiempo, y es fija para todas las cuadras. 


In [None]:
# Importamos los datos
amia = pd.read_csv("https://storage.googleapis.com/humai-datasets/causalidad/amia.csv")
amia.head()

1. Supongamos que sólo contamos con los datos de los meses posteriores al atentado. Calcular la diferencia en la cantidad de robos de autos entre las cuadras con y sin instituciones judías para esos meses.

In [None]:
# Respuesta


2. Supongamos ahora que contamos con datos para todos los meses pero solamente para las cuadras con instituciones judías. Calcular cómo varió la cantidad de robos antes y después del atentado.

In [None]:
# Respuesta


3. Ahora sí, contamos con todos los datos.

  i. Calcular cuál era la diferencia en la cantidad de robos de autos entre cuadras con instituciones judías y cuadras sin instituciones judías antes del atentado. 

  ii. Calcular la variación en el número de robos de autos luego del atentado en las cuadras sin instituciones judías.

In [None]:
# Respuesta


4. Calcular el efecto de asignar más policía sobre la cantidad de robos de autos usando el método de diferencias en diferencias. ¿Cuál es el efecto de poner más policía en los niveles de crimen? Estimar diferencias en diferencias como una regresión lineal que incluye variables binarias. ¿El efecto es significativamente distinto de cero?

In [None]:
# Respuesta
