# Variables Instrumentales

Suponga que estamos interesados en estudiar el efecto causal que tiene la variable $x$ sobre la variable de resultado $y$. Para determinar esta relación causal usted cuenta con información para $n$ individuos y quiere estimar la siguiente ecuación de regresión:

$$y_i = \beta_0 + \beta_1 x_i + \varepsilon_i$$

Usted estima esta regresión a través de MCO. Sin embargo, usted sospecha que el supuesto de exogeneidad no se cumple, es decir:

$$E(\varepsilon_i | x_i) \neq 0 \quad \Rightarrow \quad E(\hat\beta) \neq \beta$$

Múltiples razones pueden sugerir que el supuesto de exogenidad se viola. Algunas de ellas son:

1. **Omitir variables relevantes**: factores (observables y no observables) que explican $y_i$ y que se relaciona de manera importante con $x_i$.
2. **Error de medición**: si en lugar de observar $x_i$ solo podemos observar $x_i^* = x_i + \xi_i$
3. **Simultaneidad o causalidad inversa**: Si $x_i$ afecta $y_i$ y $y_i$ afecta $x_i$

## Relevancia y Exogenidad de un Instrumento

El método de **variables instrumentales** (IV) es ampliamente usado por analístas e investigadores para estimar el efecto causal de $x_i$ en $y_i$. Es decir, a través de esta estrategia podemos obtener **estimadores consistentes**.

El uso de este método requiere de una variable $z_i$ o **instrumento** que cumple dos propiedades importantes:

1. **Relevancia** : El instrumento $z_i$ debe está fuertemente correlacionado con la variable endogena $x_i$. Es decir,

$$Cov(x_i, z_i) \neq 0$$

2. **Exogeneidad ó Restricción de Exclusión**: El instrumento $z_i$ debe ser cuasi-aletorio (*as good as random*) y solo debe afectar a $y_i$ a través de $x_i$. Es decir,

$$Cov(\varepsilon_i, z_i) = 0 \quad \Rightarrow \quad \beta_1 = \frac{Cov(y_i, z_i)}{Cov(x_i, z_i)}$$

Cabe mencionar que la primera condición se puede probar de manera empírica. Sin embargo, para la segunda condición no existe una prueba formal que nos permita determinar si el instrumento es cuasi-aleatorio.

## Aplicaciones

- **Angrist (1990 AER)**: Este documento estudia las consecuencias de haber prestado servicio militar en la guerra de Vietnam sobre los ingresos laborales. 

    $y_i$ son ingresos, $x_i$ es el estatus de veterano, $z_i$ es la elegibilidad para servir en la guerra a partir de una lotería.
 

- **Angrist y Krueger (1991 QJE)**: Estudian el efecto de la educación sobre los salarios. En Estados Unidos y muchos otros paises, los estudiantes solo pueden ingresar al primer grado del sistema educativo a partir de cierta edad (5 años al 1 de Sep). Además, es obligatorio que los estudiantes estén hasta los 16 años en el sistema educativo. 
    
    $y_i$ son salarios, $x_i$ los años de educación completa, $z_i$ es el trimestre de nacimiento (1 = Ene-Ago, 0 = Sep-Dic). Observe que si $z_i = 1$, el individuo es obligado a completar mas años educativos antes de poder desertar.


- **Angrist, Graddy, e Imbens (2000 RESTUD)**: Estiman una función de demanda a partir de precios y cantidades vendidas de un producto. Sin embargo, estimar la función de demanda usando esta información tiene problemas de causalidad inversa. Observe que los precios están determinados por la demanda y la oferta al mismo tiempo. 

    $y_i$ son cantidades de merluza fresca en el Fulton Fish Market, $x_i$ es el precio, $z_i$ es una variable de condiciones climáticas en el mar (viento o temperatura) que afectan la oferta en el mercado.

## Mínimos Cuadrados en Dos Etapas (MC2)

Para estimar el modelo de variables instrumentales se realiza un proceso secuencial. Recuerde que nos interesa estimar el efecto causal de la variable $x_i$ en $y_i$ a partir de la siguiente función de regresión:

$$y_i = \beta_0 + \beta_1 x_i + \varepsilon_i$$

Para ello procedemos en dos etapas:

- **Primera Etapa**: estimar $x_i$ usando la variable instrumental $z_i$. Si $Cov(z_i, \varepsilon_i) = 0$, entonces $\hat x_i$ contiene variacion que no esta relacionada con $\varepsilon_i$.

$$x_i = \pi_0 + \pi_1 z_i + u_i$$

- **Segunda Etapa**: estimar $y_i$ usando los valores predichos $\hat x_i$. 

$$y_i = \alpha + \beta \hat x_i + \eta_i$$

Observe que el estimador de $\beta$ se puede escribir como:

$$\hat\beta_{IV} = \frac{\sum_i^n(y_i - \bar y)(\hat x_i - \bar{\hat x})}{\sum_i^n(\hat x_i - \bar{\hat x})^2}$$

Note ademas que 

$$\hat x_i - \bar{\hat x} = \hat\pi_1 (z_i - \bar z)$$
 
Entonces 

$$\hat\beta_{IV} = \frac{\sum_i^n(y_i - \bar y)\hat\pi_1 (z_i - \bar z)}{\sum_i^n\hat\pi_1^2 (z_i - \bar z)^2} = \frac{1}{\hat\pi_1} \frac{\sum_i^n(y_i - \bar y)(z_i - \bar z)}{\sum_i^n(z_i - \bar z)^2} = \frac{\sum_i^n(z_i - \bar z)^2}{\sum_i^n (x_i - \bar x) (z_i - \bar z)} \frac{\sum_i^n(y_i - \bar y)(z_i - \bar z)}{\sum_i^n(z_i - \bar z)^2}$$

Finalmente, el estimador de $\beta_1$ en 2 etapas esta dado por:

$$\hat\beta_{IV} = \frac{\sum_i^n(y_i - \bar y)(z_i - \bar z)}{\sum_i^n (x_i - \bar x) (z_i - \bar z)} = \frac{\hat Cov(y_i, z_i)}{\hat Cov(x_i, z_i)}$$

## Propiedades Estadisticas de $\hat\beta_{IV}$

\begin{align*}
E(\hat\beta_{IV}) & = E\left(\frac{\sum_i^n(y_i - \bar y)(z_i - \bar z)}{\sum_i^n (x_i - \bar x) (z_i - \bar z)}\right) \\
& =  E\left(\frac{\sum_i^n [(\beta_0 + \beta_1 x_i + \varepsilon_i) - (\beta_0 + \beta_1 \bar x + \bar \varepsilon)] (z_i - \bar z)}{\sum_i^n (x_i - \bar x) (z_i - \bar z)}\right) \\
& =  E\left(\frac{\sum_i^n [(\beta_1 (x_i - \bar x) + (\varepsilon_i - \bar \varepsilon)] (z_i - \bar z)}{\sum_i^n (x_i - \bar x) (z_i - \bar z)}\right) \\
& =  E\left(\frac{\beta_1 \sum_i^n (x_i - \bar x)(z_i - \bar z) + \sum_i^n (\varepsilon_i - \bar \varepsilon) (z_i - \bar z)}{\sum_i^n (x_i - \bar x) (z_i - \bar z)}\right) \\
& = \beta_1 +  E\left(\frac{\sum_i^n \varepsilon_i (z_i - \bar z)}{\sum_i^n (x_i - \bar x) (z_i - \bar z)}\right)
\end{align*}

Observe que la condicion de exogeniedad del instrumento implica que $Cov(\varepsilon_i, z_i) = 0$, pero no implica que $E(\varepsilon_i | z_i, x_i) = 0$. Entonces,

$$E\left(\frac{\sum_i^n \varepsilon_i (z_i - \bar z)}{\sum_i^n (x_i - \bar x) (z_i - \bar z)}\right) = E\left(\frac{\sum_i^n E(\varepsilon_i | z_i, x_i) (z_i - \bar z)}{\sum_i^n (x_i - \bar x) (z_i - \bar z)}\right) \neq 0$$

Es decir, el estimador de minimos cuadrados en dos etapas es sesgado

$$E(\hat\beta_{IV}) \neq \beta$$

Sin embargo, el estimador es consistente:

$$\hat\beta_{IV} = \frac{\hat Cov(y_i, z_i)}{\hat Cov(x_i, z_i)} \overset{p}{\to}  \frac{Cov(y_i, z_i)}{Cov(x_i, z_i)} = \beta_1$$

Se puede demostrar que

$$\hat\beta_{IV} \overset{d}{\to} N(\beta, \sigma^2_{\beta_{IV}}) \quad \text{ donde } \quad \sigma^2_{\beta_{IV}} = \frac{1}{n}\frac{V \left((z_i - \mu_z) \varepsilon_i\right)}{\left(Cov(x_i, z_i)\right)^2}$$
La varianza de $\hat\beta_{IV}$ se puede estimar a partir de la estimacion de la varianza y covarianza de los términos que aparecen en la expresión anterior:

$$se(\hat\beta_{IV}) = \sqrt{\frac{\frac{1}{n} \sum (z_i - \bar z)^2 \hat\varepsilon_i^2}{n \left(\frac{1}{n} \sum (z_i - \bar z) x_i \right)^2}}$$

Ya que en grandes muestras $\hat\beta_{IV}$ se distribuye normal, podemos realizar pruebas de hipotesis computando el *t-estadistico* y el intervalo de confianza dado por

$$\hat\beta_{IV} \pm t_{\frac{\alpha}{2}, n - k_2 - 1} \cdot SE(\hat\beta_{IV})$$

donde $\alpha$ es el nivel de significancia elegido por el analista, $n$ es el numero de observaciones, y $k_2$ es el numero de variables incluidas en la segunda etapa.