<a href="https://colab.research.google.com/github/juanpalominoh/Fundamentos-de-Econometria/blob/main/Tema_12_Variables_Instrumentales.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Variables Instrumentales
En esta primera aproximación vamos a revisar algunos resultados de: Card, David. 1995. “Using Geographic Variation in College Proximity to Estimate the Return to Schooling.” In Aspects of Labour Market Behaviour: Essays in Honour of John Vanderkamp, edited by Louis N. Christofides, E. Kenneth Grant, and Robert Swidinsky. Toronto: University of Toronto Press. https://www.nber.org/system/files/working_papers/w4483/w4483.pdf


In [None]:
# Instalamos paquete para leer Stata
install.packages("foreign")
library("foreign")

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)



Los datos provienen de la cohorte de hombres jóvenes de NLS de la Encuesta Nacional Longitudinal. 

Estos datos comenzaron en 1966 con 3,010 hombres de entre 24 y 34 años y continuaron su seguimiento hasta 1981.

In [None]:
card <- read.dta("/content/CARD.DTA", convert.factors = FALSE)
card

Unnamed: 0_level_0,id,nearc2,nearc4,educ,age,fatheduc,motheduc,weight,momdad14,sinmom14,⋯,smsa66,wage,enroll,KWW,IQ,married,libcrd14,exper,lwage,expersq
Unnamed: 0_level_1,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<dbl>,<int>,<int>,⋯,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<int>,<dbl>,<int>
1,2,0,0,7,29,,,158413,1,0,⋯,1,548,0,15,,1,0,16,6.306275,256
2,3,0,0,12,27,8,8,380166,1,0,⋯,1,481,0,35,93,1,1,9,6.175867,81
3,4,0,0,12,34,14,12,367470,1,0,⋯,1,721,0,42,103,1,1,16,6.580639,256
4,5,1,1,11,27,11,12,380166,1,0,⋯,1,250,0,25,88,1,1,10,5.521461,100
5,6,1,1,12,34,8,7,367470,1,0,⋯,1,729,0,34,108,1,0,16,6.591674,256
6,7,1,1,12,26,9,12,380166,1,0,⋯,1,500,0,38,85,1,1,8,6.214608,64
7,8,1,1,18,33,14,14,367470,1,0,⋯,1,565,0,41,119,1,1,9,6.336826,81
8,9,1,1,14,29,14,14,496635,1,0,⋯,1,608,0,46,108,1,1,9,6.410175,81
9,10,1,1,12,28,12,12,367772,1,0,⋯,1,425,0,32,96,4,0,10,6.052089,100
10,11,1,1,12,29,12,12,480445,1,0,⋯,1,515,0,34,97,1,1,11,6.244167,121


In [None]:
names(card)

El autor está interesado en los retornos de la escolarización sobre los salarios:
\begin{gather*}
lnw_i=\beta_{1} + \beta_{2}S_i + h_{i}^{'}\delta + \epsilon_{i}
\end{gather*}
donde $lnw_{i}$ denota el logaritmo de los salarios individuales, $S_{i}$ denota años de escolaridad, y variables adicionales explicatorias $h_{i}$ (años de experiencia, regional, sexo, y dummies raciales). 

Los controles son: experiencia potencial en años (`experience`), experiencia potencial al cuadrado (`sq_experience`), black: dummy para raza negra, `south`: dummy si el individuo vive en el sur, `smsa`: dummy si el individuo reside en el área metropolitana, `smsa66`: dummy si el individuo reside en el área metropolitana en 1966, `reg662$-$reg668`: set de variables dummy regionales.

**¿Puede existir sesgo de variable omitida?**

Por ejemplo, la habilidad $A_i$ es omitida en esta ecuación: 
\begin{gather*}
lnw_i=\beta_{1} + \beta_{2}S_i + \gamma A_i + h_{i}^{'}\delta + \epsilon_{i}
\end{gather*}
donde $A_{i}$ es una medida de habilidad.

**¿Qué consecuencias existen por omitir $A$?**

Si $A_i$ es omitida de la ecuación, entonces el estimador MCO de $\beta$:
\begin{gather*}
\hat{\beta}_{MCO} → \beta + \gamma \frac{cov(S_i, A_i)}{Var(S_i)}
\end{gather*}

Entonces, si la correlación entre $S$ y $A$ es positivo, $\frac{cov(S_i, A_i)}{Var(S_i)}>0$, entonces $\hat{\beta}_{MCO}$ es asintóticamente sesgado hacia arriba.

In [None]:
# Modelo 1: variable de habilidad omitida
ols1 <- lm(log(wage) ~ educ + exper + expersq + black + south + smsa +
             reg661 + reg662 + reg663 + reg664 + reg665 + reg666 +
             reg667 + reg668 + smsa66,
           data=card)
summary(ols1)


Call:
lm(formula = log(wage) ~ educ + exper + expersq + black + south + 
    smsa + reg661 + reg662 + reg663 + reg664 + reg665 + reg666 + 
    reg667 + reg668 + smsa66, data = card)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.62326 -0.22141  0.02001  0.23932  1.33340 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  4.7393765  0.0715282  66.259  < 2e-16 ***
educ         0.0746933  0.0034983  21.351  < 2e-16 ***
exper        0.0848320  0.0066242  12.806  < 2e-16 ***
expersq     -0.0022870  0.0003166  -7.223 6.41e-13 ***
black       -0.1990123  0.0182483 -10.906  < 2e-16 ***
south       -0.1479550  0.0259799  -5.695 1.35e-08 ***
smsa         0.1363845  0.0201005   6.785 1.39e-11 ***
reg661      -0.1185698  0.0388301  -3.054 0.002281 ** 
reg662      -0.0222026  0.0282575  -0.786 0.432092    
reg663       0.0259703  0.0273644   0.949 0.342670    
reg664      -0.0634942  0.0356803  -1.780 0.075254 .  
reg665       0.0094550  0.0361174   0.

El estimador del coeficiente de escolaridad cuando habilidad es ignorado es reproducido en modelo 1.

En el modelo 2 se incluye en la estimación MCO la medida de habilidad: IQ

In [None]:
# Modelo 2: incluye IQ
ols2 <- lm(log(wage) ~ educ + exper + expersq + black + south + smsa +
             reg661 + reg662 + reg663 + reg664 + reg665 + reg666 +
             reg667 + reg668 + smsa66 + IQ,
           data=card)

In [None]:
install.packages("memisc")  # Paquete para realizar tablas
library(memisc)

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

Loading required package: lattice

Loading required package: MASS


Attaching package: ‘memisc’


The following objects are masked from ‘package:stats’:

    contr.sum, contr.treatment, contrasts


The following object is masked from ‘package:base’:

    as.array




In [None]:
# Ver los resultados del modelo 1 y 2
table_1 <- mtable("Modelo 1" = ols1,
                  "Modelo 2" = ols2,
            summary.stats = c("N", "R-squared"),
            coef.style = "default", 
            digits=3)
table_1


Calls:
Modelo 1: lm(formula = log(wage) ~ educ + exper + expersq + black + south + 
    smsa + reg661 + reg662 + reg663 + reg664 + reg665 + reg666 + 
    reg667 + reg668 + smsa66, data = card)
Modelo 2: lm(formula = log(wage) ~ educ + exper + expersq + black + south + 
    smsa + reg661 + reg662 + reg663 + reg664 + reg665 + reg666 + 
    reg667 + reg668 + smsa66 + IQ, data = card)

                Modelo 1     Modelo 2    
-----------------------------------------
  (Intercept)     4.739***     4.501***  
                 (0.072)      (0.106)    
  educ            0.075***     0.070***  
                 (0.003)      (0.005)    
  exper           0.085***     0.095***  
                 (0.007)      (0.009)    
  expersq        -0.002***    -0.003***  
                 (0.000)      (0.000)    
  black          -0.199***    -0.148***  
                 (0.018)      (0.027)    
  south          -0.148***    -0.100**   
                 (0.026)      (0.032)    
  smsa            0.136***

Card (1993) propone una estrategia de variables instrumentales mediante la cual instrumentará la escolarización con la variable dummy si el individuo creció cerca de una universidad en el condado (nearc4)


**Validez del instrumento**
*   $nearc4$ no debe estar correlacionado con el término de error en la ecuación salarial
*   $nearc4$ debe estar correlacionado con la educación.

La idea es que los estudiantes que crecen en un área sin universidad enfrentan un costo más alto de educación universitaria, ya que la opción de vivir en una casa está excluida.

Entonces, uno esperaría que este costo más alto reduzca la inversión en educación superior, al menos entre los hijos de familias de ingresos relativamente bajos.

In [None]:
install.packages("AER")
library(AER)

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

also installing the dependencies ‘minqa’, ‘RcppEigen’, ‘pbkrtest’, ‘quantreg’, ‘lme4’, ‘car’, ‘lmtest’, ‘sandwich’


Loading required package: car

Loading required package: carData


Attaching package: ‘car’


The following object is masked from ‘package:memisc’:

    recode


Loading required package: lmtest

Loading required package: zoo


Attaching package: ‘zoo’


The following objects are masked from ‘package:base’:

    as.Date, as.Date.numeric


Loading required package: sandwich

Loading required package: survival



In [None]:
# Modelo 3: estimación de variables instrumentales
iv1  <- ivreg(log(wage) ~ educ + exper + expersq + black + south + smsa +
                reg661 + reg662 + reg663 + reg664 + reg665 + reg666 +
                reg667 + reg668 + smsa66 |
                exper + expersq + black + south + smsa + reg661 + reg662 + 
                reg663 + reg664 + reg665 + reg666 + reg667 + reg668 + smsa66 + nearc4,
              data=card)

In [None]:
# Ver los resultados del modelo 1, 2 y 3
table_2 <- mtable("Modelo 1: MCO" = ols1,
                  "Modelo 2: MCO - IQ" = ols2,
                  "Modelo 3: IV" = iv1,
            summary.stats = c("N", "R-squared"),
            coef.style = "default", 
            digits=3)
table_2


Calls:
Modelo 1: MCO: lm(formula = log(wage) ~ educ + exper + expersq + black + south + 
    smsa + reg661 + reg662 + reg663 + reg664 + reg665 + reg666 + 
    reg667 + reg668 + smsa66, data = card)
Modelo 2: MCO - IQ: lm(formula = log(wage) ~ educ + exper + expersq + black + south + 
    smsa + reg661 + reg662 + reg663 + reg664 + reg665 + reg666 + 
    reg667 + reg668 + smsa66 + IQ, data = card)
Modelo 3: IV: ivreg(formula = log(wage) ~ educ + exper + expersq + black + 
    south + smsa + reg661 + reg662 + reg663 + reg664 + reg665 + 
    reg666 + reg667 + reg668 + smsa66 | exper + expersq + black + 
    south + smsa + reg661 + reg662 + reg663 + reg664 + reg665 + 
    reg666 + reg667 + reg668 + smsa66 + nearc4, data = card)

               Modelo 1: MCO  Modelo 2: MCO - IQ  Modelo 3: IV  
----------------------------------------------------------------
  (Intercept)      4.739***         4.501***         3.774***   
                  (0.072)          (0.106)          (0.935)     
  edu

Curiosamente, la estimación IV del retorno a la educación es casi dos veces ($\frac{0.132}{0.075}=2$) tan grande como la estimación MCO de la columna 2, pero el error estándar de la estimación IV es más de 18 veces ($\frac{0.055}{0.003}=18$) mayor que el error estándar de MCO.

Asimismo, el intervalo de confianza del 95% de la estimación IV tiene un rango muy amplio. Los intervalos de confianza más grandes son un precio que debemos pagar para obtener un estimador consistente del retorno a la educación cuando pensamos que la educación es endógena.

Pero **¿es nearc4 un instrumento valido?**

**Requisito 1:** el instrumento debe estar correlacionado con la educación una vez que se hayan eliminado otras variables exógenas ($south$, $smsa$, etc).

Para verificar este requisito estimamos $educ$ en $nearc4$ y todas las variables exógenas que aparecen en la ecuación. 

In [None]:
# Modelo 4: educ ~ nearc4
red  <- lm(educ ~ nearc4 + exper + expersq + black + south + smsa + 
             reg661 + reg662 + reg663 + reg664 + reg665 + reg666 +
             reg667 + reg668 + smsa66,
           data=card) 

In [None]:
# Ver los resultados del modelo 1, 2, 3 y 4
table_3 <- mtable("Modelo 1: MCO" = ols1,
                  "Modelo 2: MCO - IQ" = ols2,
                  "Modelo 3: IV" = iv1,
                  "Modelo 4"=red,
            summary.stats = c("N", "R-squared"),
            coef.style = "default", 
            digits=3)
table_3


Calls:
Modelo 1: MCO: lm(formula = log(wage) ~ educ + exper + expersq + black + south + 
    smsa + reg661 + reg662 + reg663 + reg664 + reg665 + reg666 + 
    reg667 + reg668 + smsa66, data = card)
Modelo 2: MCO - IQ: lm(formula = log(wage) ~ educ + exper + expersq + black + south + 
    smsa + reg661 + reg662 + reg663 + reg664 + reg665 + reg666 + 
    reg667 + reg668 + smsa66 + IQ, data = card)
Modelo 3: IV: ivreg(formula = log(wage) ~ educ + exper + expersq + black + 
    south + smsa + reg661 + reg662 + reg663 + reg664 + reg665 + 
    reg666 + reg667 + reg668 + smsa66 | exper + expersq + black + 
    south + smsa + reg661 + reg662 + reg663 + reg664 + reg665 + 
    reg666 + reg667 + reg668 + smsa66 + nearc4, data = card)
Modelo 4: lm(formula = educ ~ nearc4 + exper + expersq + black + south + 
    smsa + reg661 + reg662 + reg663 + reg664 + reg665 + reg666 + 
    reg667 + reg668 + smsa66, data = card)

               Modelo 1: MCO  Modelo 2: MCO - IQ  Modelo 3: IV   Modelo 4    
    

En igualdad de condiciones, las personas que vivían cerca de una universidad en 1966 tenían, en promedio, aproximadamente un tercio (el coeficiente es 0.32) de un año más de educación que las que no crecieron cerca de una universidad.

**¿Existe un problema con el instrumento?**
*   Recuerde que el estadístico $F$ para la significancia (conjunta) de los instrumentos en la primera etapa debe exceder a 10.

In [None]:
estF <- (0.320/0.088)^2
estF

En este caso, dado que tenemos solo un instrumento, el estadístico $F$ es ($(\frac{0.320}{0.088})^2 = 13.22$), que es mayor a 10. Entonces, nuestro instrumento es lo suficiente fuerte.


**Requisito 2:** El instrumento no debe estar correlacionado con el término de error en la ecuación salarial. 

Sin embargo, esto es difícil de probarse. Por lo tanto, para que la proximidad a la universidad ($nearc4$) sirva como un instrumento legítimo para la educación completa, debe afectar las decisiones individuales de escolarización, pero no afectar directamente en los ingresos.

**Hay al menos tres razones** por las cuales los individuos que crecieron cerca de una universidad pueden tener mayores ganancias que otros individuos, controlando la educación, la información geográfica y los antecedentes de los padres.

1.   Las familias que ponen un fuerte énfasis en la educación pueden optar por vivir cerca de una universidad. Los niños de estas familias pueden tener una mayor capacidad o pueden estar más motivados para lograr el éxito en el mercado laboral. En cualquier caso, podríamos tener una correlación positiva entre la proximidad a la universidad y $\epsilon$.
2.   La presencia de una universidad puede estar asociada con una mayor calidad escolar en las escuelas primarias y secundarias cercanas.
3.   Si los individuos que crecieron en áreas con una universidad cercana tienden a vivir en áreas con salarios más altos, entonces la proximidad a la universidad puede estar correlacionada con primas salariales geográficas no observadas.

Recuerde que no estamos controlando la habilidad, por lo que esta variable va al término de error.

Sin embargo, como explicamos anteriormente, podría darse al caso de que las familias elijan vivir cerca de una universidad y que sus hijos tengan una mayor capacidad.

**¿Podría $nearc4$ estar correlacionado con algo en el término de error, como la habilidad no observada?**

Se sabe que los puntajes de IQ varían según la región geográfica, y también lo hace la disponibilidad de la universidad. Podría ser que, por una variedad de razones, las personas con habilidades superiores crecen en áreas con universidades cercanas.

In [None]:
# Modelo 5
iq1 <- lm(IQ ~ nearc4,
          data=card)
summary(iq1)


Call:
lm(formula = IQ ~ nearc4, data = card)

Residuals:
    Min      1Q  Median      3Q     Max 
-50.611  -9.207   0.793  10.793  45.793 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 100.6106     0.6275 160.347  < 2e-16 ***
nearc4        2.5962     0.7455   3.483 0.000507 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 15.38 on 2059 degrees of freedom
  (949 observations deleted due to missingness)
Multiple R-squared:  0.005856,	Adjusted R-squared:  0.005373 
F-statistic: 12.13 on 1 and 2059 DF,  p-value: 0.0005071


El puntaje predicho de $IQ$ es aproximadamente 2.6 puntos más alto para un hombre que creció cerca de una universidad. La diferencia es estadísticamente significativa. En otras palabras, el instrumento está correlacionado con alguna variable que sabemos que afecta las ganancias y está en el término de error. Por lo tanto, la condición $E(z_i, \epsilon_i)$ no se cumple.

Pero **¿qué sucede si controlamos por otras dummies regionales?**

Estimamos la misma regresión que el modelo 5 pero ahora controlamos para $smsa$, $smsa66$ y variables dummies regionales.

In [None]:
# Modelo 6
iq2 <- lm(IQ ~ nearc4 + reg661 + reg662 + reg663 + reg664 + reg665 + reg666 +
            reg667 + reg668 + smsa66,
          data=card)
summary(iq2)


Call:
lm(formula = IQ ~ nearc4 + reg661 + reg662 + reg663 + reg664 + 
    reg665 + reg666 + reg667 + reg668 + smsa66, data = card)

Residuals:
    Min      1Q  Median      3Q     Max 
-53.310  -9.735   0.621  10.621  45.681 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 101.88156    1.29206  78.852  < 2e-16 ***
nearc4        0.34790    0.81441   0.427 0.669295    
reg661        2.89192    1.79738   1.609 0.107779    
reg662        3.99120    1.29372   3.085 0.002062 ** 
reg663        1.33262    1.25900   1.058 0.289963    
reg664        2.34942    1.63510   1.437 0.150910    
reg665       -5.58354    1.32245  -4.222 2.53e-05 ***
reg666       -4.52926    1.69772  -2.668 0.007694 ** 
reg667       -5.50249    1.51966  -3.621 0.000301 ***
reg668       -0.03306    2.11067  -0.016 0.987505    
smsa66        1.08917    0.80870   1.347 0.178190    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 14.97 on 2050 degr

Ahora, la relación entre $iq$ y $nearc4$ es mucho más débil y estadísticamente insignificante. En otras palabras, una vez que controlamos la región y el entorno mientras crecemos, no hay un vínculo aparente entre el puntaje de IQ y vivir cerca de una universidad. 

Esto implica que es importante incluir estas variables en la ecuación salarial para controlar las diferencias en el acceso a las universidades que también podrían estar correlacionadas con la habilidad.

In [None]:
# Ver los resultados del modelo 1, 2, 3, 4, 5, y 6
table_4 <- mtable("Modelo 1: MCO" = ols1,
                  "Modelo 2: MCO - IQ" = ols2,
                  "Modelo 3: IV" = iv1,
                  "Modelo 4"=red,
                  "Modelo 5"=iq1,
                  "Modelo 6"=iq2,
            summary.stats = c("N", "R-squared"),
            coef.style = "default", 
            digits=3)
table_4


Calls:
Modelo 1: MCO: lm(formula = log(wage) ~ educ + exper + expersq + black + south + 
    smsa + reg661 + reg662 + reg663 + reg664 + reg665 + reg666 + 
    reg667 + reg668 + smsa66, data = card)
Modelo 2: MCO - IQ: lm(formula = log(wage) ~ educ + exper + expersq + black + south + 
    smsa + reg661 + reg662 + reg663 + reg664 + reg665 + reg666 + 
    reg667 + reg668 + smsa66 + IQ, data = card)
Modelo 3: IV: ivreg(formula = log(wage) ~ educ + exper + expersq + black + 
    south + smsa + reg661 + reg662 + reg663 + reg664 + reg665 + 
    reg666 + reg667 + reg668 + smsa66 | exper + expersq + black + 
    south + smsa + reg661 + reg662 + reg663 + reg664 + reg665 + 
    reg666 + reg667 + reg668 + smsa66 + nearc4, data = card)
Modelo 4: lm(formula = educ ~ nearc4 + exper + expersq + black + south + 
    smsa + reg661 + reg662 + reg663 + reg664 + reg665 + reg666 + 
    reg667 + reg668 + smsa66, data = card)
Modelo 5: lm(formula = IQ ~ nearc4, data = card)
Modelo 6: lm(formula = IQ ~ nearc4