## Introducción a Python para el Análisis de datos
### Variables instrumentales y MCO en dos etapas

El punto del método de variables instrumentales es encontrar una variable que afecte a $X$ (nuestra variable con problemas de endogeneidad), pero que no afecte a $y$. El método mas usado en la practica es MCO en dos etapas (es importante resaltar que MCO en dos etapas también utiliza un instrumento para estimar el parámetro que se desea), ya que con este se puede estimar los modelos perfectamente identificados y los modelos sobre identificados. El método de variables instrumentales solo funciona en modelos perfectamente identificados.

Una buena variable instrumental debe cumplir con dos condiciones:

- Relevancia, es decir, que el instrumento este correlacionado con nuestra variable: $Cov(X,z) \not= 0$. Si esto se cumple, veremos que también se va a cumplir que $E[X|z] \not= 0$.
    
    
    
- Validez, es decir, que el instrumento  no este correlacionado con el error: $Cov(z,\epsilon) = 0$. Si se cumple lo anterior, también se va a cumplir que $E[\epsilon|z] = 0$.



Es importante tener en cuenta que las estimaciones por VI o MCO en dos etapas siguen siendo sesgadas pero son consistentes.


In [1]:
import pandas as pd 
import numpy as np 
import os 

pathout = './data/'
if not os.path.exists(pathout):
    os.mkdir(pathout) 
pathgraphs = './graphs/'
if not os.path.exists(pathgraphs): 
        os.mkdir(pathgraphs) 

In [2]:
# Librerias para MCO
import statsmodels.api as sm
import statsmodels.formula.api as smf

In [3]:
#Libreria para MCO2E
from linearmodels.iv import IV2SLS


Para este ejemplo usaremos la base de datos CARD de Wooldridge, para determinar el efecto de la educación sobre el salario. Un problema común en este tipo de estimaciones es que posiblemente la habilidad de las personas sea una variable que afecte el salario, por lo que deberíamos incluirla pero no tenemos ninguna medida de habilidad. En este caso estamos frente a un problema de endogeneidad gracias a variables omitidas. Dado lo anterior optaremos por realizar la estimación usando el método de VI. Este método nos dará estimaciones sesgadas, igual que MCO pero consistentes. Para usar este método en Python haremos lo siguiente:

In [4]:
df = pd.read_stata(pathout + 'CARD.dta')
df

Unnamed: 0,id,nearc2,nearc4,educ,age,fatheduc,motheduc,weight,momdad14,sinmom14,...,smsa66,wage,enroll,KWW,IQ,married,libcrd14,exper,lwage,expersq
0,2,0,0,7,29,,,158413.0,1,0,...,1,548,0,15.0,,1.0,0.0,16,6.306275,256
1,3,0,0,12,27,8.0,8.0,380166.0,1,0,...,1,481,0,35.0,93.0,1.0,1.0,9,6.175867,81
2,4,0,0,12,34,14.0,12.0,367470.0,1,0,...,1,721,0,42.0,103.0,1.0,1.0,16,6.580639,256
3,5,1,1,11,27,11.0,12.0,380166.0,1,0,...,1,250,0,25.0,88.0,1.0,1.0,10,5.521461,100
4,6,1,1,12,34,8.0,7.0,367470.0,1,0,...,1,729,0,34.0,108.0,1.0,0.0,16,6.591674,256
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3005,5218,0,1,12,25,8.0,12.0,82135.0,1,0,...,0,335,0,15.0,,1.0,0.0,7,5.814130,49
3006,5219,0,1,13,34,,,88765.0,1,0,...,0,481,0,43.0,,1.0,1.0,15,6.175867,225
3007,5220,0,1,12,24,11.0,,89271.0,0,0,...,0,500,0,25.0,109.0,1.0,0.0,6,6.214608,36
3008,5221,0,1,12,31,,,110376.0,1,0,...,0,713,0,32.0,107.0,1.0,1.0,13,6.569481,169


In [5]:
df.columns

Index(['id', 'nearc2', 'nearc4', 'educ', 'age', 'fatheduc', 'motheduc',
       'weight', 'momdad14', 'sinmom14', 'step14', 'reg661', 'reg662',
       'reg663', 'reg664', 'reg665', 'reg666', 'reg667', 'reg668', 'reg669',
       'south66', 'black', 'smsa', 'south', 'smsa66', 'wage', 'enroll', 'KWW',
       'IQ', 'married', 'libcrd14', 'exper', 'lwage', 'expersq'],
      dtype='object')

En este caso utilizaremos la variable nearc4 como instrumento de educ. Esta variable nos indica si las personas viven cerca a una universidad. Intuitivamente esta variable puede servir como instrumento ya que esto puede afectar los años de la educación (dado que si están cerca a una universidad los costos de transporte son menores y esto los incentivaría a estudiar mas) pero difícilmente afecte el salario de las personas.
   
Para esto, primero debemos ver si se cumple cumple con relevancia, y este instrumento Z esta correlacionado con nuestra variable X. Esto lo haremos realizando la regresión de nearc4 en educ y agregando controles. Lo ideal es que el efecto parcial de nearc4 sobre educ sea estadísticamente significativo.

In [6]:
X0 = df[['nearc4', 'exper' , 'expersq' , 'black' , 'smsa' , 'south']] 
X0 = sm.add_constant(X0)
Y0 = df.educ
reg0 = sm.OLS(endog=Y0, exog=X0, missing = 'drop',)
reg0 = reg0.fit()
print(reg0.summary())

                            OLS Regression Results                            
Dep. Variable:                   educ   R-squared:                       0.474
Model:                            OLS   Adj. R-squared:                  0.473
Method:                 Least Squares   F-statistic:                     451.9
Date:                Mon, 24 May 2021   Prob (F-statistic):               0.00
Time:                        20:13:02   Log-Likelihood:                -6266.1
No. Observations:                3010   AIC:                         1.255e+04
Df Residuals:                    3003   BIC:                         1.259e+04
Df Model:                           6                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         16.6592      0.176     94.446      0.0

Como podemos ver, el coeficiente de nearc4 es positivo y altamente significativo, por lo que cumple con relevancia.
Para que se cumpla con validez se debe asegurar de incluir todas las variables relevantes (menos habilidad, la cual no tenemos) y argumentar el porque nuestra variable instrumental no esta correlacionada con el termino del error.

Ahora realicemos la regresión por MCO de la educación en el logaritmo del salario, para mas adelante realizar al regresión por MC2E y poder comparar.

#### Regresión de educ en lwage (mas controles) por MCO

In [7]:
X1 = df[['educ', 'exper' , 'expersq' , 'black' , 'smsa' , 'south']] 
X1 = sm.add_constant(X1)
Y1 = df.lwage
reg1 = sm.OLS(endog=Y1, exog=X1, missing = 'drop',)
reg1 = reg1.fit()
print(reg1.summary())

                            OLS Regression Results                            
Dep. Variable:                  lwage   R-squared:                       0.291
Model:                            OLS   Adj. R-squared:                  0.289
Method:                 Least Squares   F-statistic:                     204.9
Date:                Mon, 24 May 2021   Prob (F-statistic):          1.52e-219
Time:                        20:13:03   Log-Likelihood:                -1308.7
No. Observations:                3010   AIC:                             2631.
Df Residuals:                    3003   BIC:                             2673.
Df Model:                           6                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          4.7337      0.068     70.022      0.0

#### Regresión de educ en lwage (mas controles) por MC2E

In [8]:
formula = 'lwage ~ 1 + exper + expersq  + black + smsa + south + [educ ~ nearc4]'
regVI = IV2SLS.from_formula(formula, df)
regVI = regVI.fit()

In [9]:
print(regVI)

                          IV-2SLS Estimation Summary                          
Dep. Variable:                  lwage   R-squared:                      0.2252
Estimator:                    IV-2SLS   Adj. R-squared:                 0.2237
No. Observations:                3010   F-statistic:                    792.07
Date:                Mon, May 24 2021   P-value (F-stat)                0.0000
Time:                        20:13:03   Distribution:                  chi2(6)
Cov. Estimator:                robust                                         
                                                                              
                             Parameter Estimates                              
            Parameter  Std. Err.     T-stat    P-value    Lower CI    Upper CI
------------------------------------------------------------------------------
Intercept      3.7528     0.8167     4.5948     0.0000      2.1520      5.3536
exper          0.1075     0.0211     5.0916     0.00

In [10]:
#Para exportar las tablas en latex
from pystout import pystout

In [11]:
pystout(models=[reg1, regVI],
        file='VI.tex',
        addnotes=['*$p < 0.1$ , ** $p < 0.05$ , *** $p < 0.01$',
                  'Standar errors in parentheses.'],
        digits=3,
        endog_names=['MCO','MC2E'],
        varlabels={'const':'Constant','displacement':'Disp','mpg':'MPG'},
        mgroups={'(1)':[1,1],'(2)':[2,2]},
        modstat={'nobs':'Obs','rsquared':'R\sym{2}','fvalue':'F-stat'},
        stars={.1:'*',.05:'**',.01:'***'}
        )

![title](graphs/VI.png)

Como podemos ver, efectivamente teníamos problemas de endogeneidad. Al usar el método de MC2E el coeficiente de educ aumento en magnitud. Ahora, diremos que:

#### Ante un aumento de un año en la educación de las personas, el salario aumentara en promedio en 13.2%, siendo esta una estimación significativa al 5%.

Este es el final del quinto documento de Introducción a Python para el análisis de datos. Si necesitan cualquier cosa pueden ponerse en contacto conmigo al correo Juan.rinconp@javeriana.edu.co

Bibliografía:

- Wooldridge, Jeffrey M. (2018), Introductory Econometrics: A Modern Approach, Sixth Edition, Cengage Learning.

- Garlati, A. [Pablo Adrian Garlati]. (2020, Diciembre). Variables Instrumentales y Mínimos Cuadrados en dos Etapas [Archivo de video]. Disponible en: https://www.youtube.com/watch?v=1jYhcUvWv4g&t=4638s

- linearmodels. (2017) , Estimation Methods - IV2SLS. disponible en: https://bashtage.github.io/linearmodels/doc/iv/methods.html