#**Herramientas de econometría: Clase 2 Parte II**
##**El problema de la endogeneidad**



El caso que utilizaremos está tomado del ejemplo 15.5 del libro de Wooldridge (2010), en donde se trata de estimar una **ecuación de Mincer** en base a un clásico dataset de mujeres casadas del Reino Unido. 

La **ecuación de Mincer**, también llamada función de ingresos de Mincer, es un clásico modelo econométrico en donde la variable dependiente es el logaritmo de los salarios y las variables explicativas son los años de educación y los años de experiencia de los trabajadores más su cuadrado. El objetivo es estimar el **rendimiento de la educación**, es decir, el retorno sobre los ingresos por cada año de educación adicional, que en el modelo está representado por el coeficiente que mide el impacto de la educación sobre el logaritmo de los salarios. La experiencia es sólo una variable de control.

El problema, con este modelo, es que la educación suele ser un **regresor endógeno**, es decir, que está correlacionado con el término de error. Esto es porque la educación suele depender de otras variables, tales como por ejemplo la educación de los padres, cuyas variaciones, al no estar incluidas en el modelo como variables explicativas, son absorvidas por el término de error del modelo. Se viola así el supuesto de regresor exógeno o independencia entre las variables explicativas y el término de perturbación aleatoria, produciendo estimadores sesgados.

Incluir las variables que influyen sobre la educación en el modelo como variables explicativas no resolvería el problema porque no suelen ser buenas regresoras de los ingresos y provocarían otro problema más, uno de multicolinealidad con la educación. Por lo tanto, se resuelve aplicando el método de **variables instrumentales con mínimos cuadrados en 2 etapas (IV2SLS)**.

##**Preparación del entorno**

Importaremos las librerías que vamos a necesitar, pero como usaremos una función que viene en la librería `linearmodels` y ésta no viene integrada por defecto en la distribución que estamos utilizando, tendremos primero que instalar esta librería.

In [1]:
!pip install linearmodels     # usamos el sistema de gestión de paquetes estándar de Python (pip)

Collecting linearmodels
  Downloading linearmodels-4.24-cp37-cp37m-manylinux1_x86_64.whl (1.5 MB)
[K     |████████████████████████████████| 1.5 MB 3.1 MB/s 
[?25hCollecting property-cached>=1.6.3
  Downloading property_cached-1.6.4-py2.py3-none-any.whl (7.8 kB)
Collecting pyhdfe>=0.1
  Downloading pyhdfe-0.1.0-py3-none-any.whl (18 kB)
Collecting statsmodels>=0.11
  Downloading statsmodels-0.12.2-cp37-cp37m-manylinux1_x86_64.whl (9.5 MB)
[K     |████████████████████████████████| 9.5 MB 31.0 MB/s 
Collecting mypy-extensions>=0.4
  Downloading mypy_extensions-0.4.3-py2.py3-none-any.whl (4.5 kB)
Installing collected packages: statsmodels, pyhdfe, property-cached, mypy-extensions, linearmodels
  Attempting uninstall: statsmodels
    Found existing installation: statsmodels 0.10.2
    Uninstalling statsmodels-0.10.2:
      Successfully uninstalled statsmodels-0.10.2
Successfully installed linearmodels-4.24 mypy-extensions-0.4.3 property-cached-1.6.4 pyhdfe-0.1.0 statsmodels-0.12.2


Ahora sí realizamos la importación de las librerías y funciones que necesitaremos

In [2]:
import numpy as np
import pandas as pd
import statsmodels.api as sm 
from linearmodels.iv import IV2SLS   # aquí está la función IV2SLS que viene en el módulo iv de la librería linearmodels
import matplotlib.pyplot as plt
%matplotlib inline
plt.style.use("seaborn-white")

##**Importación y exploración de los datos**

Los datos están guardados en el archivo MROZ.csv en nuestra carpeta de actividades compartida en Google Drive. 

Importamos la base de datos en un data frame

In [6]:
path = 'https://drive.google.com/uc?export=download&id=1W-6f-V0y-rS_bJSaOv_3YXVtEmKJxDOv'
data = pd.read_csv(path)

Vemos las dimensiones de la base de datos

In [7]:
data.shape

(753, 22)

Exploramos los datos revisando algunas observaciones al azar

In [5]:
data.sample(8)

Unnamed: 0,inlf,hours,kidslt6,kidsge6,age,educ,wage,repwage,hushrs,husage,huseduc,huswage,faminc,mtr,motheduc,fatheduc,unem,city,exper,nwifeinc,lwage,expersq
639,0,0,0,3,53,6,,0.0,2040,54,4,1.8515,3777,0.9415,7,7,11.0,0,0,3.777,,0
30,1,1040,0,0,50,11,1.5385,0.0,1840,53,10,2.7821,6719,0.7515,7,7,7.5,1,32,5.11896,0.430808,1024
226,1,1250,0,2,42,12,4.0,4.0,2250,46,17,9.1702,25633,0.6215,7,7,7.5,1,7,20.632999,1.386294,49
173,1,1089,0,0,44,10,1.607,0.0,880,47,11,5.55,14884,0.7515,10,10,9.5,1,14,13.13398,0.474369,196
132,1,288,0,2,34,12,3.2986,4.62,1936,36,12,8.781,20155,0.6915,12,16,11.0,1,10,19.205,1.193498,100
439,0,0,0,3,32,12,,0.0,2352,37,7,7.0578,16600,0.7215,10,7,5.0,0,8,16.6,,64
54,1,1599,0,0,52,10,1.8762,2.8,2100,47,4,3.8095,11000,0.7515,7,3,7.5,0,34,7.999956,0.629248,1156
396,1,1920,0,0,55,6,1.9792,2.58,1960,58,8,5.3327,15428,0.7215,7,7,7.5,0,37,11.62794,0.682693,1369


Un problema de esta base de datos, como podemos notar en la salida anterior, es que tiene datos faltantes. Veamos en qué variables están y cuántos son.

In [None]:
data.isna().sum()    # con isna() identificamos dónde están los datos faltantes y con .sum() los contamos

inlf          0
hours         0
kidslt6       0
kidsge6       0
age           0
educ          0
wage        325
repwage       0
hushrs        0
husage        0
huseduc       0
huswage       0
faminc        0
mtr           0
motheduc      0
fatheduc      0
unem          0
city          0
exper         0
nwifeinc      0
lwage       325
expersq       0
dtype: int64

Observar que los datos faltantes están todos ubicados en la variable "wage" (salario) y en su logaritmo natural, "lwage", que justo será nuestra variable dependiente o de respuesta de interés para el modelo. 

En realidad no se trata de un problema de datos faltantes como tales. Observar en la muestra que los datos que faltan de los salarios corresponden a las filas en donde la variable "inlf" es igual a 0. Esto es porque esta variable es justamente una indicadora de si la mujer trabaja (1) o no trabaja (0). Por lo tanto, no tenemos los salarios de estas mujeres porque no trabajan.

Suponiendo entonces que nuestro objetivo es estimar el retorno de la educación exclusivamente para las mujeres trabajadoras, eliminaremos entonces las filas (observaciones) correspondientes a las mujeres que no trabajan.

Para esto redefinimos nuestro dataframe extrayendo de la base anterior sólo aquellos registros que no tengan datos perdidos (not NA) del logaritmo del salario con ayuda de la función `notna()`.

In [None]:
data = data[data["lwage"].notna()]

Verifiquemos que la base no tenga más datos faltantes o perdidos y las nuevas dimensiones

In [None]:
data.isna().sum()

inlf        0
hours       0
kidslt6     0
kidsge6     0
age         0
educ        0
wage        0
repwage     0
hushrs      0
husage      0
huseduc     0
huswage     0
faminc      0
mtr         0
motheduc    0
fatheduc    0
unem        0
city        0
exper       0
nwifeinc    0
lwage       0
expersq     0
dtype: int64

In [None]:
data.shape

(428, 22)

##**Contraste de Hausman**

Ahora que tenemos limpia la base, nos enfoquemos en el modelo que se desea estimar: una ecuación de Mincer para el salario de las mujeres.

Para esto resulta conveniente primero identificar las variables del modelo y qué rol cumple cada una, asignando los diferentes tipos de variables a objetos distintos.

In [None]:
Y1 = data["lwage"]                 # Variable dependiente del modelo
Y2 = data["educ"]                  # Regresora sospechosa de endógena
X = data[["exper", "expersq"]]     # Regresoras exógenas
Z = data[["motheduc", "fatheduc"]] # Instrumentos

Ya estamos en condiciones de probar la endogeneidad de la educación aplicando el **contraste de Hausman**. Para esto, el primer paso es realizar una regresión OLS de la educación en función de una constante, las regresoras exógenas y las variables propuestas como instrumentos. 

Para simplificar el código resulta conveniente agrupar las variables explicativas de esta regresión auxiliar en un solo objeto. Esto lo podemos hacer concatetando horizontalmente los dataframes que tenemos creados en X (regresoras exógenas) y Z (instrumentos).

In [None]:
frames = [X, Z]                                 # armamos una lista de los data frames que nos interesan
RegresorasAux = pd.concat(frames, axis = 1)     # concatenamos los elementos de la lista, axis = 1 indica que la concatenación es horizontal

Ahora sí podemos obtener la regresión auxiliar que requiere el **contraste de Hausman**.

In [None]:
RegresionAux = sm.OLS(Y2, sm.add_constant(RegresorasAux))
ResultadosAux = RegresionAux.fit()
print(ResultadosAux.summary())

                            OLS Regression Results                            
Dep. Variable:                   educ   R-squared:                       0.211
Model:                            OLS   Adj. R-squared:                  0.204
Method:                 Least Squares   F-statistic:                     28.36
Date:                Tue, 31 Aug 2021   Prob (F-statistic):           6.87e-21
Time:                        12:24:49   Log-Likelihood:                -909.72
No. Observations:                 428   AIC:                             1829.
Df Residuals:                     423   BIC:                             1850.
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          9.1026      0.427     21.340      0.0

Obsérvese que los coeficientes estimados de las variables instrumentales resultaron significativos cada uno en forma individual. Significa que la educación de la madre y la educación del padre son instrumentos relevantes porque efectivamente están correlacionadas con la educación.

Pero para probar esto de una manera más formal es necesario verificar si estos coeficientes de las variables instrumentales también son significativamente distintos de cero en forma conjunta. Para esto podemos llevar adelante un **contraste F de significación conjunta de parámetros**.

In [None]:
hipotesis = "(fatheduc=0),(motheduc=0)"          # definimos las restricciones de la hipótesis nula
Prueba_F = ResultadosAux.f_test(hipotesis)       # aplicamos el método f_test() sobre las hipótesis      
print(Prueba_F)                                  # imprimimos los resultados

<F test: F=array([[55.40030043]]), p=4.26890872463123e-22, df_denom=423, df_num=2>


El resultado de utilizar el método `f_test()` es un objeto de tipo `ContrastResults()` que incluye como atributos al estadístico F, al p-value y a los grados de libertad del contraste. Para presentar de una manera más agradable estos resultados podemos hacer lo siguiente...

In [None]:
Estadístico = Prueba_F.statistic[0].item(0)         # extraemos y guardamos el estadístico F
pvalue = Prueba_F.pvalue.item(0)                    # extraemos y guardamos el p-value
Nombres = ["Estadístico", "p-value"]                # asignamos nombres para armar la tabla de resultados
pd.Series([Estadístico, round(pvalue, 4)], index = Nombres)   # armamos la tabla de resultados

Estadístico    55.4003
p-value         0.0000
dtype: float64

El p-value aproximadamente igual a cero indica que debemos rechazar la hipótesis nula de que ambos coeficientes son conjuntamente iguales a cero, confirmando la relevancia de las variables instrumentales.

Guardemos los residuos de esta regresión auxiliar, también los valores ajustados porque los necesitaremos más adelante. Será conveniente también agregar estos resultados a nuestro data frame general para facilitar algunas salidas posteriores.

In [None]:
data["residuos"] = ResultadosAux.resid                 # guardamos los residuos en nuestro data frame
data["valores_ajustados"] = ResultadosAux.predict()    # también guardamos los valores ajustados

Verificamos si se agregaron correctamente

In [None]:
data.sample(4)

Unnamed: 0,inlf,hours,kidslt6,kidsge6,age,educ,wage,repwage,hushrs,husage,huseduc,huswage,faminc,mtr,motheduc,fatheduc,unem,city,exper,nwifeinc,lwage,expersq,residuos,valores_ajustados
115,1,1280,0,0,49,11,0.5,0.0,2272,52,9,6.162,15389,0.7215,7,7,7.5,1,20,14.749,-0.693147,400,-1.03353,12.03353
35,1,690,0,1,42,11,2.4638,0.0,1896,44,8,5.538,15897,0.7515,10,3,7.5,0,0,14.19698,0.901705,0,-0.247256,11.247256
427,1,490,0,1,30,12,4.0816,2.46,2430,33,11,6.5844,18000,0.6915,12,12,7.5,1,7,16.000019,1.406489,49,-1.535518,13.535518
26,1,525,0,0,59,12,4.0,3.18,2448,53,16,6.5359,18100,0.6915,3,7,9.5,1,31,16.0,1.386294,961,0.665478,11.334522


Ahora estimamos el modelo de interés, pero agregando los residuos de la regresión auxiliar como una variable explicativa más. Nuevamente, primero resulta conveniente agrupar todas las variables exógenas de esta nueva regresión en un solo objeto.

In [None]:
frames2 = [Y2, X, data["residuos"]]                        # armamos una lista con los data frames que nos interesan 
RegresorasHausman = pd.concat(frames2, axis = 1)           # concatenamos los elementos de la lista, axis = 1 indica que la concatenación es horizontal
RegresionHausman = sm.OLS(Y1, sm.add_constant(RegresorasHausman))   # especificamos el modelo a estimar por OLS
ResultadosHausman = RegresionHausman.fit()                          # ajustamos el modelo
print(ResultadosHausman.summary())                                  # vemos los resultados

                            OLS Regression Results                            
Dep. Variable:                  lwage   R-squared:                       0.162
Model:                            OLS   Adj. R-squared:                  0.154
Method:                 Least Squares   F-statistic:                     20.50
Date:                Tue, 31 Aug 2021   Prob (F-statistic):           1.89e-15
Time:                        12:32:25   Log-Likelihood:                -430.19
No. Observations:                 428   AIC:                             870.4
Df Residuals:                     423   BIC:                             890.7
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          0.0481      0.395      0.122      0.9

Observar que los residuos no son significativos al 5 %, pero sí al 10 %. Esto podría confirmar entonces que la educación es un regresor endógeno.

##**Variables instrumentales con mínimos cuadrados en 2 etapas**

Para corregir el problema de endogeneidad de la variable educación aplicaremos el método de **variables instrumentales con mínimos cuadrados en 2 etapas (IV2SLS)**. En Python esto se puede hacer de dos maneras, una manual en dos pasos y otra automática en un solo. Teniendo ya estimada la regresión auxiliar que hizo falta para el contraste de Hausman y como esta es también la regresión auxiliar de la primera etapa del método IV2SLS, resulta práctico completar el proceso manual simplemente estimando ahora el modelo original, pero reemplazando la regresora endógena por los valores ajustados de esta variable que guardamos de la regresión auxiliar. 

In [None]:
frames3 = [X, data["valores_ajustados"]]                            # armamos una lista con los data frames que nos interesan
RegresorasSegundaEtapa = pd.concat(frames3, axis = 1)               # concatenamos los elementos de la lista, axis = 1 indica que la concatenación es horizontal
RegresionSegundaEtapa = sm.OLS(Y1, sm.add_constant(RegresorasSegundaEtapa))   # especificamos el modelo a estimar por OLS
ResultadosSegundaEtapa = RegresionSegundaEtapa.fit()                          # ajustamos el modelo
print(ResultadosSegundaEtapa.summary())                                       # vemos los resultados

                            OLS Regression Results                            
Dep. Variable:                  lwage   R-squared:                       0.050
Model:                            OLS   Adj. R-squared:                  0.043
Method:                 Least Squares   F-statistic:                     7.405
Date:                Tue, 31 Aug 2021   Prob (F-statistic):           7.62e-05
Time:                        12:54:28   Log-Likelihood:                -457.17
No. Observations:                 428   AIC:                             922.3
Df Residuals:                     424   BIC:                             938.6
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                        coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------------
const                 0.0481      0.42

El único problema que tiene llevar a cabo de forma manual esta segunda etapa del método IV2SLS es que los coeficientes estimados son los correctos, pero no sus errores estándar (explicación en Wooldridge, p. 522). Afortunadamente, la mayoría de los software incluyen algún paquete o función que resuelve este problema. Python no es la excepción y permite aplicar el método de IV2SLS en un solo paso de manera automática con la función `IV2SLS()` del módulo `iv` de la librería `linearmodels` que oportunamente importamos. Esta función requiere que en los argumentos se explicite claramente el rol de las variables.

In [None]:
Modelo2Etapas = IV2SLS(dependent = Y1, exog = sm.add_constant(X), endog = Y2, instruments = Z)  # especificamos el modelo
ResultadosModelo2Etapas = Modelo2Etapas.fit()            # ajustamos el modelo
print(ResultadosModelo2Etapas.summary)                   # vemos los resultados

                          IV-2SLS Estimation Summary                          
Dep. Variable:                  lwage   R-squared:                      0.1357
Estimator:                    IV-2SLS   Adj. R-squared:                 0.1296
No. Observations:                 428   F-statistic:                    18.611
Date:                Tue, Aug 31 2021   P-value (F-stat)                0.0003
Time:                        13:07:39   Distribution:                  chi2(3)
Cov. Estimator:                robust                                         
                                                                              
                             Parameter Estimates                              
            Parameter  Std. Err.     T-stat    P-value    Lower CI    Upper CI
------------------------------------------------------------------------------
const          0.0481     0.4278     0.1124     0.9105     -0.7903      0.8865
exper          0.0442     0.0155     2.8546     0.00

Observar que, por defecto, la función `IV2SLS()` estima los errores estándares con un método robusto (HC0). Por lo tanto, si hubiera un problema de heteroscedasticidad, lo estaría corrigiendo automáticamente.

De esta manera hemos corregido la endogeneidad de la educación en un solo paso y con muy pocas líneas de código.

##**Comparación de modelos**

Podemos ver cuáles hubieran sido las diferencias con una estimación OLS.

In [None]:
frames4 = [X, Y2]                                      # armamos un lista de las variables explicativas
RegresorasOLS = pd.concat(frames4, axis = 1)           # concatenamos estas variables en un solo data frame
ModeloOLS = sm.OLS(Y1, sm.add_constant(RegresorasOLS)) # especificamos un ajuste por OLS
ResultadosOLS = ModeloOLS.fit(cov_type = "HC0")        # pedimos que los errores estándares sean robustos
print(ResultadosOLS.summary())                         # vemos los resultados

                            OLS Regression Results                            
Dep. Variable:                  lwage   R-squared:                       0.157
Model:                            OLS   Adj. R-squared:                  0.151
Method:                 Least Squares   F-statistic:                     27.56
Date:                Tue, 31 Aug 2021   Prob (F-statistic):           2.68e-16
Time:                        13:48:00   Log-Likelihood:                -431.60
No. Observations:                 428   AIC:                             871.2
Df Residuals:                     424   BIC:                             887.4
Df Model:                           3                                         
Covariance Type:                  HC0                                         
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
const         -0.5220      0.201     -2.601      0.0

Para comparar los resultados de los diferentes modelos resulta muy útil la función `compare()` del módulo `iv` de la librería `linearmodels`, pero requiere que todos los ajustes sean obtenidos con la función `IV2SLS()`.

In [None]:
ResultadosOLS = IV2SLS(dependent = Y1, exog = sm.add_constant(RegresorasOLS),
        endog = None, instruments = None).fit()     # ajuste OLS
ResultadosManual = IV2SLS(dependent = Y1, exog = sm.add_constant(RegresorasSegundaEtapa),
        endog = None, instruments = None).fit()     # ajuste IV2SLS manual 
ResultadosAutomatico = IV2SLS(dependent = Y1, exog = sm.add_constant(X),
        endog = Y2, instruments = Z).fit()          # ajuste IV2SLS automático
from linearmodels.iv import compare                 # importamos la función compare
print(compare({"OLS": ResultadosOLS, "IV2SLS Manual": ResultadosManual,
        "IV2SLS Automático": ResultadosAutomatico}))    # comparamos los resultados

                          Model Comparison                         
                                OLS IV2SLS Manual IV2SLS Automático
-------------------------------------------------------------------
Dep. Variable                 lwage         lwage             lwage
Estimator                       OLS           OLS           IV-2SLS
No. Observations                428           428               428
Cov. Est.                    robust        robust            robust
R-squared                    0.1568        0.0498            0.1357
Adj. R-squared               0.1509        0.0431            0.1296
F-statistic                  82.671        17.111            18.611
P-value (F-stat)             0.0000        0.0007            0.0003
const                       -0.5220        0.0481            0.0481
                          (-2.6010)      (0.1071)          (0.1124)
exper                        0.0416        0.0442            0.0442
                           (2.7344)      (2.7045

Observar que entre paréntesis están indicados los estadísticos **t** de los contrastes de significación. Lo habitual no es presentar de esta manera los resultados, sino colocar entre paréntesis los errores estándares. Para esto se puede usar utilizar la opción `precision = "std_errors"`.

In [None]:
print(compare({"OLS": ResultadosOLS, "IV2SLS Manual": ResultadosManual,
        "IV2SLS Automático": ResultadosAutomatico}, precision = "std_errors"))

                         Model Comparison                         
                               OLS IV2SLS Manual IV2SLS Automático
------------------------------------------------------------------
Dep. Variable                lwage         lwage             lwage
Estimator                      OLS           OLS           IV-2SLS
No. Observations               428           428               428
Cov. Est.                   robust        robust            robust
R-squared                   0.1568        0.0498            0.1357
Adj. R-squared              0.1509        0.0431            0.1296
F-statistic                 82.671        17.111            18.611
P-value (F-stat)            0.0000        0.0007            0.0003
const                      -0.5220        0.0481            0.0481
                          (0.2007)      (0.4492)          (0.4278)
exper                       0.0416        0.0442            0.0442
                          (0.0152)      (0.0163)          (0.0