## Metodología 

<p style='text-align: justify;'>La metodología empírica que se utilizará para corregir el posible sesgo de selección se basa en el método propuesto por Heckman (1974) empleando los datos de la Encuesta Permanente de Hogares (EPH) correspondientes al tercer trimestre del 2018.</p>

<p style='text-align: justify;'>Para la aplicación de esta metodología se procedió primero, a estimar una ecuación de participación, a través del método Probit la cual relaciona la probabilidad de observar el salario de cada individuo a nivel. Segundo, se corrigió la estimación por MCO del sesgo de selección, como propone Heckman, incluyendo en la ecuación de salarios la variable IMR  que cuantifica la probabilidad predicha de observar el salario, la cual es a su vez estimada sobre la base de la ecuación Probit. Obtenidos los coeficientes corregidos podremos realizar la interpretación correcta de los resultados con los cuales rechazaremos o no la hipótesis de la existencia de sesgo de selección, analizaremos los retornos a la educación de los trabajadores argentinos y observaremos si existe una brecha salarial entre hombres y mujeres. Estos tres pasos se realizarán primero sin diferenciación de sexos, luego se tomaran exclusivamente a los hombres y por último a las mujeres.</p>

<p style='text-align: justify;'>La estimación empírica del modelo considera dos ecuaciones. La primera, corresponde a la variable de participación la cual es una variable dicotómica del tipo “participa” o “no participa” en términos de ser o no ser observado un ingreso del trabajo. Esta ecuación se interpreta como la forma reducida de un modelo en el cual la decisión de participación depende del salario de reserva y, por lo tanto, de características personales y de capital humano. Esta ecuación se supone lineal en los parámetros y permite estimar la probabilidad predicha de participación de un individuo con ciertas características.</p> 

<p style='text-align: justify;'>La segunda ecuación corresponde a la estimación del salario como función de variables de capital humano y de la probabilidad de participar en el mercado laboral, que llamamos el inverso de la razon de Mills (IMR). Esta última corresponde a un modelo de determinación de ingresos mediante el modelo de Mincer, corregido por la presencia de sesgo de selección.</p>

La siguiente es la especificación de las ecuaciones:

(7)  PART= $α_0+ α_1 EDUC+ α_2  EXPER+ α_3  EXPER2+ α_4  JEFEH+ α_5  ECIVIL+ α_6  SPUBLICO+μ $    

(8) LP21= $β_0+ β_1 EDUC+ β_2  EXPER+ β_3  EXPER2+ β_4  JEFEH+ β_5  ECIVIL+ β_6  SPUBLICO+ β_7  IMR +τ $             

<p style='text-align: justify;'>En la ecuación (7) la variable dependiente PART corresponde a una variable dicotómica que toma el valor 1 cuando la persona obtiene un ingreso positivo y cero en caso contrario;</p>

* EDUC son años de estudio formales; al cual le asignaremos 6 años para primario completo, 12 años para secundario completo, 14 para terciario completo y 16 para universitario completo.

* EXPER son años de experiencia potencial. La experiencia potencial se mide a través de la aproximación empírica EXPER=Edad-Educ-6. La aplicación de este proxy requiere necesariamente del cumplimiento de dos condiciones, la primera, que el inicio de la vida laboral comienza inmediatamente después de terminada la etapa escolar. La segunda, que la vida laboral debe ser ininterrumpida. Indudablemente, este supuesto es más discutible en el caso de los grupos caracterizados por altas tasas de desempleo.

* EXPER2 corresponde a la experiencia al cuadrado, se espera que tenga signo negativo.

* JEFEH es una variable dummy que toma el valor 1 si el individuo i es jefe de hogar, y el valor 0 en caso de no serlo.

* ECIVIL es una variable dicotómica que representa el estado civil tomando el valor 1 en el caso de que sea casado o conviviente y 0 en los restantes casos.

* SPUBLICO es una variable dummy que toma el valor 1 para aquellos que trabajan en el sector público y 0 de otro modo.

<p style='text-align: justify;'>En la ecuación (8) LP21 corresponde al logaritmo natural del salario;</p>

* IMR es la probabilidad (ajustada) de que el individuo i participe en el mercado del trabajo o en otras palabras el inverso de la razón de Mills.

* μ y τ son errores aleatorios que se asumen con media cero y varianza constante.

<p style='text-align: justify;'>En el caso de la ecuación (7), se espera que los parámetros asociados a variables que midan cambios en el costo del ocio tengan signo positivo; esto es, un aumento en el valor de dichas variables afectará positivamente la probabilidad de participar en el mercado. Sin embargo, este efecto dependerá del grado de sustitución en el trabajo fuera del mercado entre los miembros de la familia. Es decir, las variables de capital humano deben tener signo positivo, al igual que el parámetro asociado a la variable JEFEH. Por el contrario, los cambios en el ingreso permanente deberían ejercer un efecto negativo sobre la participación.</p>

<p style='text-align: justify;'>Con respecto a la ecuación (8), los signos esperados son los típicos de un modelo de capital humano, es decir, los parámetros de educación y experiencia deben tener signo positivo, mientras que la variable experiencia al cuadrado debería tener un efecto negativo y pequeño relativo al parámetro asociado a la variable EXPER.</p>

In [1]:
# Importamos las librerías 

import pandas as pd
import numpy as np
import math as mat
import statsmodels as sm
import statsmodels.api as sma
import statsmodels.formula.api as smf
import matplotlib.pyplot as plt
from matplotlib import cm
import seaborn as sns
import scipy.stats as scs

# Creamos un DataFrame en Pandas con los datos de la EPH del tercer trimestre del 2018

EPH= pd.read_csv('individual_2018.csv',sep=';')


In [2]:
#### Mantenemos sólo las variables que podrían ser relevantes para el estudio

EPH = EPH.filter(['REGION', 'AGLOMERADO', 'PONDERA','H15', 'ITF', 'IPCF', 'PONDIH','CH03', 
                'CH04', 'CH06', 'CH07', 'CH11', 'CH12', 'CH13', 'CH14', 
                'NIVEL_ED', 'ESTADO','CAT_OCUP','CAT_INAC','PP3E_TOT', 'PP3F_TOT', 'PP04A','PP04C', 
                'PP05B2_MES', 'PP05B2_ANO', 'PP08D1', 'P21', 'PONDIIO', 
                'Tot_p12', 'p47T', 'PONDII','T_Vi','PP04D_COD'])

In [3]:
# Creamos la variable PART. Es una variable dummy que toma el valor 1 cuando la persona obtiene un ingreso positivo y 0 en caso contrario
EPH['PART']= 0
EPH.loc[(EPH.P21>0), 'PART'] = 1

In [4]:
# Creamos la variable EDUC
EPH['EDUC'] = 0

# Eliminamos los que no corresponden
# Educación especial
EPH = EPH.drop(EPH[EPH.CH12==9].index)

# Ns./Nr. si finalizó el nivel
EPH = EPH.drop(EPH[EPH.CH13==9].index)

# Educación especial
EPH = EPH.drop(EPH[EPH.CH14==98].index)

# Ns./Nr. cuál fue el último nivel aprobado
EPH = EPH.drop(EPH[EPH.CH14==99].index)

# Reemplazamos los NaN's de CH14 por 0's
EPH['CH14'].fillna(0, inplace=True)

# Quitamos a los menores de 10 años
EPH = EPH.drop(EPH[EPH.ESTADO==4].index)

# preescolar incompleto y completa
EPH.loc[(EPH.CH12==1) & (EPH.CH13==2), 'EDUC'] = 0
EPH.loc[(EPH.CH12==1) & (EPH.CH13==1), 'EDUC'] = 0

# primaria incompleta y completa
EPH.loc[(EPH.CH12==2) & (EPH.CH13==2), 'EDUC'] = EPH['CH14']
EPH.loc[(EPH.CH12==2) & (EPH.CH13==1), 'EDUC'] = 6

# egb incompleto y completo
EPH.loc[(EPH.CH12==3) & (EPH.CH13==2), 'EDUC'] = EPH['CH14']
EPH.loc[(EPH.CH12==3) & (EPH.CH13==1), 'EDUC'] = 9

# secundario incompleto y completo
EPH.loc[(EPH.CH12==4) & (EPH.CH13==2), 'EDUC'] = EPH['CH14'] + 6
EPH.loc[(EPH.CH12==4) & (EPH.CH13==1), 'EDUC'] = 12

# polimodal incompleto y completo
EPH.loc[(EPH.CH12==5) & (EPH.CH13==2), 'EDUC'] = EPH['CH14'] + 9
EPH.loc[(EPH.CH12==5) & (EPH.CH13==1), 'EDUC'] = 12

# terciario incompleto y completo
EPH.loc[(EPH.CH12==6) & (EPH.CH13==2), 'EDUC'] = EPH['CH14'] + 12
EPH.loc[(EPH.CH12==6) & (EPH.CH13==1), 'EDUC'] = 14

# universitario incompleto y completo
EPH.loc[(EPH.CH12==7) & (EPH.CH13==2), 'EDUC'] = EPH['CH14'] + 12
EPH.loc[(EPH.CH12==7) & (EPH.CH13==1), 'EDUC'] = 17

# posgrado incompleto y completo
EPH.loc[(EPH.CH12==8) & (EPH.CH13==2), 'EDUC'] = EPH['CH14'] + 17
EPH.loc[(EPH.CH12==8) & (EPH.CH13==1), 'EDUC'] = 20

In [5]:
# Creamos la variable EXPER Y EXPER2
EPH['EDAD'] = EPH['CH06']
EPH['EXPER'] = EPH['EDAD']-EPH['EDUC']-6
EPH['EXPER2'] = EPH['EXPER']**2

In [6]:
# Creamos la variable JEFEH. Es una variable dummy que toma el valor 1 cuando el individuo es jefe de hogar y 0 si no lo es.
EPH['JEFEH']= 0
EPH.loc[(EPH.CH03==1), 'JEFEH'] = 1

In [7]:
# Creamos la variable ECIVIL. Es una variable dummy que toma el valor 1 si el individuo esta casado o en union y 0 si no lo esta.
EPH['ECIVIL']= 0
EPH.loc[(EPH.CH07==1), 'ECIVIL'] = 1
EPH.loc[(EPH.CH07==2), 'ECIVIL'] = 1

In [8]:
# Creamos la variable SPUBLICO. Es una variable dummy que toma el valor 1 si el individuo trabaja en el sector publico y 0 en caso contratrio
EPH['SPUBLICO']= 0
EPH.loc[(EPH.PP04A==1), 'SPUBLICO'] = 1


In [10]:
# Realizamos la primera parte del modelo que consiste en estimar una ecuación de participación, la cual relaciona la probabilidad de observar el salario de cada individuo, para poder obtener la inversa del ratio de Mills
model = smf.probit("EPH['PART'] ~ EPH['EDUC']+ EPH['EXPER'] + EPH['EXPER2'] + EPH['JEFEH'] + EPH['ECIVIL'] + EPH['SPUBLICO'] ", data=EPH
).fit()
model.summary()

Optimization terminated successfully.
         Current function value: 0.492522
         Iterations 6


0,1,2,3
Dep. Variable:,EPH['PART'],No. Observations:,47880.0
Model:,Probit,Df Residuals:,47873.0
Method:,MLE,Df Model:,6.0
Date:,"Fri, 05 Jul 2019",Pseudo R-squ.:,0.2708
Time:,14:31:27,Log-Likelihood:,-23582.0
converged:,True,LL-Null:,-32338.0
,,LLR p-value:,0.0

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
Intercept,-1.3514,0.023,-58.491,0.000,-1.397,-1.306
EPH['EDUC'],0.0143,0.002,7.790,0.000,0.011,0.018
EPH['EXPER'],0.0969,0.001,65.144,0.000,0.094,0.100
EPH['EXPER2'],-0.0019,2.61e-05,-71.837,0.000,-0.002,-0.002
EPH['JEFEH'],0.4912,0.015,31.749,0.000,0.461,0.522
EPH['ECIVIL'],0.1453,0.015,9.639,0.000,0.116,0.175
EPH['SPUBLICO'],1.1282,0.025,45.672,0.000,1.080,1.177


Los resultados empíricos de la ecuación (7) que se observan en el cuadro anterior muestran que todas las variables son significativas y poseen los signos que se presumían. EXPER y EXPER2 son significativas, y como era de esperarse esta última mencionada pose signo negativo, mostrando el efecto decreciente de la experiencia sobre el salario. Ser jefe de hogar, vivir en pareja o estar casado de igual manera que estar empleado en el sector público aumenta la probabilidad de participar como se preveía. 

In [11]:
# Calculamos y creamos la inversa del ratio de Mill a partir de la regresion anterior.
Ypred = model.predict(EPH[['EDUC']]+ EPH[['EXPER']] + EPH[['EXPER2']] + EPH[['JEFEH']] + EPH[['ECIVIL']] + EPH[['SPUBLICO']])
EPH['IMR'] = scs.norm.pdf(Ypred)/scs.norm.cdf(Ypred)

In [12]:
# Creamos la variable lP21 y eliminamos los individuos con ingresos iguales o menores a 0
EPH = EPH.drop(EPH[EPH.P21<=0].index)
EPH['LP21'] = np.log(EPH['P21'])

In [13]:
# Realizamos la segunda parte del modelo que consiste en corrigir el sesgo de selección en la estimación por MCO, usando el IMR 
model1 = smf.ols("EPH['LP21'] ~ EPH['EDUC']+ EPH['EXPER'] + EPH['EXPER2'] + EPH['ECIVIL'] + EPH['JEFEH'] + EPH['SPUBLICO'] + EPH['IMR']", data=EPH
).fit()
model1.summary()

0,1,2,3
Dep. Variable:,EPH['LP21'],R-squared:,0.239
Model:,OLS,Adj. R-squared:,0.239
Method:,Least Squares,F-statistic:,872.5
Date:,"Fri, 05 Jul 2019",Prob (F-statistic):,0.0
Time:,14:31:27,Log-Likelihood:,-21576.0
No. Observations:,19444,AIC:,43170.0
Df Residuals:,19436,BIC:,43230.0
Df Model:,7,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,8.5562,0.176,48.575,0.000,8.211,8.901
EPH['EDUC'],0.0719,0.002,43.572,0.000,0.069,0.075
EPH['EXPER'],0.0154,0.004,3.802,0.000,0.007,0.023
EPH['EXPER2'],-0.0002,7.68e-05,-2.622,0.009,-0.000,-5.09e-05
EPH['ECIVIL'],0.2362,0.013,18.385,0.000,0.211,0.261
EPH['JEFEH'],0.1762,0.022,8.074,0.000,0.133,0.219
EPH['SPUBLICO'],0.1360,0.038,3.586,0.000,0.062,0.210
EPH['IMR'],-0.9418,0.237,-3.972,0.000,-1.407,-0.477

0,1,2,3
Omnibus:,2517.597,Durbin-Watson:,1.748
Prob(Omnibus):,0.0,Jarque-Bera (JB):,4686.985
Skew:,-0.84,Prob(JB):,0.0
Kurtosis:,4.72,Cond. No.,59200.0


Respecto de la ecuación (8) y sus resultados mostrados en el cuadro N°2, al igual que en los resultados anteriores todas las variables son significativas y mantienen los mismos signos que en la ecuación anterior. La razón inversa de Mills nos dio significativa por lo que existe un sesgo de selección. Al realizar la ecuación (8) sin la variable IMR obtuvimos coeficientes mayores en todas las variables demostrando una vez más un sesgo de selección en la misma. La variable EDUC nos indica que la inversión en un año más de educación aumenta el salario en un 7,2% para los trabajadores argentinos.

## Resultados

Los resultados de la ecuación de Mincer obtenidos en las 3 notebooks muestran que en promedio para los hombres los retornos a la educación son del 7% y para las mujeres un 10%. Sin embargo, si no hay una diferenciación en el sexo la rentabilidad promedio de la educación es del 7.20%.
Respecto del sesgo de selección encontramos una fuerte presencia para el mercado laboral masculino, cuya corrección mediante la inversa de la razón de Mills provoca una gran disminución en los coeficientes obtenidos de la ecuación de Mincer, a tal punto que la experiencia deja de ser significativa en la misma.  Esto es debido a que hay una gran concentración de hombres que trabajan en el sector informal con salarios mayormente menores a los que si lo hacen en el sector formal o que poseen salarios de reserva mayores al salario que obtendrían empleándose. Por lo tanto, encontramos que esto un problema de la estructura del mercado laboral masculino argentino.

En relación con las mujeres no hay presencia de sesgo de selección, esto podría ser resultado de que la mayoría de las mujeres empleadas lo hacen el sector formal y, por lo tanto, tendrían las mismas características que aquellas que no observadas que son la minoría de este. Para finalizar, una vez mas si no realizamos una diferenciación en el sexo de los trabajadores, también observaremos la existencia del sesgo de selección, pero es debido a la fuerte presencia de este en el mercado laboral masculino como pudimos examinar anteriormente. 
