# Ejemplo de regresión Heckman - Modelo de selección de muestra

## 1. Importación de bibliotecas y datos

In [None]:
import pandas as pd
import statsmodels.api as sm
import numpy as np
import matplotlib.pyplot as plt
from statsmodels.iolib.summary2 import summary_col
import heckman as heckman

# Omiting WARNINGS
import warnings
warnings.filterwarnings('ignore')

In [None]:
# Read data
df = pd.read_stata('womenwk.dta')
df

El modelo de Heckman asume que el salario (wage) es una variable dependendiente que es determinada primero por un modelo binario.

Por su parte, las variables married, children, educ y age se asumen como determinantes de la probabilidad de observar el salario. 

Así, el modelo será un probit para:
$$wage_i = \beta_0 + \beta_1 educ_i + \beta_2 age_i + u_i$$

Asumimos que si el salario es observado, entonces la ecuación será:
$$wage_i^* = \gamma_0 + \gamma_1 married + \gamma_2 children + \gamma_3 educ + \gamma_4 age + v_i$$

Donde $wage_i$ toma valores de 1 o 0, y where $u_i$ and $v_i$ have correlation $\rho$. En resumen, asumiremos que el salario por hora es una función de la educación y la edad, mientras que la probabilidad de trabajar (la probabilidad de que se observe el salario) es una función del estado civil, el número de hijos en el hogar y (implícitamente) el salario ( a través de la inclusión de la edad y la educación, que creemos que determina el salario).

## 2. Generación y transformación de datos

In [None]:
#Variables
Y = df.wage
W = df[['married', 'children', 'education', 'age']]
W = sm.add_constant(W)

X = df[['education', 'age']]
X = sm.add_constant(X)

## 3. Estimación

In [None]:
# En dos etapas
res = heckman.Heckman(Y, X, W).fit(method='twostep')
print(res.summary())