# Introductory Econometrics: A modern approach
---

## Chapter 17: Limited Dependent Variable Models and Sample Selection Corrections

> Book: 

    - WOOLDRIDGE, J. M.. Introdução à econometria: uma abordagem moderna. 3a ed. São Paulo: Pioneira Thomson Learning, 2006.

    - WOOLDRIDGE, Jeffrey M. Introductory econometrics: A modern approach. Cengage learning, 2015.

> LINK to codes correction:

http://www.upfie.net/downloads17.html

# Packages

In [1]:
import pandas as pd
import numpy as np
import statsmodels.formula.api as smf
import statsmodels.api as sm 
import matplotlib.pyplot as plt
import scipy.stats as stats
import wooldridge as woo

# Introduction
---

Expansão dos **Modelos de Probabilidade Linear** (MPL) vistos no Capítulo 7 do livro-referência.

Veremos outros modelos da classe ampla de modelos que envolvem Variáveis Dependentes Limitadas (VPL, ou LDV em inglês).

## Relembrando o MPL

Os modelos em que LDV são analisadas possuem restrições em relação aos valores das variáveis dependentes. Isso ocorre principalmente quando lidamos com variáveis categóricas transformadas em números ou variáveis binárias.

Assim, o MPL funciona de forma similar às regressões para variáveis dependentes sem restrição, apenas com algumas modificações:

1. A variável dependente representa o sucesso (1) ou o fracasso (0) de um evento estudado;

2. A regressão representa o cálulo do valor esperado para o evento: a probabilidade de sucesso dado o conjunto de variáveis explicativas X;

3. Os $\beta$'s representam o efeito marginal de X **em termos de probabilidade** sobre a variável dependente y. 

4. A estimação é realizada por MQO, com menor preocupação em relação aos problemas convencionais da regressão linear para variáveis contínuas, como endogeneidade e simultaneidade.

### Problemas do MPL

Alguns problemas do MPL que serão endereçados pelos modelos estudados neste capítulo:

1. Para variáveis binárias de sucesso e fracasso, não há restirções matemáticas para que $\hat{y} > 1$ ou $\hat{y} < 0$, sendo que $y$ observado sempre obedecerá esse intervalo;

2. Sempre haverá heteroscedasticidade como problema inerente: a variância dos erros não é constante na amostra --> Questão teórica, dada a própria formalização de variância para variáveis discretas. 

3. Linearidade em todos os casos (inerente a problemas de regressão linear): assume o mesmo impacto dos $\beta$'s em y para variações em seus respectivos X's, independentemente do valor de X --> Exemplo mães e filhos. 

A principal pergunta para partir para outras abordagens é: **faz sentido ou não controlar para essas limitações?**

# 17.1: Logit and Probit Models for Binary Response

Ambos os modelos colocam a forma inicial de MPL como em uma função de distribuição (de probabilidade) acumulada, deixando clara a restrição:

- O valor da variável dependente, dados os parâmetros e as variáveis independentes, estará sempre entre 0 e 1, ou seja, o valor real observado. 

> **LMEBRE-SE**: A função de distribuição acumulada é a integral da função de densidade de probabilidade. Ou seja, a derivada da função de distribuição acumulada é a função de densidade de probabilidade. Na prática:

    - A primeira descreve completamente a distribuição de probabilidade, acumulando a probabilidade da variável aleatória assumir um dado valor ou de estar em um intervalo entre dois valores pontuais.

    - A segunda descreve como funciona a distribuição de probabilidade de uma variável aleatória: qual a chance de uma variável aleatória tomar um dado valor ou estar contida em algum intervalo de valor?

> Foco nos modelos de resposta binária = *binary response models*.

## Logit

A função de distribuição acumulada que define o modelo Logit é a **distribuição logística**.

## Probit

A função de distribuição acumulada que define o modelos Probit é a **distribuição Gausiana ou normal**.

## Características

1. Ambas podem ser derivadas de uma modelo de variável latente;

2. Assume-se que os erros do modelo são distribuídos em uma curva logística padrão ou normal padrão, e são independentes das variáveis exógenas X.

Nas aplicações, geralmente temos interesse em descovrir os efeitos parciais de X sobre y. Nesse casonão é diferente.

## Efeitos parciais (na média)

Em ambos os casos, os efeitos parciais, assim como na regressão linear para variáveis contínuas, é obtido pela derivada da equação que se desejaestimar em relação ao parâmetro de interesse. Contudo, há um ponto de atenção:

- Como temos uma função de distribuição acumulada, na qual a sua derivada é igual a função de densidade de probabilidade, teremos que encontrar o efeito parcial por meio da **regra da cadeia**: será igual à FDP multiplicada pelo próprio valor do parâmetro. (Ou seja, colocando os mesmos valores em todas as variáveis e variando o valor apenas para a variável de interesse e realizar as diferenças).

> LEMBRE-SE: o valor dos $\beta$'s é apenas o indicador da direção do efeito parcial, mas seu valor preciso deve ser obtido por meio do cálculo da darivada parcial, assim como descrito acima.

Com as devidas manipulações, podemos chegar do efeito pacial às **elasticidades**, mas com o cuidado para entender os efeitos percentuais sobre probabilidades, que também podem ser interpretadas em termos percentuais.

##  Maximum Likelihood Estimation of Logit and Probit Models

Como estimar?

- MPL (LPM): OLS ou WLS (MQO ou MQP)

- Probit e Logit: máxima verossimilhança (MLE --> maximum likelihood estimation).

Por que MLE?

- Como MLE trabalha sobre a distribuição de uma variável y dadas as independentes x, os efeitos da heteroscedasticidade citados acima já são controlados. 

Se estimássemos com OLS, nossos testes de hipóteses seriam inválidos.

Estima-se então a função log de verossimilhança e obtemos os estimadores do modelo logit (quando a distribuição é logística) e probit (quando se trata de uma distribuição normal). 

Sobre condições gerais, **os estimadores de MLE são consistentes, assintóticamente normais e eficientes**.

Podemos, então, conduzir testes de hipóteses da mesma forma que conduzimos nos demais capítulos.

## Hypotesis Tests

- Significância individual: teste t;

- Significância conjunta: 

1. teste de Wald: o equivalente do teste F para modelos de resposta binária

2. teste da razão de verossimilhança (likelihood ratio test):

> O teste LR segue a mesma lógica do teste F: enquanto o teste F mede o aumento na soma dos resíduos ao quadrado quando retiramso variáveis, o teste LR mede a redução da verossimilhança quando tiramos variáveis do modelo.

##  Interpreting the Logit and Probit Estimates

**Raciocínio contrafactual**: o estimador representa o efeito de x sobre a probabilidade de ocorrência do evento y.

***O que lembrar sobre os coeficientes?***

- Eles dão o sinal do efeito parcial de X sobre y;

- **Efeito parcial na média (PEA)**: quando as variáveis explanatórias são substituidas pela média amostral e vemos os efeitos das mudanças de X em y, na média.

    - Os efeitos de resposta de probabilidade para um 'indivíduo médio'.

    - *Problemas*: i) quando a variável é discreta (binária), a média n representará ninguém na amosta; ii) quando se trata de uma variável contínua apresentada sob a forma não linear, não sabemos se será melhor inserir a média sobre a forma não linear ou inserir o valor não linear médio ($\log(\overline{salary})$ ou $\overline{\log(salary)}$. 

- **Efeito parcial médio (APE)**: média dos efeitos parciais individuais ao longo da amostra. 

    - A escala dos valores pode ser alterada já que nesse caso, quando a variável é apresentada de forma não linear, o APE representa a média dessa função não linear - NÃO VAMOS PODER COMPARAR COM OS VALORES ENCONTRADOS POR OUTROS MÉTODOS DE ESTIMAÇÃO, POR EXEMPLO;

    - Outra forma de comparação é calcular o valor previsto dados os valor de X e comparar com o valor previsto caso alteremos um dos X's marginalmente.

    - O efeito parcial médio controla para todas as variáveis, alterando o valor de apenas uma, para obter seu efeito parcial sobre a resposta de probabilidade.

    - A somatória de cada diferença nas varições das variáveis na matriz X, divididas pelo número de observações;

    - Mais adequado para capturar efeitos parciais também em variáveis discretas.

    - RESUMINDO: Cálculo indivídual das diferenças de probabilidade, comparando os valores previstos contra os previstos dada uma variação em uma das variáveis exógenas, e posteriormente cálculo da média das diferenças de probabilidades individuais para chegar no APE.


> ***VALE LEMBRAR***: Em aplicações, pelas diferenças de escala nos coeficientes de efeitos parciais, é importante verificar as diferenças entre os coeficientes estimados nos modelos Probit, Logit e Linear de probabilidades (LPM) e para isso precisamos usar as regras de conversão!!!   

    - CONSULTAR REGRAS DE CONVERSÃO WOOLDRIDGE.

**R² e medidas de adequação do modelo**

- Nos modelos de variável dependente limitadas, em especial no Modelo Linear de Probabilidades, o R² representa a porcentagem corretamente prevista: a quantidade de acertos de previsão sobre o número total de observações.

> PROBLEMAS: podemos ter uma porcentagem de acerto alta mesmo prevendo mal os valores menos prováveis de ocorrência. No caso, a acurácia alta representaria apenas o fato de que estamos prevendo bem um evento que já possui alta probabilidade de ocorrência, mesmo que nossas previsões sobre os que tenham menor probabilidade sejam ruins.

Uma das formas de corrigir esses problema é ponderar a acurácia: corrigimos o percentual de acerto ponderando pela participação relativa da realização do evento (0 e 1) dentro da amostra.

Dependendo do caso, podemos mudar o valor do limite de classificação entre 0 e 1:

- Geralmente, o padrão é se $p >= 0.5$, teremos $\hat{y} = 1$ e $p < 0.5$, teremos $\hat{y} = 0$;

- Podemos alterar esses valores de acordo com a participação na amostra, ou com a probabilidade de ocorrência já conhecida do evento ou mesmo usando outra regra, mas nesse caso, temos mais chances de incorrer em erros de previsão no resultado final.

**Pseudo-R²: outras formas de mensurar o poder explicativo**

- Proposta de McFadden (1974);

- Os modelos Probit e Logit não possuem tanta relação assim com o R², logo uma melhor medida seriacalcular a correlação ao quadrado entre $\hat{y}$ e $y$.

> **VALE LEMBRAR**: o R² apesar de interessante, não é mais importante do que obter corretamente os coeficientes para entender os efeitos parciais de X sobre y.

### Example 17.1: Married Women’s Labor Force Participation

In [2]:
mroz = woo.data('mroz')
mroz.head()

Unnamed: 0,inlf,hours,kidslt6,kidsge6,age,educ,wage,repwage,hushrs,husage,...,faminc,mtr,motheduc,fatheduc,unem,city,exper,nwifeinc,lwage,expersq
0,1,1610,1,0,32,12,3.354,2.65,2708,34,...,16310.0,0.7215,12,7,5.0,0,14,10.91006,1.210154,196
1,1,1656,0,2,30,12,1.3889,2.65,2310,30,...,21800.0,0.6615,7,7,11.0,1,5,19.499981,0.328512,25
2,1,1980,1,3,35,12,4.5455,4.04,3072,40,...,21040.0,0.6915,12,7,5.0,0,15,12.03991,1.514138,225
3,1,456,0,3,34,12,1.0965,3.25,1920,53,...,7300.0,0.7815,7,7,5.0,0,6,6.799996,0.092123,36
4,1,1568,1,2,31,14,4.5918,3.6,2000,32,...,27300.0,0.6215,12,14,9.5,1,7,20.100058,1.524272,49


In [3]:
# OLS LPM 

reg_lin = smf.ols('inlf ~ nwifeinc + educ + exper + expersq + age + kidslt6 + kidsge6', data = mroz)
results_reg_lin = reg_lin.fit(cov_type = 'HC3')

# Logit

reg_logit = smf.logit('inlf ~ nwifeinc + educ + exper + expersq + age + kidslt6 + kidsge6', data = mroz)
results_logit = reg_logit.fit(disp = 0)

# Probit

reg_probit = smf.probit('inlf ~ nwifeinc + educ + exper + expersq + age + kidslt6 + kidsge6', data = mroz)
results_probit = reg_probit.fit(disp = 0)

# Printing results

print(results_reg_lin.summary(), results_logit.summary(), results_probit.summary(), sep = '\n\n')

                            OLS Regression Results                            
Dep. Variable:                   inlf   R-squared:                       0.264
Model:                            OLS   Adj. R-squared:                  0.257
Method:                 Least Squares   F-statistic:                     61.35
Date:                Mon, 18 Jul 2022   Prob (F-statistic):           1.55e-69
Time:                        14:35:53   Log-Likelihood:                -423.89
No. Observations:                 753   AIC:                             863.8
Df Residuals:                     745   BIC:                             900.8
Df Model:                           7                                         
Covariance Type:                  HC3                                         
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      0.5855      0.154      3.812      0.0

### Computing Average Partial Effects (APE)

In [4]:
coef_names = np.array(results_reg_lin.model.exog_names)
coef_names = np.delete(coef_names, 0) # dropando o intercepto que possui índice 0 no array


APE_logit = results_logit.get_margeff().margeff
APE_probit = results_probit.get_margeff().margeff

comp_table = pd.DataFrame({'APE_LPM' : np.round(results_reg_lin.params[1:], 4),
                           'APE_logit' : np.round(APE_logit, 4),
                           'APE_probit' : np.round(APE_probit, 4)})         

print(comp_table)

          APE_LPM  APE_logit  APE_probit
nwifeinc  -0.0034    -0.0038     -0.0036
educ       0.0380     0.0395      0.0394
exper      0.0395     0.0368      0.0371
expersq   -0.0006    -0.0006     -0.0006
age       -0.0161    -0.0157     -0.0159
kidslt6   -0.2618    -0.2578     -0.2612
kidsge6    0.0130     0.0107      0.0108


Dependendo da situação e dos valores em X, os modelos Probit e Logit diferenciam-se de LPM por superestimar ou subestimar valores relativamente.

## Problemas em Probit e Logit

- É possível testar a verificar problemas de endogeneidade nos modelos dados acima com o uso de MQ2E!;

- Probit: Se a variável de interesse não possui distribuição normal que pode ser aproximada pela padrão ela não pode ser estudada por meio de Probit;

- Pode haver ainda o problema da heteroscedasticidade, mas ocorre pouco em aplicações (o que invalida os efeitos parciais médios, dado que irão variar também de acordo com a variância que não é mais constante);

- Podem ser aplicados à dados em painel e, geralmente, também são usados para estimar impactos de experimentos naturais e políticas sociais.

# 17.2: The Tobit Model for Corner Solution Responses
---

## Example 17.2: Married Women’s Annual Labor Supply

In [5]:
import patsy as pt
import statsmodels.base.model as smclass

In [6]:
mroz = woo.data('mroz')
mroz.head()

Unnamed: 0,inlf,hours,kidslt6,kidsge6,age,educ,wage,repwage,hushrs,husage,...,faminc,mtr,motheduc,fatheduc,unem,city,exper,nwifeinc,lwage,expersq
0,1,1610,1,0,32,12,3.354,2.65,2708,34,...,16310.0,0.7215,12,7,5.0,0,14,10.91006,1.210154,196
1,1,1656,0,2,30,12,1.3889,2.65,2310,30,...,21800.0,0.6615,7,7,11.0,1,5,19.499981,0.328512,25
2,1,1980,1,3,35,12,4.5455,4.04,3072,40,...,21040.0,0.6915,12,7,5.0,0,15,12.03991,1.514138,225
3,1,456,0,3,34,12,1.0965,3.25,1920,53,...,7300.0,0.7815,7,7,5.0,0,6,6.799996,0.092123,36
4,1,1568,1,2,31,14,4.5918,3.6,2000,32,...,27300.0,0.6215,12,14,9.5,1,7,20.100058,1.524272,49


In [7]:
# criando matrizes para a regressão, a partir da base de dados inicial e do pacote patsy

y, X = pt.dmatrices('hours ~ nwifeinc + educ + exper + expersq + age + kidslt6 + kidsge6', data = mroz, return_type = 'dataframe')
print(y, X)

      hours
0    1610.0
1    1656.0
2    1980.0
3     456.0
4    1568.0
..      ...
748     0.0
749     0.0
750     0.0
751     0.0
752     0.0

[753 rows x 1 columns]      Intercept   nwifeinc  educ  exper  expersq   age  kidslt6  kidsge6
0          1.0  10.910060  12.0   14.0    196.0  32.0      1.0      0.0
1          1.0  19.499981  12.0    5.0     25.0  30.0      0.0      2.0
2          1.0  12.039910  12.0   15.0    225.0  35.0      1.0      3.0
3          1.0   6.799996  12.0    6.0     36.0  34.0      0.0      3.0
4          1.0  20.100058  14.0    7.0     49.0  31.0      1.0      2.0
..         ...        ...   ...    ...      ...   ...      ...      ...
748        1.0  28.200001  13.0    5.0     25.0  40.0      0.0      2.0
749        1.0  10.000000  12.0   14.0    196.0  31.0      2.0      3.0
750        1.0   9.952000  12.0    4.0     16.0  43.0      0.0      0.0
751        1.0  24.983999  12.0   15.0    225.0  60.0      0.0      0.0
752        1.0  28.363001   9.0   12.0  

In [8]:
# gerando a solução inicial

reg_ols = smf.ols('hours ~ nwifeinc + educ + exper + expersq + age + kidslt6 + kidsge6', data = mroz)
results_ols = reg_ols.fit()
sigma_start = np.log(sum(results_ols.resid ** 2) / len(results_ols.resid))
params_start = np.concatenate((np.array(results_ols.params), sigma_start), axis = None)

In [9]:
#  extend statsmodels class by defining nloglikeobs:
class Tobit(smclass.GenericLikelihoodModel):
    # define a function that returns the negative log likelihood per observation
    # for a set of parameters that is provided by the argument "params":
    def nloglikeobs(self, params):
        # objects in "self" are defined in the parent class:
        X = self.exog
        y = self.endog
        p = X.shape[1]
        # for details on the implementation see Wooldridge (2019), formula 17.22:
        beta = params[0:p]
        sigma = np.exp(params[p])
        y_hat = np.dot(X, beta)
        y_eq = (y == 0)
        y_g = (y > 0)
        ll = np.empty(len(y))
        ll[y_eq] = np.log(stats.norm.cdf(-y_hat[y_eq] / sigma))
        ll[y_g] = np.log(stats.norm.pdf((y - y_hat)[y_g] / sigma)) - np.log(sigma)
        # return an array of log likelihoods for each observation:
        return -ll

# results of MLE:
reg_tobit = Tobit(endog=y, exog=X)
results_tobit = reg_tobit.fit(start_params=params_start, maxiter=10000, disp=0)
print(f'results_tobit.summary(): \n{results_tobit.summary()}\n')

results_tobit.summary(): 
                                Tobit Results                                 
Dep. Variable:                  hours   Log-Likelihood:                -3819.1
Model:                          Tobit   AIC:                             7654.
Method:            Maximum Likelihood   BIC:                             7691.
Date:                Mon, 18 Jul 2022                                         
Time:                        14:35:57                                         
No. Observations:                 753                                         
Df Residuals:                     745                                         
Df Model:                           7                                         
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept    965.3057    446.433      2.162      0.031      90.314    1840.297
nwifeinc      -8.8142     



# Example 17.3: Poisson Regression for Number of Arrests

In [10]:
crime1 = woo.data('crime1')
crime1.head()

Unnamed: 0,narr86,nfarr86,nparr86,pcnv,avgsen,tottime,ptime86,qemp86,inc86,durat,black,hispan,born60,pcnvsq,pt86sq,inc86sq
0,0,0,0,0.38,17.6,35.200001,12,0.0,0.0,0.0,0,0,1,0.1444,144,0.0
1,2,2,0,0.44,0.0,0.0,0,1.0,0.8,0.0,0,1,0,0.1936,0,0.64
2,1,1,0,0.33,22.799999,22.799999,0,0.0,0.0,11.0,1,0,1,0.1089,0,0.0
3,2,2,1,0.25,0.0,0.0,5,2.0,8.8,0.0,0,1,1,0.0625,25,77.440002
4,1,1,0,0.0,0.0,0.0,0,2.0,8.1,1.0,0,0,0,0.0,0,65.610008


In [11]:
# Linear Model OLS

narres_lin = smf.ols('narr86 ~ pcnv + avgsen + tottime + ptime86 + qemp86 + inc86 + black + hispan + born60',
                     data=crime1)
results_narreslin = narres_lin.fit()
print(results_narreslin.summary())

                            OLS Regression Results                            
Dep. Variable:                 narr86   R-squared:                       0.072
Model:                            OLS   Adj. R-squared:                  0.069
Method:                 Least Squares   F-statistic:                     23.57
Date:                Mon, 18 Jul 2022   Prob (F-statistic):           3.72e-39
Time:                        14:35:57   Log-Likelihood:                -3349.7
No. Observations:                2725   AIC:                             6719.
Df Residuals:                    2715   BIC:                             6778.
Df Model:                           9                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      0.5766      0.038     15.215      0.0

In [12]:
# Poisson Model MLE

narres_poiss = smf.poisson('narr86 ~ pcnv + avgsen + tottime + ptime86 + qemp86 + inc86 + black + hispan + born60',
                            data = crime1)
results_narrespoiss = narres_poiss.fit(disp = 0)
print(results_narrespoiss.summary())

                          Poisson Regression Results                          
Dep. Variable:                 narr86   No. Observations:                 2725
Model:                        Poisson   Df Residuals:                     2715
Method:                           MLE   Df Model:                            9
Date:                Mon, 18 Jul 2022   Pseudo R-squ.:                 0.07910
Time:                        14:35:58   Log-Likelihood:                -2248.8
converged:                       True   LL-Null:                       -2441.9
Covariance Type:            nonrobust   LLR p-value:                 1.134e-77
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     -0.5996      0.067     -8.916      0.000      -0.731      -0.468
pcnv          -0.4016      0.085     -4.726      0.000      -0.568      -0.235
avgsen        -0.0238      0.020     -1.192      0.2

In [13]:
# Quasi-Poisson Model MLE

narres_qpoiss = smf.glm('narr86 ~ pcnv + avgsen + tottime + ptime86 + qemp86 + inc86 + black + hispan + born60',
                        data = crime1,
                        family = sm.families.Poisson())

# the argument scale controls for the dispersion in exponential dispersion models,
# see the module documentation for more details:

results_narresqpoiss = narres_qpoiss.fit(scale = 'X2', disp = 0)
print(results_narresqpoiss.summary())

                 Generalized Linear Model Regression Results                  
Dep. Variable:                 narr86   No. Observations:                 2725
Model:                            GLM   Df Residuals:                     2715
Model Family:                 Poisson   Df Model:                            9
Link Function:                    Log   Scale:                          1.5168
Method:                          IRLS   Log-Likelihood:                -1482.6
Date:                Mon, 18 Jul 2022   Deviance:                       2822.2
Time:                        14:35:58   Pearson chi2:                 4.12e+03
No. Iterations:                     8   Pseudo R-squ. (CS):            0.08923
Covariance Type:            nonrobust                                         
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     -0.5996      0.083     -7.239      0.0

In [14]:
coef_names = np.array(results_reg_lin.model.exog_names)
coef_names = np.delete(coef_names, 0) # dropando o intercepto que possui índice 0 no array


APE_logit = results_logit.get_margeff().margeff
APE_probit = results_probit.get_margeff().margeff

comp_table = pd.DataFrame({'APE_LPM' : np.round(results_reg_lin.params[1:], 4),
                           'APE_logit' : np.round(APE_logit, 4),
                           'APE_probit' : np.round(APE_probit, 4)})         

print(comp_table)

          APE_LPM  APE_logit  APE_probit
nwifeinc  -0.0034    -0.0038     -0.0036
educ       0.0380     0.0395      0.0394
exper      0.0395     0.0368      0.0371
expersq   -0.0006    -0.0006     -0.0006
age       -0.0161    -0.0157     -0.0159
kidslt6   -0.2618    -0.2578     -0.2612
kidsge6    0.0130     0.0107      0.0108


In [15]:
results_narreslin.params

Intercept    0.576566
pcnv        -0.131886
avgsen      -0.011332
tottime      0.012069
ptime86     -0.040873
qemp86      -0.051310
inc86       -0.001462
black        0.327010
hispan       0.193809
born60      -0.022465
dtype: float64

In [16]:
coef_narres = np.array(results_narreslin.model.exog_names)

coef_lin = results_narreslin.params
coef_qpoiss = results_narresqpoiss.params

comp_table_narres = pd.DataFrame({'COEF_LIN' : np.round(coef_lin, 3),
                                  'COEF_QPOIS' : np.round(coef_qpoiss, 3)})         

print(comp_table_narres)

           COEF_LIN  COEF_QPOIS
Intercept     0.577      -0.600
pcnv         -0.132      -0.402
avgsen       -0.011      -0.024
tottime       0.012       0.024
ptime86      -0.041      -0.099
qemp86       -0.051      -0.038
inc86        -0.001      -0.008
black         0.327       0.661
hispan        0.194       0.500
born60       -0.022      -0.051


# Example 17.4: Duration of Recidivism

In [17]:
recid = woo.data('recid')
recid

Unnamed: 0,black,alcohol,drugs,super,married,felon,workprg,property,person,priors,educ,rules,age,tserved,follow,durat,cens,ldurat
0,0,1,0,1,1,0,1,0,0,0,7,2,441,30,72,72,1,4.276666
1,1,0,0,1,0,1,1,1,0,0,12,0,307,19,75,75,1,4.317488
2,0,0,0,0,0,0,1,1,0,0,9,5,262,27,81,9,0,2.197225
3,0,0,1,1,0,1,1,1,0,2,9,3,253,38,76,25,0,3.218876
4,0,0,1,1,0,0,0,0,0,0,9,0,244,4,81,81,1,4.394449
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1440,0,1,1,1,0,0,0,0,0,0,12,0,393,8,80,80,1,4.382027
1441,1,0,0,1,1,1,0,1,0,0,12,0,345,12,73,73,1,4.290460
1442,1,0,0,0,0,0,1,0,0,0,11,3,264,36,81,81,1,4.394449
1443,0,0,0,1,1,0,1,0,0,0,12,0,374,9,81,81,1,4.394449


In [18]:
# Definindo a Dummy para as observações censuradas:

censored = recid['cens'] != 0 

y, X = pt.dmatrices('ldurat ~ workprg + priors + tserved + felon + alcohol + drugs + black + married + educ + age',
                    data = recid, 
                    return_type='dataframe')

In [23]:
# Gerando a solução inicial:

regOLS_recid = smf.ols('ldurat ~ workprg + priors + tserved + felon + alcohol + drugs + black + married + educ + age',
                       data = recid)
results_regOLS_recid = regOLS_recid.fit()
sigma_start = np.log(sum(results_regOLS_recid.resid ** 2) / len(results_regOLS_recid.resid))
params_start = np.concatenate((np.array(results_regOLS_recid.params), sigma_start),
                              axis=None)

In [24]:
# Definindo a classe de nloglikeobs:

class CensReg(smclass.GenericLikelihoodModel):
    def __init__(self, endog, cens, exog):
        self.cens = cens
        super(smclass.GenericLikelihoodModel, self).__init__(endog, exog,
                                                             missing='none')

    def nloglikeobs(self, params):
        X = self.exog
        y = self.endog
        cens = self.cens
        p = X.shape[1]
        beta = params[0:p]
        sigma = np.exp(params[p])
        y_hat = np.dot(X, beta)
        ll = np.empty(len(y))
        # uncensored:
        ll[~cens] = np.log(stats.norm.pdf((y - y_hat)[~cens] /
                                          sigma)) - np.log(sigma)
        # censored:
        ll[cens] = np.log(stats.norm.cdf(-(y - y_hat)[cens] / sigma))
        return -ll

In [25]:
# Resultados MLE:

regCens_recid = CensReg(endog = y, exog = X, cens = censored)
results_regCens_recid = regCens_recid.fit(start_params = params_start, maxiter = 10000, method = 'BFGS', disp = 0)
print(f'results_censReg.summary(): \n{results_regCens_recid.summary()}\n')

  ll[~cens] = np.log(stats.norm.pdf((y - y_hat)[~cens] /
  grad[k, :] = (f(*((x+ei,)+args), **kwargs) -
  ll[~cens] = np.log(stats.norm.pdf((y - y_hat)[~cens] /


results_censReg.summary(): 
                               CensReg Results                                
Dep. Variable:                 ldurat   Log-Likelihood:                -1597.1
Model:                        CensReg   AIC:                             3216.
Method:            Maximum Likelihood   BIC:                             3274.
Date:                Mon, 18 Jul 2022                                         
Time:                        15:03:15                                         
No. Observations:                1445                                         
Df Residuals:                    1434                                         
Df Model:                          10                                         
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      4.0994      0.348     11.796      0.000       3.418       4.781
workprg       -0.0626   



# Example 17.5 Wage Offer Equation for Married Women
---

In [26]:
mroz = woo.data('mroz')
mroz

Unnamed: 0,inlf,hours,kidslt6,kidsge6,age,educ,wage,repwage,hushrs,husage,...,faminc,mtr,motheduc,fatheduc,unem,city,exper,nwifeinc,lwage,expersq
0,1,1610,1,0,32,12,3.3540,2.65,2708,34,...,16310.0,0.7215,12,7,5.0,0,14,10.910060,1.210154,196
1,1,1656,0,2,30,12,1.3889,2.65,2310,30,...,21800.0,0.6615,7,7,11.0,1,5,19.499981,0.328512,25
2,1,1980,1,3,35,12,4.5455,4.04,3072,40,...,21040.0,0.6915,12,7,5.0,0,15,12.039910,1.514138,225
3,1,456,0,3,34,12,1.0965,3.25,1920,53,...,7300.0,0.7815,7,7,5.0,0,6,6.799996,0.092123,36
4,1,1568,1,2,31,14,4.5918,3.60,2000,32,...,27300.0,0.6215,12,14,9.5,1,7,20.100058,1.524272,49
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
748,0,0,0,2,40,13,,0.00,3020,43,...,28200.0,0.6215,10,10,9.5,1,5,28.200001,,25
749,0,0,2,3,31,12,,0.00,2056,33,...,10000.0,0.7715,12,12,7.5,0,14,10.000000,,196
750,0,0,0,0,43,12,,0.00,2383,43,...,9952.0,0.7515,10,3,7.5,0,4,9.952000,,16
751,0,0,0,0,60,12,,0.00,1705,55,...,24984.0,0.6215,12,12,14.0,1,15,24.983999,,225


In [27]:
# Passo 1 (usando todas as n observações para estimar o modelo probit para o viés de seleção daamostra - s_i em z_i):

probit_women = smf.probit('inlf ~ educ + exper + I(exper**2) + nwifeinc + age + kidslt6 + kidsge6',
                          data=mroz)
results_probit_women = probit_women.fit(disp = 0)
pred_inlf = results_probit_women.fittedvalues
mroz['inv_mills'] = stats.norm.pdf(pred_inlf) / stats.norm.cdf(pred_inlf)

In [29]:
# Passo 2 (regressão considerando a razão de Mills e apenas as mulheres na força de trabalho para verificar o viés)

reg_heckit = smf.ols('lwage ~ educ + exper + expersq + inv_mills',
                          subset = (mroz['inlf'] == 1), 
                          data = mroz)
results_heckit = reg_heckit.fit()

# Print results:

print(f'results_heckit.summary(): \n{results_heckit.summary()}\n')

results_heckit.summary(): 
                            OLS Regression Results                            
Dep. Variable:                  lwage   R-squared:                       0.157
Model:                            OLS   Adj. R-squared:                  0.149
Method:                 Least Squares   F-statistic:                     19.69
Date:                Mon, 18 Jul 2022   Prob (F-statistic):           7.14e-15
Time:                        15:53:12   Log-Likelihood:                -431.57
No. Observations:                 428   AIC:                             873.1
Df Residuals:                     423   BIC:                             893.4
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     -0.5781    