# Estimadores de Dados em Painel

Prof. Daniel de Abreu Pereira Uhr


## Conteúdo
* Estimadores de Dados em Painel
  * Motivação Teórica
  * Modelos Clássicos de Estimadores de Dados em Painel
    * Pooled OLS - MQO para dados empilhados
    * Mínimos Quadrados com variáveis dummies (Least Squares Dummy Variables - LSDV)
    * Modelo de Efeitos Fixos dentro de um grupo (Fixed Effects – FE - *Within-model*)
    * Modelo Between (Between-model - BE)
    * Modelo de Efeitos Aleatórios (Randon Efects - RE)
    * Método das Primeiras Diferenças (First Difference – FD)
  * Explicação do R² nos Modelos de Dados em Painel
  * Testes para seleção do modelo
    * Breusch-Pagan
    * Hausman
* Aplicação na Literatura
* Considerações

### Referências

ver: https://github.com/py-econometrics/pyfixest 

**Principais**

* Wooldridge, J. M. (2015) Introdução à Econometria: uma abordagem moderna. Cengage Learning.
* Gujarati, D. N. (2006). Econometria Básica. Elsevier.
* Uhr, D. A. P., Chagas, A. L. S., Uhr, J. G. Z. (2019). Estimation of elasticities for electricity demand in Brazilian households and policy implications" Energy Policy. https://doi.org/10.1016/j.enpol.2019.01.061
* Uhr, J. G. Z., Uhr, D. A. P. (2014). Infrações Ambientais e a Reputação do Regulador: Análise em Dados de Painel para o Brasil",Estudos Econômicos (USP). https://doi.org/10.1590/S0101-41612014000100003
* Breusch, T. S., and A. R. Pagan. 1980.  The Lagrange multiplier test and its applications to model specification in econometrics. Review of Economic Studies 47: 239–253. https://doi.org/10.2307/2297111.
* Baltagi, B. H., and Q. Li. 1990. A Lagrange multiplier test for the error components model with incomplete panels. Econometric Reviews 9: 103–107. https://doi.org/10.1080/07474939008800180.
* Hausman, J.A. (1978). Specification Tests in Econometrics, Econometrica, 46 (6), 1251–1271


**Complementares**
* Baltagi, B. H. (2008). Econometric analysis of panel data. John Wiley & Sons.
* Wooldridge, J. M. (2002). Econometric analysis of cross section and panel data. MIT press. - Capítulo 11
* Cameron, A. C.; Trivedi, P. K. (2005). Microeconometrics: Methods and Applications. Cambridge University Press. - Capítulo 22
* Alejo, J., A. Galvao, G. Montes-Rojas, and W. Sosa-Escudero, (2015). Tests for normality in linear panel-data models. Stata Journal 15: 822–832.
* Sosa-Escudero, W., and A. K. Bera, (2008). Tests for unbalanced error-components models under local misspecification.  Stata Journal 8: 68–78.
* Verbeke, G., and G. Molenberghs, (2003). The use of score tests for inference on variance components. Biometrics 59: 254–262. https://doi.org/10.1111/1541-0420.00032.
* Gourieroux, C. and Monfort, A. (1995). Statistics and Econometric Models, Volume 2, Cambridge University Press. pg 125-128. https://jeanmariedufour.research.mcgill.ca/ResE/ECON706_2022W/Gourieroux_Monfort_1995_Bk_CambridgeUP_StatisticsEconometricModels_Vol2.pdf 



---

## Estimadores de Dados em Painel

A estrutura de "Dados em Painel" combinam informações de corte transversal e de séries temporais. Os **dados em painel** (Painel de Dados) são também conhecidos como **dados longitudinais** ou **dados de séries temporais cruzadas**. Essa estrutura de dados possibilita acompanhar os indivíduos no decorrer do tempo. 

A estrutura de dados em painel possui (pelo menos) duas dimensões, temos uma seção transversal (cross-section) de tamanho ($N$) e uma seção temporal (time-series) de tamanho ($T$). Onde $N$ representa o número de indivíduos e $T$ o número de períodos de tempo. Usualmente, a dimensão temporal do painel é menor que a dimensão individual, logo $T < N$. Isso ocorre porque os dados em painel são usualmente orientados para **uma análise entre indivíduos**, e a heterogeneidade entre os indivíduos (unidades) é o foco da análise. Os dados em painel são muito utilizados em estudos de economia, engenharia de produção, finanças, sociologia, demografia, epidemiologia, ecologia, física,  meteorologia, entre outras.

Definimos um **Painel Balanceado** como um painel onde todos os indivíduos são observados em todos os períodos de tempo. E, um **Painel Desbalanceado** é um painel onde nem todos os indivíduos são observados em todos os períodos de tempo.

**Tipos de Painel**:
* Painel Curto ($N>T$)
* Painel Longo ($N<T$)

**Tamanho da amostra** é maior nessa estrutura de dados (número de observações é NxT)

Segundo Baltagi (2008): 
* i. Dados mais informativos; 
* ii. Maior variabilidade nos dados; 
* iii. Menores colinearidades entre variáveis; 
* iv. Mais graus de liberdade;
* v. Mais eficiência.

Há pelo menos **duas dimensões** na estrutura de painel, e elas nos possibilitam controlar:
* **Cross-section**: reflete *mudança entre os indivíduos/grupos (Between groups)*
* **Temporal**: reflete as *mudanças temporais no indivíduo/grupo (Within groups).*

Essa estrutura de dados possibilita analisar **dinâmica de eventos** e controlar o efeito de variáveis não observáveis (**possível fonte de endogeneidade**).

**Outras definições importantes**:

* **Heterogeneidade (individual)** ou **Efeitos Fixos** são características fixas não observadas de cada indivíduo estudado (ou grupo).
  * Os indivíduos podem ser: empresas, cidades, estados, países, etc...

* **Efeitos Fixos temporais** são as características fixas não observadas que afetaram em todos os indivíduos no período específico.
  * A frequência dos efeitos fixos de tempo pode ser: Diárias, Semanais, Anuais, etc...


* **Efeitos fixos unidirecionais (one-way)**: Modelo econométrico que considera apenas os efeitos fixos do indivíduo (ou grupo).

* **Efeitos fixos bidimencionais (two-way)**: Modelo econométrico que considera considera tanto efeitos indivíduais quanto temporais.

### Motivação Teórica

A **motivação teórica** para os estimadores de Dados em painel recai sobre o **problema da variável omitida** ou **viés por características não observáveis** (assim como vimos no caso dos métodos de IV/2SLS/GMM/Eq.Simultâneas e Ident.Parcial).

O **problema da variável omitida** ocorre quando uma variável explicativa relevante é omitida do modelo. Assim, assuma que o pesquisador sabe que uma variável não observável individual ($\alpha_{i}$) é importante para o modelo, e se ela não for incluída no modelo como uma variável explicativa, ela será incluída no termo de erro. Assim, o termo de erro será correlacionado com as variáveis explicativas, e o estimador MQO será inconsistente. Considere o exemplo para o modelo de regressão dos salários dos indivíduos:

$$ ln(Salários)_{it} = \beta_{0} + \beta_{1}Union_{it} + \beta_{2}Married_{it} + \beta_{3}Expr^{2}_{it} + (\alpha_{i} + u_{it}) $$

Repare que essa variável $\alpha_{i}$ tem apenas o subscrito $i$, logo, ela é diferente para cada indivíduo, entretanto, permanece a mesma no decorrer do tempo (por isso é chamada de Efeito Fixo Individual). Podemos assumir que a **disciplina nos estudos** (motivação ou nível de disciplina do indivíduo) é uma variável não observável pelo pesquisador e constante no tempo para cada indivíduo. Se essa variável estiver correlacionada com as variáveis explicativas, o estimador MQO será enviesado e inconsistente ($Cov(x_{it}, \alpha_{i}) \neq 0$). Os erros serão sistematicamente correlacionados com as variáveis explicativas violando a hipótese de exogeneidade estrita (não confundimento).

**Os estimadores de dados em painel são capazes de controlar esses efeitos fixos individuais, e assim, controlar essa forma de viés decorrente do problema da variável omitida.**

### Modelos Clássicos de regressão com dados em painel

* OLS para dados empilhados (Pooled data - Common Effect Model)
* Mínimos Quadrados com variáveis dummies (LSDV)
* Efeitos fixos dentro de um grupo (Fixed Effects – FE- Within-model)
* Modelo Between (Between-model - BE)
* Modelo de Efeitos Aleatórios (Randon Efects - RE) 
* Método das Primeiras Diferenças (First Difference – FD)



#### OLS para dados empilhados (Pooled data - Common Effect Model)

O estimador **Pooled OLS** ignora a possível existência do efeito fixo, de modo que o efeito fixo está contido pelo termo de erro.

$$ u_{it} = \alpha_{i} + \epsilon_{it} $$

$$ y_{it} = \beta_{0} + \beta_{1}x_{it} + u_{it} $$

Assim, as Hipóteses do modelo POLS são:

* POLS1: Linearidade
* POLS2: Exogeneidade Estrita ($E[u_{it}| X_{it}] = 0$)
  * Esta hipótese requer que os regressores $X_{it}$ sejam não correlacionados com o termo de erro $u_{it}$ ($E[X_{it}´u_{it}] = 0$). Em outras palavras, não deve haver endogeneidade no modelo. 
* POLS3:Não-Multicolineariedade Perfeita / Matriz de covariância com posto completo ($\text{rank}(E[X_{it}´X_{it}])= K $)
  * $X_{it}$ devem ter variabilidade suficiente e não devem ser perfeitamente multicolineares.
  
* POLS4: Variância esférica do termo de erro
  * Homocedasticidade ($E[u_{it}u_{it}´| X_{it}] = \sigma^{2}_{u}.I_{T} $)
    * Esta é a hipótese de homocedasticidade, que assume que a variância condicional do termo de erro $u_{it}$ dado $X_{it}$ é constante. Isso implica que a variabilidade dos erros é uniforme em todo o conjunto de dados. Se houver heterocedasticidade (isto é, se a variância dos erros variar com $X_{it}$), os erros-padrão calculados serão enviesados, afetando a validade dos testes estatísticos.
  * Não autocorrelação espacial dos erros ($E[u_{it}u_{jt}´| X_{it}] = 0$ para $i \neq j$)
    * Esta condição assume que os erros $u_{it}$ e $u_{jt}$ são não correlacionados entre indivíduos diferentes para o mesmo período de tempo, após controlar pelos regressores $X_{it}$.Isso significa que não há autocorrelação espacial (ou cross-sectional) entre os termos de erro. Se essa condição não for atendida, as estimativas dos erros-padrão podem ser inconsistentes, levando a testes de hipóteses incorretos.
* POLS5: Normalidade dos erros ($u_{it} \sim N(0, \sigma^{2}_{u})$)



Em termos formais,

>
> $$ \hat{\beta}_{POLS} = (X_{it}´X_{it})^{-1}X_{it}´Y_{it} $$
>


**Implicações do Viés por Variável Omitida**

Quando o efeito fixo $\alpha_{i}$ está presente mas não é explicitamente modelado e $Cov(x_{it}, u_{it}) \neq 0$ , o estimador POLS será enviesado e inconsistente devido ao viés por variável omitida. Isso acontece porque $\alpha_{i}$ está no termo de erro $u_{it}$, e se $\alpha_{i}$ estiver correlacionado com as variáveis explicativas, então a hipótese de exogeneidade é violada (POLS2).


**Exemplo de POLS em python**

Vamos considerar um exemplo de dados em painel com a base de dados "wage_panel" do próprio pacote linearmodels. Essa base de dados contém informações sobre salários de indivíduos no período de 1980 a 1987. Nosso foco é verificar o efeito da adesão ao "sindicato" sobre o salário dos indivíduos. 


In [1]:
# Pacotes para análise de dados em painel
import pandas as pd
import numpy as np
from linearmodels.datasets import wage_panel
import statsmodels.api as sm
from linearmodels.panel import PooledOLS
from linearmodels.panel import BetweenOLS
from linearmodels.panel import PanelOLS
from linearmodels.panel import RandomEffects
from linearmodels.panel import FirstDifferenceOLS

In [2]:
# Carregar dados
data = wage_panel.load()
year = pd.Categorical(data.year)
data = data.set_index(["nr", "year"])
data['year'] = year
data['id'] = data.index.get_level_values(0)
id2 = pd.Categorical(data.id)
print(wage_panel.DESCR)
print(data.head())


F. Vella and M. Verbeek (1998), "Whose Wages Do Unions Raise? A Dynamic Model
of Unionism and Wage Rate Determination for Young Men," Journal of Applied
Econometrics 13, 163-183.

nr                       person identifier
year                     1980 to 1987
black                    =1 if black
exper                    labor market experience
hisp                     =1 if Hispanic
hours                    annual hours worked
married                  =1 if married
educ                     years of schooling
union                    =1 if in union
lwage                    log(wage)
expersq                  exper^2
occupation               Occupation code

         black  exper  hisp  hours  married  educ  union     lwage  expersq  \
nr year                                                                       
13 1980      0      1     0   2672        0    14      0  1.197540        1   
   1981      0      2     0   2320        0    14      1  1.853060        4   
   1982      0    

In [3]:
# Converter o dataframe para csv e salvar
data.to_csv('wage_panel.csv')

Vamos aplicar o modelo POLS para os dados em painel. A ideia é estimar o efeito da variável "union" sobre o salário dos indivíduos.

$$ ln(wage)_{it} = \beta_{0} + \beta_{1}Union_{it} + \beta_{2}Married_{it} + \beta_{3}Expr^{2}_{it} + u_{it} $$



In [3]:
POLS = PooledOLS.from_formula('lwage ~ 1 + union + married + expersq', data=data).fit()
print(POLS)

                          PooledOLS Estimation Summary                          
Dep. Variable:                  lwage   R-squared:                        0.0683
Estimator:                  PooledOLS   R-squared (Between):              0.0489
No. Observations:                4360   R-squared (Within):               0.0908
Date:                Mon, Sep 02 2024   R-squared (Overall):              0.0683
Time:                        16:02:53   Log-likelihood                   -3285.2
Cov. Estimator:            Unadjusted                                           
                                        F-statistic:                      106.43
Entities:                         545   P-value                           0.0000
Avg Obs:                       8.0000   Distribution:                  F(3,4356)
Min Obs:                       8.0000                                           
Max Obs:                       8.0000   F-statistic (robust):             106.43
                            

Então, no POLS, desconsideramos a possivel relação entre a motivação (preferência por sindicalizar-se/aversão ao risco) dos indivíduos (isto significa que consideramos cada um é tão bom quanto os demais, ou equivalente aos demais). Em linguagem econométrica, não consideramos qualquer heterogeneidade entre os indivíduos.

Embora os resultados pareçam satisfatórios em termos de qualidade de ajustamento do modelo e significância dos coeficientes angulares, podemos suspeitar que cada indivíduo têm sua própria característica não observável. Isso significa que os interceptos deveriam diferir de forma signidicativa entre cada indivíduo.


### Mínimos Quadrados com Variáveis Dummies (*Least Squares Dummy Variable* - LSDV)

Vimos que a fonte de endogeneidade pode ser devido a variáveis omitidas. Se essa variável omitida for **constante no tempo para cada indivíduo**, podemos **controlar** esse "efeito fixo" incluindo **variáveis *dummies* para cada indivíduo**. Assim, o modelo de regressão com variáveis dummies controla a fonte de endogeneidade ao incluir variáveis indicativas para cada indivíduo da amostra.

Ao controlarmos os efeitos fixos através das variáveis dummies, as hipóteses para identificação são as hipótese do OLS (LSDV) para os dados em painel:

* LSDV1: Linearidade
* LSDV2: Exogeneidade Estrita ($E[u_{it}|X_{it}, \alpha_{i}] = 0$)
  * As variáveis explicativas não podem estar correlacionadas com os erros ($E[X_{it}´u_{it}] = 0$).
* LSDV3: Não-Multicolineariedade Perfeita / Matriz de covariância com posto completo ($\text{rank}(E[X_{it}´X_{it}])= K $)
  * $X_{it}$ devem ter variabilidade suficiente e não devem ser perfeitamente multicolineares.
* LSDV4: Variância esférica do termo de erro
  * Homocedasticidade ($E[u_{it}u_{it}´| X_{it}, \alpha_{i}] = \sigma^{2}_{u}.I_{T} $)
  * Não autocorrelação espacial dos erros ($E[u_{it}u_{jt}´| X_{it}, \alpha_{i}] = 0$ para $i \neq j$)
* LSDV5: Normalidade dos erros ($u_{it} \sim N(0, \sigma^{2}_{u})$)


Em termos formais,

>
> $$ \hat{\beta}_{LSDV} = (X_{it}´X_{it})^{-1}X_{it}´Y_{it} $$
>


Vamos modelar o efeito da adesão ao sindicato sobre o salário dos indivíduos utilizando o modelo de variáveis dummies.

$$ ln(Salários)_{it} = \beta_{0} + \beta_{1}union_{it} + \beta_{2}Married_{it} + \beta_{3}Expr2_{it} + \sum_{i=1}^{N} \alpha_{i}D_{i} + u_{it} $$

Entretanto, como a constante será multicolinear com as variáveis indicativas inseridas no modelo (devido à combinação linear perfeita), devemos excluir a constante do modelo. Assim, o modelo torna-se:

$$ ln(Salários)_{it} = \beta_{1}union_{it} + \beta_{2}Married_{it} + \beta_{3}Expr2_{it} + \sum_{i=1}^{N} \alpha_{i}D_{i} + u_{it} $$

ou, considerando apenas 3 indivíduos:

$$ ln(Salários)_{it} = \alpha_{1} + \alpha_{2}D_{2} + \alpha_{3}D_{3} + \beta_{1}union_{it} + \beta_{2}Married_{it} + \beta_{3}Expr2_{it} +  u_{it} $$

**Repare que a constante é o grupo de referência**. Assim, o efeito fixo é a diferença entre o grupo de referência e os demais grupos. (Aqui surge o chamado "o problema dasvariáveis dummies" - a impossibilidade de colocar todas as variáveis dummies e a constante no modelo).

Agora, qualquer característica constante no tempo para cada indivíduo será controlada pelo modelo. Assim, **a fonte de endogeneidade** é controlada a partir da possibilidade do uso da estrutura de dados em painel.

Como nosso interesse é avaliar o efeito da adesão ao sindicato sobre o salário dos indivíduos $\beta_{1}$, não faz diferença quem é o grupo de referência, **nos importa apenas saber que os efeitos fixos individuais estão controlados, evitando viés devido a variável omitida**.

Logo, podemos utilizar o controle de efeitos fixos do pacote linearmodels no python:

In [5]:
LSDV_FE = PooledOLS.from_formula('lwage ~ union + married + expersq + id2', data=data).fit()
print(LSDV_FE)

                          PooledOLS Estimation Summary                          
Dep. Variable:                  lwage   R-squared:                        0.6005
Estimator:                  PooledOLS   R-squared (Between):              1.0000
No. Observations:                4360   R-squared (Within):               0.1365
Date:                Mon, Sep 02 2024   R-squared (Overall):              0.6005
Time:                        15:22:21   Log-likelihood                   -1439.0
Cov. Estimator:            Unadjusted                                           
                                        F-statistic:                      10.476
Entities:                         545   P-value                           0.0000
Avg Obs:                       8.0000   Distribution:                F(547,3812)
Min Obs:                       8.0000                                           
Max Obs:                       8.0000   F-statistic (robust):             177.59
                            

In [9]:
from statsmodels.stats.stattools import durbin_watson
dw_stat = durbin_watson(LSDV_FE.resids)
print(f'Durbin-Watson statistic: {dw_stat}')

Durbin-Watson statistic: 1.8768584481299295


In [11]:
from statsmodels.stats.diagnostic import acorr_breusch_godfrey
import numpy as np

# Ajuste o modelo com os efeitos fixos (PooledOLS com dummies)
LSDV_FE = PooledOLS.from_formula('lwage ~ union + married + expersq + id2', data=data).fit()

# Extrair os resíduos como array numpy
residuals = LSDV_FE.resids.values

# Ajustar um modelo OLS nos resíduos para usar no teste
# Regressão auxiliar para Breusch-Godfrey
aux_model = sm.OLS(residuals[1:], sm.add_constant(residuals[:-1])).fit()

# Realizar o teste de Breusch-Godfrey manualmente
bg_test = acorr_breusch_godfrey(aux_model, nlags=1)

print('Teste de Breusch-Godfrey para Autocorrelação Serial:')
print(f'LM Statistic: {bg_test[0]}, p-value: {bg_test[1]}')

Teste de Breusch-Godfrey para Autocorrelação Serial:
LM Statistic: 9.320151060278501, p-value: 0.002266473076117133


Repare que a inclusão das variáveis indicativas para cada indivíduo controla a fonte de endogeneidade.

Entretanto, você poderia se questionar se nós poderíamos controlar também os possíveis choques temporais? Sim, podemos controlar os efeitos fixos temporais através da inclusão de variáveis indicativas para cada período de tempo. Assim, o modelo torna-se:

$$ ln(Salários)_{it} = \beta_{1}Union_{it} + \beta_{2}Married_{it} + \beta_{3}Expr2_{it} + \sum_{i=1}^{N} \alpha_{i}D_{i} + \sum_{t=1}^{T} \lambda_{t}D_{t} + u_{it} $$

Agora, além dos controles de efeitos fixos para cada indivíduo, temos também os controles de efeitos fixos para cada período de tempo.

Vejamos no exemplo. Primeiro vamos incluir diretamente na regressão as variáveis indicativas de ano, e posteriormente vamos utilizar a função através do pacote.

In [19]:
LSDV_FE2 = PooledOLS.from_formula('lwage ~ union + married + expersq + id2 + year', data=data).fit()
print(LSDV_FE2)

                          PooledOLS Estimation Summary                          
Dep. Variable:                  lwage   R-squared:                        0.6209
Estimator:                  PooledOLS   R-squared (Between):              1.0000
No. Observations:                4360   R-squared (Within):               0.1806
Date:                Mon, Sep 02 2024   R-squared (Overall):              0.6209
Time:                        15:35:49   Log-likelihood                   -1324.8
Cov. Estimator:            Unadjusted                                           
                                        F-statistic:                      11.250
Entities:                         545   P-value                           0.0000
Avg Obs:                       8.0000   Distribution:                F(554,3805)
Min Obs:                       8.0000                                           
Max Obs:                       8.0000   F-statistic (robust):             184.81
                            

Agora vamos rodar o mesmo modelo, entretanto de outro modo, utilizando a indicação dos efeitos fixos pelo prórprio pacote.

In [7]:
X = data[['union', 'married', 'expersq']]
X = sm.add_constant(X)
Y = data[['lwage']]
LSDV_FE_it = PanelOLS(Y, X, entity_effects=True, time_effects=True).fit()
print(LSDV_FE_it)

                          PanelOLS Estimation Summary                           
Dep. Variable:                  lwage   R-squared:                        0.0216
Estimator:                   PanelOLS   R-squared (Between):             -0.0052
No. Observations:                4360   R-squared (Within):              -0.4809
Date:                Thu, Aug 15 2024   R-squared (Overall):             -0.2253
Time:                        14:47:31   Log-likelihood                   -1324.8
Cov. Estimator:            Unadjusted                                           
                                        F-statistic:                      27.959
Entities:                         545   P-value                           0.0000
Avg Obs:                       8.0000   Distribution:                  F(3,3805)
Min Obs:                       8.0000                                           
Max Obs:                       8.0000   F-statistic (robust):             27.959
                            

Como verificar o coeficiente associado às variáveis de efeitos fixos não é nosso foco, essa possibilidade de aplicação nos traz diretamente os coeficientes de interesse.

### Efeitos Fixos Dentro do Grupo (Fixed Effects – FE- Within-model)

O modelo de Efeitos Fixos (Fixed Effects – FE) é utilizado para lidar com a presença de características não observáveis que são constantes ao longo do tempo, mas que podem variar entre indivíduos. O objetivo é controlar essas características fixas para evitar viés nas estimativas dos coeficientes das variáveis explicativas.

**Transformação Within:**

Como  $\alpha_𝑖$ representa uma **característica não observável** que é **constante no tempo**, uma solução proposta pelos teóricos foi eliminar este efeito fixo expressando os valores das **variáveis dependente** e **independentes** como **desvio da média** (ou seja, corrigir para a média dentro do grupo – **Within Group**) do indivíduo “i” no tempo “t”.

$$ y_{it} - \bar{y}_{i} = (\alpha_{i} - \bar{\alpha}_{i}) + \beta_{1}(x_{1it} - \bar{x}_{1i}) + \beta_{2}(x_{2it} - \bar{x}_{2i}) + (u_{it} - \bar{u}_{i}) $$

sta transformação remove o efeito fixo $\alpha_{i}$, permitindo a estimação dos coeficientes $\beta$ sem viés devido a essas características não observadas.

**Modelo Within:**

Então a idéia é rodarmos um OLS sobre a equação transformada

$$  \ddot{y_{it}} = \ddot{X_{it}}\beta + \ddot{u_{it}} $$

Onde 
* $\ddot{y_{it}} = y_{it} - \bar{y}_{i}$, 
* $\ddot{X_{it}} = X_{it} - \bar{X}_{i}$ e 
* $\ddot{u_{it}} = u_{it} - \bar{u}_{i}$. 
 
Para que o estimador de efeitos fixos seja consistente e eficiente, as seguintes hipóteses devem ser satisfeitas::

* FE1: Linearidade
* FE2: Exogeneidade Estrita ($E[\ddot{u_{it}}|\ddot{X_{it}}] = 0$)
* FE3: Matriz de covariância com posto completo ($\text{rank}(E[\ddot{X_{it}}´\ddot{X_{it}}]) = K$)
  * Esta hipótese requer que a matriz de variáveis explicativas transformadas $\ddot{X_{it}}$ tenha posto completo. Em outras palavras, as variáveis explicativas devem ser não-colineares e ter variabilidade suficiente para identificar os coeficientes. Se as variáveis explicativas forem colineares perfeitas, a matriz $\ddot{X_{it}}´\ddot{X_{it}}$ será singular e não será posível identificar os coeficientes.
* FE4: Variância esférica do termo de erro
  * Homocedasticidade ($E[\ddot{u_{it}}\ddot{u_{it}}´|\ddot{X_{it}}] = \sigma^{2}I_{T}$)
  * Não autocorrelação espacial dos erros ($E[\ddot{u_{it}}\ddot{u_{jt}}´|\ddot{X_{it}}] = 0$ para $i \neq j$)
* FE5: Normalidade dos erros ($\ddot{u_{it}} \sim N(0, \sigma^{2})$)


Logo, o estimador de efeitos fixos (within-groups) é consistente e eficiente se as hipóteses FE1, FE2, FE3 e FE4 forem satisfeitas, e é dado por:

>
> $$ \hat{\beta}_{FE-within} = (\ddot{X_{it}}´\ddot{X_{it}})^{-1}\ddot{X_{it}}´\ddot{y_{it}} $$
>

**Desvantagens:** tudo que é invariante no tempo é “dropped” da relação empírica (Dica, pensar nos dados em forma de planilha). Por exemplo: as variáveis como gênero, escolaridade e raça não são identificadas.


**Exemplo de FE-Within em python**

Vamos criar um data-frame com as variáveis médias por indivíduo.

In [8]:
data_grouped = data[['lwage', 'union', 'married', 'expersq']].groupby('nr').mean()
print(data_grouped.head())


        lwage  union  married  expersq
nr                                    
13   1.255652  0.125    0.000     25.5
17   1.637786  0.000    0.000     61.5
18   2.034387  0.000    1.000     61.5
45   1.773664  0.250    0.125     35.5
110  2.055129  0.125    0.500     77.5


Agora vamos criar as variáveis transformadas (desvios da média).

In [9]:
data_deviation = data - data_grouped
print(data_deviation.head())

         black  educ  exper  expersq  hisp  hours  id     lwage  married  \
nr year                                                                    
13 1980    NaN   NaN    NaN    -24.5   NaN    NaN NaN -0.058112      0.0   
   1981    NaN   NaN    NaN    -21.5   NaN    NaN NaN  0.597408      0.0   
   1982    NaN   NaN    NaN    -16.5   NaN    NaN NaN  0.088810      0.0   
   1983    NaN   NaN    NaN     -9.5   NaN    NaN NaN  0.177561      0.0   
   1984    NaN   NaN    NaN     -0.5   NaN    NaN NaN  0.312473      0.0   

         occupation  union  year  
nr year                           
13 1980         NaN -0.125   NaN  
   1981         NaN  0.875   NaN  
   1982         NaN -0.125   NaN  
   1983         NaN -0.125   NaN  
   1984         NaN -0.125   NaN  


Utilizando as variáveis transformadas, vamos rodar apenas o OLS empilhado.

In [10]:
X = data_deviation[['union', 'married', 'expersq']] 
Y = data_deviation[['lwage']]
Within_FE = sm.OLS(Y, X).fit()
print(Within_FE.summary())

                                 OLS Regression Results                                
Dep. Variable:                  lwage   R-squared (uncentered):                   0.137
Model:                            OLS   Adj. R-squared (uncentered):              0.136
Method:                 Least Squares   F-statistic:                              229.6
Date:                Thu, 15 Aug 2024   Prob (F-statistic):                   2.70e-138
Time:                        14:47:44   Log-Likelihood:                         -1439.0
No. Observations:                4360   AIC:                                      2884.
Df Residuals:                    4357   BIC:                                      2903.
Df Model:                           3                                                  
Covariance Type:            nonrobust                                                  
                 coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------

Repare que o efeito calculado pelo estimador *Within* é o mesmo que o do estimador de Efeitos fixos por variáveis Dummies.

### First Difference (FD) - Estimador de primeira diferença

O estimador de Primeira Diferença (First Difference - FD) é outra abordagem para lidar com a heterogeneidade individual não observada que é constante ao longo do tempo. Essa técnica é útil para remover o viés de variáveis omitidas causadas por essas características fixas.

**Transformação de Primeira Diferença:**

Ao aplicar a primeira diferença nos dados, todas as variáveis constantes no tempo são eliminadas. Isso é feito subtraindo o valor de cada variável no período anterior do valor atual. A forma da equação transformada é:

$$ \Delta y_{it} = \beta_{1} \Delta x_{it} + \Delta u_{it} $$

Onde $\Delta$ é o operador de primeira diferença. Explicitamente, para cada variável $y$ e $x$, temos:
* $\Delta y_{it} = y_{it} - y_{i(t-1)}$
* $\Delta x_{it} = x_{it} - x_{i(t-1)}$
* $\Delta u_{it} = u_{it} - u_{i(t-1)}$

**Características do Estimador de Primeira Diferença:**
* Eliminação de Variáveis Constantes: Assim como no método de efeitos fixos, tudo que é constante ao longo do tempo é removido da análise. Isso inclui características individuais fixas, como gênero ou escolaridade.
* Aplicação do MQO: Após a transformação de primeira diferença, aplica-se o método dos mínimos quadrados ordinários (MQO) aos dados transformados.
* Painel Longo: Esse método é particularmente útil quando se trabalha com painéis longos, onde o número de períodos $T$ é grande em comparação ao número de indivíduos $N$.

**Hipóteses:**

* FD1: Linearidade
* FD2: Exogeneidade Estrita ($E[\Delta u_{it}|\Delta X_{it}] = 0$)
* FD3: Matriz de covariância com posto completo ($\text{rank}(E[\Delta X_{it}´\Delta X_{it}]) = K$)
* FD4: Variância esférica do termo de erro
  * Homocedasticidade ($E[\Delta u_{it}\Delta u_{it}´|\Delta X_{it}] = \sigma^{2}_{e}I_{T-1}$)
    * Esta é a hipótese de homocedasticidade condicional, que assume que a variância dos erros $\Delta u_{it}$ é constante e igual a $\sigma^{2}_{e}$. Isso implica que a variabilidade dos erros não deve depender das variáveis explicativas ou do efeito fixo. **Sob a hipótese FD4, $u_{it}$ é um passeio aleatório, o que é o extremo oposto da hipótese FE3**.
  * Não autocorrelação espacial dos erros ($E[\Delta u_{it}\Delta u_{jt}´|\Delta X_{it}] = 0$ para $i \neq j$)
* FD5: Normalidade dos erros ($\Delta u_{it} \sim N(0, \sigma^{2})$)


**Estimador de Primeira Diferença:**

Sob as hipóteses FD1-FD4, o estimador de primeira diferença é consistente e eficiente. O estimador é dado por:

>
> $$ \hat{\beta}_{FD} = (\Delta X_{it}´\Delta X_{it})^{-1}\Delta X_{it}´\Delta y_{it} $$
> 

Sob as hipóteses FD1-FD4, o estimador de primeira diferença é o mais eficiente.

In [11]:
FD_res = FirstDifferenceOLS.from_formula('lwage ~ union + married + expersq', data=data).fit()
print(FD_res)

                     FirstDifferenceOLS Estimation Summary                      
Dep. Variable:                  lwage   R-squared:                        0.0179
Estimator:         FirstDifferenceOLS   R-squared (Between):              0.2343
No. Observations:                3815   R-squared (Within):               0.1336
Date:                Thu, Aug 15 2024   R-squared (Overall):              0.2299
Time:                        14:47:54   Log-likelihood                   -2322.9
Cov. Estimator:            Unadjusted                                           
                                        F-statistic:                      23.097
Entities:                         545   P-value                           0.0000
Avg Obs:                       8.0000   Distribution:                  F(3,3812)
Min Obs:                       8.0000                                           
Max Obs:                       8.0000   F-statistic (robust):             23.097
                            

### Between-model (Between Estimator)

O estimador Between em painéis curtos utiliza a variação cross-section, ou seja, isola a análise **entre** (Between) **os indivíduos em termos de médias**. Este estimador é utilizado quando você deseja examinar a relação entre as **médias das variáveis dependentes** e **independentes** *entre* as unidades de painel. 

Em outras palavras, o estimador Between é usado quando você deseja **examinar a variação entre as unidades de painel** em vez da variação dentro das unidades de painel. Se os efeitos fixos não forem independentes das variáveis independentes, o estimador Between será inconsistente. 

**O estimador Between é consistente se os efeitos fixos forem independentes das variáveis independentes**. Essa hipótese é chave para a consistência do estimador Between.

**Procedimento do Estimador Between**

1. **Calcular as Médias:**

Calcule a média das variáveis dependentes e independentes para cada indivíduo ao **longo do tempo**.
$$ \bar{y}_{i} = \frac{1}{T} \sum_{t=1}^{T} y_{it} $$

$$ \bar{x}_{i} = \frac{1}{T} \sum_{t=1}^{T} x_{it} $$

1. **Estimação da Regressão:**

Realize uma regressão linear *cross-section* usando essas médias.

$$ \bar{y}_{i} = \alpha + \beta \bar{x}_{i} + (\alpha_{i} - \alpha + \bar{\epsilon}_{i}) $$


**Hipóteses**
Para que o estimador Between seja consistente e eficiente, assumimos as seguintes hipóteses:

* B1: Linearidade
* B2: Exogeneidade ($ E[\bar{\epsilon}_{i} | \bar{X}_{i}] = 0 $)
  * Esta hipótese requer que os termos de erro médios sejam não correlacionados com as médias das variáveis explicativas.
* B3: Matriz de covariância com posto completo ($\text{rank}(E[\bar{X}_{i}´\bar{X}_{i}]) = K$)
* B4: Variância Esférica do Erro
  * Homocedasticidade ($E[\bar{\epsilon}_{i}\bar{\epsilon}_{i}´ | \bar{X}_{i}] = \sigma^2.I_{n}$)
  * Não Autocorrelação espacial ($E[\bar{\epsilon}_{i} \bar{\epsilon}_{j} | \bar{X}] = 0 $ para $i \neq j$)
* B5: Normalidade dos Erros ($ \bar{\epsilon}_{i} \sim N(0, \sigma^2) $)

então 

>
> $$ \hat{\beta}_{Between} = (\bar{X}_{i}´\bar{X}_{i})^{-1}\bar{X}_{i}´\bar{y}_{i} $$
>

**Comparação com Outros Modelos**

O estimador Between é raramente utilizado porque os estimadores POLS (Pooled OLS) e RE (Random Effects) são mais eficientes. No entanto, é importante lembrar que as médias das variáveis utilizadas no estimador Between são úteis para fazer a transformação no estimador de efeitos fixos within (dentro do grupo).


Vamos aplicar o estimador Beween para nosso exemplo.

In [12]:
BE_res = BetweenOLS.from_formula('lwage ~ 1 + union + married + expersq', data=data).fit()
print(BE_res)

                         BetweenOLS Estimation Summary                          
Dep. Variable:                  lwage   R-squared:                        0.0967
Estimator:                 BetweenOLS   R-squared (Between):              0.0967
No. Observations:                 545   R-squared (Within):              -0.0940
Date:                Thu, Aug 15 2024   R-squared (Overall):              0.0084
Time:                        14:48:13   Log-likelihood                   -232.99
Cov. Estimator:            Unadjusted                                           
                                        F-statistic:                      19.294
Entities:                         545   P-value                           0.0000
Avg Obs:                       8.0000   Distribution:                   F(3,541)
Min Obs:                       8.0000                                           
Max Obs:                       8.0000   F-statistic (robust):             19.294
                            

Como estamos usando um estimador Between, a análise é feita entre os indivíduos. 

Assim, o coeficiente $0.2412$ reflete a diferença média no salário logaritmo entre os indivíduos que pertencem a um sindicato e os que não pertencem, considerando a média dessas variáveis ao longo do tempo para cada indivíduo.

### Random Effects (RE) - Efeitos Aleatórios

O **modelo de efeitos aleatórios** é virtualmente idêntico ao modelo OLS agrupado, exceto que leva em conta a estrutura do modelo e, portanto, é mais eficiente.

Aqui pressupomos que $\alpha_{i}$ é uma variável aleatória não correlacionada com as variáveis explicativas. Assim, o **efeito fixo é considerado como um erro aleatório individual**.

$$ E(\alpha_{i}) = 0 $$

$$ Var(\alpha_{i}) = \sigma^{2}_{\alpha} $$

A ideia é que os indivíduos são selecionados aleatoriamente de uma população maior. Assim, o efeito fixo é considerado como um erro aleatório. E o intercepto é um valor médio comum para todos os indivíduos.

Em termos de equação, o modelo de efeitos aleatórios é:

$$ y_{it} = \beta_{0} + \beta_{1}x_{it} + \alpha_{i} + u_{it} $$
$$ \omega_{it} = \alpha_{i} + u_{it} $$
$$ y_{it} = \beta_{0} + \beta_{1}x_{it} + \omega_{it} $$

As hipóteses RE são:
* RE1: Linearidade
* RE2: Exogeneidade Estrita ($E[u_{it}|x_{i1},...,x_{iT},\alpha_{i}] = 0$ para $t=1,...,T$ e $i=1,...,N$)
* RE3: Matriz de covariância com posto completo ($\text{rank}(E[X_{it}´X_{it}])= K $)
* RE4: Matriz de variância-Covariância dos erros compostos ($\omega_{it}$) terá uma estrutura própria porque assumimos que $\alpha_{i}$ é um erro aleatório com $E[\alpha_{i}|x_{i1},...,x_{iT}] = E[\alpha_{i}] = 0$ para $i=1,...,N$

Ou seja, os componentes de erro não estão correlacionados entre si, nem com as unidades de corte transversal tampouco nas de série temporal.

$$\alpha_{i} \sim  N(0,\sigma^{2}_{\alpha})$$
$$u_{it} \sim  N(0,\sigma^{2}_{u})$$

$$E(\alpha_{i} u_{it}) = 0$$
$$E(\alpha_{i} \alpha_{j}) = 0$$
$$E(u_{it} u_{is}) = E(u_{it} u_{jt}) = E(u_{it}u_{js})=0$$

Hipótese: $\omega_{it}$ não está correlacionada com qualquer uma das variáveis explicativas incluídas no modelo.

$$ E(\omega_{it}) = 0 $$
$$ Var(\omega_{it}) = \sigma^{2}_{\omega} = \sigma^{2}_{\alpha} + \sigma^{2}_{u} $$

Veja que **se** $\sigma^{2}_{\alpha} = 0$, então $\sigma^{2}_{\omega} = \sigma^{2}_{u}$, o modelo de efeitos aleatórios se torna o modelo POLS. 

Vejamos o cálculo da correlação entre $\omega_{it}$ e $\omega_{is}$:

$$ Corr(\omega_{it}, \omega_{is}) = \frac{Cov(\omega_{it}, \omega_{is})}{\sqrt{Var(\omega_{it})Var(\omega_{is})}} = \frac{\sigma^{2}_{\alpha}}{\sigma^{2}_{\alpha}+\sigma^{2}_{u}}$$


Lembre que $E[\omega_{it}, \omega_{is}] = E[(\alpha_{i} + u_{it})(\alpha_{i} + u_{is})] = E[\alpha_{i}^{2} + \alpha_{i}u_{is} + \alpha_{i}u_{it} + E(u_{it}u_{is})]= \sigma^{2}_{\alpha} + 0 + 0 + 0 = \sigma^{2}_{\alpha}$

A matriz de variância-covariância dos erros é dada por:

$$ \Omega =  \begin{pmatrix}
 \sigma^{2}_{\alpha} + \sigma^{2}_{u}& \sigma^{2}_{\alpha} & \sigma^{2}_{\alpha} \\
 \sigma^{2}_{\alpha} & \sigma^{2}_{\alpha} + \sigma^{2}_{u} &  \sigma^{2}_{\alpha}\\
\sigma^{2}_{\alpha} & \sigma^{2}_{\alpha} & \sigma^{2}_{\alpha} + \sigma^{2}_{u} \\
\end{pmatrix} $$


* Para qualquer unidade de corte transversal, o valor da correlação entre os termos de erro em dois períodos diferentes de tempo permanece o mesmo, não importa quanto os dois períodos de tempos estão distantes. 
* A estrutura de correlação é idêntica à todos indivíduos.

Então, **se não levarmos essa estrutura em conta, e estimarmos por MQO, teríamos estimadores ineficientes**. Ou seja, devemos **utilizar o método de MQG/GLS** (ponderando pela correlação dos erros). O arcabouço de efeitos aleatórios explora a correlação do erro composto no arcabouço GLS.

>
> $$ \hat{\beta}_{RE} = (X´\Omega^{-1}X)^{-1}X´\Omega^{-1}y $$
> 

In [13]:
RE_res = RandomEffects.from_formula('lwage ~ 1 + union + married + expersq', data=data).fit()
print(RE_res)

                        RandomEffects Estimation Summary                        
Dep. Variable:                  lwage   R-squared:                        0.1141
Estimator:              RandomEffects   R-squared (Between):             -0.0367
No. Observations:                4360   R-squared (Within):               0.1346
Date:                Thu, Aug 15 2024   R-squared (Overall):              0.0425
Time:                        14:48:24   Log-likelihood                   -1772.2
Cov. Estimator:            Unadjusted                                           
                                        F-statistic:                      187.00
Entities:                         545   P-value                           0.0000
Avg Obs:                       8.0000   Distribution:                  F(3,4356)
Min Obs:                       8.0000                                           
Max Obs:                       8.0000   F-statistic (robust):             187.00
                            

### Explicação do R² nos Modelos de Dados em Painel

Quando trabalhamos com dados em painel, é conveniente entender que existem três tipos principais de R2 que podem ser calculados em dados de painel: R2 Within, R2 Between e R2 Overall. Cada um deles enfoca uma fonte diferente de variação nos dados. Vamos entender a diferença entre eles:

**R2 Within (R-squared Within):**

* Descrição: O R² Within mede a proporção da variação total na variável dependente (Y) que é explicada pelo modelo de regressão considerando a variação dentro das unidades individuais (painel).
* Cálculo: É calculado apenas levando em consideração as variações que ocorrem ao longo do tempo para uma unidade específica (ou seja, dentro de cada unidade individual).
* Utilidade: É útil para avaliar o quão bem o modelo se ajusta às flutuações dentro de cada unidade no painel. Ele nos diz quanto da variação na variável dependente, ao longo do tempo para um dado indivíduo, pode ser explicada pelas variáveis independentes.


**R2 Between (R-squared Between):**

* Descrição: O R² Between mede a proporção da variação total na variável dependente (Y) que é explicada pelo modelo de regressão considerando a variação entre as unidades individuais (painel).
* Cálculo: É calculado considerando apenas as diferenças médias entre as unidades (ou seja, entre as unidades individuais).
* Utilidade: É útil para avaliar o quão bem o modelo captura as diferenças médias entre as unidades no painel. Ele nos diz quanto da variação na variável dependente, entre os diferentes indivíduos, pode ser explicada pelas médias das variáveis independentes.

**R2 Overall (R-squared Overall):**
* Descrição: O R² Overall, também conhecido como R² Global ou R² Pooled, mede a proporção da variação total na variável dependente (Y) que é explicada pelo modelo de regressão considerando todas as variações, tanto dentro das unidades individuais quanto entre as unidades.
* Cálculo: É uma combinação dos efeitos do R² Within e R² Between.
* Utilidade: É uma medida geral do poder explicativo do modelo em dados de painel. É útil para avaliar o ajuste geral do modelo aos dados de painel. Ele nos dá uma visão abrangente de quanto da variação total na variável dependente pode ser explicada pelas variáveis independentes.

Geralmente, o R2 Overall é o mais amplamente utilizado para avaliar o ajuste de modelos em dados de painel, pois fornece uma visão geral do poder explicativo do modelo em toda a estrutura de painel. No entanto, é importante analisar os R2 Within e R2 Between também para entender como o modelo se comporta em termos de variação dentro e entre as unidades individuais, especialmente se houver heterogeneidade significativa nos dados do painel.

**Na prática, iremos utilizar o R2 da estimação de efeitos fixos (LSDV) com dummies de tempo.**

In [4]:
LSDV_FE_results = PanelOLS.from_formula('lwage ~ union + married + expersq + id2 + year', data=data).fit()
print(LSDV_FE_results)

                          PanelOLS Estimation Summary                           
Dep. Variable:                  lwage   R-squared:                        0.6209
Estimator:                   PanelOLS   R-squared (Between):              1.0000
No. Observations:                4360   R-squared (Within):               0.1806
Date:                Mon, Sep 02 2024   R-squared (Overall):              0.6209
Time:                        15:56:20   Log-likelihood                   -1324.8
Cov. Estimator:            Unadjusted                                           
                                        F-statistic:                      11.250
Entities:                         545   P-value                           0.0000
Avg Obs:                       8.0000   Distribution:                F(554,3805)
Min Obs:                       8.0000                                           
Max Obs:                       8.0000   F-statistic (robust):             184.81
                            

## Testes para Seleção do Modelo

Vejamos quais os testes estatísticos que indicam a seleção do modelo mais adequado para os dados em painel.

* Lagrange Multiplier Test: testing for Random Effects - Breusch-Pagan LM Test (1980) [POLS vs RE]
* Hausman [FE vs RE]

### Lagrange Multiplier Test: testing for Random Effects - Breusch-Pagan LM Test (1980)

Partimos do pressuposto de que os efeitos fixos não são correlacionados com nenhuma variável explicativa. Então o teste de Breusch-Pagan (BP) auxilia a decisão entre os estimadores POLS e RE.

O teste de Breusch-Pagan LM testa a **hipótese nula de que a variância dos efeitos fixos é igual a zero**. 

* Hipótese Nula: $H_{0}: \sigma^{2}_{\alpha} = 0$
* Hipótese Alternativa: $H_{a}: \sigma^{2}_{\alpha} \neq 0$

Se a hipótese nula ($H_{0}$) não for rejeitada, Isso sugere que os efeitos individuais não são significativos, e o modelo POLS pode ser adequado.
Se a hipótese nula ($H_{0}$) for rejeitada, Isso indica que os efeitos individuais são significativos, o que sugere que o modelo de efeitos aleatórios (RE) é preferível ao POLS.


Teste de Breusch and Pagan (1980) modificado por Baltagi and Li (1990) - método que permite aplicação do teste para dados desbalanceados. Assuma o modelo:

$$ y_{it} = \beta + \beta_{1}x_{it} +  v_{i} $$

ajustando o modelo por OLS, e a quantidade:

$$ \lambda_{LM} = \frac{(n\bar{T})^{2}}{2} \frac{A_{1}^{2}}{\sum_{i}T_{i}^{2} - n \bar{T}} $$

é calculada, onde:

$$ A_{1} = 1 - \frac{\sum_{i}(\sum_{t}v_{it})^{2}}{\sum_{i}\sum_{t}v_{it}^{2}} $$

A modificação de Baltagi e Li permite dados desbalanceados e se reduz à fórmula padrão:

$$
LM =
\begin{cases} 
\frac{nT}{2(T-1)} \left( \frac{\sum_{i} (\sum_{t} v_{it})^2}{\sum_{i} \sum_{t} v_{it}^2} - 1 \right)^2, & \text{se } \hat{\sigma}^2_u \geq 0 \\
0, & \text{se } \hat{\sigma}^2_u < 0 
\end{cases}
$$

quando $ T_i = T $ (dados balanceados). Sob a hipótese nula, $ LM $ é distribuído como uma mistura 50:50 de uma massa pontual em zero e $ \chi^2(1) $.

Esta estatística LM segue uma distribuição qui-quadrado com 1 grau de liberdade porque estamos testando apenas uma medida (variância do termo de efeitos aleatórios). Se rejeitarmos a hipótese nula usando este teste, concluímos que os efeitos aleatórios são significativos no modelo e o uso do Modelo de Efeitos Aleatórios é apropriado.

In [5]:
import numpy as np
import pandas as pd
import statsmodels.api as sm
from scipy.stats import chi2

In [6]:
# Para replicar o teste de forma geral basta completar "formula_sem_ef" sem os efeitos fixos declarados, e sua base de dados possuir uma coluna identificadora das unidades com o nome 'id'
formula_sem_ef = 'lwage ~ 1 + union + married + expersq'

# Ajuste do modelo OLS
modelo_ols = sm.OLS.from_formula(formula_sem_ef, data=data)
resultado_ols = modelo_ols.fit()

# Calcule os resíduos
residuos = resultado_ols.resid

# Número de grupos (indivíduos)
N = data['id'].nunique()

# Número de períodos de tempo (considerando média por grupo)
T = data.groupby('id').size().mean()

# Calcular somatório dos resíduos dentro de cada grupo
residuos_sum_group = residuos.groupby(data['id']).sum()
residuos_sum_group_squared = (residuos_sum_group ** 2).sum()

# Calcular somatório dos quadrados dos resíduos
residuos_squared = (residuos ** 2).sum()

# Calcular somatório dos quadrados do número de observações por grupo
T_i = data.groupby('id').size()
Ti_squared_sum = (T_i ** 2).sum()

# Calcular A1
A1 = 1 - (residuos_sum_group_squared / residuos_squared)

# Calcular a estatística de teste LM
numerador = (N * T) ** 2
denominador = 2 * (Ti_squared_sum - N * T)
LM = (numerador * (A1 ** 2)) / denominador

# Calcular o valor-p corretamente para a mistura 50:50
if LM > 0:
    p_valor = 0.5 * (1 - chi2.cdf(LM, 1))
else:
    p_valor = 1

# Exibir resultados com 4 casas decimais
print("Estatística de teste: {:.4f}".format(LM))
print("Valor-p: {:.4f}".format(p_valor))

Estatística de teste: 3575.5849
Valor-p: 0.0000


Nesse caso, rejeitamos a hipótese nula de que a variância dos efeitos fixos é igual a zero, e assim, a variância do efeito fixo não deve ser desprezada.

Bem, agora resta saber, essa variância não observável individual é correlacionado com as variáveis explicativas? Se sim, o estimador RE é inconsistente, e devemos utilizar o estimador de efeitos fixos. Para isso, vamos utilizar o teste de Hausman.

#### Hausmann Test for Comparing Fixed and Random Effects

**Como saberemos qual o efeito (se fixo ou aleatório) é mais eficiente?**

Teste de Hausman (1978); (FE vs RE)

* $H_{0}$ Os efeito individuais são não correlacionados com qualquer regressor no modelo.
  * Se aceitamos $H_{0}$: FE(LSDV) e RE/GLS são consistentes, mas FE é ineficiente, logo RE é preferível.
* $H_{1}$ Os efeitos individuais são correlacionados com pelo menos um regressor no modelo.
  * Se $H_{0}$ é rejeitada: FE/LSDV é consistente, mas RE/GLS inconsistente e enviesado, logo FE é preferível.


A estatística de Hausman é distribuída como $ \chi^2 $ e é calculada como:

$$ H = (\beta_c - \beta_e)^T (V_c - V_e)^{-1} (\beta_c - \beta_e) $$

onde

- $ \beta_c $ é o vetor de coeficientes do estimador consistente (FE)
- $ \beta_e $ é o vetor de coeficientes do estimador eficiente (RE)
- $ V_c $ é a matriz de covariância do estimador consistente (FE)
- $ V_e $ é a matriz de covariância do estimador eficiente (RE)

Quando a diferença nas matrizes de variância não é definida positiva, é utilizada uma inversa generalizada de Moore-Penrose. Conforme observado em Gourieroux e Monfort (1995, 125-128), a escolha da inversa generalizada não é importante assimptoticamente.

O número de graus de liberdade para a estatística é o posto da diferença nas matrizes de variância. Quando a diferença é definida positiva, esse é o número de coeficientes comuns nos modelos sendo comparados.

In [4]:
import numpy as np
from scipy.stats import chi2
from linearmodels.panel import PanelOLS, RandomEffects

# Ajuste o modelo de efeitos fixos
mod_fe = PanelOLS.from_formula('lwage ~ 1 + union + married + expersq + EntityEffects', data=data).fit()

# Ajuste o modelo de efeitos aleatórios
mod_re = RandomEffects.from_formula('lwage ~ 1 + union + married + expersq', data=data).fit()

# Calcule o teste de Hausman
b_fe = mod_fe.params.values
b_re = mod_re.params.values
cov_fe = mod_fe.cov
cov_re = mod_re.cov
diff_b = b_fe - b_re

# Calcule a estatística de Hausman e o p-valor
try:
    inv_cov_diff = np.linalg.inv(cov_fe - cov_re)
except np.linalg.LinAlgError:
    inv_cov_diff = np.linalg.pinv(cov_fe - cov_re)  # Use a inversa de Moore-Penrose se necessário

h_stat = diff_b.T @ inv_cov_diff @ diff_b
p_value = 1 - chi2.cdf(h_stat, len(diff_b))

# Exibir resultados com 4 casas decimais
print("Hausman Statistic:", h_stat)
print("P-value: {:.4f}".format(p_value))

Hausman Statistic: 112.1182236556449
P-value: 0.0000


Rejeitamos a hipótese nula, então os **efeitos fixos são correlacionados com as variáveis explicativas**, e **o estimador RE é inconsistente**. Assim, **devemos utilizar o estimador de efeitos fixos**. Vejamos a saída do modelo de efeitos fixos com variáveis dummies.

In [5]:
import statsmodels.api as sm
# Ajustar o modelo de OLS com efeitos fixos usando variáveis categóricas para id2 e year
LSDV_Final = sm.OLS.from_formula('lwage ~ union + married + expersq + C(id2) + C(year)', data=data).fit()
# Exibir o resumo do modelo
print(LSDV_Final.summary())

                            OLS Regression Results                            
Dep. Variable:                  lwage   R-squared:                       0.621
Model:                            OLS   Adj. R-squared:                  0.566
Method:                 Least Squares   F-statistic:                     11.25
Date:                Mon, 02 Sep 2024   Prob (F-statistic):               0.00
Time:                        16:03:11   Log-Likelihood:                -1324.8
No. Observations:                4360   AIC:                             3760.
Df Residuals:                    3805   BIC:                             7301.
Df Model:                         554                                         
Covariance Type:            nonrobust                                         
                      coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------------------------------------------------
Intercept           0.9333      0.125     

Agora, vamos avaliar a possibilidade de **heterocedasticidade e autocorrelação** nos resíduos do modelo de efeitos fixos. Vamos aplicar os testes:
* Breusch-Pagan (1979) para heterocedasticidade
* 

In [6]:
from statsmodels.stats.diagnostic import het_breuschpagan
import pandas as pd
import statsmodels.api as sm

# Obter os resíduos do modelo ajustado
residuals = LSDV_Final.resid  # Use 'resid' em vez de 'resids'

# Extrair as variáveis explicativas do modelo ajustado como DataFrame
# Usar .exog para acessar as variáveis explicativas
exog = pd.DataFrame(LSDV_Final.model.exog, columns=LSDV_Final.model.exog_names)

# Adicionar uma constante às variáveis explicativas
exog = sm.add_constant(exog, has_constant='add')

# Realizar o teste de Breusch-Pagan para heterocedasticidade
bp_test = het_breuschpagan(residuals, exog)

# Resultados do teste de Breusch-Pagan
print(f'Breusch-Pagan Test Statistic: {bp_test[0]}, p-value: {bp_test[1]}')

Breusch-Pagan Test Statistic: 775.7470771563245, p-value: 1.5416934358140681e-09


Sugere fortemente a rejeição da hipótese nula de homocedasticidade (ou seja, variância constante dos resíduos). Há evidências robustas de heterocedasticidade nos resíduos do seu modelo. Isso indica que a variância dos erros não é constante e pode depender das variáveis explicativas. 

In [31]:
from statsmodels.stats.stattools import durbin_watson

# Realizar o teste de Durbin-Watson nos resíduos do modelo
dw_stat = durbin_watson(residuals)
print(f'Durbin-Watson Statistic: {dw_stat}')

Durbin-Watson Statistic: 1.9209440339428734


O teste de Durbin-Watson é utilizado para detectar a presença de autocorrelação de primeira ordem nos resíduos de um modelo de regressão. A autocorrelação de primeira ordem ocorre quando os resíduos de um período estão correlacionados com os resíduos do período anterior, o que pode violar a suposição de independência dos erros em modelos de regressão.

A estatística do teste varia entre 0 e 4.
* Valor próximo a 2: Indica que não há evidência significativa de autocorrelação de primeira ordem (nem positiva nem negativa).
* Valor próximo a 0: Indica autocorrelação positiva forte, onde os resíduos tendem a seguir a mesma direção de um período para o próximo.
* Valor próximo a 4: Indica autocorrelação negativa forte, onde os resíduos tendem a inverter de direção de um período para o próximo.

O valor 1.92 está muito próximo de 2, o que sugere que não há evidência significativa de autocorrelação de primeira ordem nos resíduos do modelo.

In [28]:
from statsmodels.stats.diagnostic import acorr_breusch_godfrey
import statsmodels.api as sm

# Obter os resíduos do modelo ajustado
residuals = LSDV_FE2.resids

# Criar um DataFrame dos resíduos com defasagens para o teste
# Precisamos ajustar um modelo com os resíduos defasados
lags = 4  # Definindo o número de defasagens que queremos testar
residuals_df = pd.DataFrame({'resid': residuals})

# Criar defasagens dos resíduos
for i in range(1, lags + 1):
    residuals_df[f'lag_{i}'] = residuals_df['resid'].shift(i)

# Remover NaN gerados pelas defasagens
residuals_df = residuals_df.dropna()

# Regressão auxiliar dos resíduos sobre suas defasagens
aux_model = sm.OLS(residuals_df['resid'], sm.add_constant(residuals_df.iloc[:, 1:])).fit()

# Realizar o teste de Breusch-Godfrey manualmente
bg_test = acorr_breusch_godfrey(aux_model, nlags=lags)

# Resultados do teste de Breusch-Godfrey
print(f'Breusch-Godfrey LM Statistic: {bg_test[0]}, p-value: {bg_test[1]}')



Breusch-Godfrey LM Statistic: 172.73274051878988, p-value: 2.7096067600358467e-36


Há evidências muito robustas de autocorrelação de ordens superiores nos resíduos do seu modelo. Isso sugere que os resíduos não são independentes, o que pode afetar a eficiência e a precisão das estimativas dos coeficientes e dos erros padrão.

Vamos usar **Erros Padrão Robustos à Heterocedasticidade e Autocorrelação (Newey-West)** para corrigir a estimação dos erros padrão dos coeficientes. 
* Newey-West (Kernel Bartlett): Ajusta para heterocedasticidade e autocorrelação de ordens superiores.
* Erros Padrão Clusterizados: Se há agrupamentos nos dados (por exemplo, por entidade ou tempo), os erros padrão clusterizados permitem lidar com a dependência dentro desses grupos.

In [29]:
# Ajustar o modelo PooledOLS com erros padrão de Newey-West
LSDV_FE2_newey = PooledOLS.from_formula('lwage ~ union + married + expersq + id2 + year', data=data).fit(cov_type='kernel', kernel='bartlett', bandwidth=4)  # Bandwidth ajusta a quantidade de defasagens para considerar

# Exibir o resumo do modelo com erros padrão de Newey-West
print(LSDV_FE2_newey.summary)


                          PooledOLS Estimation Summary                          
Dep. Variable:                  lwage   R-squared:                        0.6209
Estimator:                  PooledOLS   R-squared (Between):              1.0000
No. Observations:                4360   R-squared (Within):               0.1806
Date:                Mon, Sep 02 2024   R-squared (Overall):              0.6209
Time:                        15:43:34   Log-likelihood                   -1324.8
Cov. Estimator:        Driscoll-Kraay                                           
                                        F-statistic:                      11.250
Entities:                         545   P-value                           0.0000
Avg Obs:                       8.0000   Distribution:                F(554,3805)
Min Obs:                       8.0000                                           
Max Obs:                       8.0000   F-statistic (robust):          3.519e+15
                            

Também é possível utilizar erros padrão "cluster" para corrigir a estimação dos erros padrão dos coeficientes. Essa abordagem é útil quando os dados estão agrupados em clusters (por exemplo, por entidade ou tempo) e os erros podem ser correlacionados dentro desses clusters.

In [30]:
# Ajustar o modelo PooledOLS com erros padrão clusterizados por entidade
LSDV_FE2_clustered = PooledOLS.from_formula('lwage ~ union + married + expersq + id2 + year', data=data).fit(cov_type='clustered', cluster_entity=True)

# Exibir o resumo do modelo com erros padrão clusterizados
print(LSDV_FE2_clustered.summary)


                          PooledOLS Estimation Summary                          
Dep. Variable:                  lwage   R-squared:                        0.6209
Estimator:                  PooledOLS   R-squared (Between):              1.0000
No. Observations:                4360   R-squared (Within):               0.1806
Date:                Mon, Sep 02 2024   R-squared (Overall):              0.6209
Time:                        15:48:28   Log-likelihood                   -1324.8
Cov. Estimator:             Clustered                                           
                                        F-statistic:                      11.250
Entities:                         545   P-value                           0.0000
Avg Obs:                       8.0000   Distribution:                F(554,3805)
Min Obs:                       8.0000                                           
Max Obs:                       8.0000   F-statistic (robust):          1.297e+17
                            

### Aplicação na Literatura

Os professores Júlia Gallego Ziero Uhr e Daniel de Abreu Pereira Uhr aplicaram as tecnicas de Dados em Painel no artigo: "Infrações Ambientais e a Reputação do Regulador: Análise em Dados de Painel para o Brasil", na revista Estudos Econômicos (USP) - https://doi.org/10.1590/S0101-41612014000100003 


<div style="text-align:center;">
    <img src="images/EE.jpg"  alt="Imagem" style="width: 500px;"/>
</div>


<div style="text-align:center;">
    <img src="images/EE_res.png"  alt="Imagem" style="width: 500px;"/>
</div>


Outro artigo mais recente também apresenta a aplicação dos estimadores em dados em Painel em revista internacional: "Estimation of elasticities for electricity demand in Brazilian households and policy implications" https://doi.org/10.1016/j.enpol.2019.01.061

<div style="text-align:center;">
    <img src="images/EP1.png"  alt="Imagem" style="width: 500px;"/>
</div>


<div style="text-align:center;">
    <img src="images/EP2.png"  alt="Imagem" style="width: 1000px;"/>
</div>

<div style="text-align:center;">
    <img src="images/EP3.png"  alt="Imagem" style="width: 600px;"/>
</div>




### Considerações

Vimos que os dados em painel são uma estrutura de dados muito rica, e que possibilita controlar a heterogeneidade individual e temporal. Assim, os estimadores de dados em painel são capazes de controlar a fonte de endogeneidade devido a variável omitida.
