# Fontes de Endogeneidade

Prof. Daniel de Abreu Pereira Uhr

## Conteúdo

* Fontes de Endogeneidade
  * Omissão de Variáveis Relevantes (Subespecificação) vs Inclusão de Variáveis Irrelevantes (Sobre-especificação)
  * Erro de Medida (Measurement Error) - Variável dependente vs Variável independente
  * Viés de Simultaneidade (Simultaneity Bias/Reverse Causality)
  * Viés de Seleção Amostral (Sample Selection Bias)
  * Viés de Seleção pelo Tratamento/Fator de confusão (Treatment Selection Bias/Confounding)
 

## Referências

* HAYASHI , F. Econometrics, Princeton university press, 2000.
* Greene, W. H. Econometric Analysis. New Jersey. Prentice Hall; 5th edition. (2002).
* Gujarati, D. N. Econometria Básica. 5ª ed. Rio de Janeiro: Elsevier, 2011.
* Wooldridge, J.M. 2002. Econometric Analysis of Cross Section and Panel Data. Cambridge, MA: MIT Press, pp.282-283.
* Wooldridge, J. M. Introdução à Econometria: uma abordagem moderna. São Paulo: Cengage Learning, 2015.
* Pereda, P. C., & Alves, D. Econometria Aplicada, Elsevier, 2018.
* NOTAS PRÓPRIAS



---

## Fontes de Endogeneidade

O desenvolvimento da econometria mostrou que o estimador OLS é sensível a violações das hipóteses fundamentais, especialmente a hipótese de exogeneidade, que requer que o termo de erro não esteja correlacionado com as variáveis explicativas. Quando essa hipótese é violada, ocorre endogeneidade, resultando em estimadores viesados e inconsistentes. É essencial que os pesquisadores identifiquem as possíveis **fontes de endogeneidade** para aplicar as correções necessárias.

**Fontes Comuns de Endogeneidade:**

- Omissão de Variável Relevante (Subespecificação) vs Inclusão de Variável Irrelevante (Sobre-especificação)
- Erro de Medida (Measurement Error) - Variável dependente vs Variável independente
- Viés de Simultaneidade (Simultaneity Bias/Reverse Causality)
- Viés de Seleção Amostral (Sample Selection Bias)
- Viés de Seleção pelo Tratamento/Fator de confusão (Treatment Selection Bias/Confounding)

### Omissão de Variável Relevante (Subespecificação)

Quando uma variável relevante é omitida do modelo de regressão, os estimadores de OLS podem se tornar viesados e inconsistentes, especialmente se a variável omitida estiver correlacionada com as variáveis incluídas no modelo.

**Modelo Verdadeiro:**

$$ Y_i = \beta_1 + \beta_2 X_{i2} + \beta_3 X_{i3} + u_i $$

**Modelo Estimado:**

$$ Y_i = \alpha_1 + \alpha_2 X_{i2} + u_i $$

**Consequências:**
- Se a variável $ X_{i3} $ estiver correlacionada com $ X_{i2} $, os coeficientes estimados $ \hat{\alpha}_1 $ e $ \hat{\alpha}_2 $ serão viesados e inconsistentes.
- Se $ X_{i3} $ não estiver correlacionada com $ X_{i2} $, $ \hat{\alpha}_2 $ será não viesado, mas a precisão (eficiência) do estimador pode ser comprometida.
- A variância dos erros $ \sigma^2 $ será estimada incorretamente, o que afeta a precisão dos intervalos de confiança e dos testes de hipóteses.

**Exemplo Prático:**
Suponha que você esteja modelando o salário com base na educação ($ X_{i2} $), mas omite a experiência ($ X_{i3} $). Se a experiência estiver correlacionada com a educação, o efeito da educação sobre o salário será superestimado, pois parte do efeito da experiência será indevidamente atribuído à educação.

**Correção:**
Adicionar a variável relevante ao modelo ou usar variáveis instrumentais (IV) para lidar com a endogeneidade.


### Inclusão de Variável Irrelevante (Sobre-especificação)

Quando uma variável irrelevante é incluída no modelo, os estimadores de OLS permanecem não viesados e consistentes, mas podem se tornar menos eficientes.

**Modelo Verdadeiro:**

$$ Y_i = \beta_1 + \beta_2 X_{i2} + u_i $$

**Modelo Estimado:**

$$ Y_i = \alpha_1 + \alpha_2 X_{i2} + \alpha_3 X_{i3} + u_i $$

**Consequências:**
- Os estimadores de OLS permanecem não viesados: $ E(\hat{\alpha}_1) = \beta_1 $, $ E(\hat{\alpha}_2) = \beta_2 $, e $ E(\hat{\alpha}_3) = 0 $.
- A inclusão de $ X_{i3} $ aumenta a variância de $ \hat{\alpha}_2 $, tornando-o menos preciso.
- Embora os intervalos de confiança e os testes de hipóteses permaneçam válidos, a eficiência do estimador é comprometida.

**Correção:**
Testes de especificação, como o *Teste de Ramsey RESET*, podem ser utilizados para identificar sobre-especificação e ajustar o modelo.

**Simulação em Python:**

Vamos fazer uma simulação para ilustrar a diferença entre subespecificação e sobre-especificação.

In [27]:
import numpy as np
import pandas as pd
import statsmodels.formula.api as smf

In [100]:
# Semente para reprodução de resultados
np.random.seed(1515)

# Numero de observações
n = 1000

# Coeficientes
beta_1 = 2.0
beta_2 = 1.5
beta_3 = 3.0

# Gerando dados aleatórios para X2 e X3
X2 = np.random.normal(50, 10, n)  # Education, for example
X3 = 0.8 * X2 + np.random.normal(5, 2, n)  # Experience, with higher correlation with Education

# Termo de Erro
u = np.random.normal(0, 5, n)

# Modelo verdadeiro
Y = beta_1 + beta_2 * X2 + beta_3 * X3 + u

# Criação de uma variável irrelevante 
X_irrelevant = np.random.normal(0, 1, n)

df = pd.DataFrame({
    'Y': Y,
    'X2': X2,
    'X3': X3,
    'X_irrelevant': X_irrelevant
})


df.head()

Unnamed: 0,Y,X2,X3,X_irrelevant
0,213.268785,50.469604,44.238499,-0.037385
1,296.321458,67.409272,60.516168,-0.859806
2,178.45749,41.15665,39.455693,-0.400883
3,196.730583,50.797561,41.562741,2.271544
4,214.198501,54.519659,46.933682,0.600924


**Omissão de Variável Relevante (Subespecificação)**

In [101]:
reg1 = smf.ols('Y ~ X2', data=df).fit()
print(reg1.summary())

                            OLS Regression Results                            
Dep. Variable:                      Y   R-squared:                       0.964
Model:                            OLS   Adj. R-squared:                  0.964
Method:                 Least Squares   F-statistic:                 2.646e+04
Date:                Thu, 15 Aug 2024   Prob (F-statistic):               0.00
Time:                        17:47:08   Log-Likelihood:                -3466.5
No. Observations:                1000   AIC:                             6937.
Df Residuals:                     998   BIC:                             6947.
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     17.9483      1.243     14.438      0.0

Modelo verdadeiro:

In [102]:
reg2 = smf.ols('Y ~ X2 + X3', data=df).fit()
print(reg2.summary())

                            OLS Regression Results                            
Dep. Variable:                      Y   R-squared:                       0.986
Model:                            OLS   Adj. R-squared:                  0.986
Method:                 Least Squares   F-statistic:                 3.578e+04
Date:                Thu, 15 Aug 2024   Prob (F-statistic):               0.00
Time:                        17:47:09   Log-Likelihood:                -2980.2
No. Observations:                1000   AIC:                             5966.
Df Residuals:                     997   BIC:                             5981.
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      2.1976      0.858      2.561      0.0

**Inclusão de Variável Irrelevante (Sobre-especificação)**

In [103]:
reg3 = smf.ols('Y ~ X2 + X3 + X_irrelevant', data=df).fit()
print(reg3.summary())

                            OLS Regression Results                            
Dep. Variable:                      Y   R-squared:                       0.986
Model:                            OLS   Adj. R-squared:                  0.986
Method:                 Least Squares   F-statistic:                 2.385e+04
Date:                Thu, 15 Aug 2024   Prob (F-statistic):               0.00
Time:                        17:47:11   Log-Likelihood:                -2979.7
No. Observations:                1000   AIC:                             5967.
Df Residuals:                     996   BIC:                             5987.
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                   coef    std err          t      P>|t|      [0.025      0.975]
--------------------------------------------------------------------------------
Intercept        2.1630      0.859      2.519   

### Erro de Medida (Measurement Error)

Erros de medida podem ocorrer tanto na variável dependente quanto na variável independente, e suas consequências diferem significativamente.

#### Erro de Medida na Variável Dependente

Quando há um erro de medida na variável dependente, o modelo original é:

$$ Y_{i}^{*} = \alpha + \beta X_{i} + u_{i} $$

Aqui, $ Y_{i}^{*} $ é a variável dependente verdadeira, mas o que observamos é $ Y_i $ que contém um erro de medida $ e_i $:

$$ Y_{i} = Y_{i}^{*} + e_{i} $$

Substituindo $ Y_{i}^{*} $ na equação do modelo:

$$ Y_{i} = (\alpha + \beta X_{i} + u_{i}) + e_{i} $$

Ou seja:

$$ Y_{i} = \alpha + \beta X_{i} + (u_{i} + e_{i}) $$

Aqui, $ u_i + e_i$ é o termo de erro composto, que incorpora o erro de medida na variável dependente. 

**Consequências:**

- O termo $ e_i $ é simplesmente adicionado ao termo de erro original $ u_i $, o que aumenta a variância total do erro.
- Como resultado, o estimador $ \hat{\beta} $ do OLS continua sendo **não viesado** e **consistente**, mas a **variância** do estimador aumenta.

A variância do estimador $ \hat{\beta} $ é dada por:

$$ \text{V}(\hat{\beta}) = \frac{\sigma_u^2}{V(X)} $$

Com o erro de medida $ e_i $, a variância do termo de erro total $ v_i = u_i + e_i $ se torna $ \sigma_v^2 = \sigma_u^2 + \sigma_e^2 $. Portanto, a variância do estimador $ \hat{\beta} $ com erro de medida é:

$$ \text{V}(\hat{\beta}) = \frac{\sigma_u^2 + \sigma_e^2}{V(X)} $$

**Conclusão:** O erro de medida na variável dependente aumenta a variância do estimador $ \hat{\beta} $, tornando-o menos eficiente. Isso prejudica a precisão dos intervalos de confiança e a potência dos testes de hipóteses.

**Erro de Medida na Variável Independente:**

- O estimador OLS se torna viesado e inconsistente, resultando em estimativas errôneas dos coeficientes.

**Modelo Verdadeiro:**

$$ Y_i = \alpha + \beta X_i + u_i $$

**Variável com Erro de Medida:**

$$ X_i^* = X_i + w_i $$

Aqui, $ X_i^* $ é a variável observada com erro de medida, onde $ w_i $ é o erro de medida.

**Substituição no Modelo:**

Se substituirmos $ X_i = X_i^* - w_i $ no modelo verdadeiro, temos:

$$ Y_i = \alpha + \beta (X_i^* - w_i) + u_i $$

$$ Y_i = \alpha + \beta X_i^* - \beta w_i + u_i $$

Vamos chamar esse termo $ z_i = u_i - \beta w_i $. Assim, o modelo se torna:

$$ Y_i = \alpha + \beta X_i^* + z_i $$

**Covariância:**

Agora, calculamos a covariância entre $ z_i $ e $X_i^* $:

$$ \text{Cov}[z_i, X_i^*] = E\left[ (z_i - E(z_i)) \cdot (X_i^* - E(X_i^*)) \right] $$

Substituindo $ z_i = u_i - \beta w_i $ e $ X_i^* = X_i + w_i $:

$$ = E\left[ ((u_i - \beta w_i) - E(u_i - \beta w_i)) \cdot (X_i^* - E(X_i^*)) \right] $$
$$ = E\left[ (u_i - \beta w_i) \cdot (X_i + w_i - E(X_i + w_i)) \right] $$

Simplificando, dado que $ E(u_i) = 0$, $ E(w_i) = 0 $, e $ X_i^* $ é a variável observada:

$$ = E\left[ (u_i - \beta w_i) \cdot w_i \right] $$
$$ = E\left[ u_i \cdot w_i - \beta w_i^2 \right] $$

Assumindo que $ u_i $ e $ w_i $ são não correlacionados, $ E[u_i \cdot w_i] = 0 $:

$$ = E\left[ -\beta w_i^2 \right] $$
$$ = -\beta E[w_i^2] $$
$$ = -\beta \sigma_{w_i}^2 $$

Portanto, a covariância entre $ z_i $ e $ X_i^* $ é $ -\beta \sigma_{w_i}^2 $, que não é zero. 

Isso significa que a variável explicativa $ X_i^*$ e o termo de erro $ z_i $ são correlacionados, **violando a hipótese de exogeneidade estrita**.

**Simulação em Python:**

Vamos realizar uma simulação para ilustrar o impacto do erro de medida na variável dependente e independente. Vamos criar as variáveis "observadas" (observed), tanto para dependente quanto para independente, e comparar os resultados.

In [104]:
# Criando os erros de medida para cada variável. Os erros são distribuídos normalmente com média 0 e desvio padrão 5
measurement_error_Y = np.random.normal(0, 5, len(df))
measurement_error_X2 = np.random.normal(0, 5, len(df))

# Adicionando as variáveis com erro de medida ao dataframe
df['Y_observed'] = df['Y'] + measurement_error_Y
df['X2_observed'] = df['X2'] + measurement_error_X2


Vamos considerar o modelo verdadeiro, e rodar a regressão para a variável dependente observada e verificar os resultados.

In [106]:
# Modelo1: Erro de medida em Y
model_1 = smf.ols('Y_observed ~ X2 + X3', data=df).fit()
print(model_1.summary())

                            OLS Regression Results                            
Dep. Variable:             Y_observed   R-squared:                       0.971
Model:                            OLS   Adj. R-squared:                  0.971
Method:                 Least Squares   F-statistic:                 1.672e+04
Date:                Thu, 15 Aug 2024   Prob (F-statistic):               0.00
Time:                        18:26:33   Log-Likelihood:                -3359.2
No. Observations:                1000   AIC:                             6724.
Df Residuals:                     997   BIC:                             6739.
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      2.5941      1.253      2.070      0.0

é possivel verificar que a variância dos coeficientes é maior quando há erro de medida na variável dependente (e as estatísticas t reduziram), mas os coeficientes são consistentes.

Agora vamos utilizar a variável independente com erro de medida e verificar os resultados.

In [108]:
# Modelo 3: Erro de medida em X2
model_2 = smf.ols('Y ~ X2_observed + X3', data=df).fit()
print(model_2.summary())

                            OLS Regression Results                            
Dep. Variable:                      Y   R-squared:                       0.981
Model:                            OLS   Adj. R-squared:                  0.981
Method:                 Least Squares   F-statistic:                 2.541e+04
Date:                Thu, 15 Aug 2024   Prob (F-statistic):               0.00
Time:                        18:27:14   Log-Likelihood:                -3148.6
No. Observations:                1000   AIC:                             6303.
Df Residuals:                     997   BIC:                             6318.
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                  coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------
Intercept      -0.9160      0.999     -0.917      

Repare que os coeficientes estimados são viesados e inconsistentes, pois a variável explicativa e o termo de erro estão correlacionados (Há endogeneidade). 

O coeficiente estimado para a variável independente "X2_observed" é menor que o valor verdadeiro, mostrando o viés negativo. O viés negativo de um coeficiente estimado ocorre quando o valor esperado do coeficiente estimado é menor que o valor verdadeiro do coeficiente. Isso significa que, em média, o estimador tende a subestimar o verdadeiro valor do coeficiente.

### Viés de Simultaneidade (Simultaneity Bias/Reverse Causality)

O viés de simultaneidade ocorre quando uma ou mais variáveis explicativas em um modelo de regressão são simultaneamente determinadas com a variável dependente. Isso significa que existe uma causalidade reversa, onde a variável explicativa influencia a variável dependente e, ao mesmo tempo, é influenciada por ela. Em termos mais formais, isso cria uma correlação entre as variáveis independentes e o termo de erro, violando a hipótese de exogeneidade estrita necessária para que o estimador OLS seja consistente.

Considere um modelo simples de oferta e demanda para um bem, onde a quantidade $ Q $ e o preço $ P $ são determinadas simultaneamente:

- Função de Demanda:
  $$
  Q_d = \alpha - \beta P + u_d
  $$
- Função de Oferta:
  $$
  Q_s = \gamma + \delta P + u_s
  $$

O equilíbrio de mercado ocorre onde a quantidade demandada é igual à quantidade ofertada:

$$
Q_d = Q_s
$$

Portanto, a variável preço $ P $ está simultaneamente determinada com a quantidade $ Q $. Se tentarmos estimar uma regressão simples de $ Q $ sobre $ P $ usando OLS, obteremos estimadores viesados, pois o preço $ P $ está correlacionado com o termo de erro, que agora incorpora os choques tanto na oferta quanto na demanda.

Como consequencias, temos:
- O estimador OLS será inconsistente, o que significa que, mesmo com um grande tamanho de amostra, o estimador não convergirá para o verdadeiro valor do parâmetro.
- As inferências feitas a partir do modelo serão incorretas, resultando em conclusões potencialmente errôneas sobre as relações causais entre as variáveis.

**Exemplo**

No contexto da economia, considere o modelo de oferta e demanda. Se estimarmos a relação entre preço e quantidade usando apenas uma regressão OLS, ignorando a simultaneidade, poderíamos subestimar ou superestimar a elasticidade-preço da demanda ou oferta.

**Correção**

Uma abordagem comum para corrigir o viés de simultaneidade é o uso de **Variáveis Instrumentais (IV)**. A ideia é encontrar uma variável que esteja correlacionada com a variável explicativa endógena, mas que não esteja correlacionada com o termo de erro. Caso exista mais de uma variável exógena excluída correlacionada com a variável endógena, utilizamos o **Mínimos Quadrados em Dois Estágios (2SLS)**, onde no primeiro estágio a variável endógena é projetada sobre as variáveis exógenas e no segundo estágio essa projeção é usada para estimar o modelo de interesse.


### Viés de Seleção Amostral (Sample Selection Bias)

O viés de seleção amostral ocorre quando a amostra utilizada em uma análise não é representativa da população alvo devido a um processo de seleção que está correlacionado com a variável dependente. Isso resulta em estimadores viesados e inconsistentes, pois a amostra não reflete adequadamente a variação e as relações presentes na população como um todo. Em outras palavras, a amostra não é aleatória, mas sim "selecionada" de uma maneira que distorce as relações entre as variáveis.

O viés de seleção amostral pode surgir de várias formas, incluindo, por exemplo: (i) viés de não-resposta, onde os não-respondentes diferem dos respondentes; (ii) viés de atrito, onde os indivíduos que saem da amostra diferem dos que permanecem; (iii) viés de seleção de amostragem, onde a amostra é selecionada de forma não aleatória.


**Modelo com Viés de Seleção Amostral:**

Considere um modelo onde estamos interessados em estimar o impacto da educação sobre o salário:

$$
\text{Salário}_i = \alpha + \beta \text{Educação}_i + u_i
$$

Se a amostra incluir *apenas indivíduos empregados*, podemos estar ignorando os indivíduos desempregados, que poderiam ter características (observáveis ou não observáveis) que afetam tanto a probabilidade de emprego quanto o salário. Isso introduz o viés de seleção amostral. A mostra não é aleatória, mas sim "selecionada" de uma maneira que distorce as relações entre as variáveis.

Como consequencias, temos:
- O estimador OLS aplicado a essa amostra não representativa será viesado, pois a correlação entre o erro $ u_i $ e a variável independente $ \text{Educação}_i $ não é zero, devido ao processo de seleção.
- A interpretação dos coeficientes estimados será inválida, pois eles não se aplicam à população como um todo, mas apenas ao subconjunto da amostra selecionada.

**Exemplo**
Um exemplo clássico de viés de seleção amostral é o "viés de busca de emprego", onde os salários são estimados apenas para os trabalhadores empregados, ignorando os desempregados. Isso pode levar a uma superestimação do salário médio, uma vez que os desempregados podem ter salários mais baixos.

**Correção:**
Uma abordagem classica para corrigir o viés de seleção amostral é o uso do **Modelo de Seleção de Heckman** (ou correção de Heckman). 


### Viés de Seleção pelo Tratamento/Fator de confusão (Treatment Selection Bias/Confounding)

O viés de seleção pelo tratamento ocorre quando a seleção dos indivíduos para um tratamento (ou intervenção) não é aleatória, mas sim baseada em características observáveis ou não observáveis que também influenciam o resultado de interesse. Esse viés resulta em estimativas que não podem ser interpretadas como efeitos causais do tratamento, uma vez que a comparação entre grupos tratados e não tratados não reflete um cenário contrafactual adequado.

Esse viés é comum em estudos observacionais, onde os indivíduos se auto-selecionam para participar de um tratamento com base em suas características, que podem estar correlacionadas com o resultado de interesse. Isso cria um problema de **fator de confusão**, onde a variável de tratamento está correlacionada com outras variáveis que afetam o resultado, tornando difícil isolar o efeito causal do tratamento.

Esse viés não depende da coleta de dados, mas sim da forma como os indivíduos são selecionados para o tratamento. Se a seleção para o tratamento é baseada em características que afetam o resultado, o efeito do tratamento será superestimado ou subestimado. É algo que deve considerar os mecanismos econômicos e comportamentais que levam à seleção dos indivíduos para o tratamento.

Considere um modelo onde estamos interessados em estimar o impacto de um programa de treinamento sobre o salário:

$$
\text{Salário}_i = \alpha + \beta \text{Treinamento}_i + u_i
$$

Se os indivíduos que participam do treinamento são aqueles mais motivados ou com mais habilidades (fatores não observáveis), isso criará um viés na estimativa de $ \beta $, pois o treinamento pode estar capturando o efeito dessas características e não o efeito causal do programa.


$$
\text{Salário}_i = \alpha + \beta \text{Treinamento}_i + (\text{Motivação}_i + \epsilon_i)
$$

Como consequencias, temos:
- O estimador OLS pode fornecer uma estimativa viesada e inconsistente do impacto do tratamento, porque não controla adequadamente para as diferenças entre os grupos tratados e não tratados.
- As conclusões sobre a eficácia do tratamento podem ser enganosas, uma vez que não refletem o verdadeiro efeito causal.

**Exemplo**
Em um estudo que avalia o impacto de um programa de treinamento no emprego, se apenas aqueles que já têm uma maior propensão a conseguir emprego (por exemplo, por terem mais experiência) participarem do programa, o impacto do treinamento será superestimado.

**Correção:**
Existem várias abordagens para corrigir o viés de seleção pelo tratamento, por exemplo, Propensity Score Matching (PSM), Diferenças em Diferenças (DiD), Variáveis Instrumentais (IV).



### Considerações

Vimos que as fontes de viés provocam estimativas inconsistentes e viesadas, comprometendo a validade das inferências feitas a partir dos modelos de regressão. É fundamental que os pesquisadores estejam cientes dessas fontes de endogeneidade e apliquem as correções apropriadas para garantir que os resultados sejam confiáveis e robustos. Em economia, a identificação e correção de endogeneidade são questões centrais para a validade dos resultados empíricos e a formulação de políticas públicas eficazes.