# 02 - Segunda Fase: Formalização e Estabelecimento Teórico

Na aula anterior demos um sobrevoo sobre a primeira fase da econometria. Nesta aula vamos revisar os conceitos básicos da econometria e introduzir o estimador de Mínimos Quadrados Ordinários (OLS).

## Mínimos Quadrados Ordinários (MQO / Ordinary Least Squares - OLS)

O modelo clássico de regressão linear satisfaz as seguintes hipóteses (Hayashi, 2000):

* 1. Linearidade
* 2. Exogeneidade estrita
* 3. Não-Multicolineariade
* 4. Variância esférica do erro.

Vejamos por partes. A **hipótese 1** define que a relação entre a variável dependente ($y$) e as variáveis independentes ($x$) é linear. 

$$
y_{i} = \beta_{1}x_{i1} + \beta_{2}x_{i2} + ... + \beta_{k}x_{ik} + \epsilon_{i}
$$

Para $i = 1, 2, ..., n$, onde $n$ é o número de observações. Os coeficientes ($\beta$) são os parâmetros do modelo a serem estimados e o termo de erro ($\epsilon$) é a parte não observada do modelo.

O lado direito da igualdade é chamado de **função de regressão**, e os coeficientes são chamados de **coeficientes de regressão**. A hipótese 1 define que a função de regressão é linear nos parâmetros, não nas variáveis.

**Notação Matricial**

Defina vetores K-dimensionais $x_{i}$ e $\beta$ como:

$$
x_{i} = \begin{bmatrix} x_{i1} \\ x_{i2} \\ \vdots \\ x_{ik} \end{bmatrix} \quad \beta = \begin{bmatrix} \beta_{1} \\ \beta_{2} \\ \vdots \\ \beta_{k} \end{bmatrix}
$$

Pela definição de produto interno de vetores, $x_{i}^{'}\beta = \beta_{1}x_{i1} + \beta_{2}x_{i2} + ... + \beta_{k}x_{ik}$. Assim, a função de regressão pode ser escrita como:

$$
y_{i} = x_{i}^{'}\beta + \epsilon_{i}
$$

Defina,

$$
y=\begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{bmatrix} \quad X=\begin{bmatrix} x_{1}^{'} \\ x_{2}^{'} \\ \vdots \\ x_{n}^{'} \end{bmatrix} =  \begin{bmatrix}
x_{11} & ... & x_{1K} \\
\vdots & ... & \vdots \\
x_{n1} & ... &  x_{nk} \\
\end{bmatrix}  \quad \epsilon=\begin{bmatrix} \epsilon_{1} \\ \epsilon_{2} \\ \vdots \\ \epsilon_{n} \end{bmatrix}
$$

Assim, a hipótese 1 pode ser escrita como:

$$
y=X\beta + \epsilon
$$

**Hipótese 2**

A exogeneidade estrita é definida como:

$$
E(\epsilon_{i}|x_{i1}, x_{i2}, ..., x_{ik}) = 0
$$

A expectativa condicional do termo de erro é zero, dado os valores das variáveis independentes. A hipótese 2 define que as variáveis independentes são não correlacionadas com o termo de erro ($\epsilon$) para todas as condições.

Uma implicação direta da exogeneidade estrita é que a expectativa incondicional do termo de erro é zero:

$$
E(\epsilon_{i}) = 0
$$
Isso ocorre pela lei das expectativas totais:

$$
E(\epsilon_{i}) = E[E(\epsilon_{i}|x_{i1}, x_{i2}, ..., x_{ik})] = E[0] = 0
$$

Além disso, se o momento cruzado entre duas variáveis aleatórias é zero (covariância), então dizemos que elas são ortogonais. Sob exogeneidade estrita, as variáveis independentes são ortogonais ao termo de erro.

$$
E(x_{jk}\epsilon_{i}) = 0
$$

ou

$$
E(x_{j}\epsilon_{i}) = \begin{bmatrix} E(x_{j1}\epsilon_{i}) \\ E(x_{j2}\epsilon_{i}) \\ \vdots \\ E(x_{jk}\epsilon_{i}) \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \\ \vdots \\ 0 \end{bmatrix}
$$




Para relembrar o conceito expectativa condicional e de exogeneidade estrita. Considere a tabela e responda as questões abaixo.

| Y | X | u |
|---|---|---|
| 4 | 1 | 3 |
| 3 | 1 | 2 |
| 3 | 1 | 1 |
| 1 | 0 | -1 |
| 2 | 0 | -2 |
| 0 | 0 | -3 |

**Calcule:**
* E(Y)
* E(Y|X=1) e E(Y|X=0)
* E(Y|X=1) - E(Y|X=0)
* E(u)
* Podemos confiar numa regressão de Y em X?


In [None]:
import numpy as np

# Dados fornecidos
Y = np.array([4, 3, 3, 1, 2, 0])
X = np.array([1, 1, 1, 0, 0, 0])
u = np.array([3, 2, 1, -1, -2, -3])

# Calcular as médias
media_Y = np.mean(Y)
media_X = np.mean(X)
media_Y_X_1 = np.mean(Y[X == 1])
media_Y_X_0 = np.mean(Y[X == 0])
dif_media_Y_X = media_Y_X_1 - media_Y_X_0
media_u = np.mean(u)

print("Média de Y (E(Y|X=1)): ", media_Y_X_1)
print("Média de Y (E(Y|X=0)): ", media_Y_X_0)
print("(E(Y|X=1)- E(Y|X=0)): ", dif_media_Y_X)
print("Média de u: ", media_u)

**Hipótese 3**

Não multicolinearidade (posto completo da matriz X). A hipótese 3 define que as variáveis independentes **não são perfeitamente correlacionadas entre si**. 

Considere a Matriz X(2x2) abaixo:

$ X = \begin{bmatrix} 1 & 3 \\ 4 & 12 \end{bmatrix} $

Sua transposta é:

$ X´ = \begin{bmatrix} 1 & 4 \\ 3 & 12 \end{bmatrix} $

O produto da transposta com a matriz X é:

$ X´X = \begin{bmatrix} 1 & 4 \\ 3 & 12 \end{bmatrix} \begin{bmatrix} 1 & 3 \\ 4 & 12 \end{bmatrix} = \begin{bmatrix} 17 & 51 \\ 51 & 153 \end{bmatrix} $

Para calcular a matriz inversa ($A^{-1}$):

$ A^{-1} = \frac{1}{det(A)} .  Adjunta $	

Chamo a atenção que para calcular a inversa de $X´X$ precisamos calcular o determinante da matriz. Qual o determinante da matriz $X$? 

Precisamos do posto completo para a inversa existir e identificarmos os coeficientes do modelo.

**Hipótese 4**

O termo **variância esférica do erro** é composto por duas hipóteses:
* **homocedasticidade**
$$
E(\epsilon_{i}^{2}|X) = \sigma^{2} > 0
$$

* não correlação entre os erros dos indivíduos (espacial). Ou seja, covariância entre o erro do indivíduo i e j é zero.

$$
E(\epsilon_{i}\epsilon_{j}|X) = 0
$$

Ou seja, 
$$
E(\epsilon \epsilon^{´}|X) = \sigma^{2}I_{n}
$$


Sob essas quatro hipóteses, o estimador OLS é o estimador mais eficiente na classe doss estimadores lineares não viesados (BLUE - Best Linear Unbiased Estimator).


### Álgebra dos Estimadores OLS

Considere que o método OLS busca o argumento b que minimiza o quadrado dos resíduos. Vejamos em termos algébricos:

$$ \beta = argmin(b)E[(Y_{i}-X_{i}b)^2] $$

A condição de primeira ordem (CPO):

$$ E[X´_{i}(Y_{i}-X_{i}b)]=0 $$

Sob a hipótese de posto completo é possível ter a inversa $E[X_{i}´X_{i}]^{-1}$, e isolamos o beta estimado (b) :

$$ b = E[X_{i}´X_{i}]^{-1}E[X_{i}Y_{i}] $$

Considere a regressão populacional dada por:

$$ Y_{i} = X_{i}\beta + u_{i} $$

Podemos substituir a regressão populacional na estimativa de beta amostral:

$$ b = E[X_{i}´X_{i}]^{-1}E[X_{i} Y_{i} ] $$

temos:

$$ b = E[X_{i}´X_{i}]^{-1}E[X_{i} (X_{i}\beta + u_{i})] $$

Logo:

$$ b = \beta + E[X_{i}´X_{i}]^{-1}E[X_{i}´u_{i}] $$

ou
$$ b= \beta+\frac{\operatorname{Cov}(X, u)}{\operatorname{Var}(X)} $$

Para que a **IDENTIFICAÇÃO** de b estimado seja **não enviesada**, a covariância entre o erro e as variáveis explicativas X deve ser zero, $E[X_{i}´u_{i}]=0$. Aqui está a importância da hipótese de exogeneidade estrita.


**Para a inferência**, precisamos analisar a distribuição assintótica do beta estimado:

$$ \sqrt{n}(b-\beta) \rightarrow N(0,V)=N\sum{[X_{i}´X_{i}]^{-1}}\frac{1}{\sqrt{N}}\sum{[X_{i}´u_{i}]} $$

Pelo teorema central do limite, a distribuição assintótica de b é assintóticamente normal com média zero e matriz de variância-covariância dada por:

$$ V(b-\beta | X) = V(b|X) = [X_{i}´X_{i}]^{-1}X´u.u´X.[X_{i}´X_{i}]^{-1} $$

$$ V(b|X) = [X_{i}´X_{i}]^{-1}X´ u.u´ X.[X_{i}´X_{i}]^{-1} $$

$$ V(b|X) = [X_{i}´X_{i}]^{-1}X´ u_{i}^{2} X.[X_{i}´X_{i}]^{-1} $$

Sob a hipótese de Homocedasticidade, $E(u_{i}^{2}|X)=\sigma^{2}$, a matriz de variância-covariância de b é dada por:

$$ V(b|X) = \sigma^{2}[X_{i}´X_{i}]^{-1} = \frac{\sum{\frac{u_{i}^{2}}{n-k}}}{\sum(X- \bar{X})^{2}}$$

Logo, se a variância dos erros aumenta, a variância do beta estimado aumenta. Por outro lado, se $X$ varia pouco, a variância do beta estimado aumenta.

Portanto, precisamos de variação nas variáveis independentes para que a variância do beta estimado seja pequena, caso contrário, a variância do beta estimado será grande e o intervalo de confiança para o beta estimado será grande.

**Teste de Hipóteses**

A variância dos betas estimados é importante para realização do teste de hipóteses.
$$
H_0: b = 0 \\
H_1: b \neq 0 
$$

Utilizamos o test-t para testar a hipótese nula de que os coeficientes são iguais a zero. O teste-t é dado por:

$$ t = \frac{b}{s.e.(b)} = \frac{b}{\sqrt{V(b|X)/n}} $$

**P-valores**
Pessoalmente, eu prefiro valores-p. É mais informativo do que a estatística-t, o valor-p dá a probabilidade de obter a estatística $t$ correspondente se a hipótese nula for verdadeira, que é exatamente a probabilidade de **erro tipo I**.

Um p-valor baixo, como por exeplo, 0.0001, significa que, é muito improvável que a hipótese nula seja verdadeira, podemos rejeitar com segurança a hipótese nula com uma pequena probabilidade de erro Tipo I.


O OLS assume que os erros são independentes e identicamente distribuídos (i.i.d). Relaxando a hipótese de homocedasticidade. Sob heterocedasticidade, os erros padrões estimados por OLS são viesados.

Nessa situação, precisamos relaxar a hipótese de erros esféricos, onde a matriz de variância-covariância dos erros é diagonal: $\Omega = \sigma^{2}I_{n}$ ou seja, iid $(0, \sigma^{2})$.


## Inferência com Erros Heterocedásticos

**Erros-Padrão Robustos a Heterocedasticidade**

**Halbert White (1980)** sugeriu o uso dos resíduos ao quadrado de cada observação ($u{i}^{2}$). A matriz de variância-covariância dos erros robusta é dada por:

$$ V(b|X) = [X_{i}´X_{i}]^{-1}X´\hat u_{i}^{2}X.[X_{i}´X_{i}]^{-1} $$

$$ V(b|X) = [X_{i}´X_{i}]^{-1}X´\begin{bmatrix}
\hat u_{1}^{2} & 0 & 0 \\
0 & ... & 0 \\
0 & 0 & \hat u_{n}^{2} \\
\end{bmatrix}X.[X_{i}´X_{i}]^{-1} $$

**Erros-Padrão Bootstrap**

É um método de reamostragem que consiste em gerar novas amostras a partir da amostra original. O bootstrap é um método de inferência não paramétrico, ou seja, não faz suposições sobre a distribuição dos dados. O bootstrap é um método de inferência assintótico, ou seja, o tamanho da amostra tende ao infinito.
Etapas:
1. Ajustar o modelo de regressão linear considerando os dados da amostra original e obter os n resíduos $\hat u_{i}$.
2. Selecionar uma amostra aleatória de tamanho n, dos resíduos obtidos no passo 1, utilizando **reamostragem com reposição**, com probabilidade 1/n para cada resíduo selecionado ($u_{i}^{BR}$).
3. Gerar novos valores de $Y$ pela equação $\hat Y_{i}^{BR} = X\beta + u_{i}^{BR}$, e assim obtermos novas estimativas para $\hat{\beta}$.
4. Repetir os passos de 1 a 3, R vezes (R iterações).

Depois de R reamostragens, obtem-se a distribuição empírica de $\hat{\beta}$ e suas estatísticas, tais como a **média bootstrap** e o **desvio-padrão bootstrap**.

**Erro-Padrão Cluster**

Caso os dados apresentem uma relação entre sí (correlação espacial), podemos considera-las no calculo do erro padrão. Suponha que exista uma covariância entre as Firmas de determinados setores. Então podemos considerá-la através dos “erros padrão cluster”.


## Estimadores Alternativos ao OLS

Lembre-se que pelo teorema de Gauss-Markov, o estimador OLS é eficiente entre os estimadores não viesados se os erros da regressão linear são independentes e homocedásticos.
Assumimos agora que a matriz de variância é $\Omega \neq \sigma^{2} 𝐼_{𝑛}$. Logo, estimadores alternativos ao OLS são necessários para obteção de estimadores eficientes.

**Estimadores alternativos:**
* Estimador GLS - Generalized Least-Squares 
* Estimador FGLS - Feasible Generalized Least-Squares
* Estimador WLS - Weighted Least-Squares

**Estimador GLS - Generalized Least-Squares**
Se $\Omega$ é conhecida e não singular, podemos pré-multiplicar o modelo por $\Omega^{(−1/2)}$, então:

$$
\Omega^{-1/2}y = \Omega^{-1/2}X\beta + \Omega^{-1/2}\epsilon
$$

e a variância dos erros:

$$
var(\Omega^{-1/2}\epsilon) = \Omega^{-1/2}var(\epsilon)\Omega^{-1/2} = \Omega^{-1/2}\Omega\Omega^{-1/2} = I_{n}
$$

Logo, o estimador GLS é dado por:

$$
\hat{\beta}_{GLS} = (X^{'}\Omega^{-1}X)^{-1}X^{'}\Omega^{-1}y
$$

O GLS não é calculado na prática, pois a matriz de variância-covariância dos erros é desconhecida. Então, precisamos estimar a matriz de variância-covariância dos erros.

**Estimador FGLS - Feasible Generalized Least-Squares**
Como na prática não conhecemos $\Omega$, então precisamos estimá-la. Então especifica-se que $\Omega= \Omega(\delta)$, onde $\delta$ é um vetor de parâmetros de dimensão finita, obtendo uma estimativa consistente $\hat{\delta}$ 𝑑𝑒 $\delta$, formando $\hat{\Omega} = \Omega(\delta)$. O $\delta$ pode ser consistentemente estimado por uma regressão de mínimos quadrados não lineares do quadrado dos resíduos OLS: $\hat{𝑢_i^2}=(𝑦−𝑥´ \hat{\beta}_{OLS}^2)$ sobre $𝑒𝑥𝑝⁡(𝑧´\delta)$ onde $z$ é um subconjunto de x. 

$$
\hat{\beta}_{FGLS}= (X^{'}\hat{\Omega}^{-1}X)^{-1}X^{'}\hat{\Omega}^{-1}y
$$

É importante notar que não podemos utilizar $\Omega = 𝑫𝒊𝒂𝒈[\hat{𝒖}_𝒊^𝟐]$ que foi utilizada para o cálculo de erro padrão robusto porque gera estimação inconsistente.

**Estimador WLS - Weighted Least-Squares**
É o caso especial do FGLS onde $\Omega{−1}$ é diagonal. E a matriz de variância pode ser trabalhada (working variance matrix).

$$
\hat{\beta}_{WLS}= (X^{'}\hat{\Delta}^{-1}X)^{-1}X^{'}\hat{\Delta}^{-1}y
$$

Aqui **não** se pressupõe que $\Delta^{−𝟏} = \Omega^{−𝟏} $. O pesquisador transforma as variáveis por uma função dos erros que depende de x. Ex. supondo $𝑢= \sqrt{|x|} \epsilon$, então $𝑉[𝑢]=\sigma^2 |𝑥|$; então dividindo por $\sqrt{|𝑥|}$ tem-se o estimador WLS.


## Aplicação OLS

Vamos fazer um exemplo de regressão linear com dados reais com o Python. Nessa aplicação vamos utilizar a base de dados "cattaneo2.dta" (Cattaneo, Journal of Econometrics, 2010). A base de dados estuda o efeito do fumo durante a gravidez no peso do bebê ao nascer. Para nossa aplicação vamos utilizar como variável de resultado/interesse o peso do bebê ao nascer (bweight) e como variável de tratamento/explicativa o fato da mãe fumar (mbsmoke).

Devemos instalar os pacotes necessários para a análise dos dados, requests, pyreadstat, pandas, matplotlib, statmodels, seaborn e scipy. O pacote requests é utilizado para realizar o download do arquivo, o pyreadstat para ler o arquivo .dta, o pandas para manipular os dados, o matplotlib e o seaborn para plotar os gráficos e o scipy para realizar o teste t. O pacote statsmodels é utilizado para realizar a regressão linear.

O primeiro modelo OLS assume erros-padrão homocedásticos, e o segundo com erros-padrão robustos a heterocedasticidade. Posteriormente apresento o teste de heterocedasticidade de White, e uma aplicação para regressão FGLS.


In [None]:
import requests
import pyreadstat
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import ttest_ind
import statsmodels.api as sm
import numpy as np

# URL do arquivo no GitHub
url = "https://github.com/Daniel-Uhr/data/raw/main/cattaneo2.dta"

# Realizar o download do arquivo
response = requests.get(url)

# Salvar o arquivo localmente
with open('cattaneo2.dta', 'wb') as f:
    f.write(response.content)
# with open(...) as f:: Isso abre um contexto de gerenciamento de arquivo usando a declaração with, garantindo que o arquivo seja fechado automaticamente após o uso.

# Carregar os dados do arquivo .dta para um DataFrame
dados, metadata = pyreadstat.read_dta('cattaneo2.dta')
# pyreadstat: É uma biblioteca em Python para ler arquivos no formato DTA. 
# read_dta(...): É uma função da biblioteca pyreadstat que lê um arquivo DTA e retorna os dados e metadados contidos nele.

# Separe as variáveis independentes (X) e a variável dependente (Y)
X = dados[['mbsmoke', 'mage']]  # Variável independente (fumante ou não fumante) e idade da mãe
Y = dados['bweight']  # Variável dependente (peso do bebê)

# Adicione uma constante para estimar o intercepto na regressão
X = sm.add_constant(X)
#sm.add_constant() do módulo statsmodels.api adiciona uma coluna de 1s à matriz de recursos X, permitindo que você ajuste um modelo de regressão linear com intercepto.

# Crie o modelo de regressão linear
model = sm.OLS(Y, X)

# Ajuste o modelo aos dados
results1 = model.fit()

# Imprima os resultados da regressão
print(results1.summary())

# Ajuste o modelo aos dados com erros robustos
results2 = model.fit(cov_type='HC2')

# Imprima os resultados da regressão com erros robustos
print(results2.summary())

Teste de Heterocedasticidade de White

In [None]:
import requests
import pyreadstat
import numpy as np
from sklearn.linear_model import LinearRegression
from statsmodels.stats.diagnostic import het_white
import statsmodels.api as sm
import pandas as pd

#define URL where dataset is located
url = "https://github.com/Daniel-Uhr/data/raw/main/cattaneo2.dta"

# Realizar o download do arquivo
response = requests.get(url)

# Salvar o arquivo localmente
with open('cattaneo2.dta', 'wb') as f:
    f.write(response.content)

# Carregar os dados do arquivo .dta para um DataFrame
dados, metadata = pyreadstat.read_dta('cattaneo2.dta')

#define response variable
y = dados['bweight']

#define predictor variables
x = dados[['mbsmoke', 'mage']]

#add constant to predictor variables
x = sm.add_constant(x)

#fit regression model
model = sm.OLS(y, x).fit()
#perform White's test
white_test = het_white(model.resid,  model.model.exog)

#define labels to use for output of White's test
labels = ['Test Statistic', 'Test Statistic p-value', 'F-Statistic', 'F-Test p-value']

#print results of White's test
print(dict(zip(labels, white_test)))


In [None]:
import requests
import pyreadstat
import statsmodels.api as sm

# URL do arquivo no GitHub
url = "https://github.com/Daniel-Uhr/data/raw/main/cattaneo2.dta"

# Realizar o download do arquivo
response = requests.get(url)

# Salvar o arquivo localmente
with open('cattaneo2.dta', 'wb') as f:
    f.write(response.content)

# Carregar os dados do arquivo .dta para um DataFrame
dados, metadata = pyreadstat.read_dta('cattaneo2.dta')

# Separe as variáveis independentes (X) e a variável dependente (Y)
X = dados[['mbsmoke', 'mage']]  # Variável independente (fumante ou não fumante) e idade da mãe
Y = dados['bweight']  # Variável dependente (peso do bebê)

# Adicione uma constante à matriz de recursos
X = sm.add_constant(X)

# Crie um modelo de regressão linear usando FGLS
model = sm.GLS(Y, X)

# Ajuste o modelo aos dados
results = model.fit()

# Imprima os resultados da regressão
print(results.summary())

### Referências

HAYASHI , F. Econometrics, Princeton university press, 2000. 

Cattaneo (2010) Journal of Econometrics 155: 138–154

NOTAS PRÓPRIAS