# Mínimos Quadrados Ordinários (MQO / Ordinary Least Squares - OLS)

Prof. Daniel de Abreu Pereira Uhr

### Conteúdo

* Estimador de Mínimos Quadrados Ordinários (MQO, ou *Ordinary Least Squares - OLS*)
  * Hipóteses do MQO:
    * Linearidade
    * Exogeneidade estrita
    * Não-Multicolineariade
    * Variância esférica do erro
    * Erro é normalmente distribuído
  * Álgebra do Estimador OLS
  * **Propriedades do Estimador OLS**
  * Não-vies
  * Consistência
  * Eficiência
  * Normalidade
  
* Inferência com OLS
  * Teste-T, IC, e p-valor
  * $R^{2}$ e $R^{2}$ ajustado
  * Outras Métricas para Avaliar o Desempenho da Regressão
  * Teste F

* Exemplos de Inferência e Regressão no Python
  

### Referências

* HAYASHI , F. Econometrics, Princeton university press, 2000.
* Gujarati, D. N. Econometria Básica. 5ª ed. Rio de Janeiro: Elsevier, 2011.
* Wooldridge, J. M. Introdução à Econometria: uma abordagem moderna. São Paulo: Cengage Learning, 2015.
* Pereda, P. C., & Alves, D. Econometria Aplicada, Elsevier, 2018.
* Cattaneo (2010) Journal of Econometrics 155: 138–154
* NOTAS PRÓPRIAS



## Estimador de Mínimos Quadrados Ordinários (MQO, ou *Ordinary Least Squares - OLS*).

A regressão populacional é a forma teórica da relação entre a variável dependente $Y_{i}$ e as variáveis independentes $X_{i}$ com base na população inteira. Onde, $\beta$ representa os verdadeiros parâmetros desconhecidos e $u_{i}$ é o termo de erro ou distúrbio, que captura todos os fatores que influenciam $Y_{i}$ além de $X_{i}$. 

$$
Y_{i} = \beta_{1}X_{i1} + \beta_{2}X_{i2} + ... + \beta_{k}X_{ik} + u_{i}
$$

Para avançar no propósito de identificação desses parâmetros o pesquisador utilizará, além de uma amostra, o método de Mínimos Quadrados Ordinários (*Ordinary Least Squares - OLS*). 

### Hipóteses do OLS

O modelo clássico OLS de regressão linear satisfaz as seguintes hipóteses (Hayashi, 2000):

* 1. Linearidade
* 2. Exogeneidade estrita
* 3. Não-Multicolineariade
* 4. Variância esférica do erro.
* 5. Erro é normalmente distribuído

Vejamos por partes. A **hipótese 1** define que a relação entre a variável dependente ($y$) e as variáveis independentes ($x$) é linear. 

$$
y_{i} = \beta_{1}x_{i1} + \beta_{2}x_{i2} + ... + \beta_{k}x_{ik} + \epsilon_{i}
$$

Para $i = 1, 2, ..., n$, onde $n$ é o número de observações. Os coeficientes ($\beta$) são os parâmetros do modelo a serem estimados e o termo de erro ($\epsilon$) é a parte não observada do modelo.

O lado direito da igualdade é chamado de **função de regressão**, e os coeficientes são chamados de **coeficientes de regressão**. A hipótese 1 define que a função de regressão é linear nos parâmetros, não nas variáveis.

**Notação Matricial**

Defina vetores K-dimensionais $x_{i}$ e $\beta$ como:

$$
x_{i} = \begin{bmatrix} x_{i1} \\ x_{i2} \\ \vdots \\ x_{ik} \end{bmatrix} \quad \beta = \begin{bmatrix} \beta_{1} \\ \beta_{2} \\ \vdots \\ \beta_{k} \end{bmatrix}
$$

Pela definição de produto interno de vetores, $x_{i}^{'}\beta = \beta_{1}x_{i1} + \beta_{2}x_{i2} + ... + \beta_{k}x_{ik}$. Assim, a função de regressão pode ser escrita como:

$$
y_{i} = x_{i}^{'}\beta + \epsilon_{i}
$$

Defina,

$$
y=\begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{bmatrix} \quad X=\begin{bmatrix} x_{1}^{'} \\ x_{2}^{'} \\ \vdots \\ x_{n}^{'} \end{bmatrix} =  \begin{bmatrix}
x_{11} & ... & x_{1K} \\
\vdots & ... & \vdots \\
x_{n1} & ... &  x_{nk} \\
\end{bmatrix}  \quad \epsilon=\begin{bmatrix} \epsilon_{1} \\ \epsilon_{2} \\ \vdots \\ \epsilon_{n} \end{bmatrix}
$$

Assim, a hipótese 1 pode ser escrita como:

$$
y=X\beta + \epsilon
$$

**Hipótese 2**

A exogeneidade estrita é definida como:

$$
E(\epsilon_{i}|X)= E(\epsilon_{i}|x_{i1}, x_{i2}, ..., x_{ik}) = 0
$$

A expectativa condicional do termo de erro é zero, dado os valores das variáveis independentes. A hipótese 2 define que as variáveis independentes são não correlacionadas com o termo de erro ($\epsilon$) para todas as condições.

Uma implicação direta da exogeneidade estrita é que a expectativa incondicional do termo de erro é zero:

$$
E(\epsilon_{i}) = 0
$$
Isso ocorre pela lei das expectativas iteradas:

$$
E(\epsilon_{i}) = E[E(\epsilon_{i}|x_{i1}, x_{i2}, ..., x_{ik})] = E[0] = 0
$$

Além disso, se a covariância entre duas variáveis aleatórias é zero, então dizemos que elas são ortogonais. Sob exogeneidade estrita, as variáveis independentes são ortogonais ao termo de erro.

$$
E(x_{jk}\epsilon_{i}) = 0
$$

ou

$$
E(x_{j}\epsilon_{i}) = \begin{bmatrix} E(x_{j1}\epsilon_{i}) \\ E(x_{j2}\epsilon_{i}) \\ \vdots \\ E(x_{jk}\epsilon_{i}) \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \\ \vdots \\ 0 \end{bmatrix}
$$




Para relembrar o conceito **expectativa condicional** e de **exogeneidade estrita**. Considere a tabela e responda as questões abaixo.

| Y | X | u |
|---|---|---|
| 4 | 1 | 3 |
| 3 | 1 | 2 |
| 3 | 1 | 1 |
| 1 | 0 | -1 |
| 2 | 0 | -2 |
| 0 | 0 | -3 |

**Calcule:**
* E(Y)
* E(Y|X=1) e E(Y|X=0)
* E(Y|X=1) - E(Y|X=0)
* E(u)
* Podemos confiar numa regressão de Y em X?


In [2]:
# NumPy é uma biblioteca em Python para computação numérica e operações matemáticas
import numpy as np

# Dados
Y = np.array([4, 3, 3, 1, 2, 0])
X = np.array([1, 1, 1, 0, 0, 0])
u = np.array([3, 2, 1, -1, -2, -3])

# Calcular as médias
media_Y = np.mean(Y)
media_X = np.mean(X)
media_Y_X_1 = np.mean(Y[X == 1])
media_Y_X_0 = np.mean(Y[X == 0])
dif_media_Y_X = media_Y_X_1 - media_Y_X_0
media_u = np.mean(u)

print("Média de Y (E(Y|X=1)): ", media_Y_X_1)
print("Média de Y (E(Y|X=0)): ", media_Y_X_0)
print("(E(Y|X=1)- E(Y|X=0)): ", dif_media_Y_X)
print("Média de u: ", media_u)

Média de Y (E(Y|X=1)):  3.3333333333333335
Média de Y (E(Y|X=0)):  1.0
(E(Y|X=1)- E(Y|X=0)):  2.3333333333333335
Média de u:  0.0


**Hipótese 3**

Não multicolinearidade (posto completo da matriz X). A hipótese 3 define que as variáveis independentes **não são perfeitamente correlacionadas entre si**. 

Considere a Matriz X(2x2) abaixo:

$ X = \begin{bmatrix} 1 & 3 \\ 4 & 12 \end{bmatrix} $

Sua transposta é:

$ X´ = \begin{bmatrix} 1 & 4 \\ 3 & 12 \end{bmatrix} $

O produto da transposta com a matriz X é:

$ X´X = \begin{bmatrix} 1 & 4 \\ 3 & 12 \end{bmatrix} \begin{bmatrix} 1 & 3 \\ 4 & 12 \end{bmatrix} = \begin{bmatrix} 17 & 51 \\ 51 & 153 \end{bmatrix} $

Para calcular a matriz inversa $X´X^{-1}$ ($A^{-1}$):

$ A^{-1} = \frac{1}{det(A)} .  Adjunta $	

$ 𝐴𝑑𝑗𝑢𝑛𝑡𝑎 = (𝐶𝑜𝑓)^𝑇$ 

$𝐶𝑜𝑓=(−1)^{(𝑖+𝑗)}.det(MC)$

O det(MC) é o determinante da matriz resultante da eliminação da linha e da coluna.

Então, eu chamo a sua atenção que para calcular a inversa de $X´X$, no início do procedimento, precisamos calcular o determinante da matriz. **Qual o determinante da matriz $X´X$?**

Precisamos do posto completo para a inversa existir e identificarmos os coeficientes do modelo.


**Hipótese 4**

A **variância esférica do erro** implica em duas condições principais:

* **Homocedasticidade**: Esta condição requer que a variância do erro condicional a $ X $ seja constante e positiva:

$$
   E(\epsilon_{i}^{2} | X) = \sigma^{2} > 0
$$

Isso indica que a variância dos erros é a mesma para todos os indivíduos, independentemente dos valores de $ X $.

* **Ausência de correlação entre os erros dos indivíduos (não correlação espacial)**: Esta condição implica que a covariância entre os erros de dois indivíduos distintos, \( i \) e \( j \), é zero:

$$
   E(\epsilon_{i}\epsilon_{j} | X) = 0 \quad \text{para } i \neq j
$$

Isso assegura que não há correlação entre os erros dos diferentes indivíduos, ou seja, os erros são independentes entre si condicional a \( X \).

Combinando essas duas condições, temos que a matriz de variância-covariância dos erros condicional a \( X \) é dada por:

$$
E(\epsilon \epsilon^{\prime} | X) = \sigma^{2} I_{n}
$$

onde $ I_{n} $ é a matriz identidade de ordem $ n $. Isso significa que a variância dos erros é esférica, isto é, a mesma em todas as direções (variância constante) e os erros são ortogonais entre si (não correlacionados).


* Vejamos a Homocedasticidade na figura:

<div style="text-align:center;">
    <img src="images/distr_02.PNG"  alt="Imagem" style="width: 500px;"/>
</div>


Em termos matriciais, a hipótese 4 de homocedasticidade é escrita como:

$$ E(\epsilon \epsilon^{´}|X) = \sigma^{2}I_{n} = \begin{bmatrix} \sigma^{2} & 0 & 0 & ... & 0 \\ 0 & \sigma^{2} & 0 & ... & 0 \\ 0 & 0 & \sigma^{2} & ... & 0 \\ ... & ... & ... & ... & ... \\ 0 & 0 & 0 & ... & \sigma^{2} \end{bmatrix} = \Omega $$

Onde $\Omega$ é a matriz de covariância dos erros. A matriz $\Omega$ é diagonal e todos os elementos fora da diagonal são zero. A variância do erro é constante e a covariância entre os erros é zero.

**Considerando a heterocedasticidade**, a matriz $\Omega$ é diagonal, entretanto, os elementos da diagonal não são iguais. A variância do erro não é constante e a covariância entre os erros é zero.

* Vejamos a Heterocedasticidade na figura:
 
<div style="text-align:center;">
    <img src="images/distr_03.PNG"  alt="Imagem" style="width: 500px;"/>
</div>

Em termos matriciais, a falha na hipótese 4, ou seja, **a existência de heterocedasticidade** é escrita como:

$$ E(\epsilon \epsilon^{´}|X) = \begin{bmatrix} \sigma_{1}^{2} & 0 & 0 & ... & 0 \\ 0 & \sigma_{2}^{2} & 0 & ... & 0 \\ 0 & 0 & \sigma_{3}^{2} & ... & 0 \\ ... & ... & ... & ... & ... \\ 0 & 0 & 0 & ... & \sigma_{n}^{2} \end{bmatrix} = \Omega $$



Então, sob as quatro hipóteses:

* Linearidade
* Exogeneidade estrita
* Não-Multicolinearidade
* Variância esférica do erro (homocedasticidade e não correlação espacial dos erros)

O estimador OLS é o estimador mais eficiente na classe dos estimadores lineares não viesados **(BLUE - Best Linear Unbiased Estimator)**.

**Descompondo o Conceito de BLUE**:

* **Best** (Melhor)
  * Entre todos os estimadores lineares e não viesados, o estimador BLUE tem a menor variância. Isso significa que ele é o mais eficiente, fornecendo as estimativas mais precisas (menor dispersão) possível para o parâmetro em questão.
* **Linear**
  * O estimador é linear nas observações, o que significa que ele pode ser expresso como uma combinação linear das variáveis independentes (ou dos dados). Em um modelo de regressão linear, por exemplo, os coeficientes de regressão são estimadores lineares dos parâmetros.
* **Unbiased** (Não viesado)
  * Um estimador é não viesado se, em média, ele retorna o verdadeiro valor do parâmetro. Em outras palavras, a expectativa matemática do estimador é igual ao parâmetro que ele está estimando: $E(\hat{\beta}) = \beta$.
* **Estimator** (Estimador)
  * Um estimador é uma regra ou fórmula que usamos para calcular uma estimativa de um parâmetro desconhecido com base nos dados disponíveis.

**Teorema de Gauss-Markov**

O conceito de BLUE está fortemente associado ao Teorema de Gauss-Markov. Este teorema afirma que, sob certas condições (como linearidade, exogeneidade, homocedasticidade e ausência de multicolinearidade perfeita), o estimador dos mínimos quadrados ordinários (MQO) é o BLUE para os coeficientes de um modelo de regressão linear.
Para provar temos que mostrar:
* O estimador é linear
* O estimador é não viesado
* O estimador tem a menor variância

**Hipótese 5**

O termo de erro é normalmente distribuído. Ou seja, $\epsilon \sim N(0, \sigma^{2})$. Em outras palavras, a distribuição condicional de $\epsilon$ em $X$ é conjuntamente normal.

As 5 hipóteses conjuntamente implicam que a distribuição condicional de $\epsilon$ em $X$ é normal com média zero e variância constante:

$$ \epsilon|X \sim N(0, \sigma^{2}I_{n}) $$

Isso quer dizer que a distribuição de $\epsilon$ condicional em $X$ não depende de $X$ (São independentes). Essa quinta hipótese é importante para a inferência estatística (Teste-t e Teste-F).


Então, sob as cinco hipóteses:

* Linearidade
* Exogeneidade estrita
* Não-Multicolinearidade
* Variância esférica do erro
* Termo de erro é normalmente distribuído

O estimador OLS é o estimador mais eficiente na classe dos estimadores lineares não viesados **(BLUE - Best Linear Unbiased Estimator)** e é possível realizar inferência estatística.

* *Observação: Essa hipótese 5 é importante porque garante que os estimadores dos coeficientes $\beta$ no modelo de regressão são eficientes e que as inferências estatísticas (como os testes t e F) serão válidas. Quando o termo de erro é normalmente distribuído, as estimativas do MQO são também as melhores estimativas lineares não viesadas (BLUE - Best Linear Unbiased Estimators) e têm distribuição normal. Em resumo, a Hipótese 5 sobre a normalidade dos erros é crucial para que os resultados inferenciais (testes de hipótese, intervalos de confiança, etc.) no modelo de regressão linear sejam válidos e precisos.*



### Álgebra do OLS

#### **Não viés** e **Consistência**

Considere que o método OLS busca o argumento b que minimiza o quadrado dos resíduos. Vejamos em termos algébricos:

$$ \beta = argmin(b)E[(Y_{i}-X_{i}b)^2] $$

A condição de primeira ordem (CPO):

$$ E[X´_{i}(Y_{i}-X_{i}b)]=0 $$

Sob a hipótese de posto completo é possível ter a inversa $E[X_{i}´X_{i}]^{-1}$, e isolamos o beta estimado (b) :

$$ b = E[X_{i}´X_{i}]^{-1}E[X_{i}´Y_{i}] $$

Considere a regressão populacional dada por:

$$ Y_{i} = X_{i}\beta + u_{i} $$

Podemos substituir a regressão populacional na estimativa de beta amostral:

$$ b = E[X_{i}´X_{i}]^{-1}E[X_{i}´ Y_{i} ] $$

* *Observação: A regressão populacional é a forma teórica da relação entre a variável dependente $Y_{i}$ e as variáveis independentes $X_{i}$ com base na população inteira. Nessa equação, $\beta$ representa os verdadeiros parâmetros desconhecidos e $u_{i}$ é o termo de erro ou distúrbio, que captura todos os fatores que influenciam $Y_{i}$ além de $X_{i}$. Substituir a regressão populacional na estimativa amostral de $\beta$ é uma etapa crucial para entender o método de estimação de Mínimos Quadrados Ordinários (MQO). Ao fazer isso, estamos usando a forma teórica (populacional) da regressão para derivar o estimador amostral $b$ para $\beta$.*

temos, teoricamente:

$$ b = E[X_{i}´X_{i}]^{-1}E[X_{i}´(X_{i}\beta + u_{i})] $$

Logo:

$$ b = \beta + E[X_{i}´X_{i}]^{-1}E[X_{i}´u_{i}] $$


ou

$$ b= \beta+\frac{\operatorname{Cov}(X, u)}{\operatorname{Var}(X)} $$


**Não-viés**

O estimador OLS é não viesado se, em média, ele retorna o verdadeiro valor do parâmetro populacional $\beta$. Isso significa que a expectativa do estimador $b$ é igual ao valor verdadeiro de $\beta$. Para que $b$ seja não viesado, precisamos que $E[b] = \beta$. Observe que isso ocorrerá se $E[X´u] = 0$. Sob a hipótese de exogeneidade estrita, assumimos que $E[u|X] = 0$, o que implica que $E[X´u] = X´E[u] = 0$. Portanto, o estimador OLS $b$ é não viesado, pois sua expectativa é igual ao verdadeiro valor do parâmetro $\beta$. Isso garante que, em média, o OLS fornece uma estimativa correta do parâmetro, sem sistematicamente superestimar ou subestimar o valor verdadeiro.


**Consistência**

A consistência do estimador de mínimos quadrados ordinários (OLS) significa que, à medida que o tamanho da amostra aumenta, o estimador converge em probabilidade para o verdadeiro valor do parâmetro populacional $\beta$. Em outras palavras, conforme $n \rightarrow \infty$, o estimador $b$ converge para o verdadeiro valor do parâmetro $\beta$. Para mostrar que $b$ é consistente, precisamos mostrar que: $b - \beta \rightarrow 0$ conforme $n \rightarrow \infty$, ou, equivalentemente, $(X´X)^{-1}X´u \rightarrow 0$. Pela lei dos grandes números, $\frac{1}{n}X´X \rightarrow E[X´X]$ (uma matriz positiva definida) e $\frac{1}{n}X´u \rightarrow E[X´u]$. Assim, $(X´X)^{-1}X´u \rightarrow E[X´X]^{-1}E[X´u]$. Sob a hipótese de exogeneidade estrita, $E[X´u] = 0$, o que implica que: $\frac{1}{n}X´u \rightarrow 0$. Portanto, $(X´X)^{-1}X´u \rightarrow 0$ e, consequentemente, $b - \beta \rightarrow 0$.A ideia é que a consistência do OLS surge porque, com um número suficientemente grande de observações, as flutuações aleatórias dos erros $u$ são "anuladas" em média. Assim, o estimador OLS se "fixa" no verdadeiro valor de $\beta$ conforme a quantidade de dados aumenta.


Posteriormente, ampliaremos a discussão sobre a importância da hipótese de exogeneidade estrita no contexto de **identificação causal**.


#### **Eficiência**

Para fazer **INFERÊNCIA ESTATÍSTICA**, precisamos da **variabilidade dos coeficientes estimados** (mais especificadamente, da variância - $Var(b)$ e seu erro padrão).

Utilizando a definição de variância e considerando que (b) é não tendencioso, temos:

$$ Var(b) = E[b - \beta]^{2} $$

Vimos que:

$$ b = \beta + E[X_{i}´X_{i}]^{-1}E[X_{i}´u_{i}] $$

$$ b - \beta = E[X_{i}´X_{i}]^{-1}E[X_{i}´u_{i}] $$

Pela definição de variância:

$$ Var(b) = E[(b - \beta)^{2}] = E[(b - \beta)(b - \beta)^{´}] $$

logo, 

$$ Var(b|X) = (E[X_{i}´X_{i}]^{-1}E[X_{i}´u_{i}])(E[u_{i}´X_{i}]E[X_{i}X_{i}´]^{-1}) $$

$$ Var(b|X) = E[X_{i}´X_{i}^{-1}X_{i}´u_{i}u_{i}^{´}X_{i}X_{i}´X_{i}^{-1}] $$

$$ Var(b|X) = E[(X_{i}´X_{i}^{-1})X_{i}´[u_{i}u_{i}^{´}]X_{i}(X_{i}´X_{i}^{-1})] $$

Sob Homocedasticidade (Hip3), $E[\epsilon_{i}^{2}|X] = \sigma^{2}$,

$$ Var(b|X) = \sigma^{2}E[(X_{i}´X_{i}^{-1})X_{i}´X_{i}(X_{i}´X_{i}^{-1})] $$

Logo, 

$$ \operatorname{Var}(b|X) = \sigma^{2}E[X_{i}´X_{i}]^{-1} $$


 **Eficiência**

Um estimador é dito eficiente se, dentre todos os estimadores lineares e não viesados, ele tiver a menor variância. O estimador OLS para $b$ é dado por: $ b = (X'X)^{-1}X'Y $ (podemos expressar isso como $b = CY$, onde $C = (X'X)^{-1}X'$). Considerando as condições de (i) linearidade, (ii) exogeneidade estrita, (iii) homocedasticidade e (iv) ausência de multicolinearidade perfeita (as quatro primeiras hipóteses do OLS), o Teorema de Gauss-Markov afirma que a variância do estimador OLS: $ \operatorname{Var}(b|X) = \sigma^2 (X'X)^{-1} $ é a menor variância possível entre todos os estimadores lineares não viesados. Isso significa que $b$ é o Best Linear Unbiased Estimator (BLUE). Para mostrar isso, precisamos comparar o OLS com qualquer outro estimador linear não viesado, denotado por $\tilde{b}$, e demonstrar que: $ \operatorname{Var}(\tilde{b}) \geq \operatorname{Var}(b) $. Considere uma matriz $A$ $(k \times n)$ que satisfaça a condição de não viés $AX = I_k$, onde $I_k$ é a matriz identidade de ordem $k$. Isso garante que: $ E[\tilde{b}] = E[AY] = AX\beta = \beta $. Assim, para que $\tilde{b}$ seja não viesado, precisamos de $AX = I_k$. A variância de $\tilde{b}$ é dada por: $ \operatorname{Var}(\tilde{b}) = \operatorname{Var}(AY) = A \operatorname{Var}(Y) A' = A \sigma^2 I_n A' = \sigma^2 AA' $. Substituindo $A = (X'X)^{-1}X'$ na expressão para a variância, obtemos:$ \operatorname{Var}(\tilde{b}|X) = \sigma^2 (X'X)^{-1} = \operatorname{Var}(b|X) $. Portanto, o estimador OLS é eficiente porque ele atinge a menor variância possível entre todos os estimadores lineares não viesados. Em outras palavras, o estimador OLS é o estimador BLUE (Best Linear Unbiased Estimator) para os coeficientes de um modelo de regressão linear.

 
Assumindo as quatro hipóteses, mais a hipótese de normalidade dos erros:

$$ \epsilon|X \sim N(0, \sigma^{2}I_{n}) $$

A distribuição de $\epsilon$ condicional em $X$ não depende de $X$ (São independentes). Assim, as distribuições marginais e incondicionais de $\epsilon$ são normais ($\epsilon \sim N(0, \sigma^{2}I_{n})$). E o erro amostra ($b-\beta$) é linear em $\epsilon$ dado $X$. Sob essas hipóteses:

$$ b - \beta \sim N(0 , \sigma^{2}(X´X)^{-1}) $$

Para testar a hipótese individual de um coeficiente:

$$ H_{0}: b_{k} = \bar{\beta}_{k} $$
$$ H_{1}: b_{k} \neq \bar{\beta}_{k} $$

a um nível de significância $\alpha$. logo,

$$ (b_{k} - \bar{\beta_{k}})| X \sim N(0, \sigma^{2}(X´X)^{-1}_{kk}) $$

definindo a razão $z_{k}$ pela divisão de $b_{k} - \bar{\beta_{k}}$ pelo desvio padrão :

$$ z_{k} = \frac{b_{k} - \bar{\beta_{k}}}{\sqrt{\sigma^{2}(X´X)^{-1}_{kk}}} $$

então a distribuição de $z_{k}$ é $N(0,1)$ (distriuição normal padrão). Mas não sabemos o verdadeiro valor de $\sigma^{2}$, então usamos a estimativa da variância dos erros ($\hat{\sigma}^{2}$, ou $s^{2}$). A estatística após a substituição é chamada de **t-Student**, e o denominador dessa estatística é o erro padrão de $b_{k}$ do OLS (SE).

$$ SE(b_{k}) = \sqrt{\hat{\sigma}^{2}(X´X)^{-1}_{kk}} $$

Então, supondo as 5 hipóteses e sob a hipótese nula $H_{0}: b_{k} = \bar{\beta_{k}} $, a estatística t é dada por:

$$ t_{k} = \frac{b_{k} - \bar{\beta_{k}}}{SE(b_{k})} $$


Em termos de estimativa amostral:


$$ t_{k} = \frac{b_{k} - \bar{b_{k}}}{SE(b_{k})} = \frac{b_{k} - \bar{b_{k}}}{\sqrt{Var(b|X)}} = \frac{b_{k} - \bar{b_{k}}}{\sqrt{\hat{\sigma}^{2}(X´X)^{-1}_{kk}}} = \frac{b_{k} - \bar{b_{k}}}{\sqrt{\frac{\sum{u_{i}^{2}}/(n-k)}{\sum(x_{i}-\bar{x})^{2}}}} $$

onde $u_{i} \sim N(0, \sigma^{2})$.

**Repare**
* Temos 3 termos "variância" aqui, Variância dos coeficientes estimados e Variância dos resíduos e Variância das Covariáveis (variáveis explicativas).
* Se a **variância dos erros** aumentar ($\hat{\sigma}^{2}$), a **variância dos coeficientes** estimados também aumentará ($Var(b|X)$). 
* Se as variáveis $X$ variam pouco, a **variância dos coeficientes** estimados aumentará.
* Logo, **precisamos de variação nas variáveis explicativas** para estimar os coeficientes com precisão, e uma **variância dos resíduos menor e constante**.

### Regra de Decisão para o Teste-t

##### Passo 1: Defina as Hipóteses
- **Hipótese Nula (H0)**: A variável $X_k$ não tem efeito sobre Y (o coeficiente associado à X é estatisticamente zero).
- **Hipótese Alternativa (H1)**: A variável $X_k$ tem efeito sobre Y (o coeficiente associado à X não é estatísticamente zero).

##### Passo 2: Determine o Nível de Significância ($\alpha $)
- O **nível de significância** é a probabilidade de cometer um erro ao rejeitar a hipótese nula quando ela é verdadeira. Comumente usado são 1%, 5% ou 10%.
- Na tabela t, encontre o valor crítico $t_{\alpha/2}(n-K)$, onde \(n\) é o número de observações e \(K\) é o número de coeficientes no modelo. Este valor crítico delimita a área $ \alpha/2 $ em cada cauda da distribuição t.

A relação é expressa como:
$$ \text{Prob}(-t_{\alpha/2}(n-K) < t < t_{\alpha/2}(n-K)) = 1 - \alpha $$

Ou seja, a expressão signfica que a probabilidade de que a estatística t calculada a partir dos dados caia dentro do intervalo delimitado pelos valores críticos é $1 - \alpha$.

##### Passo 3: Tome a Decisão
- **Aceite H0** se $ |t_k| < t_{\alpha/2}(n-K) $, ou seja, se o valor absoluto do t calculado para o coeficiente $X_k$ é menor que o valor crítico.
- **Rejeite H0** se $ |t_k| \ge t_{\alpha/2}(n-K) $, ou seja, se o valor absoluto do t calculado é maior ou igual ao valor crítico.

##### Explicação Intuitiva
1. **Hipóteses**: Você começa com a suposição (H0) de que a variável $X_k$ não tem impacto. Se os dados mostrarem um grande desvio dessa suposição, você considerará que $X_k$ realmente tem impacto (H1).
2. **Significância**: Decida o quão seguro você quer estar ao rejeitar H0. Um nível de significância de 5% significa que há uma chance de 5% de você estar cometendo um erro ao rejeitar H0.
3. **Decisão**: Compare o t calculado para $X_k$ com um valor crítico da tabela t. Se o t calculado estiver fora do intervalo aceitável, rejeite H0; caso contrário, aceite H0.


### Intervalo de Confiança (IC)

O intervalo de confiança nos ajuda a entender a precisão da estimativa do coeficiente $ \beta_k $. Ele fornece um intervalo de valores possíveis para $ \beta_k $ com uma certa confiança.

##### Passo 3 Reescrito

Podemos reescrever a regra de decisão do passo 3 em termos do coeficiente estimado $ b_k $ e do erro padrão $ SE(b_k) $:

$$ -t_{\alpha/2}(n-K) < \frac{b_k - \beta_k}{SE(b_k)} < t_{\alpha/2}(n-K) $$

Isso pode ser rearranjado para:

$$ b_k - t_{\alpha/2}(n-K)SE(b_k) < \beta_k < b_k + t_{\alpha/2}(n-K)SE(b_k) $$

##### Interpretação Intuitiva

Aceitamos a hipótese nula se e somente se o valor hipotetizado de $ \beta_k $ estiver dentro do intervalo de confiança. Isso significa que estamos verificando se $ \beta_k $ cai dentro do intervalo que esperamos, com base nos nossos dados:

$$ IC = \left[ b_k - SE(b_k) \cdot t_{\alpha/2}(n-K), b_k + SE(b_k) \cdot t_{\alpha/2}(n-K) \right] $$

##### Resumo do IC
- **Intervalo de Confiança**: É um intervalo ao redor do coeficiente estimado $ b_k $ onde acreditamos que o verdadeiro valor $ \beta_k $ está localizado, com um certo nível de confiança (1 - $\alpha$).
- **Nível de Confiança**: Se escolhermos **um nível de significância** ($\alpha$) de 5%, **o nível de confiança** será 95%. Isso significa que, se repetíssemos o estudo muitas vezes, 95% dos intervalos de confiança calculados conteriam o verdadeiro valor do coeficiente.
- **Decisão**: Se o valor hipotetizado de $ \beta_k $ está dentro deste intervalo, não temos evidências suficientes para rejeitar a hipótese nula. Caso contrário, rejeitamos a hipótese nula.

### p-Valor - Regra de Decisão do Teste-t Usando o P-Valor

Em vez de encontrar o valor crítico $ t_{\alpha/2}(n-K) $, podemos usar o p-valor para tomar a decisão. Aqui está uma explicação passo a passo:

##### Cálculo do P-Valor

1. **Calcule a Estatística t:** Primeiro, calculamos a estatística t para o coeficiente $ t_k $.

2. **Encontre a Probabilidade:** Determine a probabilidade de obter um valor absoluto de t maior que $ |t_k| $. Esta probabilidade é:

$$ p = 2 \times \text{Prob}(t > |t_k|) $$

Porque a distribuição t é simétrica em torno de zero, temos:

$$ \text{Prob}(t > |t_k|) = \text{Prob}(t < -|t_k|) $$

Assim, a probabilidade de $ t $ estar entre $ -|t_k| $ e $ |t_k| $ é:

$$ \text{Prob}(-|t_k| < t < |t_k|) = 1 - p $$

##### Tomando a Decisão

**Aceitamos H0 se $ p > \alpha $ e rejeitamos H0 caso contrário.**

Em outras palavras, se o p-valor for menor ou igual ao nível de significância ($\alpha$), rejeitamos a hipótese nula. Caso contrário, aceitamos a hipótese nula.

##### Interpretação Intuitiva do P-Valor

- **P-Valor:** O p-valor representa a probabilidade de obter um valor da estatística t igual ou mais extremo do que o observado, assumindo que a hipótese nula seja verdadeira.
  
- **Significado Prático:** Um p-valor baixo indica que é muito improvável observar um valor da estatística t tão extremo apenas por acaso se a hipótese nula for verdadeira. Portanto, um **p-valor baixo sugere evidência contra a hipótese nula.**

##### Exemplo Prático

- **P-Valor Baixo:** Um p-valor de 0.0001 significa que há apenas 0.01% de chance de obter um valor t tão extremo ou mais extremo se a hipótese nula for verdadeira. Isso indica forte evidência contra a hipótese nula.
  
- **Decisão Baseada no P-Valor:** Se o p-valor é menor que 0.05 (5%), rejeitamos a hipótese nula com uma confiança de 95%.

##### Erros em Testes de Hipóteses
Em testes de hipóteses, podem ocorrer dois tipos principais de erros ao tomar decisões:

- **Erro Tipo I (Falso Positivo):** Rejeitar a hipótese nula quando ela é verdadeira. A probabilidade de cometer este erro é o nível de significância ($\alpha$).
  - Exemplo: Suponha que estamos testando se um novo medicamento é eficaz (hipótese alternativa) contra um placebo (hipótese nula). Se cometemos um Erro Tipo I, concluímos que o medicamento funciona quando, na verdade, ele não tem efeito.
- **Erro Tipo II (Falso Negativo):** Aceitar a hipótese nula quando ela é falsa.
  - Exemplo: Usando o mesmo exemplo do medicamento, se cometemos um Erro Tipo II, concluímos que o medicamento não funciona quando, na verdade, ele é eficaz.

Todas as Situações Possíveis em testes, vamos pensar num exemplo onde testamos dois métodos de ensino distintos, um mais novo e outro mais tradicional.

1. **$H_0$ é Verdadeira e Aceitamos $H_0$** (Decisão Correta)
   - Concluímos corretamente que não há diferença entre os métodos de ensino.

2. **$H_0$ é Verdadeira e Rejeitamos $H_0$** (Erro Tipo I)
   - Incorretamente concluímos que o novo método de ensino é mais eficaz quando não é.

3. **$H_0$ é Falsa e Rejeitamos $H_0$** (Decisão Correta)
   - Concluímos corretamente que o novo método de ensino é mais eficaz.

4. **$H_0$ é Falsa e Aceitamos $H_0$** (Erro Tipo II)
   - Incorretamente concluímos que não há diferença entre os métodos de ensino quando, na verdade, o novo método é mais eficaz.


#### R-quadrado e R-quadrado ajustado (Poder Explicativo do Modelo)

O R-quadrado é uma medida de ajuste do modelo, e do poder explicativo das variáveis independentes. Em outras palavras, ele mede a proporção da variabilidade da variável dependente que é explicada pelas variáveis independentes. Podemos decompor a variabilidade da variável dependente em duas partes: a parte explicada pelas variáveis independentes e a parte não explicada (erro).

**R-2**

$$ y´y = (\hat{y} + e)´(\hat{y} + e) $$

$$ y´y = \hat{y}´\hat{y} + e´e + 2\hat{y}´e $$

Como $\hat{y} = Xb$, temos:

$$ y´y = \hat{y}´\hat{y} + e´e + 2Xb´e $$

sob a hipótese de exogeneidade estrita, $E[X´e] = 0$

$$ y´y = \hat{y}´\hat{y} + e´e $$

por definição

$$ R^{2} \equiv \frac{\hat{y}´\hat{y}}{y´y} $$

Voltando a relação, e dividindo por $y´y$:

$$ 1 = R^{2} - \frac{e´e}{y´y} $$

$$ R^{2} = 1 - \frac{e´e}{y´y} $$

Em termos amostrais:

$$ R^{2} = 1 - \frac{\sum(u_{i}^{2})}{\sum(y_{i}-\bar{y})^{2}} $$



O Coeficiente $R^{2}$ tem como limites 0 e 1. Se $R^{2}$ for 1, então o modelo explica 100% da variabilidade da variável dependente. Se $R^{2}$ for 0, então o modelo não explica nada da variabilidade da variável dependente.

Em outras palavras, R-quadrado:

$$ R^{2} \equiv \frac{SQExp}{SQTot} = 1 - \frac{SQRes}{SQTot} $$

onde:

* SQExp = Soma dos quadrados explicados
* SQTot = Soma total dos quadrados
* SQRes = Soma dos quadrados dos resíduos


**R-quadrado ajustado**

O R-quadrado ajustado é uma medida de ajuste do modelo que penaliza a inclusão de variáveis explicativas. Caso contrário, o R-quadrado tenderia a aumentar com a inclusão de variáveis, mesmo que elas não melhorem o poder explicativo do modelo. Ele é dado por:

$$ R^{2}_{ajustado} = 1 - \frac{\sum(u_{i}^{2})/(n-k)}{\sum(y_{i}-\bar{y})^{2}/(n-1)} $$


#### Outras Métricas para Avaliar o Desempenho da Regressão

As métricas MAE, MSE, e RMSE são usadas principalmente para avaliar o desempenho do modelo na análise de regressão. 

Considerando: 
* $n$ é o número total de observações.
* $y_{i}$ são os valores da variável de resposta (dependente).
* $\hat{y_{i}}$ são os valores previstos pelo modelo.

Vamos definir as métricas.

* **Erro Médio Absoluto (Mean Absolute Error - MAE)**: é uma métrica usada para avaliar a precisão de um modelo de previsão ou regressão. O MAE calcula o quanto as previsões do modelo estão desviadas dos valores reais em termos absolutos, ignorando a direção do desvio. Possui a fórmula:

$$ MAE = \frac{1}{n} \sum_{i=1}^{n} |y_{i} - \hat{y_{i}} | $$

**Interpretação**: Quanto menor o valor do MAE, melhor é a capacidade do modelo em fazer previsões precisas. 

* **Erro Médio Quadrático (Mean Squared Error)**: Assim como o MAE, o MSE mede o quão distantes as previsões do modelo estão dos valores reais, mas de uma maneira ligeiramente diferente. O MSE calcula a média dos quadrados das diferenças. Isso significa que o MSE dá mais peso a erros maiores do que o MAE. Possui a fórmula:

$$ MSE = \frac{1}{n} \sum_{i=1}^{n} (y_{i} - \hat{y_{i}})^{2} $$

**Interpretação**: Assim como no caso do MAE, quanto menor o valor do MSE, melhor é a capacidade do modelo em fazer previsões precisas. No entanto, ao contrário do MAE, o MSE pode ser sensível a outliers, já que os erros são elevados ao quadrado.

* **Raiz do Erro Médio Quadrático (Root Mean Squared Error - RMSE)**: O RMSE é calculado tomando a raiz quadrada do MSE, o que retorna a medida de erro na mesma escala que os valores de interesse (por exemplo, a unidade de medida dos dados).

$$ RMSE = \sqrt{MSE}$$

**Interpretação**: O RMSE fornece uma interpretação mais intuitiva dos erros de previsão, pois está na mesma unidade que os valores reais. Isso significa que um RMSE mais baixo indica uma melhor adequação do modelo aos dados observados. Assim como no caso do MSE, o RMSE é sensível a outliers, pois os erros são elevados ao quadrado antes de calcular a raiz quadrada. No entanto, o RMSE é amplamente utilizado porque oferece uma medida mais compreensível do erro, especialmente quando os valores reais e previstos estão em escalas diferentes.

#### Teste-F

Supondo as cinco hipóteses do OLS, podemos fazer testes de hipóteses conjuntas sobre os coeficientes estimados. É possivel testar se coeficientes específicos são iguais, ou se são iguais a determinado valor (qualquer numero real). Uma análise básica é verificar se todos os coeficientes são simultaneamente zero.

* H0: $b_{0} = b_{1} = ... = b_{k} = 0$
* Ha: ao menos um deles é diferente de zero.

o Teste-F assume:

$$ F = \frac{SQExp / (k-1)}{SQRes /(n-k) }$$

Curiosidade, é possível relacionar o teste-F com o R2:

$$ F = \frac{(n-k)}{(k-1)}\frac{SQExp}{SQRes} = \frac{(n-k)}{(k-1)}\frac{SQExp}{(SQTot - SQExp)} = \frac{(n-k)}{(k-1)}\frac{(SQExp / SQTot)}{(1- R^{2})} = \frac{R^{2}/(k-1)}{(1-R^{2})/(n-k)} $$

**Interpretação**: A relação entre o teste $F$ e o $R^{2}$ indica que, se o modelo tem um alto $R^{2}$ e um número suficiente de variáveis independentes (k), então a relação entre a variabilidade explicada e não explicada é grande, o que resulta em um valor maior de F e, portanto, maior evidência contra a hipótese nula. Isso sugere que o modelo é uma boa representação dos dados e as variáveis independentes têm um efeito significativo sobre a variável dependente.

### Exemplos de Inferência e Regressão no Python

In [1]:
import pandas as pd
from scipy.stats import ttest_ind
from statsmodels.stats.diagnostic import het_white
import statsmodels.formula.api as smf
import scipy.stats as stats

In [2]:
# DataFrame
df = pd.read_stata("https://github.com/Daniel-Uhr/data/raw/main/cattaneo2.dta")

In [3]:
# Ajustando as variáveis
# Criar a variável de resultado
df['Y'] = df['bweight']
# Crie a variável 'Treated' com valor inicial de 0
df['Treated'] = 0
# Recodifique 'Treated' para 1 se 'mbsmoke' for igual a 'smoker'
df.loc[df['mbsmoke'] == 'smoker', 'Treated'] = 1


In [4]:
# Gerar um teste-t para comparar a média do peso do bebê entre fumantes e não fumantes
grupo_fumantes = df[df['Treated'] == 1]['Y']
grupo_nao_fumantes = df[df['Treated'] == 0]['Y']
# Realizar o teste-t
teste_t = ttest_ind(grupo_fumantes, grupo_nao_fumantes)
print(teste_t)

Ttest_indResult(statistic=-12.830577987447224, pvalue=4.683726413107466e-37)


In [5]:
# Regressão linear
reg = smf.ols("Y ~ Treated", data=df).fit()

# Imprima os resultados da regressão
print(reg.summary())

                            OLS Regression Results                            
Dep. Variable:                      Y   R-squared:                       0.034
Model:                            OLS   Adj. R-squared:                  0.034
Method:                 Least Squares   F-statistic:                     164.6
Date:                Tue, 06 Aug 2024   Prob (F-statistic):           4.68e-37
Time:                        09:27:55   Log-Likelihood:                -36033.
No. Observations:                4642   AIC:                         7.207e+04
Df Residuals:                    4640   BIC:                         7.208e+04
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept   3412.9116      9.255    368.754      0.0

É possível verificar que o test-t e a regressão linear guardam uma relação muito próxima. Principalmente se considerarmos uma variável explicativa binária (Dummy).

Vamos adicionar mais covariáveis na regressão e verificar o impacto no teste-t e no teste-F.

In [6]:
# Regressão linear 2
reg2 = smf.ols("Y ~ Treated + medu", data=df).fit()

# Imprima os resultados da regressão
print(reg2.summary())

                            OLS Regression Results                            
Dep. Variable:                      Y   R-squared:                       0.040
Model:                            OLS   Adj. R-squared:                  0.039
Method:                 Least Squares   F-statistic:                     96.02
Date:                Tue, 06 Aug 2024   Prob (F-statistic):           1.38e-41
Time:                        09:27:59   Log-Likelihood:                -36020.
No. Observations:                4642   AIC:                         7.205e+04
Df Residuals:                    4639   BIC:                         7.206e+04
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept   3188.4771     44.559     71.557      0.0

Repare que o R2 e R2 ajustado aumentam levemente com a inclusão de mais variáveis explicativas. Isso significa que o poder explicativo do modelo aumenta. A Estatística do teste-F reduziu, entretanto permanece significativa, indicando que as covariáveis conjuntamente são significativas.
* OBS: A estatística F avalia a significância global do modelo em comparação com um modelo "vazio", enquanto a estatística Omnibus testa a significância global do modelo considerando a distribuição dos resíduos.