# M√≠nimos Quadrados Ordin√°rios (MQO / Ordinary Least Squares - OLS)

Prof. Daniel de Abreu Pereira Uhr

### Conte√∫do

* Estimador de M√≠nimos Quadrados Ordin√°rios (MQO, ou *Ordinary Least Squares - OLS*)
  * Hip√≥teses do MQO:
    * Linearidade
    * Exogeneidade estrita
    * N√£o-Multicolineariade
    * Vari√¢ncia esf√©rica do erro
    * Erro √© normalmente distribu√≠do
  * √Ålgebra do Estimador OLS
  * **Propriedades do Estimador OLS**
  * N√£o-vies
  * Consist√™ncia
  * Efici√™ncia
  * Normalidade
  
* Infer√™ncia com OLS
  * Teste-T, IC, e p-valor
  * $R^{2}$ e $R^{2}$ ajustado
  * Outras M√©tricas para Avaliar o Desempenho da Regress√£o
  * Teste F

* Exemplos de Infer√™ncia e Regress√£o no Python
  

### Refer√™ncias

* HAYASHI , F. Econometrics, Princeton university press, 2000.
* Gujarati, D. N. Econometria B√°sica. 5¬™ ed. Rio de Janeiro: Elsevier, 2011.
* Wooldridge, J. M. Introdu√ß√£o √† Econometria: uma abordagem moderna. S√£o Paulo: Cengage Learning, 2015.
* Pereda, P. C., & Alves, D. Econometria Aplicada, Elsevier, 2018.
* Cattaneo (2010) Journal of Econometrics 155: 138‚Äì154
* NOTAS PR√ìPRIAS



## Estimador de M√≠nimos Quadrados Ordin√°rios (MQO, ou *Ordinary Least Squares - OLS*).

A regress√£o populacional √© a forma te√≥rica da rela√ß√£o entre a vari√°vel dependente $Y_{i}$ e as vari√°veis independentes $X_{i}$ com base na popula√ß√£o inteira. Onde, $\beta$ representa os verdadeiros par√¢metros desconhecidos e $u_{i}$ √© o termo de erro ou dist√∫rbio, que captura todos os fatores que influenciam $Y_{i}$ al√©m de $X_{i}$. 

$$
Y_{i} = \beta_{1}X_{i1} + \beta_{2}X_{i2} + ... + \beta_{k}X_{ik} + u_{i}
$$

Para avan√ßar no prop√≥sito de identifica√ß√£o desses par√¢metros o pesquisador utilizar√°, al√©m de uma amostra, o m√©todo de M√≠nimos Quadrados Ordin√°rios (*Ordinary Least Squares - OLS*). 

### Hip√≥teses do OLS

O modelo cl√°ssico OLS de regress√£o linear satisfaz as seguintes hip√≥teses (Hayashi, 2000):

* 1. Linearidade
* 2. Exogeneidade estrita
* 3. N√£o-Multicolineariade
* 4. Vari√¢ncia esf√©rica do erro.
* 5. Erro √© normalmente distribu√≠do

Vejamos por partes. A **hip√≥tese 1** define que a rela√ß√£o entre a vari√°vel dependente ($y$) e as vari√°veis independentes ($x$) √© linear. 

$$
y_{i} = \beta_{1}x_{i1} + \beta_{2}x_{i2} + ... + \beta_{k}x_{ik} + \epsilon_{i}
$$

Para $i = 1, 2, ..., n$, onde $n$ √© o n√∫mero de observa√ß√µes. Os coeficientes ($\beta$) s√£o os par√¢metros do modelo a serem estimados e o termo de erro ($\epsilon$) √© a parte n√£o observada do modelo.

O lado direito da igualdade √© chamado de **fun√ß√£o de regress√£o**, e os coeficientes s√£o chamados de **coeficientes de regress√£o**. A hip√≥tese 1 define que a fun√ß√£o de regress√£o √© linear nos par√¢metros, n√£o nas vari√°veis.

**Nota√ß√£o Matricial**

Defina vetores K-dimensionais $x_{i}$ e $\beta$ como:

$$
x_{i} = \begin{bmatrix} x_{i1} \\ x_{i2} \\ \vdots \\ x_{ik} \end{bmatrix} \quad \beta = \begin{bmatrix} \beta_{1} \\ \beta_{2} \\ \vdots \\ \beta_{k} \end{bmatrix}
$$

Pela defini√ß√£o de produto interno de vetores, $x_{i}^{'}\beta = \beta_{1}x_{i1} + \beta_{2}x_{i2} + ... + \beta_{k}x_{ik}$. Assim, a fun√ß√£o de regress√£o pode ser escrita como:

$$
y_{i} = x_{i}^{'}\beta + \epsilon_{i}
$$

Defina,

$$
y=\begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{bmatrix} \quad X=\begin{bmatrix} x_{1}^{'} \\ x_{2}^{'} \\ \vdots \\ x_{n}^{'} \end{bmatrix} =  \begin{bmatrix}
x_{11} & ... & x_{1K} \\
\vdots & ... & \vdots \\
x_{n1} & ... &  x_{nk} \\
\end{bmatrix}  \quad \epsilon=\begin{bmatrix} \epsilon_{1} \\ \epsilon_{2} \\ \vdots \\ \epsilon_{n} \end{bmatrix}
$$

Assim, a hip√≥tese 1 pode ser escrita como:

$$
y=X\beta + \epsilon
$$

**Hip√≥tese 2**

A exogeneidade estrita √© definida como:

$$
E(\epsilon_{i}|X)= E(\epsilon_{i}|x_{i1}, x_{i2}, ..., x_{ik}) = 0
$$

A expectativa condicional do termo de erro √© zero, dado os valores das vari√°veis independentes. A hip√≥tese 2 define que as vari√°veis independentes s√£o n√£o correlacionadas com o termo de erro ($\epsilon$) para todas as condi√ß√µes.

Uma implica√ß√£o direta da exogeneidade estrita √© que a expectativa incondicional do termo de erro √© zero:

$$
E(\epsilon_{i}) = 0
$$
Isso ocorre pela lei das expectativas iteradas:

$$
E(\epsilon_{i}) = E[E(\epsilon_{i}|x_{i1}, x_{i2}, ..., x_{ik})] = E[0] = 0
$$

Al√©m disso, se a covari√¢ncia entre duas vari√°veis aleat√≥rias √© zero, ent√£o dizemos que elas s√£o ortogonais. Sob exogeneidade estrita, as vari√°veis independentes s√£o ortogonais ao termo de erro.

$$
E(x_{jk}\epsilon_{i}) = 0
$$

ou

$$
E(x_{j}\epsilon_{i}) = \begin{bmatrix} E(x_{j1}\epsilon_{i}) \\ E(x_{j2}\epsilon_{i}) \\ \vdots \\ E(x_{jk}\epsilon_{i}) \end{bmatrix} = \begin{bmatrix} 0 \\ 0 \\ \vdots \\ 0 \end{bmatrix}
$$




Para relembrar o conceito **expectativa condicional** e de **exogeneidade estrita**. Considere a tabela e responda as quest√µes abaixo.

| Y | X | u |
|---|---|---|
| 4 | 1 | 3 |
| 3 | 1 | 2 |
| 3 | 1 | 1 |
| 1 | 0 | -1 |
| 2 | 0 | -2 |
| 0 | 0 | -3 |

**Calcule:**
* E(Y)
* E(Y|X=1) e E(Y|X=0)
* E(Y|X=1) - E(Y|X=0)
* E(u)
* Podemos confiar numa regress√£o de Y em X?


In [2]:
# NumPy √© uma biblioteca em Python para computa√ß√£o num√©rica e opera√ß√µes matem√°ticas
import numpy as np

# Dados
Y = np.array([4, 3, 3, 1, 2, 0])
X = np.array([1, 1, 1, 0, 0, 0])
u = np.array([3, 2, 1, -1, -2, -3])

# Calcular as m√©dias
media_Y = np.mean(Y)
media_X = np.mean(X)
media_Y_X_1 = np.mean(Y[X == 1])
media_Y_X_0 = np.mean(Y[X == 0])
dif_media_Y_X = media_Y_X_1 - media_Y_X_0
media_u = np.mean(u)

print("M√©dia de Y (E(Y|X=1)): ", media_Y_X_1)
print("M√©dia de Y (E(Y|X=0)): ", media_Y_X_0)
print("(E(Y|X=1)- E(Y|X=0)): ", dif_media_Y_X)
print("M√©dia de u: ", media_u)

M√©dia de Y (E(Y|X=1)):  3.3333333333333335
M√©dia de Y (E(Y|X=0)):  1.0
(E(Y|X=1)- E(Y|X=0)):  2.3333333333333335
M√©dia de u:  0.0


**Hip√≥tese 3**

N√£o multicolinearidade (posto completo da matriz X). A hip√≥tese 3 define que as vari√°veis independentes **n√£o s√£o perfeitamente correlacionadas entre si**. 

Considere a Matriz X(2x2) abaixo:

$ X = \begin{bmatrix} 1 & 3 \\ 4 & 12 \end{bmatrix} $

Sua transposta √©:

$ X¬¥ = \begin{bmatrix} 1 & 4 \\ 3 & 12 \end{bmatrix} $

O produto da transposta com a matriz X √©:

$ X¬¥X = \begin{bmatrix} 1 & 4 \\ 3 & 12 \end{bmatrix} \begin{bmatrix} 1 & 3 \\ 4 & 12 \end{bmatrix} = \begin{bmatrix} 17 & 51 \\ 51 & 153 \end{bmatrix} $

Para calcular a matriz inversa $X¬¥X^{-1}$ ($A^{-1}$):

$ A^{-1} = \frac{1}{det(A)} .  Adjunta $	

$ ùê¥ùëëùëóùë¢ùëõùë°ùëé = (ùê∂ùëúùëì)^ùëá$ 

$ùê∂ùëúùëì=(‚àí1)^{(ùëñ+ùëó)}.det(MC)$

O det(MC) √© o determinante da matriz resultante da elimina√ß√£o da linha e da coluna.

Ent√£o, eu chamo a sua aten√ß√£o que para calcular a inversa de $X¬¥X$, no in√≠cio do procedimento, precisamos calcular o determinante da matriz. **Qual o determinante da matriz $X¬¥X$?**

Precisamos do posto completo para a inversa existir e identificarmos os coeficientes do modelo.


**Hip√≥tese 4**

A **vari√¢ncia esf√©rica do erro** implica em duas condi√ß√µes principais:

* **Homocedasticidade**: Esta condi√ß√£o requer que a vari√¢ncia do erro condicional a $ X $ seja constante e positiva:

$$
   E(\epsilon_{i}^{2} | X) = \sigma^{2} > 0
$$

Isso indica que a vari√¢ncia dos erros √© a mesma para todos os indiv√≠duos, independentemente dos valores de $ X $.

* **Aus√™ncia de correla√ß√£o entre os erros dos indiv√≠duos (n√£o correla√ß√£o espacial)**: Esta condi√ß√£o implica que a covari√¢ncia entre os erros de dois indiv√≠duos distintos, \( i \) e \( j \), √© zero:

$$
   E(\epsilon_{i}\epsilon_{j} | X) = 0 \quad \text{para } i \neq j
$$

Isso assegura que n√£o h√° correla√ß√£o entre os erros dos diferentes indiv√≠duos, ou seja, os erros s√£o independentes entre si condicional a \( X \).

Combinando essas duas condi√ß√µes, temos que a matriz de vari√¢ncia-covari√¢ncia dos erros condicional a \( X \) √© dada por:

$$
E(\epsilon \epsilon^{\prime} | X) = \sigma^{2} I_{n}
$$

onde $ I_{n} $ √© a matriz identidade de ordem $ n $. Isso significa que a vari√¢ncia dos erros √© esf√©rica, isto √©, a mesma em todas as dire√ß√µes (vari√¢ncia constante) e os erros s√£o ortogonais entre si (n√£o correlacionados).


* Vejamos a Homocedasticidade na figura:

<div style="text-align:center;">
    <img src="images/distr_02.PNG"  alt="Imagem" style="width: 500px;"/>
</div>


Em termos matriciais, a hip√≥tese 4 de homocedasticidade √© escrita como:

$$ E(\epsilon \epsilon^{¬¥}|X) = \sigma^{2}I_{n} = \begin{bmatrix} \sigma^{2} & 0 & 0 & ... & 0 \\ 0 & \sigma^{2} & 0 & ... & 0 \\ 0 & 0 & \sigma^{2} & ... & 0 \\ ... & ... & ... & ... & ... \\ 0 & 0 & 0 & ... & \sigma^{2} \end{bmatrix} = \Omega $$

Onde $\Omega$ √© a matriz de covari√¢ncia dos erros. A matriz $\Omega$ √© diagonal e todos os elementos fora da diagonal s√£o zero. A vari√¢ncia do erro √© constante e a covari√¢ncia entre os erros √© zero.

**Considerando a heterocedasticidade**, a matriz $\Omega$ √© diagonal, entretanto, os elementos da diagonal n√£o s√£o iguais. A vari√¢ncia do erro n√£o √© constante e a covari√¢ncia entre os erros √© zero.

* Vejamos a Heterocedasticidade na figura:
 
<div style="text-align:center;">
    <img src="images/distr_03.PNG"  alt="Imagem" style="width: 500px;"/>
</div>

Em termos matriciais, a falha na hip√≥tese 4, ou seja, **a exist√™ncia de heterocedasticidade** √© escrita como:

$$ E(\epsilon \epsilon^{¬¥}|X) = \begin{bmatrix} \sigma_{1}^{2} & 0 & 0 & ... & 0 \\ 0 & \sigma_{2}^{2} & 0 & ... & 0 \\ 0 & 0 & \sigma_{3}^{2} & ... & 0 \\ ... & ... & ... & ... & ... \\ 0 & 0 & 0 & ... & \sigma_{n}^{2} \end{bmatrix} = \Omega $$



Ent√£o, sob as quatro hip√≥teses:

* Linearidade
* Exogeneidade estrita
* N√£o-Multicolinearidade
* Vari√¢ncia esf√©rica do erro (homocedasticidade e n√£o correla√ß√£o espacial dos erros)

O estimador OLS √© o estimador mais eficiente na classe dos estimadores lineares n√£o viesados **(BLUE - Best Linear Unbiased Estimator)**.

**Descompondo o Conceito de BLUE**:

* **Best** (Melhor)
  * Entre todos os estimadores lineares e n√£o viesados, o estimador BLUE tem a menor vari√¢ncia. Isso significa que ele √© o mais eficiente, fornecendo as estimativas mais precisas (menor dispers√£o) poss√≠vel para o par√¢metro em quest√£o.
* **Linear**
  * O estimador √© linear nas observa√ß√µes, o que significa que ele pode ser expresso como uma combina√ß√£o linear das vari√°veis independentes (ou dos dados). Em um modelo de regress√£o linear, por exemplo, os coeficientes de regress√£o s√£o estimadores lineares dos par√¢metros.
* **Unbiased** (N√£o viesado)
  * Um estimador √© n√£o viesado se, em m√©dia, ele retorna o verdadeiro valor do par√¢metro. Em outras palavras, a expectativa matem√°tica do estimador √© igual ao par√¢metro que ele est√° estimando: $E(\hat{\beta}) = \beta$.
* **Estimator** (Estimador)
  * Um estimador √© uma regra ou f√≥rmula que usamos para calcular uma estimativa de um par√¢metro desconhecido com base nos dados dispon√≠veis.

**Teorema de Gauss-Markov**

O conceito de BLUE est√° fortemente associado ao Teorema de Gauss-Markov. Este teorema afirma que, sob certas condi√ß√µes (como linearidade, exogeneidade, homocedasticidade e aus√™ncia de multicolinearidade perfeita), o estimador dos m√≠nimos quadrados ordin√°rios (MQO) √© o BLUE para os coeficientes de um modelo de regress√£o linear.
Para provar temos que mostrar:
* O estimador √© linear
* O estimador √© n√£o viesado
* O estimador tem a menor vari√¢ncia

**Hip√≥tese 5**

O termo de erro √© normalmente distribu√≠do. Ou seja, $\epsilon \sim N(0, \sigma^{2})$. Em outras palavras, a distribui√ß√£o condicional de $\epsilon$ em $X$ √© conjuntamente normal.

As 5 hip√≥teses conjuntamente implicam que a distribui√ß√£o condicional de $\epsilon$ em $X$ √© normal com m√©dia zero e vari√¢ncia constante:

$$ \epsilon|X \sim N(0, \sigma^{2}I_{n}) $$

Isso quer dizer que a distribui√ß√£o de $\epsilon$ condicional em $X$ n√£o depende de $X$ (S√£o independentes). Essa quinta hip√≥tese √© importante para a infer√™ncia estat√≠stica (Teste-t e Teste-F).


Ent√£o, sob as cinco hip√≥teses:

* Linearidade
* Exogeneidade estrita
* N√£o-Multicolinearidade
* Vari√¢ncia esf√©rica do erro
* Termo de erro √© normalmente distribu√≠do

O estimador OLS √© o estimador mais eficiente na classe dos estimadores lineares n√£o viesados **(BLUE - Best Linear Unbiased Estimator)** e √© poss√≠vel realizar infer√™ncia estat√≠stica.

* *Observa√ß√£o: Essa hip√≥tese 5 √© importante porque garante que os estimadores dos coeficientes $\beta$ no modelo de regress√£o s√£o eficientes e que as infer√™ncias estat√≠sticas (como os testes t e F) ser√£o v√°lidas. Quando o termo de erro √© normalmente distribu√≠do, as estimativas do MQO s√£o tamb√©m as melhores estimativas lineares n√£o viesadas (BLUE - Best Linear Unbiased Estimators) e t√™m distribui√ß√£o normal. Em resumo, a Hip√≥tese 5 sobre a normalidade dos erros √© crucial para que os resultados inferenciais (testes de hip√≥tese, intervalos de confian√ßa, etc.) no modelo de regress√£o linear sejam v√°lidos e precisos.*



### √Ålgebra do OLS

#### **N√£o vi√©s** e **Consist√™ncia**

Considere que o m√©todo OLS busca o argumento b que minimiza o quadrado dos res√≠duos. Vejamos em termos alg√©bricos:

$$ \beta = argmin(b)E[(Y_{i}-X_{i}b)^2] $$

A condi√ß√£o de primeira ordem (CPO):

$$ E[X¬¥_{i}(Y_{i}-X_{i}b)]=0 $$

Sob a hip√≥tese de posto completo √© poss√≠vel ter a inversa $E[X_{i}¬¥X_{i}]^{-1}$, e isolamos o beta estimado (b) :

$$ b = E[X_{i}¬¥X_{i}]^{-1}E[X_{i}¬¥Y_{i}] $$

Considere a regress√£o populacional dada por:

$$ Y_{i} = X_{i}\beta + u_{i} $$

Podemos substituir a regress√£o populacional na estimativa de beta amostral:

$$ b = E[X_{i}¬¥X_{i}]^{-1}E[X_{i}¬¥ Y_{i} ] $$

* *Observa√ß√£o: A regress√£o populacional √© a forma te√≥rica da rela√ß√£o entre a vari√°vel dependente $Y_{i}$ e as vari√°veis independentes $X_{i}$ com base na popula√ß√£o inteira. Nessa equa√ß√£o, $\beta$ representa os verdadeiros par√¢metros desconhecidos e $u_{i}$ √© o termo de erro ou dist√∫rbio, que captura todos os fatores que influenciam $Y_{i}$ al√©m de $X_{i}$. Substituir a regress√£o populacional na estimativa amostral de $\beta$ √© uma etapa crucial para entender o m√©todo de estima√ß√£o de M√≠nimos Quadrados Ordin√°rios (MQO). Ao fazer isso, estamos usando a forma te√≥rica (populacional) da regress√£o para derivar o estimador amostral $b$ para $\beta$.*

temos, teoricamente:

$$ b = E[X_{i}¬¥X_{i}]^{-1}E[X_{i}¬¥(X_{i}\beta + u_{i})] $$

Logo:

$$ b = \beta + E[X_{i}¬¥X_{i}]^{-1}E[X_{i}¬¥u_{i}] $$


ou

$$ b= \beta+\frac{\operatorname{Cov}(X, u)}{\operatorname{Var}(X)} $$


**N√£o-vi√©s**

O estimador OLS √© n√£o viesado se, em m√©dia, ele retorna o verdadeiro valor do par√¢metro populacional $\beta$. Isso significa que a expectativa do estimador $b$ √© igual ao valor verdadeiro de $\beta$. Para que $b$ seja n√£o viesado, precisamos que $E[b] = \beta$. Observe que isso ocorrer√° se $E[X¬¥u] = 0$. Sob a hip√≥tese de exogeneidade estrita, assumimos que $E[u|X] = 0$, o que implica que $E[X¬¥u] = X¬¥E[u] = 0$. Portanto, o estimador OLS $b$ √© n√£o viesado, pois sua expectativa √© igual ao verdadeiro valor do par√¢metro $\beta$. Isso garante que, em m√©dia, o OLS fornece uma estimativa correta do par√¢metro, sem sistematicamente superestimar ou subestimar o valor verdadeiro.


**Consist√™ncia**

A consist√™ncia do estimador de m√≠nimos quadrados ordin√°rios (OLS) significa que, √† medida que o tamanho da amostra aumenta, o estimador converge em probabilidade para o verdadeiro valor do par√¢metro populacional $\beta$. Em outras palavras, conforme $n \rightarrow \infty$, o estimador $b$ converge para o verdadeiro valor do par√¢metro $\beta$. Para mostrar que $b$ √© consistente, precisamos mostrar que: $b - \beta \rightarrow 0$ conforme $n \rightarrow \infty$, ou, equivalentemente, $(X¬¥X)^{-1}X¬¥u \rightarrow 0$. Pela lei dos grandes n√∫meros, $\frac{1}{n}X¬¥X \rightarrow E[X¬¥X]$ (uma matriz positiva definida) e $\frac{1}{n}X¬¥u \rightarrow E[X¬¥u]$. Assim, $(X¬¥X)^{-1}X¬¥u \rightarrow E[X¬¥X]^{-1}E[X¬¥u]$. Sob a hip√≥tese de exogeneidade estrita, $E[X¬¥u] = 0$, o que implica que: $\frac{1}{n}X¬¥u \rightarrow 0$. Portanto, $(X¬¥X)^{-1}X¬¥u \rightarrow 0$ e, consequentemente, $b - \beta \rightarrow 0$.A ideia √© que a consist√™ncia do OLS surge porque, com um n√∫mero suficientemente grande de observa√ß√µes, as flutua√ß√µes aleat√≥rias dos erros $u$ s√£o "anuladas" em m√©dia. Assim, o estimador OLS se "fixa" no verdadeiro valor de $\beta$ conforme a quantidade de dados aumenta.


Posteriormente, ampliaremos a discuss√£o sobre a import√¢ncia da hip√≥tese de exogeneidade estrita no contexto de **identifica√ß√£o causal**.


#### **Efici√™ncia**

Para fazer **INFER√äNCIA ESTAT√çSTICA**, precisamos da **variabilidade dos coeficientes estimados** (mais especificadamente, da vari√¢ncia - $Var(b)$ e seu erro padr√£o).

Utilizando a defini√ß√£o de vari√¢ncia e considerando que (b) √© n√£o tendencioso, temos:

$$ Var(b) = E[b - \beta]^{2} $$

Vimos que:

$$ b = \beta + E[X_{i}¬¥X_{i}]^{-1}E[X_{i}¬¥u_{i}] $$

$$ b - \beta = E[X_{i}¬¥X_{i}]^{-1}E[X_{i}¬¥u_{i}] $$

Pela defini√ß√£o de vari√¢ncia:

$$ Var(b) = E[(b - \beta)^{2}] = E[(b - \beta)(b - \beta)^{¬¥}] $$

logo, 

$$ Var(b|X) = (E[X_{i}¬¥X_{i}]^{-1}E[X_{i}¬¥u_{i}])(E[u_{i}¬¥X_{i}]E[X_{i}X_{i}¬¥]^{-1}) $$

$$ Var(b|X) = E[X_{i}¬¥X_{i}^{-1}X_{i}¬¥u_{i}u_{i}^{¬¥}X_{i}X_{i}¬¥X_{i}^{-1}] $$

$$ Var(b|X) = E[(X_{i}¬¥X_{i}^{-1})X_{i}¬¥[u_{i}u_{i}^{¬¥}]X_{i}(X_{i}¬¥X_{i}^{-1})] $$

Sob Homocedasticidade (Hip3), $E[\epsilon_{i}^{2}|X] = \sigma^{2}$,

$$ Var(b|X) = \sigma^{2}E[(X_{i}¬¥X_{i}^{-1})X_{i}¬¥X_{i}(X_{i}¬¥X_{i}^{-1})] $$

Logo, 

$$ \operatorname{Var}(b|X) = \sigma^{2}E[X_{i}¬¥X_{i}]^{-1} $$


 **Efici√™ncia**

Um estimador √© dito eficiente se, dentre todos os estimadores lineares e n√£o viesados, ele tiver a menor vari√¢ncia. O estimador OLS para $b$ √© dado por: $ b = (X'X)^{-1}X'Y $ (podemos expressar isso como $b = CY$, onde $C = (X'X)^{-1}X'$). Considerando as condi√ß√µes de (i) linearidade, (ii) exogeneidade estrita, (iii) homocedasticidade e (iv) aus√™ncia de multicolinearidade perfeita (as quatro primeiras hip√≥teses do OLS), o Teorema de Gauss-Markov afirma que a vari√¢ncia do estimador OLS: $ \operatorname{Var}(b|X) = \sigma^2 (X'X)^{-1} $ √© a menor vari√¢ncia poss√≠vel entre todos os estimadores lineares n√£o viesados. Isso significa que $b$ √© o Best Linear Unbiased Estimator (BLUE). Para mostrar isso, precisamos comparar o OLS com qualquer outro estimador linear n√£o viesado, denotado por $\tilde{b}$, e demonstrar que: $ \operatorname{Var}(\tilde{b}) \geq \operatorname{Var}(b) $. Considere uma matriz $A$ $(k \times n)$ que satisfa√ßa a condi√ß√£o de n√£o vi√©s $AX = I_k$, onde $I_k$ √© a matriz identidade de ordem $k$. Isso garante que: $ E[\tilde{b}] = E[AY] = AX\beta = \beta $. Assim, para que $\tilde{b}$ seja n√£o viesado, precisamos de $AX = I_k$. A vari√¢ncia de $\tilde{b}$ √© dada por: $ \operatorname{Var}(\tilde{b}) = \operatorname{Var}(AY) = A \operatorname{Var}(Y) A' = A \sigma^2 I_n A' = \sigma^2 AA' $. Substituindo $A = (X'X)^{-1}X'$ na express√£o para a vari√¢ncia, obtemos:$ \operatorname{Var}(\tilde{b}|X) = \sigma^2 (X'X)^{-1} = \operatorname{Var}(b|X) $. Portanto, o estimador OLS √© eficiente porque ele atinge a menor vari√¢ncia poss√≠vel entre todos os estimadores lineares n√£o viesados. Em outras palavras, o estimador OLS √© o estimador BLUE (Best Linear Unbiased Estimator) para os coeficientes de um modelo de regress√£o linear.

 
Assumindo as quatro hip√≥teses, mais a hip√≥tese de normalidade dos erros:

$$ \epsilon|X \sim N(0, \sigma^{2}I_{n}) $$

A distribui√ß√£o de $\epsilon$ condicional em $X$ n√£o depende de $X$ (S√£o independentes). Assim, as distribui√ß√µes marginais e incondicionais de $\epsilon$ s√£o normais ($\epsilon \sim N(0, \sigma^{2}I_{n})$). E o erro amostra ($b-\beta$) √© linear em $\epsilon$ dado $X$. Sob essas hip√≥teses:

$$ b - \beta \sim N(0 , \sigma^{2}(X¬¥X)^{-1}) $$

Para testar a hip√≥tese individual de um coeficiente:

$$ H_{0}: b_{k} = \bar{\beta}_{k} $$
$$ H_{1}: b_{k} \neq \bar{\beta}_{k} $$

a um n√≠vel de signific√¢ncia $\alpha$. logo,

$$ (b_{k} - \bar{\beta_{k}})| X \sim N(0, \sigma^{2}(X¬¥X)^{-1}_{kk}) $$

definindo a raz√£o $z_{k}$ pela divis√£o de $b_{k} - \bar{\beta_{k}}$ pelo desvio padr√£o :

$$ z_{k} = \frac{b_{k} - \bar{\beta_{k}}}{\sqrt{\sigma^{2}(X¬¥X)^{-1}_{kk}}} $$

ent√£o a distribui√ß√£o de $z_{k}$ √© $N(0,1)$ (distriui√ß√£o normal padr√£o). Mas n√£o sabemos o verdadeiro valor de $\sigma^{2}$, ent√£o usamos a estimativa da vari√¢ncia dos erros ($\hat{\sigma}^{2}$, ou $s^{2}$). A estat√≠stica ap√≥s a substitui√ß√£o √© chamada de **t-Student**, e o denominador dessa estat√≠stica √© o erro padr√£o de $b_{k}$ do OLS (SE).

$$ SE(b_{k}) = \sqrt{\hat{\sigma}^{2}(X¬¥X)^{-1}_{kk}} $$

Ent√£o, supondo as 5 hip√≥teses e sob a hip√≥tese nula $H_{0}: b_{k} = \bar{\beta_{k}} $, a estat√≠stica t √© dada por:

$$ t_{k} = \frac{b_{k} - \bar{\beta_{k}}}{SE(b_{k})} $$


Em termos de estimativa amostral:


$$ t_{k} = \frac{b_{k} - \bar{b_{k}}}{SE(b_{k})} = \frac{b_{k} - \bar{b_{k}}}{\sqrt{Var(b|X)}} = \frac{b_{k} - \bar{b_{k}}}{\sqrt{\hat{\sigma}^{2}(X¬¥X)^{-1}_{kk}}} = \frac{b_{k} - \bar{b_{k}}}{\sqrt{\frac{\sum{u_{i}^{2}}/(n-k)}{\sum(x_{i}-\bar{x})^{2}}}} $$

onde $u_{i} \sim N(0, \sigma^{2})$.

**Repare**
* Temos 3 termos "vari√¢ncia" aqui, Vari√¢ncia dos coeficientes estimados e Vari√¢ncia dos res√≠duos e Vari√¢ncia das Covari√°veis (vari√°veis explicativas).
* Se a **vari√¢ncia dos erros** aumentar ($\hat{\sigma}^{2}$), a **vari√¢ncia dos coeficientes** estimados tamb√©m aumentar√° ($Var(b|X)$). 
* Se as vari√°veis $X$ variam pouco, a **vari√¢ncia dos coeficientes** estimados aumentar√°.
* Logo, **precisamos de varia√ß√£o nas vari√°veis explicativas** para estimar os coeficientes com precis√£o, e uma **vari√¢ncia dos res√≠duos menor e constante**.

### Regra de Decis√£o para o Teste-t

##### Passo 1: Defina as Hip√≥teses
- **Hip√≥tese Nula (H0)**: A vari√°vel $X_k$ n√£o tem efeito sobre Y (o coeficiente associado √† X √© estatisticamente zero).
- **Hip√≥tese Alternativa (H1)**: A vari√°vel $X_k$ tem efeito sobre Y (o coeficiente associado √† X n√£o √© estat√≠sticamente zero).

##### Passo 2: Determine o N√≠vel de Signific√¢ncia ($\alpha $)
- O **n√≠vel de signific√¢ncia** √© a probabilidade de cometer um erro ao rejeitar a hip√≥tese nula quando ela √© verdadeira. Comumente usado s√£o 1%, 5% ou 10%.
- Na tabela t, encontre o valor cr√≠tico $t_{\alpha/2}(n-K)$, onde \(n\) √© o n√∫mero de observa√ß√µes e \(K\) √© o n√∫mero de coeficientes no modelo. Este valor cr√≠tico delimita a √°rea $ \alpha/2 $ em cada cauda da distribui√ß√£o t.

A rela√ß√£o √© expressa como:
$$ \text{Prob}(-t_{\alpha/2}(n-K) < t < t_{\alpha/2}(n-K)) = 1 - \alpha $$

Ou seja, a express√£o signfica que a probabilidade de que a estat√≠stica t calculada a partir dos dados caia dentro do intervalo delimitado pelos valores cr√≠ticos √© $1 - \alpha$.

##### Passo 3: Tome a Decis√£o
- **Aceite H0** se $ |t_k| < t_{\alpha/2}(n-K) $, ou seja, se o valor absoluto do t calculado para o coeficiente $X_k$ √© menor que o valor cr√≠tico.
- **Rejeite H0** se $ |t_k| \ge t_{\alpha/2}(n-K) $, ou seja, se o valor absoluto do t calculado √© maior ou igual ao valor cr√≠tico.

##### Explica√ß√£o Intuitiva
1. **Hip√≥teses**: Voc√™ come√ßa com a suposi√ß√£o (H0) de que a vari√°vel $X_k$ n√£o tem impacto. Se os dados mostrarem um grande desvio dessa suposi√ß√£o, voc√™ considerar√° que $X_k$ realmente tem impacto (H1).
2. **Signific√¢ncia**: Decida o qu√£o seguro voc√™ quer estar ao rejeitar H0. Um n√≠vel de signific√¢ncia de 5% significa que h√° uma chance de 5% de voc√™ estar cometendo um erro ao rejeitar H0.
3. **Decis√£o**: Compare o t calculado para $X_k$ com um valor cr√≠tico da tabela t. Se o t calculado estiver fora do intervalo aceit√°vel, rejeite H0; caso contr√°rio, aceite H0.


### Intervalo de Confian√ßa (IC)

O intervalo de confian√ßa nos ajuda a entender a precis√£o da estimativa do coeficiente $ \beta_k $. Ele fornece um intervalo de valores poss√≠veis para $ \beta_k $ com uma certa confian√ßa.

##### Passo 3 Reescrito

Podemos reescrever a regra de decis√£o do passo 3 em termos do coeficiente estimado $ b_k $ e do erro padr√£o $ SE(b_k) $:

$$ -t_{\alpha/2}(n-K) < \frac{b_k - \beta_k}{SE(b_k)} < t_{\alpha/2}(n-K) $$

Isso pode ser rearranjado para:

$$ b_k - t_{\alpha/2}(n-K)SE(b_k) < \beta_k < b_k + t_{\alpha/2}(n-K)SE(b_k) $$

##### Interpreta√ß√£o Intuitiva

Aceitamos a hip√≥tese nula se e somente se o valor hipotetizado de $ \beta_k $ estiver dentro do intervalo de confian√ßa. Isso significa que estamos verificando se $ \beta_k $ cai dentro do intervalo que esperamos, com base nos nossos dados:

$$ IC = \left[ b_k - SE(b_k) \cdot t_{\alpha/2}(n-K), b_k + SE(b_k) \cdot t_{\alpha/2}(n-K) \right] $$

##### Resumo do IC
- **Intervalo de Confian√ßa**: √â um intervalo ao redor do coeficiente estimado $ b_k $ onde acreditamos que o verdadeiro valor $ \beta_k $ est√° localizado, com um certo n√≠vel de confian√ßa (1 - $\alpha$).
- **N√≠vel de Confian√ßa**: Se escolhermos **um n√≠vel de signific√¢ncia** ($\alpha$) de 5%, **o n√≠vel de confian√ßa** ser√° 95%. Isso significa que, se repet√≠ssemos o estudo muitas vezes, 95% dos intervalos de confian√ßa calculados conteriam o verdadeiro valor do coeficiente.
- **Decis√£o**: Se o valor hipotetizado de $ \beta_k $ est√° dentro deste intervalo, n√£o temos evid√™ncias suficientes para rejeitar a hip√≥tese nula. Caso contr√°rio, rejeitamos a hip√≥tese nula.

### p-Valor - Regra de Decis√£o do Teste-t Usando o P-Valor

Em vez de encontrar o valor cr√≠tico $ t_{\alpha/2}(n-K) $, podemos usar o p-valor para tomar a decis√£o. Aqui est√° uma explica√ß√£o passo a passo:

##### C√°lculo do P-Valor

1. **Calcule a Estat√≠stica t:** Primeiro, calculamos a estat√≠stica t para o coeficiente $ t_k $.

2. **Encontre a Probabilidade:** Determine a probabilidade de obter um valor absoluto de t maior que $ |t_k| $. Esta probabilidade √©:

$$ p = 2 \times \text{Prob}(t > |t_k|) $$

Porque a distribui√ß√£o t √© sim√©trica em torno de zero, temos:

$$ \text{Prob}(t > |t_k|) = \text{Prob}(t < -|t_k|) $$

Assim, a probabilidade de $ t $ estar entre $ -|t_k| $ e $ |t_k| $ √©:

$$ \text{Prob}(-|t_k| < t < |t_k|) = 1 - p $$

##### Tomando a Decis√£o

**Aceitamos H0 se $ p > \alpha $ e rejeitamos H0 caso contr√°rio.**

Em outras palavras, se o p-valor for menor ou igual ao n√≠vel de signific√¢ncia ($\alpha$), rejeitamos a hip√≥tese nula. Caso contr√°rio, aceitamos a hip√≥tese nula.

##### Interpreta√ß√£o Intuitiva do P-Valor

- **P-Valor:** O p-valor representa a probabilidade de obter um valor da estat√≠stica t igual ou mais extremo do que o observado, assumindo que a hip√≥tese nula seja verdadeira.
  
- **Significado Pr√°tico:** Um p-valor baixo indica que √© muito improv√°vel observar um valor da estat√≠stica t t√£o extremo apenas por acaso se a hip√≥tese nula for verdadeira. Portanto, um **p-valor baixo sugere evid√™ncia contra a hip√≥tese nula.**

##### Exemplo Pr√°tico

- **P-Valor Baixo:** Um p-valor de 0.0001 significa que h√° apenas 0.01% de chance de obter um valor t t√£o extremo ou mais extremo se a hip√≥tese nula for verdadeira. Isso indica forte evid√™ncia contra a hip√≥tese nula.
  
- **Decis√£o Baseada no P-Valor:** Se o p-valor √© menor que 0.05 (5%), rejeitamos a hip√≥tese nula com uma confian√ßa de 95%.

##### Erros em Testes de Hip√≥teses
Em testes de hip√≥teses, podem ocorrer dois tipos principais de erros ao tomar decis√µes:

- **Erro Tipo I (Falso Positivo):** Rejeitar a hip√≥tese nula quando ela √© verdadeira. A probabilidade de cometer este erro √© o n√≠vel de signific√¢ncia ($\alpha$).
  - Exemplo: Suponha que estamos testando se um novo medicamento √© eficaz (hip√≥tese alternativa) contra um placebo (hip√≥tese nula). Se cometemos um Erro Tipo I, conclu√≠mos que o medicamento funciona quando, na verdade, ele n√£o tem efeito.
- **Erro Tipo II (Falso Negativo):** Aceitar a hip√≥tese nula quando ela √© falsa.
  - Exemplo: Usando o mesmo exemplo do medicamento, se cometemos um Erro Tipo II, conclu√≠mos que o medicamento n√£o funciona quando, na verdade, ele √© eficaz.

Todas as Situa√ß√µes Poss√≠veis em testes, vamos pensar num exemplo onde testamos dois m√©todos de ensino distintos, um mais novo e outro mais tradicional.

1. **$H_0$ √© Verdadeira e Aceitamos $H_0$** (Decis√£o Correta)
   - Conclu√≠mos corretamente que n√£o h√° diferen√ßa entre os m√©todos de ensino.

2. **$H_0$ √© Verdadeira e Rejeitamos $H_0$** (Erro Tipo I)
   - Incorretamente conclu√≠mos que o novo m√©todo de ensino √© mais eficaz quando n√£o √©.

3. **$H_0$ √© Falsa e Rejeitamos $H_0$** (Decis√£o Correta)
   - Conclu√≠mos corretamente que o novo m√©todo de ensino √© mais eficaz.

4. **$H_0$ √© Falsa e Aceitamos $H_0$** (Erro Tipo II)
   - Incorretamente conclu√≠mos que n√£o h√° diferen√ßa entre os m√©todos de ensino quando, na verdade, o novo m√©todo √© mais eficaz.


#### R-quadrado e R-quadrado ajustado (Poder Explicativo do Modelo)

O R-quadrado √© uma medida de ajuste do modelo, e do poder explicativo das vari√°veis independentes. Em outras palavras, ele mede a propor√ß√£o da variabilidade da vari√°vel dependente que √© explicada pelas vari√°veis independentes. Podemos decompor a variabilidade da vari√°vel dependente em duas partes: a parte explicada pelas vari√°veis independentes e a parte n√£o explicada (erro).

**R-2**

$$ y¬¥y = (\hat{y} + e)¬¥(\hat{y} + e) $$

$$ y¬¥y = \hat{y}¬¥\hat{y} + e¬¥e + 2\hat{y}¬¥e $$

Como $\hat{y} = Xb$, temos:

$$ y¬¥y = \hat{y}¬¥\hat{y} + e¬¥e + 2Xb¬¥e $$

sob a hip√≥tese de exogeneidade estrita, $E[X¬¥e] = 0$

$$ y¬¥y = \hat{y}¬¥\hat{y} + e¬¥e $$

por defini√ß√£o

$$ R^{2} \equiv \frac{\hat{y}¬¥\hat{y}}{y¬¥y} $$

Voltando a rela√ß√£o, e dividindo por $y¬¥y$:

$$ 1 = R^{2} - \frac{e¬¥e}{y¬¥y} $$

$$ R^{2} = 1 - \frac{e¬¥e}{y¬¥y} $$

Em termos amostrais:

$$ R^{2} = 1 - \frac{\sum(u_{i}^{2})}{\sum(y_{i}-\bar{y})^{2}} $$



O Coeficiente $R^{2}$ tem como limites 0 e 1. Se $R^{2}$ for 1, ent√£o o modelo explica 100% da variabilidade da vari√°vel dependente. Se $R^{2}$ for 0, ent√£o o modelo n√£o explica nada da variabilidade da vari√°vel dependente.

Em outras palavras, R-quadrado:

$$ R^{2} \equiv \frac{SQExp}{SQTot} = 1 - \frac{SQRes}{SQTot} $$

onde:

* SQExp = Soma dos quadrados explicados
* SQTot = Soma total dos quadrados
* SQRes = Soma dos quadrados dos res√≠duos


**R-quadrado ajustado**

O R-quadrado ajustado √© uma medida de ajuste do modelo que penaliza a inclus√£o de vari√°veis explicativas. Caso contr√°rio, o R-quadrado tenderia a aumentar com a inclus√£o de vari√°veis, mesmo que elas n√£o melhorem o poder explicativo do modelo. Ele √© dado por:

$$ R^{2}_{ajustado} = 1 - \frac{\sum(u_{i}^{2})/(n-k)}{\sum(y_{i}-\bar{y})^{2}/(n-1)} $$


#### Outras M√©tricas para Avaliar o Desempenho da Regress√£o

As m√©tricas MAE, MSE, e RMSE s√£o usadas principalmente para avaliar o desempenho do modelo na an√°lise de regress√£o. 

Considerando: 
* $n$ √© o n√∫mero total de observa√ß√µes.
* $y_{i}$ s√£o os valores da vari√°vel de resposta (dependente).
* $\hat{y_{i}}$ s√£o os valores previstos pelo modelo.

Vamos definir as m√©tricas.

* **Erro M√©dio Absoluto (Mean Absolute Error - MAE)**: √© uma m√©trica usada para avaliar a precis√£o de um modelo de previs√£o ou regress√£o. O MAE calcula o quanto as previs√µes do modelo est√£o desviadas dos valores reais em termos absolutos, ignorando a dire√ß√£o do desvio. Possui a f√≥rmula:

$$ MAE = \frac{1}{n} \sum_{i=1}^{n} |y_{i} - \hat{y_{i}} | $$

**Interpreta√ß√£o**: Quanto menor o valor do MAE, melhor √© a capacidade do modelo em fazer previs√µes precisas. 

* **Erro M√©dio Quadr√°tico (Mean Squared Error)**: Assim como o MAE, o MSE mede o qu√£o distantes as previs√µes do modelo est√£o dos valores reais, mas de uma maneira ligeiramente diferente. O MSE calcula a m√©dia dos quadrados das diferen√ßas. Isso significa que o MSE d√° mais peso a erros maiores do que o MAE. Possui a f√≥rmula:

$$ MSE = \frac{1}{n} \sum_{i=1}^{n} (y_{i} - \hat{y_{i}})^{2} $$

**Interpreta√ß√£o**: Assim como no caso do MAE, quanto menor o valor do MSE, melhor √© a capacidade do modelo em fazer previs√µes precisas. No entanto, ao contr√°rio do MAE, o MSE pode ser sens√≠vel a outliers, j√° que os erros s√£o elevados ao quadrado.

* **Raiz do Erro M√©dio Quadr√°tico (Root Mean Squared Error - RMSE)**: O RMSE √© calculado tomando a raiz quadrada do MSE, o que retorna a medida de erro na mesma escala que os valores de interesse (por exemplo, a unidade de medida dos dados).

$$ RMSE = \sqrt{MSE}$$

**Interpreta√ß√£o**: O RMSE fornece uma interpreta√ß√£o mais intuitiva dos erros de previs√£o, pois est√° na mesma unidade que os valores reais. Isso significa que um RMSE mais baixo indica uma melhor adequa√ß√£o do modelo aos dados observados. Assim como no caso do MSE, o RMSE √© sens√≠vel a outliers, pois os erros s√£o elevados ao quadrado antes de calcular a raiz quadrada. No entanto, o RMSE √© amplamente utilizado porque oferece uma medida mais compreens√≠vel do erro, especialmente quando os valores reais e previstos est√£o em escalas diferentes.

#### Teste-F

Supondo as cinco hip√≥teses do OLS, podemos fazer testes de hip√≥teses conjuntas sobre os coeficientes estimados. √â possivel testar se coeficientes espec√≠ficos s√£o iguais, ou se s√£o iguais a determinado valor (qualquer numero real). Uma an√°lise b√°sica √© verificar se todos os coeficientes s√£o simultaneamente zero.

* H0: $b_{0} = b_{1} = ... = b_{k} = 0$
* Ha: ao menos um deles √© diferente de zero.

o Teste-F assume:

$$ F = \frac{SQExp / (k-1)}{SQRes /(n-k) }$$

Curiosidade, √© poss√≠vel relacionar o teste-F com o R2:

$$ F = \frac{(n-k)}{(k-1)}\frac{SQExp}{SQRes} = \frac{(n-k)}{(k-1)}\frac{SQExp}{(SQTot - SQExp)} = \frac{(n-k)}{(k-1)}\frac{(SQExp / SQTot)}{(1- R^{2})} = \frac{R^{2}/(k-1)}{(1-R^{2})/(n-k)} $$

**Interpreta√ß√£o**: A rela√ß√£o entre o teste $F$ e o $R^{2}$ indica que, se o modelo tem um alto $R^{2}$ e um n√∫mero suficiente de vari√°veis independentes (k), ent√£o a rela√ß√£o entre a variabilidade explicada e n√£o explicada √© grande, o que resulta em um valor maior de F e, portanto, maior evid√™ncia contra a hip√≥tese nula. Isso sugere que o modelo √© uma boa representa√ß√£o dos dados e as vari√°veis independentes t√™m um efeito significativo sobre a vari√°vel dependente.

### Exemplos de Infer√™ncia e Regress√£o no Python

In [1]:
import pandas as pd
from scipy.stats import ttest_ind
from statsmodels.stats.diagnostic import het_white
import statsmodels.formula.api as smf
import scipy.stats as stats

In [2]:
# DataFrame
df = pd.read_stata("https://github.com/Daniel-Uhr/data/raw/main/cattaneo2.dta")

In [3]:
# Ajustando as vari√°veis
# Criar a vari√°vel de resultado
df['Y'] = df['bweight']
# Crie a vari√°vel 'Treated' com valor inicial de 0
df['Treated'] = 0
# Recodifique 'Treated' para 1 se 'mbsmoke' for igual a 'smoker'
df.loc[df['mbsmoke'] == 'smoker', 'Treated'] = 1


In [4]:
# Gerar um teste-t para comparar a m√©dia do peso do beb√™ entre fumantes e n√£o fumantes
grupo_fumantes = df[df['Treated'] == 1]['Y']
grupo_nao_fumantes = df[df['Treated'] == 0]['Y']
# Realizar o teste-t
teste_t = ttest_ind(grupo_fumantes, grupo_nao_fumantes)
print(teste_t)

Ttest_indResult(statistic=-12.830577987447224, pvalue=4.683726413107466e-37)


In [5]:
# Regress√£o linear
reg = smf.ols("Y ~ Treated", data=df).fit()

# Imprima os resultados da regress√£o
print(reg.summary())

                            OLS Regression Results                            
Dep. Variable:                      Y   R-squared:                       0.034
Model:                            OLS   Adj. R-squared:                  0.034
Method:                 Least Squares   F-statistic:                     164.6
Date:                Tue, 06 Aug 2024   Prob (F-statistic):           4.68e-37
Time:                        09:27:55   Log-Likelihood:                -36033.
No. Observations:                4642   AIC:                         7.207e+04
Df Residuals:                    4640   BIC:                         7.208e+04
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept   3412.9116      9.255    368.754      0.0

√â poss√≠vel verificar que o test-t e a regress√£o linear guardam uma rela√ß√£o muito pr√≥xima. Principalmente se considerarmos uma vari√°vel explicativa bin√°ria (Dummy).

Vamos adicionar mais covari√°veis na regress√£o e verificar o impacto no teste-t e no teste-F.

In [6]:
# Regress√£o linear 2
reg2 = smf.ols("Y ~ Treated + medu", data=df).fit()

# Imprima os resultados da regress√£o
print(reg2.summary())

                            OLS Regression Results                            
Dep. Variable:                      Y   R-squared:                       0.040
Model:                            OLS   Adj. R-squared:                  0.039
Method:                 Least Squares   F-statistic:                     96.02
Date:                Tue, 06 Aug 2024   Prob (F-statistic):           1.38e-41
Time:                        09:27:59   Log-Likelihood:                -36020.
No. Observations:                4642   AIC:                         7.205e+04
Df Residuals:                    4639   BIC:                         7.206e+04
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept   3188.4771     44.559     71.557      0.0

Repare que o R2 e R2 ajustado aumentam levemente com a inclus√£o de mais vari√°veis explicativas. Isso significa que o poder explicativo do modelo aumenta. A Estat√≠stica do teste-F reduziu, entretanto permanece significativa, indicando que as covari√°veis conjuntamente s√£o significativas.
* OBS: A estat√≠stica F avalia a signific√¢ncia global do modelo em compara√ß√£o com um modelo "vazio", enquanto a estat√≠stica Omnibus testa a signific√¢ncia global do modelo considerando a distribui√ß√£o dos res√≠duos.