## Regressão Linear através de estatística

$$ X \implies Y $$

Y é dependente de X, por isso essas variáveis são chamadas de:
- Variável resposta ou dependente : Y
- Variável preditora ou independente: X

O objetivo da regressão linear é entender como X explica Y. Assim buscamos encontrar o estimador função de regressão $f(x)$.

$$
\begin{align*}
& f(x) = E[Y | X = x] = \theta_0 + \theta_1x
\\
& \footnotesize\text{Repare que é equivalente a equação da reta.}
\end{align*}
$$


## Regressão Linear Simples

Podemos considerar um modelo de regressão linear onde:

$$
Y_i = θ_0 + θ_1x_i + ϵ_i
$$

Onde assumimos que $ϵ_i ∼ \mathcal{N}(0,σ^2)$  (ou seja, os resíduos são derivados de distribuições normais,*toda a aleatoriedade do modelo vem de $ϵ_i$*).

Dessa forma, a média de $Y_i$ será sempre sua posição na curva. Logo, Y pode ser explicado como sendo uma distribuição normal com os seguintes parâmetros:
$$ Y_i ∼ \cal{N}(θ_0 + θ_1x_i, σ^2) $$

*Prova* - Como a esperança de uma normal é μ:
$$\begin{align*}

E[Y_i] &= μ = E[μ] \\
&= E[θ_0 + θ_1x_i + ϵ_i] \\
&= E[θ_0] + E[θ_1x_i] + E[ϵ_i] \\
∴ E[Y_i]&= θ_0 + θ_1x_i + 0 \\

\end{align*}
$$

Assim, através da função de probabilidade da dist. normal:

$$
f_{Y_i | x_i}(y_i|x_i;θ_0, θ_1) = \frac {1} {σ \sqrt{2π}} \exp({-\frac{1}{2σ^2}(y_i-(θ_0+θ_1x_i))^2})
$$

Sabendo que a função de verossimilhança calcula a probabilidade de se observar os dados $y$ dado um $θ$, vamos calcular os parâmetros usando o método da máxima verossimilhança.

$$ \begin{gather*}
L(θ_0, θ_1; y, x) = \prod_{i=1}^{n} f_{Y_i | x_i}(y_i|x_i;θ_0, θ_1) = \prod_{i=1}^{n} \frac {1} {σ \sqrt{2π}} \exp({-\frac{1}{2σ^2}(y_i-(θ_0+θ_1x_i))^2}) \\
\argmax_{θ_0, θ_1}\ln ∘ {L(θ_0, θ_1 ; y, x)} = \hat{θ}^T =[\hat{θ_0}, \hat{θ_1}] \\\\
\end{gather*} \\

\begin{align*}
\ln ∘ {L(θ_0, θ_1 ; y, x)} &= \sum_{i=1}^{n} \left( \ln(\frac {1} {σ \sqrt{2π}}) -\frac{1}{2σ^2}(y_i-(θ_0+θ_1x_i))^2 \right) \\
&= \sum_{i=1}^n \left( -\frac{n}{2}\ln(2πσ^2) - \frac{1}{2σ^2} (θ_0 + θ_1x_i - y_i)^2  \right)\\
&= -\frac{n}{2}\ln(2πσ^2) - \frac{1}{2σ^2} \sum_{i=1}^n (θ_0 + θ_1x_i - y_i)^2 \\
\end{align*}
$$

Para maximizar os parâmetros, basta então derivar o ln da função de verossimilhança em relação a $θ_0$ e $θ_1$ e igualar a zero.
Os termos constantes virarão 0 na derivada, sobrando apenas a soma dos quadrados dos resíduos. O problema de maximização então se torna um problema de minimização pois há o fator negativo.

Dessa forma, cairá na mesma formulação do método dos mínimos quadrados que foi resolvida no arquivo anterior.

### Intervalo de confiança

Já que $\hat{θ}$ é um estimador, podemos construir intervalos de confiança para os parâmetros estimados.

$$
\begin{gather}
IC(θ_0; 1 - α) = \hat{θ_j} ± t_{\frac{α}{2}, n-2} \cdot \frac {S_ϵ \sqrt{\sum_{i=1}^{n} x_i^2}} {\sqrt{n\sum_{i=1}^n(x_i-\bar{x})^2}} \\

IC(θ_1; 1 - α) = \hat{θ_j} ± t_{\frac{α}{2}, n-2} \cdot \frac {S_ϵ} {\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2}}
\end{gather}
$$

### Teste de hipótese
Podemos também fazer certos testes de hipótese em relação aos dois parâmetros:

#### Coeficiente Linear
$$
H_0 : θ_0 = 0 \\
H_1 : θ_0 ≠ 0
$$

A hipótese nula diz que a reta passa pela origem.

#### Coeficiente Angular
$$
H_0 : θ_1 = 0 \\
H_1 : θ_1 ≠ 0
$$

A hipótese nula diz a reta é horizontal, ou seja, não há relação entre X e Y.

