<a href="https://colab.research.google.com/github/stepsbtw/Statistical-Inference/blob/main/11_reglin.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# REGRESSÃO LINEAR
Técnica Estatística usada para modelar relação entre uma variável dependente (resposta) e uma ou mais variáveis independentes (preditoras) por meio de uma equação **linear**.

O objetivo é encontrar a melhor linha reta (ou hiperplano, caso seja múltipla), que representa a relação entre as variáveis, premitindo assim **prever** ou **explicar** a variável dependente com base nas independentes.

## REGRESSÃO LINEAR SIMPLES
$$Y = \beta_0 + \beta_1X + ε$$
- $β_0$ é o intercepto, que representa $Y$ quando $X$ é zero.
- $β_1$ é o **coeficiente da variável $X$**, mede a mudança média em $Y$ associada a uma unidade de mudança em $X$.
- $ϵ$ representa a variação não explicada pelo modelo.

O objetivo é encontrar os valores de $β_0$ e $β_1$ que minimizam a **soma dos quadrados dos resíduos** (observado - previsto), essa será a melhor linha.

## REGRESSÃO LINEAR MÚLTIPLA
$$Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + \ldots + \beta_kX_k + \epsilon$$

**Suposições**:

- Os resíduos do modelo (termos de erro) sejam independentes, tenham distribuição normal e variância constante.

- Não há multicolinearidade significativa (alta correlação entre as variáveis independentes)

- As relações entre as variáveis independentes e dependentes é linear.

# MÉTODO OLS (Ordinary Least Squares)
O métodos dos mínimos quadrados ordinários é uma técnica para **estimar** os coeficientes de um modelo de regressão linear.

**Objetivo: ** Encontrar a reta (hiperplano) que **melhor se ajusta aos dados**, minimizando as diferenças entre os valores observados e os previstos pelo modelo.

$$\hat{\boldsymbol{\beta}} = \arg \min_{\boldsymbol{\beta}} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$$

Onde $\hat{y}_i = \mathbf{x}_i^\top \boldsymbol{\beta}$

Amplamente usado por sua simplicidade.

## OLS - Univariado
$$y_i = \beta_0 + \beta_1 x_i + \varepsilon_i, \quad i = 1, \dots, n$$

1. Função Perda
$$J(\beta_0, \beta_1) = \sum_{i=1}^n (y_i - \beta_0 - \beta_1 x_i)^2$$
Queremos minimizar $J$ em relação a $\beta_0$ e $\beta_1$.

2. Deriva e iguala a zero.
Derivada parcial em relação a $\beta_0$:

$$\frac{\partial J}{\partial \beta_0} = -2 \sum_{i=1}^n (y_i - \beta_0 - \beta_1 x_i) = 0$$

$$\Rightarrow \sum y_i = n \beta_0 + \beta_1 \sum x_i \tag{1}$$

Derivada parcial em relação a $\beta_1$:

$$\frac{\partial J}{\partial \beta_1} = -2 \sum_{i=1}^n x_i (y_i - \beta_0 - \beta_1 x_i) = 0$$

$$\Rightarrow \sum x_i y_i = \beta_0 \sum x_i + \beta_1 \sum x_i^2 \tag{2}$$

3. Resolver o Sistema

Seja $\bar{x} = \frac{1}{n} \sum x_i$ e $\bar{y} = \frac{1}{n} \sum y_i$.

De (1):
$$\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}$$

Substituindo em (2):
$$\sum x_i y_i = (\bar{y} - \beta_1 \bar{x}) \sum x_i + \beta_1 \sum x_i^2$$

Então:
$$\hat{\beta}_1 = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2}$$

### Estimadores OLS
$$\boxed{
\hat{\beta}_1 = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum (x_i - \bar{x})^2}
}
\quad \text{e} \quad
\boxed{
\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}
}$$

- Coeficiente $\beta_1$ mede a **inclinação da reta** ajustada, ou seja a variação média de $y$ pra cada unidade de aumneto em $x$.
- O intercepto $\beta_0$ é o valor esperado de $y$ quando $x = 0$.

- Soma dos quadrados dos resíduos $\text{SSE} = \sum (y_i - \hat{y}_i)^2 $ é minimizado.