# <font>2.1. Regressão Linear Simples</font>
---

<img src="https://selecao.letscode.com.br/favicon.png" width="40px" style="position: absolute; top: 15px; right: 20px; border-radius: 5px;" />

## Roteiro da Aula

1. Correlação vs Regressão Linear
2. Regressão Linear: Conceitos Iniciais
3. Entendendo a regressão linear na prática
4. Como encontrar a reta de regressão ideal? (Minimizando o erro)
5. Exemplo prático: Peso e Altura  
    - Conhecendo as bibliotecas: `sklearn` e `statsmodels`  
    - Modelo com a presença de outliers  
6. Características do Erro
7. Métricas para Análise dos Erros

---

## 1. Correlação vs Regressão Linear

### O que é correlação?

Trata-se de uma medida da relação entre diferentes variáveis. Os coeficientes de correlação auxiliam os pesquisadores a mensurar essa relação. Os coeficientes de correlação são métodos estatísticos para se medir as relações entre variáveis e o que elas representam.

O que a correlação procura entender é como uma variável se comporta em um cenário onde outra está variando, visando identificar se existe alguma relação entre a variabilidade de ambas. Embora não implique em causalidade, o coeficiente de correlação exprime em números essa relação, ou seja, quantifica a relação entre as variáveis.

<img style="border-radius: 10px" src="https://i0.wp.com/www.abgconsultoria.com.br/blog/wp-content/uploads/img1-2.png?w=1500" style="display: block; margin: 2rem  auto;" />

Mas não existe apenas uma forma de se calcular a correlação entre variáveis. Dependendo da forma e de como se comportam as variáveis, um coeficiente de correlação é mais adequado que outro.

### Coeficiente de Correlação de Pearson
O coeficiente de correlação de Pearson (r), também chamado de correlação linear ou r de Pearson, é um grau de relação entre duas variáveis quantitativas e exprime o grau de correlação através de valores situados entre -1 e 1.

Quando  o coeficiente de correlação se aproxima de 1, nota-se um aumento no valor de uma variável quando a outra também aumenta, ou seja, há uma relação linear positiva. Quando o coeficiente se aproxima de -1, também é possível dizer que as variáveis são correlacionadas, mas nesse caso quando o valor de uma variável aumenta o da outra diminui. Isso é o que é chamado de correlação negativa ou inversa.

Um coeficiente de correlação próximo de zero indica que não há relação entre as duas variáveis, e quanto mais eles se aproximam de 1 ou  -1, mais forte é a relação.

<img style="border-radius: 10px" src="https://i0.wp.com/www.abgconsultoria.com.br/blog/wp-content/uploads/img2-2.png?w=1500" />

### Coeficiente de Correlação de Spearman
Denominado pela letra grega rho (ρ), o coeficiente de correlação de postos de Spearman é uma medida de correlação não paramétrica também avaliado no intervalo entre -1 e 1.

Ao contrário do coeficiente de Pearson, o coeficiente de Spearman não exige a suposição de que a relação entre as variáveis seja linear, nem requer que as mesmas sejam quantitativas – pode inclusive ser utilizado para verificar relação entre variáveis medidas no nível ordinal.

### Coeficiente de Correlação de Kendall
Expresso pela letra grega tau (τ), o coeficiente de correlação de Kendall é uma medida de associação para variáveis ordinais. Uma vantagem de tau sobre o coeficiente de Spearman é a possibilidade de ser generalizado para um coeficiente de correlação parcial.


<img style="display: block; margin: 2rem  auto; width: 400px; height: 600px; object-fit: cover; object-position: 0px 112%; border-radius: 10px" src="https://escoladedados.org/wp-content/uploads/2021/07/correlacao.png">


<div style="display: flex; justify-content: center;">

| Correlação | Regressão |
|:----------:|:---------:|
| Mede o grau de relação entre duas variáveis | Uma variável afeta a outra |
| Grau de interelação | Baseada na causalidade (Causa e efeito) |
| $\rho(x,y)$ = $\rho(y,x)$ | Unidirecional |
| Único ponto | Linha |

</div>

### Correlação não implica em causalidade!

Dizer que Correlação não implica em Causalidade, quer dizer que duas coisas correlacionadas não implicam, necessariamente, no fato de uma ser causa da outra. Um exemplo palpável que cabe bem à situação seria a seguinte afirmativa: em países do hemisfério norte nota-se que as pessoas tendem a gastar mais em compras no frio.

Apesar do gasto em compras estar correlacionado negativamente com a temperatura (- temperatura, + compras), não quer dizer que o frio cause um aumento nas vendas. Uma explicação mais plausível para esse constatado é que datas festivas — como o Natal, por exemplo — coincidem com épocas de frio nos países situados ao norte da Linha do Equador.


> [Link para os slides](https://docs.google.com/presentation/d/1zs6WbS1VQDykVvi3rduVnlG_NTlH9V3Q/edit?usp=sharing&ouid=100697162582615560133&rtpof=true&sd=true)

In [None]:
# Importação das bibliotecas


## 2. Regressão Linear: Conceitos iniciais

Vejamos a importância da escolha do coeficiente ideal na prática...

In [None]:
# Criando um exemplo simples

In [None]:
# Visualizando os dados

### Equação da reta de regressão

$$
y = \beta_1x + \beta_0
$$

- $\beta_1$: coeficiente que multiplica a variável independente
- $\beta_0$: intercepto

In [None]:
# Visualizando diferentes retas de regressão para diferentes

No nosso caso, $y = x$, então, $\beta_0 = 0$, $\beta_1 = 1$.

### Calculando os coeficientes $\beta_0$ e $\beta_1$ por meio das equações

$$
\beta_1 = \sum_{i=1}^N \frac{(x_i - \bar{x}) \cdot (y_i - \bar{y})}{(x_i - \bar{x})^2}
$$

$$
\beta_0 = \bar{y} - \beta_1\bar{x}
$$

## Regressão Linear Simples: Altura $\Rightarrow$ Peso

### Conversão das unidades

### Visualização gráfica

### Calculando a correlação entre as features

- Correlação muito forte: [-1, -0.8] or [0.8, 1]

$$
\beta_1 = \sum_{i=1}^N \frac{(x_i - \bar{x}) \cdot (y_i - \bar{y})}{(x_i - \bar{x})^2}
$$

$$
\beta_0 = \bar{y} - \beta_1\bar{x}
$$

### Scikit Learn

---

### Statsmodels

## Influência dos Outliers

### Obtendo apenas 100 amostras (como array)

### Modelo sem a presença dos outliers

### Modelo com a presença dos outliers

## Características dos Resíduos

#### 1. Não devem ser correlacionados

#### Sem outliers

#### Com outliers

### 2. Ter média zero

#### Sem outliers

#### Com outliers

### 4. Distribuição normal dos resíduos

#### Sem outliers

#### Com outliers

## Métricas para Análise dos Erros

$$
SQE = \sum_{i=1}^N \epsilon_i^2 = \frac{1}{N} \sum_{i=1}^N \left[y_i - \hat{y}_i\right]^2 = \frac{1}{N} \sum_{i=1}^N \left[y_i - (\beta_0 + \beta_1x_i)\right]^2
$$

$$
SQT = \sum_{i=1}^N \left(\hat{y}_i - \overline{y}\right)^2
$$

$$
SQExp = \sum_{i=1}^N \left(y_i - \overline{y}\right)^2
$$

### 1. R-Quadrado ($R^2$)

$$
R^2 = 1 - \frac{SQE}{SQT} = \frac{SQT - SQExp}{SQT} = \frac{SQExp}{SQT}
$$

### 2. MAE

### 3. MSE

### 4. RMSE

### 5. RMSLE

### No Sklearn...