# Regressão Linear | S05

## Introdução

Imagine que desejamos explicar a variação nas sentenças dadas por um juiz dadas em dois crimes diferentes.


**Crime 1**. Tempo de sentença fixa.

- Tempo de prisão das sentenças (meses): 12, 12, 12, 12, 12, 12, 12, 12, 12, 12


**Crime 2**. Tempo de sentença variável.
- Tempo de prisão das sentenças (meses): 12, 13, 15, 19, 26, 27, 29, 31, 40 e 48

<center>
<strong>Que perguntas poderíamos fazer para entender as variações nestas sentenças?</strong>
</center>

## Análise de Regressão

A análise de regressão nos permite quantificar a importância relativa de cada variável para explicar a variância entre as variáveis independentes e uma dependente.

> "*Em estatística ou econometria, regressão linear é uma equação para se estimar a condicional (valor esperado) de uma variável $Y$, dados os valores de algumas outras variáveis $X$*" [Wikipedia](https://pt.wikipedia.org/wiki/Regress%C3%A3o_linear).

### Modelo de regressão

Os atributos $X$ representam a nossa visão dos melhores preditores dos valores de $Y$. 

$$Y = a + bX + e$$

**Interpretação com relação ao exemplo do juiz**

- $Y$: A duração da sentença (soma das três componentes)

- $a$: *Intercepto* ou *Viés*. É o montante básico dado a todos os acusados.

- $b$: montante adicional dado para cada condenação antecedente. Coeficiente angular ou coeficiente de regressão

- $e$ termo de erro, perturbação ou valor residual. Imprevisível e único para este caso

#### Número de condenações anteriores

Suponha que as sentenças foram dadas levando-se em conta o seguinte número de condenações anteriores.

Condenações anteriores ($X$) | Sentenças (em meses) ($Y$)
:---------------------------:|---------------------------
0 | 12
3 | 13
1 | 15
0 | 19
6 | 26
5 | 27
3 | 29
4 | 31
10 | 40
8 | 48

In [65]:
cond_ant = [0, 3, 1, 0, 6, 5, 3, 4, 10, 8]
sentenças = [12, 13, 15, 19, 26, 27, 29, 31, 40, 48]

In [66]:
import pandas as pd
df = pd.DataFrame({"condenações": cond_ant, "sentenças": sentenças})
df.head()

Unnamed: 0,condenações,sentenças
0,0,12
1,3,13
2,1,15
3,0,19
4,6,26


#### Visualizando as variáveis

In [67]:
import plotly.express as px

fig = px.scatter(
    df, 
    x='condenações', 
    y='sentenças', 
    opacity=0.8, 
)
fig.update_traces(marker=dict(size=16))
fig.show()

**Exercícios de fixação**

**[01]** Explique com suas palavras o que é a análise de regressão.

**[02]** Pense numa situação do mundo real que contenha uma variável independente e uma variável dependente. Utilize o plotly dash express para visualizar as variáveis em um gráfico de dispersão.

### Modelo Preditivo

$$
\hat{Y} = a + bX
$$

### Como encontrar os coeficientes da reta de regressão?

A tabela a seguir será utilizada como referência nas explicações.

<img src="img/cálculos-regressão.png" />

Primeiro, vamos calcular o coeficiente de regressão $b$. Para isso, dividimos a soma dos produtos dos desvios $(X-\bar{X})(Y-\bar{Y})$ pelas somas dos desvios quadrados $(X-\bar{X})$.

$$
b = \frac{SP}{SQ_{x}}
$$

*Resolução:*

$$b = \frac{SP}{SQ_{x}}$$

$$b = \frac{300}{100}$$

$$b = 3$$

Vamos calcular o intercepto $a$. Para isto, precisamos encontrar a média de X ($\bar{X}$) e média de Y ($\bar{Y}$), além do coeficiente de regressão que calculamos no passo anterior.

$$a = \bar{Y} - b\bar{X}$$

*Resolução*:

$$a = \bar{Y} - b\bar{X}$$

$$a = 26 - (3)(4)$$

$$a = 14$$

### Modelo de regressão ajustado

$$
\hat{Y} = 14 + 3X
$$

In [61]:
import plotly.express as px

fig = px.scatter(
    df, 
    x='condenações', 
    y='sentenças', 
    opacity=0.8, 
    trendline='ols', 
    trendline_color_override='darkblue'
)
fig.update_traces(marker=dict(size=16))
fig.show()

## Regressão Linear com `sklearn`

**Passo 01**: Obtenha um dataset.

In [56]:
# Obtenha um dataset

x = [[0], [3], [1], [0], [6], [5], [3], [4], [10], [8] ]
y = [12, 13, 15, 19, 26, 27, 29, 31, 40, 48]

**Passo 02**: Crie um preditor (um objeto) regressão linear

In [57]:
from sklearn.linear_model import LinearRegression

# Cria um preditor regressão linear
linreg = LinearRegression()

**Passo 03:** Faça o ajuste para criar o modelo.

In [58]:
model = linreg.fit(x, y)

**Passo 04**: Pondere sobre os resultados do modelo.

*Valor do Intercepto*.

In [59]:
model.intercept_

13.999999999999995

*Valor do coeficiente de regressão*.

In [60]:
model.coef_

array([3.])

**Passo 05**: Faça as previsões.

In [44]:
n_cond_ant = 0

# Instâncias devem ser bidimensionais
nova_instância = [ [n_cond_ant] ]

# Faça as previsões 
model.predict(nova_instância)

array([14.])

## Exercícios

5) Implemente uma função em Python que calcule a soma dos produtos (SP) de duas distribuições.

In [None]:
# Escreva aqui sua resposta

6) Implemente uma função em Python que calcule a soma dos quadrados (SQ) de uma distribuição.

In [None]:
# Escreva aqui sua resposta

7) Implemente uma função em Python que calcule o coeficiente de regressão, dadas as $SP$ e $SQ_{x}$.

In [None]:
# Escreva aqui sua resposta

8) Implemente uma função em Python que calcule o intercepto, dadas as médias $\bar{X}$ e $\bar{Y}$ e o coeficiente de regressão $b$:

In [None]:
# Escreva aqui sua resposta

9) Utilizando todas as funções criadas nos exercícios anteriores, implemente uma função que, dados um conjunto de variáveis dependentes e outro, independentes, retorne o coeficiente de regressão e o intercepto.

In [None]:
# Escreva aqui sua resposta

## Boston Dataset

O boston dataset.

In [36]:
from sklearn.linear_model import LinearRegression
from sklearn.datasets import load_boston
import numpy as np

boston = load_boston()

In [37]:
atributos = boston.data[:,0:2]
alvo = boston.target

#### Exercício

10) Pesquise rapidamente sobre o Boston Dataset

In [38]:
# Cria um preditor regressão linear
linreg = LinearRegression()

# Faz o ajuste
model = linreg.fit(atributos, alvo)

In [39]:
model.intercept_

22.485628113468223

In [40]:
model.coef_

array([-0.35207832,  0.11610909])

In [27]:
alvo[0]*1000

24000.0

In [30]:
type(atributos)

numpy.ndarray