# Regressões lineares

A **análise de regressão** estuda a relação entre diversas variáveis, onde uma delas é a **variável dependente** e as demais são **variáveis independentes**.

A regressão linear consiste em um modelo matemático, um algoritmo que associa a variável dependente de acordo com as variáveis independentes.

Nas situações em que a relação ẽ observada utilizando uma única variável independente, denomina-se o modelo como **regressão linear simples (RLS)**, e quando diversas variáveis independentes são consideradas, o modelo passa a chamar-se **regressão linear múltipla (RLM)**.

Em resumo, a regressão linear consistem descobrir uma equação de reta que calcule a variável dependente com base nas variáveis independentes, utilizando a menor taxa de erro possível.

<img src="https://upload.wikimedia.org/wikipedia/commons/4/41/LinearRegression.svg" width="300">  
Figura: <!---![Exemplo de regressão linear](https://upload.wikimedia.org/wikipedia/commons/4/41/LinearRegression.svg)  --->
Exemplo de regressão linear - Fonte: [Wikipedia](https://pt.wikipedia.org/wiki/Regress%C3%A3o_linear)


O método de regressões lineares é considerado um método **supervisionado**, ou seja, é necessário projetar o modelo utilizando dados já conhecidos, para então posteriormente aplicar o modelo em dados desconhecidos.

## Importando bibliotecas

```py
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
%matplotlib inline
```

## Exemplo: Criando e treinando um modelo

Carregue a base de dados *tips* (gorjetas) para utilizar como exemplo.
```py
tips = sns.load_dataset('tips')
```

Como dados de treino, para o eixo x, utilize o total da conta (*total_bill*) e para o eixo y, o valor da gorjeta (*tip*).
```py
valorConta = tips['total_bill']
valorGorjeta = tips['tip']
```

Gerando um gráfico de pontos (*scatterplot*), com os dados.
```py
plt.figure(figsize=(10,5))
plt.xticks(rotation=0)
plt.title('Relação entre total da conta e gorjeta')
sns.set_context()
ax = sns.scatterplot(x=valorConta, y=valorGorjeta)
ax.set(xlabel='Valor total da conta ($)', ylabel='Valor da gorjeta ($)')
```

## Criando e treinando o modelo

Criando o conjunto para treinar o modelo
```py
xTreino=valorConta.values.reshape(-1,1)
yTreino=valorGorjeta.values.reshape(-1,1)
```

Criando o modelo
```py
modelo = LinearRegression()
modelo.fit(xTreino, yTreino)
```

## Plotando dados e reta

Para mostrar os dados e também uma reta entre o ponto (x,y) entre o menor e maior valor predito:

```py
#Obtendo o menor e maior valor de x
xLinha = np.array([tips['total_bill'].min(), tips['total_bill'].max()]).reshape(-1,1)
print(xLinha)

#Predizendo qual serão os valores de y para o menor e maior valores de x
yLinha = modelo.predict(xLinha)

#colocando x e y em Pandas Series
sx = pd.Series([xLinha[0][0],xLinha[1][0]])
sy = pd.Series([yLinha[0][0],yLinha[1][0]])

#Mostrando um gráfico com os dados e uma linha entre os valores preditos
plt.figure(figsize=(10,5))
plt.xticks(rotation=0)
plt.title('Relação entre total da conta e gorjeta')
sns.set_context()
ax = sns.scatterplot(x=valorConta, y=valorGorjeta)
ax.set(xlabel='Valor total da conta ($)', ylabel='Valor da gorjeta ($)')
sns.lineplot(x=sx, y=sy)
```

## Testando o modelo

Pergunta: Quais serão os valores das gorjetas para as contas que tiverem total de 10, 20 e 30 dólares?  
Primeiramente, esses valores devem ser colocados em um *array* numpy

```py
xPredict = np.array([10,20,30]).reshape(3,1)
print(xPredict)
```

Em seguida, esses valores são passados como entrada para o modelo, e a saída do modelo são os resultado preditos para essa entrada

```py
yPredict = modelo.predict(xPredict)
print(yPredict)
```

Mostrando esses pontos no gráfico
```py
x=xPredict.reshape(-1)
y=yPredict.reshape(-1)

#Mostra os dados da base
plt.figure(figsize=(10,5))
plt.xticks(rotation=0)
plt.title('Relação entre total da conta e gorjeta')
sns.set_context()
ax = sns.scatterplot(x=valorConta, y=valorGorjeta)
ax.set(xlabel='Valor total da conta ($)', ylabel='Valor da gorjeta ($)')
#Mostra os dados preditos
sns.scatterplot(x, y)
```

**Atividade**  
Utilizando o modelo, calcule quais seriam as gorjetas para todos os valores de 1 a 50 dólares.

**Atividade**  
Mostre o gráfico com os valores preditos para gorjetas com contas de 1 a 50 dólares.

## Dividindo a base de dados em treino e teste

Agora utilizaremos o mesmo exemplo de uma outra forma: dividindo os dados em dois conjuntos distintos: **treino** e **teste**.

O conjunto de treino será utilizado para a criação do modelo. Após criado o modelo, utilizaremos os dados separados no conjunto de teste, e compararemos os resultados do modelo predito com os dados reais. Isto possibilitará a avaliação do modelo, ou seja, ver se o modelo é bom ou ruim para o caso que deseja-se resolver.

Carregando os dados novamente, e separando em colunas:
```py
tips = sns.load_dataset('tips')
valorConta = tips['total_bill']
valorGorjeta = tips['tip']
```

Agora, será necessário importar a biblioteca que realizará a divisão dos dados de maneira automática.

```py
from sklearn.model_selection import train_test_split
```

Separando os dados em treino e teste

```py
x=valorConta.values.reshape(-1,1)
y=valorGorjeta.values.reshape(-1,1)
xTreino, xTeste, yTreino, yTest = train_test_split(x, y, test_size = 0.2, random_state=0)
```

**Atividade**  
Observe o tamanho das bases abaixo, e as analise. Pode-se utilizar o atributo `.shape`.
- [ ] valorConta
- [ ] xTreino
- [ ] xTeste
- [ ] valorGorjeta
- [ ] yTreino
- [ ] yTeste

**Atividade**  
Nos dados de treino e teste, observe alguns valores
- [ ] Valores mínimos
- [ ] Valores máximos
- [ ] Médias

**Atividade**  
Na divisão dos dados de treino e teste, altere o valor definido no parâmetro `random_state`. Observe novamente os valores mínimos, máximos e médias, responda:
- [ ] o quê mudou?
- [ ] por quê mudou?
- [ ] se o valor para `random_state` for o mesmo, estes valores são mantidos?

Criando o modelo, com os dados de treino
```py
modelo = LinearRegression()
modelo.fit(xTreino, yTreino)
```

Com base nos dados de teste x (total da conta), serão calculados os valores preditos
```py
yPred = modelo.predict(xTeste)
```

Para realizar uma comparação do modelo, basta comparar o valor predito com o valores de teste
```py
plt.figure(figsize=(10,5))
plt.scatter(xTeste, yTeste)
plt.plot(xTeste, yPred, color='red')
```

**Atividade**  
- [ ] Comparado com os gráficos anteriores, qual é a quantidade de pontos:?
- [ ] No gráfico acima, em vermelho é plotado uma reta ou vários pontos?

## Erros

```py
from sklearn import metrics
print('Média asbsoluta dos erros:', metrics.mean_absolute_error(yTest, yPred))  
```

<!---
from sklearn import metrics
print('Média asbsoluta dos erros:', metrics.mean_absolute_error(yTest, yPred))  
print('Média dos erros quadráticos:', metrics.mean_squared_error(yTest, yPred))  
print('Raiz quadrada da média dos erros quadráticos:', np.sqrt(metrics.mean_squared_error(yTest, yPred)))
--->

**Atividade**  
- [ ] O quê este valor significa?
- [ ] Qual seria o melhor valor? maior ou menor?

## Referências

[Regressão Linear Simples](https://www.ime.usp.br/~fmachado/MAE229/AULA10.pdf)  
[Data Hackers - Implementando Regressão Linear Simples em Python](https://medium.com/data-hackers/implementando-regress%C3%A3o-linear-simples-em-python-91df53b920a8)  
[BRONSHTEIN, A. Simple and Multiple Linear Regression in Python. Towards data science, 2017](https://towardsdatascience.com/simple-and-multiple-linear-regression-in-python-c928425168f9)  
[CHAUHAN, N.S. A beginner's guide to linear regression in Python with Scikit-Learn. Towards data science, 2019](https://towardsdatascience.com/a-beginners-guide-to-linear-regression-in-python-with-scikit-learn-83a8f7ae2b4f)  