# Regressão linear simples

A **análise de regressão** estuda a relação entre diversas variáveis, onde uma delas é a **variável dependente** e as demais são **variáveis independentes**.

A regressão linear consiste em um modelo matemático, um algoritmo que associa a variável dependente de acordo com as variáveis independentes.

Nas situações em que a relação é observada utilizando uma única variável independente, denomina-se o modelo como **regressão linear simples (RLS)**, e quando diversas variáveis independentes são consideradas, o modelo passa a chamar-se **regressão linear múltipla (RLM)**.

Em resumo, a regressão linear consiste em descobrir uma equação de reta que calcule a variável dependente com base nas variáveis independentes, utilizando a menor taxa de erro possível.

<img src="https://upload.wikimedia.org/wikipedia/commons/4/41/LinearRegression.svg" width="300">  

Figura: Exemplo de regressão linear - Fonte: [Wikipedia](https://pt.wikipedia.org/wiki/Regress%C3%A3o_linear)

## Bibliotecas

```python
import numpy as np #Numpy
import pandas as pd #Pandas
import matplotlib.pyplot as plt #Matplotlib
from sklearn.linear_model import LinearRegression #Regressão linear
from sklearn import metrics #Cálculo do erro
%matplotlib inline 
```

Variáveis de ambiente utilizadas
```python
#Diretório com dados de entrada
DATAPATH = './' 

#Verifica se está no colab
COLAB = 'google.colab' in str(get_ipython())
if COLAB:
    print('Executando no Google Colaboratory.')
    
    #Diretório com dados de entrada
    DATAPATH='/drive/Shared drives/BasesPublicas/Bases/Exemplos/' 
    
    print('Solicitando acesso a arquivos...')
    from google.colab import drive
    drive.mount('/drive')
    
```

## Observando os dados
Utilizaremos como exemplo a base dados com informações sobre alunos. Nosso objetivo será descobrir, de acordo com os dados, a possível nota de um aluno que estudar $6$ horas.

**Atividade**

Carregue a base de dados alunos para utilizar como exemplo.
```python
alunos = pd.read_csv(DATAPATH+'alunos.csv')
```

**Atividade**

Observe as primeiras linhas da base de dados.

**Atividade**

Plote o gráfico de dispersão (*scatter*) das variáveis `Tempo` e `Nota`.

### Gráficos
Outra maneira de visualizar os dados utilizando um gráfico de dispersão, é acesando diretamente a biblioteca `matplotlib` (já importada como `plt`).

**Exemplo**

```python
x = alunos['Tempo']
y = alunos['Nota']
plt.scatter(x,y)
```

**Atividade**
- Faça o gráfico de dispersão utilizando `matplotlib`.

### Gráficos com dados sobrepostos
Também é possível sobrepôr dados no gráfico, utilizando diferentes chamadas.

**Exemplo**
- Dispersão com os dados
- ponto vermelho em $(8,50)$ 
- reta verde de $(2,5)$ a $(4,80)$

```python
plt.scatter(alunos['Tempo'], alunos['Nota'])
plt.scatter([8],[50], color='red')
plt.plot([2,4],[5,80], color='green')
```

**Atividade**
- Plote o gráfico de dispersão, junto com um ponto e uma reta.
- Adicione um ponto rosa para $(4,60)$
- Adicione uma reta amarela de $(1,1)$ a $(8,5)$

## Criando o modelo

Para calcularmos a regressão linear, utilizemos a biblioteca `sklearn`, utilizando `LinearRegression`, já importado.

```python
rl = LinearRegression()
```

**Atividade**

- Crie uma instância de `LinearRegression`

Os valores a serem inseridos no cálculo da regressão linear, devem estar como vetores `numpy`.

Os valores da variável independente (Tempo) devem estar organizados em uma única linha. Para tal, pode-se obter os dados e já deixá-los da maneira correta utilizando o método `reshape(-1,1)`.

Já para a variável dependente, pode-se utilizar o método `flatten()`.

**Exemplo**
```python
tempo = alunos['Tempo'].values.reshape(-1,1) #variável independente
nota  = alunos['Nota'].values.flatten()      #variável dependente
```

**Atividade**
- Obtenha as variáveis independentes e dependente no formato compatível com o modelo de regressão linear.

**Atividade**

- Observe o formato (*shape*) dos *arrays* numpy `tempo` e `nota`.
- Observe o conteúdo dos *arrays* `tempo` e `nota`.

**Observação**
- O método `.flatten()`, presentes nos *arrays* numpy é utilizado para apresentar os dados de maneira unidimensional. P.ex., se usado em uma matriz, ele permite visualizar os dados para um formato em uma única linha.

**Exemplo**
```python
matriz = np.array([[1,2,3],[4,5,6],[7,8,9]])
print('Matriz:\n', matriz)
print('Matriz flatten:\n', matriz.flatten())
print('Formato da matriz:', matriz.shape)
print('Formato da matriz flatten:', matriz.flatten().shape)
```
**Atividade**

- Observe o exemplo o método `.flatten()`.

## Treinando o modelo

Com as variáveis no formato compatível, podemos utilizá-las no modelo de regressão linear, utilizando o método `.fit()`.

**Sintaxe**  
- método `fit()`:
```python
.fit(x, y)
```
- Onde:
    - x: variável independente
    - y: variável dependente

**Exemplo**
```python
rl.fit(tempo,nota) #treina o modelo com as variáveis
```

**Atividade**
- Defina as variáveis dependente e independente no modelo de regressão linear alocado.

## Testando o modelo

Com o objeto de regressão linear configurado, podemos então responder à nossa pergunta inicial:
- Qual é a nota prevista para o aluno que estudou 6 horas?

Para tal, pode-se utilizar o método `.predict()`.

**Exemplo**  

```python
x = [6] #Valor para a variável independente
x_arr = np.array(x).reshape(-1,1) #prepara para o formato adequado
y_pred  = rl.predict(x_arr) #calcula a predição
print('Tempos: ',x_arr.flatten())
print('Notas : ', y_pred.flatten())
```
**Atividade**

- Calcule a predição da nota a partir do tempo de estudo de $6$ horas.

**Exemplo**
- No mesmo gráfico de dispersão, plote o novo ponto obtido
```python
plt.scatter(tempo,nota)
plt.scatter(x, y_pred, color='red')
```

**Atividade**
- Plote o gráfico de dispersão com os dados e com os novos valores calculados

**Atividade**
- Faça a predicão para os valores de 1 a 8
- Plote os valores calculados em um gráfico de dispersão, juntamente com os dados originais

**Atividade**
- Plote um gráfico de dispersão, sobrepondo:
    - os dados preditos para os valores de 1 a 8, e
    - uma reta que vai do menor ao maior valor predito para o tempo de estudo.

**Atividade**  
- Calcule as seguintes predições, utilizando regressão linear:
    - Nota obtida pelo aluno que teve 3 horas de tempo de estudo
    - Nota dos alunos que tiveram 15 e 19 faltas
    - Tempo de estudo dos alunos que tiveram 10 faltas

## Erros

Uma das formas de analisar *quanto* a regressão linear funcionou é comparar os resultados reais com os resultado preditos. 

### Erro médio absoluto
Há diferentes formas de analisar os erros, porém aqui observaremos apenas o **erro absoluto médio** , que consiste em 

$$
e = \frac{\sum|y - y_{pred}|}{n}
$$

Pode-se utilizar o método `.mean_absolute_error()`, de `metrics`, presente na biblioteca `sklearn`. Como parâmetro, são passados os valores reais e os valores preditos.  
**Exemplo**  
```python
ema = metrics.mean_absolute_error(y, y_pred)
print('Média absoluta dos erros:', ema )
```
<!---
from sklearn import metrics
print('Média asbsoluta dos erros:', metrics.mean_absolute_error(yTest, yPred))  
print('Média dos erros quadráticos:', metrics.mean_squared_error(yTest, yPred))  
print('Raiz quadrada da média dos erros quadráticos:', np.sqrt(metrics.mean_squared_error(yTest, yPred)))
--->

**Atividade**
- Calcule o erro médio absoluto obtidos com os valores da regressão linear, tomando Tempo como variável dependente e Nota como variável independente. Considere todos os dados das variáveis para calcular a regressão.

**Atividade**
- Calcule os erros das regressões lineares das seguintes variáveis, independentes e dependentes:
    - Tempo e Nota
    - Faltas e Tempo
    - Faltas e Nota
    - Faltas e Altura
    - Altura e Tempo

**Atividade**  
- Responda:
    - em qual escala está o erro?
    - qual seria o melhor valor do erro? maior ou menor?
    - qual é a relação dos erros com o coeficiente de correlação?

## Resumo

```python
#Carregando base
alunos = pd.read_csv(DATAPATH+'alunos.csv')

#Alocando regressão linear
rl = LinearRegression()

#Criando regressão linear
tempo = alunos['Tempo'].values.reshape(-1,1)
nota  = alunos['Nota'].values.flatten()
rl.fit(tempo, nota)

#Observando novos valores
x = [5,6,7] 
y_pred  = rl.predict(np.array(x).reshape(-1,1)) #calcula a predição
print('Tempo: ', x)
print('Notas: ', y_pred)

#Calculando o erro médio abosoluto
ema = metrics.mean_absolute_error(nota, rl.predict(np.array(tempo).reshape(-1,1)))
print('EMA:', ema)
```



## Referências

**Outros materiais**  
[Regressão Linear Simples](https://www.ime.usp.br/~fmachado/MAE229/AULA10.pdf)  
[Data Hackers - Implementando Regressão Linear Simples em Python](https://medium.com/data-hackers/implementando-regress%C3%A3o-linear-simples-em-python-91df53b920a8)  
[BRONSHTEIN, A. Simple and Multiple Linear Regression in Python. Towards data science, 2017](https://towardsdatascience.com/simple-and-multiple-linear-regression-in-python-c928425168f9)  
[CHAUHAN, N.S. A beginner's guide to linear regression in Python with Scikit-Learn. Towards data science, 2019](https://towardsdatascience.com/a-beginners-guide-to-linear-regression-in-python-with-scikit-learn-83a8f7ae2b4f)  