# Regressão

## Definição

**Regressão** é uma equação que permite estimar o valor esperado de uma variável $y$ dados valores de entrada de outras variáveis.

Regressão de forma geral, tem como premissa estimar um valor que não é dado inicialmente.

Modelos de regressão são frequentemente ajustados usando a abordagem dos mínimos quadrados.

## O que devemos responder com um modelo de regressão?

- Existe uma relação matemática entre as variáveis conhecidas?
- Se positivo, como posso medir qual é essa relação?
- Posso utilizar desta relação para prever valores?

## Correlação entre variáveis

- Mostra o módulo e direção da relação entre variáveis
- É um valor que respeita o intervalo de $-1 \le x \le 1$
- A correlação entre uma variável A para uma variável B é a mesma que da variável B para a variável A

## r² - Coeficiente de Determinação

- Mostra o quanto consegue explicar o modelo de regressão
- Quanto maior o valor de $r^2$, maior é seu poder explicativo
- Este valor está em um intervalo entre $0 \le x \le 1$

Por exemplo, temos um valor de $r^2$ de $0,75$, isso quer dizer que 75% de nossa variável dependente pode ser explicada pelas variáveis utilizadas no modelo.

## Como a função de regressão é construída?

![title](https://github.com/pgiaeinstein/comp_cog/raw/master/imgs/f5.jpg)

- Há um ponto onde a linha da função faz intersecção com o eixo X, este valor chamamos de $\alpha$
- Calculamos por meios matemáticos a inclinação da reta dado por $\beta$
- Existe um erro $\varepsilon$ que deve ser considerado na equação

![title](https://github.com/pgiaeinstein/comp_cog/raw/master/imgs/f6.png)

## Regressão simples

- Apenas uma variável explanatória $x$ é utilizada para prever uma variável dependente $y$.

Tem equação respeitando o modelo:

$$
y = \alpha + \beta x + \varepsilon
$$

## Regressão múltipla

- Duas ou mais variáveis explanatórias $x_1, x_2, \ldots, x_n$ para prever uma variável dependente $y$.

Tem equação respeitando o modelo:

$$
y = \alpha + \beta_1 x_1 + \beta_2 x_2 + \ldots + \beta_n x_n + \varepsilon
$$

## Pontos de atenção

- Verificar a colinearidade entre variáveis (duas variáveis independentes que são correlacionadas)
    - Variáveis colineares independentes podem prejudicar o modelo
- Colocar apenas variáveis capazes de explicar o problema


## Requisitos básicos

- Linearidade entre a variável dependente e as variáveis independentes
- Variáveis normalmente distribuídas
- Baixa ou nenhuma colinearidade entre as variáveis do modelo

[![Alt text](https://img.youtube.com/vi/zPG4NjIkCjc/0.jpg)](https://www.youtube.com/watch?v=zPG4NjIkCjc)

[![Alt text](https://img.youtube.com/vi/JvS2triCgOY/0.jpg)](https://www.youtube.com/watch?v=JvS2triCgOY)

[![Alt text](https://img.youtube.com/vi/w2FKXOa0HGA/0.jpg)](https://www.youtube.com/watch?v=w2FKXOa0HGA)

[![Alt text](https://img.youtube.com/vi/r-txC-dpI-E/0.jpg)](https://www.youtube.com/watch?v=r-txC-dpI-E)

[![Alt text](https://img.youtube.com/vi/zvUOpbgtW3c/0.jpg)](https://www.youtube.com/watch?v=zvUOpbgtW3c)

## Exemplo de implementação de um modelo de Regressão Linear

In [1]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn import datasets
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split

In [2]:
# Utilizaremos o dataset "diabetes"
diabetes = datasets.load_diabetes()

In [3]:
# Escolhemos utilizar apenas uma variável independente
diabetes_X = diabetes.data[:, np.newaxis, 2]

In [4]:
# Vamos separar entre treino e teste
diabetes_X_train = diabetes_X[:-20]
diabetes_X_test = diabetes_X[-20:]
diabetes_y_train = diabetes.target[:-20]
diabetes_y_test = diabetes.target[-20:]

In [5]:
# Criamos um objeto contendo nosso modelo
regr = LinearRegression()

In [6]:
# Treinamos o modelo utilizando nossa base de treino
regr.fit(diabetes_X_train, diabetes_y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=1, normalize=False)

In [7]:
# Vamos prever os valores em nossa base de teste
diabetes_y_pred = regr.predict(diabetes_X_test)

In [8]:
# O ponto de intersecção da nossa função
print('Intersecção: \n', regr.intercept_)
# Os coeficientes da nossa função
print('Coeficientes: \n', regr.coef_)
# Variância explicativa r2
print('r²: %.2f' % r2_score(diabetes_y_test, diabetes_y_pred))

Intersecção: 
 152.91886182616167
Coeficientes: 
 [938.23786125]
r²: 0.47


## Exemplo utilizando Random Forest

In [9]:
model = RandomForestRegressor()
model.fit(diabetes_X_train, diabetes_y_train)
preds = model.predict(diabetes_X_test)

r2_score(diabetes_y_test, preds)

0.03245873825498802

## Exemplo utilizando XGBoost

In [10]:
from xgboost import XGBRegressor

model = XGBRegressor()
model.fit(diabetes_X_train, diabetes_y_train)

preds = model.predict(diabetes_X_test)
r2_score(diabetes_y_test, preds)

0.41963391905057845

## Exercícios

Os exercícios propostos deverão ser resolvidos utilizando a base fornecida. Vamos utilizar um modelo "pesado", porém o que existe de mais atual em termos de regressão. 

Por este motivo, é aconselhado que os exercícios sejam realizados utilizando a plataforma fornecida.

In [11]:
dados = pd.read_csv('https://github.com/pgiaeinstein/comp_cog/raw/master/custo_colaborador_filtro.csv')

In [12]:
dados.head()

Unnamed: 0,idade,sexo,imc,qtd_criancas,fumante,regiao,custos
0,19,0,27.9,0,1,3,16884.924
1,18,1,33.77,1,0,1,1725.5523
2,28,1,33.0,3,0,1,4449.462
3,33,1,22.705,0,0,2,21984.47061
4,32,1,28.88,0,0,2,3866.8552


In [13]:
x = dados.drop(['custos'], axis = 1)
y = dados.custos

x_train, x_test, y_train, y_test = train_test_split(x, y, random_state = 0)

### 1. Regressão Linear

### 2. Random Forest

### 3. XGBoost