# **REGRESSÃO POLINOMIAL**
 
A regressão linear é utilizada para problemas cujos registros se relacionam de forma linear com a classe. Para outras distribuições temos outros métodos, e um deles é a regressão polinomial.
- Equação: $y=b_0+(b_1.x_1+b_2.x_1^2+...+b_n.x_1^n)+(b_1.x_2+b_2.x_2^2+...+b_n.x_2^n)+...+(b_1.x_n+b_2.x_n^2+...+b_n.x_n^n)$

Para executar esse método vamos utilizar a seguinte técnica:
- Eleva-se os valores dos previsores a ordem 1, 2, 3,...,n e então utiliza o mesmo algoritmo de regressão linear.

![](https://cdn-images-1.medium.com/max/1200/1*QKcwvXU0UZ9YtkmRNKBM3w.gif)

Fonte: https://towardsdatascience.com/5-types-of-regression-and-their-properties-c5e1fa12d55e

---
- Links para aprender mais:
    - [Non-Linear Regression - Cognitive Class](https://www.youtube.com/watch?v=ub3UlaYRt9I&feature=youtu.be)
    - [Regressão polinomial - Mariah Tenorio](https://www.youtube.com/watch?v=2RgPsGuDD6I)
    - [Regressão Polinomial, grau n, modelo teórico - Matemática&Geologia](https://www.youtube.com/watch?v=IXX-ysDk6Vs)
---

# **IMPLEMENTAÇÃO**
## BASE DE DADOS
A base de dados que será utilizada será a Boston housing price que já pode ser encontrada na base de dados do keras.

> Por se tratar de um problema de regressão é necessário efetuar o escalonamento dos dados, para isso será utilizada a biblioteca sklearn. É conveniente que o escalonamento seja feito antes de dividir a base de dados em treinamento e teste.

In [1]:
from keras.datasets import boston_housing
(x, y),(_,_) = boston_housing.load_data(test_split=0) # não carrego os dados de teste

Using TensorFlow backend.


Downloading data from https://s3.amazonaws.com/keras-datasets/boston_housing.npz


In [2]:
x.shape

(506, 13)

In [3]:
y.shape

(506,)

É necessário transformar o formato de y, pois para efetuar o escalonamento é necessário que ele possua o formato de (x,y).

In [4]:
y = y.reshape(y.shape[0],1)
y.shape

(506, 1)

## ESCALONANDO DADOS

In [5]:
from sklearn.preprocessing import StandardScaler
scaler_x = StandardScaler()
scaler_y = StandardScaler()
x = scaler_x.fit_transform(x)
y = scaler_y.fit_transform(y)

In [6]:
x.shape

(506, 13)

In [7]:
y.shape

(506, 1)

## DIVIDINDO A BASE DE DADOS EM TREINAMENTO E TESTE

In [8]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x,y, test_size = 0.3, random_state = 0) # 30% de test

In [9]:
x_train.shape

(354, 13)

## MODIFICANDO A BASE DE DADOS
Para for fazer uma regressão polinomial na verdade é feita uma regressão linear, porém os atributos que entram no modelo são todos elevados a uma dada ordem preestabelecida pelo programador gerando novos atributos sendo que são o resultado dessa exponenciação, e isso define a ordem do modelo.
Exemplo, suponha que tenhamos a seguinte base de dados e queremos efetuar uma regressão polinomial de segunda ordem:

|$Atributo_1$|$Atributo_2$|Classe|
|-|-|-|
|2|3|4|
|1|2|1|
|3|5|1|

O resultado que obteremos após aplicar a exponenciação será

|$Atributo_1^1$|$Atributo_1^2$|$Atributo_2^1$|$Atributo_2^2$|Classe|
|-|-|-|-|-|
|2|4|3|9|4|
|1|1|2|4|1|
|3|9|5|25|1|

In [10]:
#-------------------------------Biblioteca------------------------------------#
from sklearn.preprocessing import PolynomialFeatures

#--------------------Elevando as entradas a ordem degree----------------------#
poly = PolynomialFeatures(degree=4) # cada atributo será elevado a 1, 2, 3 e 4 criando assim 3 novos atributos, esse número é definido por escolha do programador
x_train = poly.fit_transform(x_train)
x_test = poly.transform(x_test)

## CONSTRUINDO E TREINANDO O MODELO

In [11]:
#---------------------------Criando o regressor-------------------------------#
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(x_train, y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None,
         normalize=False)

## VERIFICANDO CORRELAÇÃO DO MODELO

In [12]:
#----Ver a correlação do modelo com relação a base de dados de Treinamento----#
score = regressor.score(x_train, y_train)
print('A correlação do modelo com a base de dados de treinamento é de: {}'.format(score))

#-------Ver a correlação do modelo com relação a base de dados de teste-------#
score = regressor.score(x_test, y_test)
print('A correlação do modelo com a base de dados de teste é de: {}'.format(score))

A correlação do modelo com a base de dados de treinamento é de: 1.0
A correlação do modelo com a base de dados de teste é de: -32.19088532232489


## EFETUANDO PREVISÃO E AVALIANDO OS ERROS

In [13]:
#------------------------------Prevendo um valor------------------------------#
previsoes = regressor.predict(x_test)

#------------------Diferança entre valores reais e previstos------------------#
from sklearn.metrics import mean_absolute_error, mean_squared_error
erro_absoluto = mean_absolute_error(y_test, previsoes)
erro_quadratico = mean_squared_error(y_test, previsoes)
print('Erro absoluto: {}'.format(erro_absoluto))
print('Erro quadratico: {}'.format(erro_quadratico))

Erro absoluto: 1.1950515444394518
Erro quadratico: 28.171535395761783


> Polinômios com grau muito alto podem gerar overfitting.
- Overfittin é quando o modelo "vícia" nos dados de treinamento e não consegue generalização suficiente para trabalhar com dados além dos da base de treinamento.