# Avaliação dos Modelos de Regressão: Regressão Linear Multipla e Polynomial

### Importando libs e funções:

Importando libs

In [0]:
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_squared_log_error
from sklearn.preprocessing import PolynomialFeatures

from sklearn.datasets import load_diabetes

Importando a função de escalonamento:

In [0]:
# Função de escalonamento
def feature_scaling(data):
    sc = StandardScaler()
    return sc.fit_transform(data)

### Etapa de exploração e tratamento dos **dados**

Importando o dataset do nosso estudo. As 10 primeiras colunas são valores númericos relacionados a pacientes com diabetes como: sexo, idade, pressão sanguínea, etc. Já a última coluna é a medida quantitativa da progressão da doença um ano após a linha de base. Portanto, nosso objetivo é criar um modelo de regressão que preveja esse valor.

Fonte: [Scikit Data](https://scikit-learn.org/stable/datasets/index.html#diabetes-dataset)

In [0]:
df = load_diabetes()

Visualizando as features do dataset:

In [32]:
df.feature_names

['age', 'sex', 'bmi', 'bp', 's1', 's2', 's3', 's4', 's5', 's6']

In [33]:
# Visualizando as 5 primeiras instâncias dos dados:
df.data[0:5, ]

array([[ 0.03807591,  0.05068012,  0.06169621,  0.02187235, -0.0442235 ,
        -0.03482076, -0.04340085, -0.00259226,  0.01990842, -0.01764613],
       [-0.00188202, -0.04464164, -0.05147406, -0.02632783, -0.00844872,
        -0.01916334,  0.07441156, -0.03949338, -0.06832974, -0.09220405],
       [ 0.08529891,  0.05068012,  0.04445121, -0.00567061, -0.04559945,
        -0.03419447, -0.03235593, -0.00259226,  0.00286377, -0.02593034],
       [-0.08906294, -0.04464164, -0.01159501, -0.03665645,  0.01219057,
         0.02499059, -0.03603757,  0.03430886,  0.02269202, -0.00936191],
       [ 0.00538306, -0.04464164, -0.03638469,  0.02187235,  0.00393485,
         0.01559614,  0.00814208, -0.00259226, -0.03199144, -0.04664087]])

Definindo as variáveis dependentes/independentes.

In [0]:
X = df.data
y = df.target

Normalizando as features :

In [0]:
X = feature_scaling(X)

### Etapa de Treinamento e Comparação dos Modelos

Treinando o modelo de Regressão Múltipla:

In [36]:
regressor = LinearRegression()
regressor.fit(X, y)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

Transformando as features na 2ª ordem polinomial:

In [37]:
poly_reg = PolynomialFeatures(degree = 2)
X_poly = poly_reg.fit_transform(X)
poly_reg.fit(X_poly, y)

PolynomialFeatures(degree=2, include_bias=True, interaction_only=False,
                   order='C')

Retreinando o modelo de Regressão Polinomial:

In [38]:
lin_reg_poly = LinearRegression()
lin_reg_poly.fit(X_poly, y)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

Criando dataframe que irá guardar os resultados finais dos regressores:

In [0]:
df_results = pd.DataFrame(columns=['Name','r_2_score', 'rmse'])

Inserindo os dados de Regressão Múltipla e Regressão Polinomial no dataframe:

In [0]:
#Regressão Múltipla
y_pred = regressor.predict(X)

df_results.loc[len(df_results), :] = ['Reg. Múltipla', regressor.score(X, y), mean_squared_error(y, y_pred)]

#Regressão Polynomial
y_pred = lin_reg_poly.predict(X_poly)

df_results.loc[len(df_results), :] = ['Reg Polinomial', lin_reg_poly.score(X_poly, y), mean_squared_error(y, y_pred)]

Exibindo os resultados finais:

In [0]:
df_results

Unnamed: 0,Name,r_2_score,rmse
0,Reg. Múltipla,0.517749,2859.69
1,Reg Polinomial,0.592439,2416.79
