# Modelos de Regressão: Regressão Múltipla

### Importando libs e funções:

Importando libs

In [0]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler

from sklearn.datasets import load_diabetes

Importando funções

In [0]:
# Função de escalonamento
def feature_scaling(data):
    sc = StandardScaler()
    return sc.fit_transform(data)

### Etapa de exploração e tratamento dos **dados**

Importando o dataset do nosso estudo. As 10 primeiras colunas são valores númericos relacionados a pacientes com diabetes como: sexo, idade, pressão sanguínea, etc. Já a última coluna é a medida quantitativa da progressão da doença um ano após a linha de base. Portanto, nosso objetivo é criar um modelo de regressão que preveja esse valor.

Fonte: [Scikit Data](https://scikit-learn.org/stable/datasets/index.html#diabetes-dataset)

In [0]:
df = load_diabetes()

Visualizando as features do dataset:

In [17]:

df.feature_names

['age', 'sex', 'bmi', 'bp', 's1', 's2', 's3', 's4', 's5', 's6']

In [18]:
# Visualizando as 5 primeiras instâncias dos dados:
df.data[0:5, ]

array([[ 0.03807591,  0.05068012,  0.06169621,  0.02187235, -0.0442235 ,
        -0.03482076, -0.04340085, -0.00259226,  0.01990842, -0.01764613],
       [-0.00188202, -0.04464164, -0.05147406, -0.02632783, -0.00844872,
        -0.01916334,  0.07441156, -0.03949338, -0.06832974, -0.09220405],
       [ 0.08529891,  0.05068012,  0.04445121, -0.00567061, -0.04559945,
        -0.03419447, -0.03235593, -0.00259226,  0.00286377, -0.02593034],
       [-0.08906294, -0.04464164, -0.01159501, -0.03665645,  0.01219057,
         0.02499059, -0.03603757,  0.03430886,  0.02269202, -0.00936191],
       [ 0.00538306, -0.04464164, -0.03638469,  0.02187235,  0.00393485,
         0.01559614,  0.00814208, -0.00259226, -0.03199144, -0.04664087]])

Definindo as variáveis dependentes/independentes.

In [0]:
X = df.data
y = df.target

Criando os subconjuntos de treinamento e testes:

In [0]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

Normalizando as features :

In [0]:
X_train = feature_scaling(X_train)
X_test = feature_scaling(X_test)

### Etapa de Treinamento e Validação do Modelo

Importando e treinando o modelo de Regressao com o Conjunto de Treinamento:

In [23]:
regressor = LinearRegression()
regressor.fit(X_train, y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

Avaliando o modelo com a métrica r²:

In [24]:
regressor.score(X_test, y_test)

0.29587007479951877

Prevendo os resultados com o conjunto de testes

In [13]:
y_pred = regressor.predict(X_test)

y_pred

array([242.40426759, 260.01726907, 155.68995201, 108.03144619,
       180.72614738, 272.61000672, 101.33429097, 189.85735255,
       138.69936591, 244.01639791, 166.27738826, 179.75653752,
        94.91972952,  75.67074338, 250.72939456,  69.51467069,
       144.61851418,  47.42802164,  76.94528815, 217.37039154,
       186.78603782, 160.30994508, 156.16290725, 149.19227256,
       208.11312274, 170.88263271, 109.35311491,  70.47910835,
       191.34045887, 159.83705803, 172.50532217,  64.62681472,
       133.39960277, 142.69431792, 142.18998202, 195.9083527 ,
       162.20065883, 184.5973999 , 117.44624155, 209.43876654,
        69.70775382, 161.46109183, 146.67674927, 184.20580082,
       171.99402664,  55.34547915, 139.15172921, 131.02347931,
       114.90499454, 235.54121966, 152.61987814,  55.36972401,
       142.56156079, 155.54481204, 241.33945366, 172.75675716,
       195.48584335, 106.1017019 , 127.38876781, 170.72539175,
       218.43822846, 165.87335649, 151.01391503, 100.55