# Regressão Linear Múltipla - Machine Learning 05

### Importação

In [1]:
# Libs
import numpy as np
import pandas as pd

### Base de dados

In [2]:
# Função de carregamento de dados
def carregarDados(arquivo):
    ds = pd.read_csv(arquivo, sep=';')
    # Amostra
    X = ds.iloc[:,:-1].values
    # Variável independente 
    y = ds.iloc[:,-1].values
    return X, y

### Substituído Valores Faltante  

In [3]:
# Função de Substituição dos valores
def valorFaltante(X, inicioColuna, fimColuna):
    from sklearn.impute import SimpleImputer
    imputer = SimpleImputer(missing_values=np.nan, strategy='median')
    X[:,inicioColuna:fimColuna + 1] = imputer.fit_transform(X[:,inicioColuna:fimColuna + 1])
    return X

### Transformando os valores

In [4]:
# Função de Transformação dos Valores
def transform(X, i):
    from sklearn.preprocessing import LabelEncoder
    labelencoder_X = LabelEncoder()
    X[:, i] = labelencoder_X.fit_transform(X[:, i])

    #one hot encoding
    D = pd.get_dummies(X[:,i]).values
    if(i == 0):
        X = X[:,1:]
        X = np.insert(X, 0, D, axis=1)

        #removendo dummy variable trap
        X = X[:,1:]
    else:
        X = X[:,:i]
        for j in range(0, D.shape[1]):
            X = np.insert(X, i, D[:,j], axis=1)

        #removendo dummy variable trap
        X = X[:,:-1]
    return X

### Dividindo a base de Treino e Teste

In [5]:
# Função de Treino e Teste
def treinoTeste(X, y, testSize):
    from sklearn.model_selection import train_test_split
    XTrain, XTest, yTrain, yTest = train_test_split(X, y, test_size = testSize)
    return XTrain, XTest, yTrain, yTest

### Normalizando o Conjunto de Dados

In [6]:
# Função de Normalização de dados
def normalizarDados(train, test):
    from sklearn.preprocessing import StandardScaler
    scaleX = StandardScaler()
    train = scaleX.fit_transform(train)
    test = scaleX.fit_transform(test)
    return train, test

### Regressão Linear Múltipla

In [7]:
# Função do Algorítimo de Regressão
def regressaoLinearMultipla(X_train, X_test, y_train, y_test):
    from sklearn.linear_model import LinearRegression

    regressor = LinearRegression()
    regressor.fit(X_train, y_train)
    yPred = regressor.predict(X_test)
    
    for i in range(0, yPred.shape[0]):
        print(yPred[i], y_test[i], abs(yPred[i] - y_test[i]))


### Rodando Todas as Funções

In [8]:
# Função que roda todas as funções
def rodarRegressao(dados):
    X, y = carregarDados(dados)
    X = valorFaltante(X, 0, 2)
    X = transform(X, 3)
    XTrain, XTest, yTrain, yTest = treinoTeste(X, y, 0.8)
    X = normalizarDados(XTrain, XTest)
    regressaoLinearMultipla( XTrain, XTest, yTrain, yTest)

### Resultado Final

In [9]:
# # Rodando a função 
rodarRegressao('../data/insurance.csv')

18912.330164265033 43896.3763 24984.04613573497
15897.370007569645 8601.3293 7296.040707569646
9889.663621232932 1815.8759 8073.787721232932
10237.605253626782 35491.64 25254.034746373218
18420.90284843288 11938.25595 6482.64689843288
12359.990205501745 6849.026 5510.964205501745
11353.648854629428 37829.7242 26476.07534537057
16971.557997956734 12323.936 4647.621997956734
13900.0390070083 11150.78 2749.259007008299
10574.443240040646 5209.57885 5364.864390040646
12006.25631841521 17179.522 5173.265681584791
11237.846926623068 2566.4707 8671.376226623068
13365.629627554683 8520.026 4845.603627554683
17360.16163867976 10072.05505 7288.1065886797605
17297.7208039338 25992.82104 8695.100236066199
18449.953753062007 29330.98315 10881.029396937993
8530.823451969243 2904.088 5626.7354519692435
9146.133693831027 22493.65964 13347.525946168975
8911.622966778912 15817.9857 6906.362733221087
10216.838004869745 3070.8087 7146.029304869746
14143.284472513527 6393.60345 7749.681022513528
10041.7146