# Ensaio Regressão

### Importando as bibliotécas

In [1]:
import pandas as pd
from sklearn import model_selection as ms
from sklearn import tree as tr
from sklearn import datasets as ds
from sklearn import cluster as c
from sklearn import metrics as mt
from sklearn import linear_model as lm
from sklearn import ensemble as en
from sklearn.neighbors import KNeighborsClassifier
from matplotlib import pyplot as plt
from sklearn import preprocessing as pp
import numpy as np

### Carregando o Dataset

In [2]:
dataset_x_treino = '../Projeto_aluno/Ensaio_regressao/X_training.csv'
dataset_x_validacao = '../Projeto_aluno/Ensaio_regressao/X_validation.csv'
dataset_x_teste = '../Projeto_aluno/Ensaio_regressao/X_test.csv'
dataset_y_treino = '../Projeto_aluno/Ensaio_regressao/y_training.csv'
dataset_y_validacao = '../Projeto_aluno/Ensaio_regressao/y_validation.csv'
dataset_y_teste = '../Projeto_aluno/Ensaio_regressao/y_test.csv'

x_treino = pd.read_csv (dataset_x_treino)
x_validacao = pd.read_csv (dataset_x_validacao)
x_teste = pd.read_csv (dataset_x_teste)
y_treino = pd.read_csv (dataset_y_treino)
y_validacao = pd.read_csv (dataset_y_validacao)
y_teste = pd.read_csv (dataset_y_teste)

y_treino = y_treino.iloc[:, 0]
y_validacao = y_validacao.iloc[:, 0]
y_teste = y_teste.iloc[:, 0]

In [3]:
print('Dados de treino: {}'.format(x_treino.shape))
print('Dados de validação: {}'.format(x_validacao.shape))
print('Dados de teste: {}'.format(x_teste.shape))
print('Dados de treino: {}'.format(y_treino.shape))
print('Dados de validação: {}'.format(y_validacao.shape))
print('Dados de teste: {}'.format(y_teste.shape))

Dados de treino: (10547, 13)
Dados de validação: (4521, 13)
Dados de teste: (3767, 13)
Dados de treino: (10547,)
Dados de validação: (4521,)
Dados de teste: (3767,)


## Algoritmo Decision Tree

#### Dados de treino

In [4]:
max_depth = np.arange(2, 20, 1)

lista_parametros = list()

for i in max_depth:
    modelo_arvore = tr.DecisionTreeRegressor(max_depth = i, random_state = 0) #Instanciando um objeto com o algoritmo
    modelo_arvore.fit(x_treino, y_treino) #caracteristicas e rotulos sendo treinados

    #Avaliando a performance do modelo
    y_pred = modelo_arvore.predict(x_treino)
    mse = mt.mean_squared_error(y_treino, y_pred)
    rmse = np.sqrt(mse)    

    lista_parametros.append(rmse)
    
    print('{max_depth} -> {rmse:.4f}'.format(max_depth = i, rmse = rmse))

2 -> 21.3845
3 -> 21.1635
4 -> 20.8948
5 -> 20.5851
6 -> 20.2210
7 -> 19.6581
8 -> 18.9892
9 -> 18.1494
10 -> 17.1510
11 -> 16.0684
12 -> 14.8725
13 -> 13.6846
14 -> 12.4057
15 -> 11.1846
16 -> 10.0302
17 -> 8.8481
18 -> 7.8000
19 -> 6.7712


In [5]:
max_depth = np.argmin(lista_parametros) + 2

modelo_arvore = tr.DecisionTreeRegressor(max_depth = max_depth, random_state = 0) #Instanciando um objeto com o algoritmo
modelo_arvore.fit(x_treino, y_treino) #Treinando o algoritmo com as variáveis preditoras e as classes

y_pred = modelo_arvore.predict(x_treino)

r_2 = mt.r2_score(y_treino, y_pred)
mse = mt.mean_squared_error(y_treino, y_pred)
rmse = np.sqrt(mse)
mae = mt.mean_absolute_error(y_treino, y_pred)
mape = mt.mean_absolute_percentage_error(y_treino, y_pred)
        
resultado_arvore_treino = pd.DataFrame(np.array([r_2, mse, rmse, mae, mape])).T
resultado_arvore_treino = resultado_arvore_treino.rename(columns = {0: 'r_2', 
                                                                    1: 'mse',
                                                                    2: 'rmse',
                                                                    3: 'mae',
                                                                    4: 'mape'})
resultado_arvore_treino.insert(0, 'dados', 'treino')
resultado_arvore_treino.insert(0, 'algoritmo', 'decision tree')
resultado_arvore_treino

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,decision tree,treino,0.904085,45.84859,6.771159,2.775438,0.530053


#### Dados de validacao

In [6]:
max_depth = np.arange(2, 20, 1)

lista_parametros = list()

for i in max_depth:
    modelo_arvore = tr.DecisionTreeRegressor(max_depth = i, random_state = 0) #Instanciando um objeto com o algoritmo
    modelo_arvore.fit(x_treino, y_treino) #caracteristicas e rotulos sendo treinados

    #Avaliando a performance do modelo
    y_pred = modelo_arvore.predict(x_validacao)
    mse = mt.mean_squared_error(y_validacao, y_pred)
    rmse = np.sqrt(mse)    

    lista_parametros.append(rmse)
    
    print('{max_depth} -> {rmse:.4f}'.format(max_depth = i, rmse = rmse))

2 -> 21.4372
3 -> 21.2447
4 -> 21.1619
5 -> 21.1462
6 -> 21.1492
7 -> 21.2318
8 -> 21.4674
9 -> 21.5938
10 -> 21.9119
11 -> 22.1970
12 -> 22.5334
13 -> 22.6850
14 -> 23.1716
15 -> 23.2486
16 -> 23.6105
17 -> 24.1102
18 -> 24.0551
19 -> 24.4018


In [7]:
max_depth = np.argmin(lista_parametros) + 2

modelo_arvore = tr.DecisionTreeRegressor(max_depth = max_depth, random_state = 0) #Instanciando um objeto com o algoritmo
modelo_arvore.fit(x_treino, y_treino) #Treinando o algoritmo com as variáveis preditoras e as classes

y_pred = modelo_arvore.predict(x_validacao)

r_2 = mt.r2_score(y_validacao, y_pred)
mse = mt.mean_squared_error(y_validacao, y_pred)
rmse = np.sqrt(mse)
mae = mt.mean_absolute_error(y_validacao, y_pred)
mape = mt.mean_absolute_percentage_error(y_validacao, y_pred)
        
resultado_arvore_validacao = pd.DataFrame(np.array([r_2, mse, rmse, mae, mape])).T
resultado_arvore_validacao = resultado_arvore_validacao.rename(columns = {0: 'r_2', 
                                                                          1: 'mse',
                                                                          2: 'rmse',
                                                                          3: 'mae',
                                                                          4: 'mape'})
resultado_arvore_validacao.insert(0, 'dados', 'validacao')
resultado_arvore_validacao.insert(0, 'algoritmo', 'decision tree')
resultado_arvore_validacao

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,decision tree,validacao,0.063559,447.161319,21.146189,16.843452,8.395778


#### Dados de teste

In [8]:
max_depth = np.argmin(lista_parametros) + 2

modelo_arvore = tr.DecisionTreeRegressor(max_depth = max_depth, random_state = 0) #Instanciando um objeto com o algoritmo
modelo_arvore.fit(pd.concat([x_treino, x_validacao]),
                  pd.concat([y_treino, y_validacao])) #caracteristicas e rotulos sendo treinados

y_pred = modelo_arvore.predict(x_teste)

r_2 = mt.r2_score(y_teste, y_pred)
mse = mt.mean_squared_error(y_teste, y_pred)
rmse = np.sqrt(mse)
mae = mt.mean_absolute_error(y_teste, y_pred)
mape = mt.mean_absolute_percentage_error(y_teste, y_pred)
        
resultado_arvore_teste = pd.DataFrame(np.array([r_2, mse, rmse, mae, mape])).T
resultado_arvore_teste = resultado_arvore_teste.rename(columns = {0: 'r_2', 
                                                                  1: 'mse',
                                                                  2: 'rmse',
                                                                  3: 'mae',
                                                                  4: 'mape'})
resultado_arvore_teste.insert(0, 'dados', 'teste')
resultado_arvore_teste.insert(0, 'algoritmo', 'decision tree')
resultado_arvore_teste

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,decision tree,teste,0.090475,442.848381,21.043963,16.829781,7.883226


In [9]:
resultado_arvore = pd.concat([resultado_arvore_treino, resultado_arvore_validacao, resultado_arvore_teste]).reset_index(drop = True)
resultado_arvore

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,decision tree,treino,0.904085,45.84859,6.771159,2.775438,0.530053
1,decision tree,validacao,0.063559,447.161319,21.146189,16.843452,8.395778
2,decision tree,teste,0.090475,442.848381,21.043963,16.829781,7.883226


## Algoritmo Random Forest

#### Dados de treino

In [10]:
#Definição de parâmetros do treinamento
max_depth = np.arange(1, 5, 1)
n_estimators = np.arange(1, 5, 1)

for i in max_depth:
    for e in n_estimators:
        modelo_random = en.RandomForestRegressor(max_depth = i, n_estimators = e, random_state = 0) #Instanciando um objeto com o algoritmo
        modelo_random.fit(x_treino, y_treino) #Treinando o algoritmo com as variáveis preditoras e as classes
        
        #Avaliando a performance do modelo
        y_pred = modelo_random.predict(x_treino)
        mse = mt.mean_squared_error(y_treino, y_pred)
        rmse = np.sqrt(mse)    

        print('{max_depth} / {n_estimators} -> {rmse:.4f}'.format(max_depth = i, n_estimators = e, rmse = rmse))

1 / 1 -> 21.5876
1 / 2 -> 21.5326
1 / 3 -> 21.5388
1 / 4 -> 21.5356
2 / 1 -> 21.3987
2 / 2 -> 21.3524
2 / 3 -> 21.3564
2 / 4 -> 21.3489
3 / 1 -> 21.2303
3 / 2 -> 21.0766
3 / 3 -> 21.0522
3 / 4 -> 21.0381
4 / 1 -> 21.0615
4 / 2 -> 20.7981
4 / 3 -> 20.7489
4 / 4 -> 20.7172


In [11]:
max_depth = 4
n_estimators = 4

modelo_random = en.RandomForestRegressor(max_depth = max_depth, n_estimators = n_estimators, random_state = 0) #Instanciando um objeto com o algoritmo
modelo_random.fit(x_treino, y_treino) #Treinando o algoritmo com as variáveis preditoras e as classes

y_pred = modelo_random.predict(x_treino)

r_2 = mt.r2_score(y_treino, y_pred)
mse = mt.mean_squared_error(y_treino, y_pred)
rmse = np.sqrt(mse)
mae = mt.mean_absolute_error(y_treino, y_pred)
mape = mt.mean_absolute_percentage_error(y_treino, y_pred)
        
resultado_random_treino = pd.DataFrame(np.array([r_2, mse, rmse, mae, mape])).T
resultado_random_treino = resultado_random_treino.rename(columns = {0: 'r_2', 
                                                                    1: 'mse',
                                                                    2: 'rmse',
                                                                    3: 'mae',
                                                                    4: 'mape'})
resultado_random_treino.insert(0, 'dados', 'treino')
resultado_random_treino.insert(0, 'algoritmo', 'random forest')
resultado_random_treino

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,random forest,treino,0.102111,429.202263,20.717197,16.446413,8.259016


#### Dados de validação

In [12]:
#Definição de parâmetros do treinamento
max_depth = np.arange(1, 5, 1)
n_estimators = np.arange(1, 5, 1)

for i in max_depth:
    for e in n_estimators:
        modelo_random = en.RandomForestRegressor(max_depth = i, n_estimators = e, random_state = 0) #Instanciando um objeto com o algoritmo
        modelo_random.fit(x_treino, y_treino) #Treinando o algoritmo com as variáveis preditoras e as classes
        
        #Avaliando a performance do modelo
        y_pred = modelo_random.predict(x_validacao)
        mse = mt.mean_squared_error(y_validacao, y_pred)
        rmse = np.sqrt(mse)    

        print('{max_depth} / {n_estimators} -> {rmse:.4f}'.format(max_depth = i, n_estimators = e, rmse = rmse))

1 / 1 -> 21.5928
1 / 2 -> 21.5329
1 / 3 -> 21.5492
1 / 4 -> 21.5417
2 / 1 -> 21.4369
2 / 2 -> 21.4038
2 / 3 -> 21.4099
2 / 4 -> 21.3950
3 / 1 -> 21.2971
3 / 2 -> 21.1961
3 / 3 -> 21.1758
3 / 4 -> 21.1546
4 / 1 -> 21.2667
4 / 2 -> 21.0968
4 / 3 -> 21.0124
4 / 4 -> 20.9718


In [13]:
max_depth = 4
n_estimators = 4

modelo_random = en.RandomForestRegressor(max_depth = max_depth, n_estimators = n_estimators, random_state = 0) #Instanciando um objeto com o algoritmo
modelo_random.fit(x_treino, y_treino) #Treinando o algoritmo com as variáveis preditoras e as classes

y_pred = modelo_random.predict(x_validacao)

r_2 = mt.r2_score(y_validacao, y_pred)
mse = mt.mean_squared_error(y_validacao, y_pred)
rmse = np.sqrt(mse)
mae = mt.mean_absolute_error(y_validacao, y_pred)
mape = mt.mean_absolute_percentage_error(y_validacao, y_pred)
        
resultado_random_validacao = pd.DataFrame(np.array([r_2, mse, rmse, mae, mape])).T
resultado_random_validacao = resultado_random_validacao.rename(columns = {0: 'r_2', 
                                                                          1: 'mse',
                                                                          2: 'rmse',
                                                                          3: 'mae',
                                                                          4: 'mape'})
resultado_random_validacao.insert(0, 'dados', 'validacao')
resultado_random_validacao.insert(0, 'algoritmo', 'random forest')
resultado_random_validacao

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,random forest,validacao,0.078941,439.816143,20.971794,16.708369,8.421289


#### Dados de teste

In [14]:
max_depth = 4
n_estimators = 4

modelo_random = en.RandomForestRegressor(max_depth = max_depth, n_estimators = n_estimators, random_state = 0) #Instanciando um objeto com o algoritmo
modelo_random.fit(pd.concat([x_treino, x_validacao]),
                  pd.concat([y_treino, y_validacao])) #caracteristicas e rotulos sendo treinados

y_pred = modelo_random.predict(x_teste)

r_2 = mt.r2_score(y_teste, y_pred)
mse = mt.mean_squared_error(y_teste, y_pred)
rmse = np.sqrt(mse)
mae = mt.mean_absolute_error(y_teste, y_pred)
mape = mt.mean_absolute_percentage_error(y_teste, y_pred)
        
resultado_random_teste = pd.DataFrame(np.array([r_2, mse, rmse, mae, mape])).T
resultado_random_teste = resultado_random_teste.rename(columns = {0: 'r_2', 
                                                                  1: 'mse',
                                                                  2: 'rmse',
                                                                  3: 'mae',
                                                                  4: 'mape'})
resultado_random_teste.insert(0, 'dados', 'teste')
resultado_random_teste.insert(0, 'algoritmo', 'random forest')
resultado_random_teste

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,random forest,teste,0.084106,445.949495,21.117516,16.85793,8.177958


In [15]:
resultado_random = pd.concat([resultado_random_treino, resultado_random_validacao, resultado_random_teste])
resultado_random

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,random forest,treino,0.102111,429.202263,20.717197,16.446413,8.259016
0,random forest,validacao,0.078941,439.816143,20.971794,16.708369,8.421289
0,random forest,teste,0.084106,445.949495,21.117516,16.85793,8.177958


## Algoritmo Linear Regression

#### Dados de treino

In [16]:
#Definição de parâmetros do treinamento
modelo_linear = lm.LinearRegression()
modelo_linear.fit(x_treino, y_treino)
        
#Avaliando a performance do modelo
y_pred = modelo_linear.predict(x_treino)

r_2 = mt.r2_score(y_treino, y_pred)
mse = mt.mean_squared_error(y_treino, y_pred)
rmse = np.sqrt(mse)
mae = mt.mean_absolute_error(y_treino, y_pred)
mape = mt.mean_absolute_percentage_error(y_treino, y_pred)
        
resultado_linear_treino = pd.DataFrame(np.array([r_2, mse, rmse, mae, mape])).T
resultado_linear_treino = resultado_linear_treino.rename(columns = {0: 'r_2', 
                                                                    1: 'mse',
                                                                    2: 'rmse',
                                                                    3: 'mae',
                                                                    4: 'mape'})
resultado_linear_treino.insert(0, 'dados', 'treino')
resultado_linear_treino.insert(0, 'algoritmo', 'linear regression')
resultado_linear_treino

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,linear regression,treino,0.046058,455.996112,21.354065,16.998249,8.653186


#### Dados de validação

In [17]:
#Definição de parâmetros do treinamento
modelo_linear = lm.LinearRegression()
modelo_linear.fit(x_treino, y_treino)
        
#Avaliando a performance do modelo
y_pred = modelo_linear.predict(x_validacao)

r_2 = mt.r2_score(y_validacao, y_pred)
mse = mt.mean_squared_error(y_validacao, y_pred)
rmse = np.sqrt(mse)
mae = mt.mean_absolute_error(y_validacao, y_pred)
mape = mt.mean_absolute_percentage_error(y_validacao, y_pred)
        
resultado_linear_validacao = pd.DataFrame(np.array([r_2, mse, rmse, mae, mape])).T
resultado_linear_validacao = resultado_linear_validacao.rename(columns = {0: 'r_2', 
                                                                          1: 'mse',
                                                                          2: 'rmse',
                                                                          3: 'mae',
                                                                          4: 'mape'})
resultado_linear_validacao.insert(0, 'dados', 'validacao')
resultado_linear_validacao.insert(0, 'algoritmo', 'linear regression')
resultado_linear_validacao

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,linear regression,validacao,0.039925,458.447042,21.411376,17.039754,8.682542


#### Dados de teste

In [18]:
#Definição de parâmetros do treinamento
modelo_linear = lm.LinearRegression()
modelo_linear.fit(pd.concat([x_treino, x_validacao]),
                  pd.concat([y_treino, y_validacao]))
        
#Avaliando a performance do modelo
y_pred = modelo_linear.predict(x_teste)

r_2 = mt.r2_score(y_teste, y_pred)
mse = mt.mean_squared_error(y_teste, y_pred)
rmse = np.sqrt(mse)
mae = mt.mean_absolute_error(y_teste, y_pred)
mape = mt.mean_absolute_percentage_error(y_teste, y_pred)
        
resultado_linear_teste = pd.DataFrame(np.array([r_2, mse, rmse, mae, mape])).T
resultado_linear_teste = resultado_linear_teste.rename(columns = {0: 'r_2', 
                                                                  1: 'mse',
                                                                  2: 'rmse',
                                                                  3: 'mae',
                                                                  4: 'mape'})
resultado_linear_teste.insert(0, 'dados', 'teste')
resultado_linear_teste.insert(0, 'algoritmo', 'linear regression')
resultado_linear_teste

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,linear regression,teste,0.051166,461.988435,21.493916,17.144197,8.531355


In [19]:
resultado_linear = pd.concat([resultado_linear_treino, resultado_linear_validacao, resultado_linear_teste])
resultado_linear

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,linear regression,treino,0.046058,455.996112,21.354065,16.998249,8.653186
0,linear regression,validacao,0.039925,458.447042,21.411376,17.039754,8.682542
0,linear regression,teste,0.051166,461.988435,21.493916,17.144197,8.531355


## Algoritmo Linear Regression (Lasso)

#### Dados de treino

In [20]:
#Definição de parâmetros do treinamento
max_iter = np.arange(1, 2000, 1000)
alpha = np.arange(1, 3, 1)

for i in max_iter:
    for e in alpha:        
        modelo_linear_lasso = lm.Lasso(max_iter = i, alpha = e)
        modelo_linear_lasso.fit(x_treino, y_treino)
        
        #Avaliando a performance do modelo
        y_pred = modelo_linear_lasso.predict(x_treino)
        mse = mt.mean_squared_error(y_treino, y_pred)
        rmse = np.sqrt(mse)    

        print('{max_iter} / {alpha} -> {rmse:.4f}'.format(max_iter = i, alpha = e, rmse = rmse))

1 / 1 -> 21.7824
1 / 2 -> 21.8512
1001 / 1 -> 21.7824
1001 / 2 -> 21.8512


In [21]:
max_iter = 1
alpha = 1

modelo_linear_lasso = lm.Lasso(max_iter = max_iter, alpha = alpha)
modelo_linear_lasso.fit(x_treino, y_treino)

y_pred = modelo_linear_lasso.predict(x_treino)

r_2 = mt.r2_score(y_treino, y_pred)
mse = mt.mean_squared_error(y_treino, y_pred)
rmse = np.sqrt(mse)
mae = mt.mean_absolute_error(y_treino, y_pred)
mape = mt.mean_absolute_percentage_error(y_treino, y_pred)
        
resultado_linear_lasso_treino = pd.DataFrame(np.array([r_2, mse, rmse, mae, mape])).T
resultado_linear_lasso_treino = resultado_linear_lasso_treino.rename(columns = {0: 'r_2', 
                                                                                1: 'mse',
                                                                                2: 'rmse',
                                                                                3: 'mae',
                                                                                4: 'mape'})
resultado_linear_lasso_treino.insert(0, 'dados', 'treino')
resultado_linear_lasso_treino.insert(0, 'algoritmo', 'linear regression lasso')
resultado_linear_lasso_treino

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,linear regression lasso,treino,0.007401,474.474834,21.782443,17.305484,8.736697


#### Dados de validação

In [22]:
#Definição de parâmetros do treinamento
max_iter = np.arange(1, 2000, 1000)
alpha = np.arange(1, 3, 1)

for i in max_iter:
    for e in alpha:        
        modelo_linear_lasso = lm.Lasso(max_iter = i, alpha = e)
        modelo_linear_lasso.fit(x_treino, y_treino)
        
        #Avaliando a performance do modelo
        y_pred = modelo_linear_lasso.predict(x_validacao)
        mse = mt.mean_squared_error(y_validacao, y_pred)
        rmse = np.sqrt(mse)    

        print('{max_iter} / {alpha} -> {rmse:.4f}'.format(max_iter = i, alpha = e, rmse = rmse))

1 / 1 -> 21.7657
1 / 2 -> 21.8392
1001 / 1 -> 21.7657
1001 / 2 -> 21.8392


In [23]:
max_iter = 1
alpha = 1

modelo_linear_lasso = lm.Lasso(max_iter = max_iter, alpha = alpha)
modelo_linear_lasso.fit(x_treino, y_treino)

y_pred = modelo_linear_lasso.predict(x_validacao)

r_2 = mt.r2_score(y_validacao, y_pred)
mse = mt.mean_squared_error(y_validacao, y_pred)
rmse = np.sqrt(mse)
mae = mt.mean_absolute_error(y_validacao, y_pred)
mape = mt.mean_absolute_percentage_error(y_validacao, y_pred)
        
resultado_linear_lasso_validacao = pd.DataFrame(np.array([r_2, mse, rmse, mae, mape])).T
resultado_linear_lasso_validacao = resultado_linear_lasso_validacao.rename(columns = {0: 'r_2', 
                                                                                      1: 'mse',
                                                                                      2: 'rmse',
                                                                                      3: 'mae',
                                                                                      4: 'mape'})
resultado_linear_lasso_validacao.insert(0, 'dados', 'validacao')
resultado_linear_lasso_validacao.insert(0, 'algoritmo', 'linear regression lasso')
resultado_linear_lasso_validacao

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,linear regression lasso,validacao,0.007884,473.747081,21.765732,17.264922,8.695808


#### Dados de teste

In [24]:
max_iter = 1
alpha = 1

modelo_linear_lasso = lm.Lasso(max_iter = max_iter, alpha = alpha)
modelo_linear_lasso.fit(pd.concat([x_treino, x_validacao]),
                        pd.concat([y_treino, y_validacao]))

y_pred = modelo_linear_lasso.predict(x_teste)

r_2 = mt.r2_score(y_teste, y_pred)
mse = mt.mean_squared_error(y_teste, y_pred)
rmse = np.sqrt(mse)
mae = mt.mean_absolute_error(y_teste, y_pred)
mape = mt.mean_absolute_percentage_error(y_teste, y_pred)
        
resultado_linear_lasso_teste = pd.DataFrame(np.array([r_2, mse, rmse, mae, mape])).T
resultado_linear_lasso_teste = resultado_linear_lasso_teste.rename(columns = {0: 'r_2', 
                                                                              1: 'mse',
                                                                              2: 'rmse',
                                                                              3: 'mae',
                                                                              4: 'mape'})
resultado_linear_lasso_teste.insert(0, 'dados', 'teste')
resultado_linear_lasso_teste.insert(0, 'algoritmo', 'linear regression lasso')
resultado_linear_lasso_teste

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,linear regression lasso,teste,0.007814,483.096411,21.979454,17.47241,8.752995


In [25]:
resultado_linear_lasso = pd.concat([resultado_linear_lasso_treino, resultado_linear_lasso_validacao, resultado_linear_lasso_teste])
resultado_linear_lasso

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,linear regression lasso,treino,0.007401,474.474834,21.782443,17.305484,8.736697
0,linear regression lasso,validacao,0.007884,473.747081,21.765732,17.264922,8.695808
0,linear regression lasso,teste,0.007814,483.096411,21.979454,17.47241,8.752995


## Algoritmo Linear Regression (Ridge)

#### Dados de treino

In [26]:
#Definição de parâmetros do treinamento
max_iter = np.arange(1, 2000, 1000)
alpha = np.arange(1, 3, 1)

for i in max_iter:
    for e in alpha:        
        modelo_linear_ridge = lm.Ridge(max_iter = i, alpha = e)
        modelo_linear_ridge.fit(x_treino, y_treino)
        
        #Avaliando a performance do modelo
        y_pred = modelo_linear_ridge.predict(x_treino)
        mse = mt.mean_squared_error(y_treino, y_pred)
        rmse = np.sqrt(mse)    

        print('{max_iter} / {alpha} -> {rmse:.4f}'.format(max_iter = i, alpha = e, rmse = rmse))

1 / 1 -> 21.3541
1 / 2 -> 21.3541
1001 / 1 -> 21.3541
1001 / 2 -> 21.3541


In [27]:
max_iter = 1
alpha = 1

modelo_linear_ridge = lm.Ridge(max_iter = max_iter, alpha = alpha)
modelo_linear_ridge.fit(x_treino, y_treino)

y_pred = modelo_linear_ridge.predict(x_treino)

r_2 = mt.r2_score(y_treino, y_pred)
mse = mt.mean_squared_error(y_treino, y_pred)
rmse = np.sqrt(mse)
mae = mt.mean_absolute_error(y_treino, y_pred)
mape = mt.mean_absolute_percentage_error(y_treino, y_pred)
        
resultado_linear_ridge_treino = pd.DataFrame(np.array([r_2, mse, rmse, mae, mape])).T
resultado_linear_ridge_treino = resultado_linear_ridge_treino.rename(columns = {0: 'r_2', 
                                                                                1: 'mse',
                                                                                2: 'rmse',
                                                                                3: 'mae',
                                                                                4: 'mape'})
resultado_linear_ridge_treino.insert(0, 'dados', 'treino')
resultado_linear_ridge_treino.insert(0, 'algoritmo', 'linear regression ridge')
resultado_linear_ridge_treino

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,linear regression ridge,treino,0.046058,455.996401,21.354072,16.998308,8.653415


#### Dados de validação

In [28]:
#Definição de parâmetros do treinamento
max_iter = np.arange(1, 2000, 1000)
alpha = np.arange(1, 3, 1)

for i in max_iter:
    for e in alpha:        
        modelo_linear_ridge = lm.Ridge(max_iter = i, alpha = e)
        modelo_linear_ridge.fit(x_treino, y_treino)
        
        #Avaliando a performance do modelo
        y_pred = modelo_linear_ridge.predict(x_validacao)
        mse = mt.mean_squared_error(y_validacao, y_pred)
        rmse = np.sqrt(mse)    

        print('{max_iter} / {alpha} -> {rmse:.4f}'.format(max_iter = i, alpha = e, rmse = rmse))

1 / 1 -> 21.4113
1 / 2 -> 21.4113
1001 / 1 -> 21.4113
1001 / 2 -> 21.4113


In [29]:
max_iter = 1
alpha = 1

modelo_linear_ridge = lm.Ridge(max_iter = max_iter, alpha = alpha)
modelo_linear_ridge.fit(x_treino, y_treino)

y_pred = modelo_linear_ridge.predict(x_validacao)

r_2 = mt.r2_score(y_validacao, y_pred)
mse = mt.mean_squared_error(y_validacao, y_pred)
rmse = np.sqrt(mse)
mae = mt.mean_absolute_error(y_validacao, y_pred)
mape = mt.mean_absolute_percentage_error(y_validacao, y_pred)
        
resultado_linear_ridge_validacao = pd.DataFrame(np.array([r_2, mse, rmse, mae, mape])).T
resultado_linear_ridge_validacao = resultado_linear_ridge_validacao.rename(columns = {0: 'r_2', 
                                                                                      1: 'mse',
                                                                                      2: 'rmse',
                                                                                      3: 'mae',
                                                                                      4: 'mape'})
resultado_linear_ridge_validacao.insert(0, 'dados', 'validacao')
resultado_linear_ridge_validacao.insert(0, 'algoritmo', 'linear regression ridge')
resultado_linear_ridge_validacao

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,linear regression ridge,validacao,0.039928,458.445477,21.41134,17.039472,8.682412


#### Dados de teste

In [30]:
max_iter = 1
alpha = 1

modelo_linear_ridge = lm.Ridge(max_iter = max_iter, alpha = alpha)
modelo_linear_ridge.fit(pd.concat([x_treino, x_validacao]),
                        pd.concat([y_treino, y_validacao]))

y_pred = modelo_linear_ridge.predict(x_teste)

r_2 = mt.r2_score(y_teste, y_pred)
mse = mt.mean_squared_error(y_teste, y_pred)
rmse = np.sqrt(mse)
mae = mt.mean_absolute_error(y_teste, y_pred)
mape = mt.mean_absolute_percentage_error(y_teste, y_pred)
        
resultado_linear_ridge_teste = pd.DataFrame(np.array([r_2, mse, rmse, mae, mape])).T
resultado_linear_ridge_teste = resultado_linear_ridge_teste.rename(columns = {0: 'r_2', 
                                                                              1: 'mse',
                                                                              2: 'rmse',
                                                                              3: 'mae',
                                                                              4: 'mape'})
resultado_linear_ridge_teste.insert(0, 'dados', 'teste')
resultado_linear_ridge_teste.insert(0, 'algoritmo', 'linear regression ridge')
resultado_linear_ridge_teste

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,linear regression ridge,teste,0.051167,461.987772,21.493901,17.143954,8.532046


In [31]:
resultado_linear_ridge = pd.concat([resultado_linear_ridge_treino, resultado_linear_ridge_validacao, resultado_linear_ridge_teste])
resultado_linear_ridge

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,linear regression ridge,treino,0.046058,455.996401,21.354072,16.998308,8.653415
0,linear regression ridge,validacao,0.039928,458.445477,21.41134,17.039472,8.682412
0,linear regression ridge,teste,0.051167,461.987772,21.493901,17.143954,8.532046


## Algoritmo Linear Regression (Elastic Net)

#### Dados de treino

In [32]:
#Definição de parâmetros do treinamento
max_iter = np.arange(1, 2000, 1000)
alpha = np.arange(1, 5, 1)

for i in max_iter:
    for e in alpha:
        modelo_linear_elastic = lm.ElasticNet(max_iter = i, alpha = e)
        modelo_linear_elastic.fit(x_treino, y_treino)

        #Avaliando a performance do modelo
        y_pred = modelo_linear_elastic.predict(x_treino)
        mse = mt.mean_squared_error(y_treino, y_pred)
        rmse = np.sqrt(mse)    

        print('{max_iter} / {alpha} -> {rmse:.4f}'.format(max_iter = i, alpha = e, rmse = rmse))

1 / 1 -> 21.7748
1 / 2 -> 21.8157
1 / 3 -> 21.8404
1 / 4 -> 21.8593
1001 / 1 -> 21.7777
1001 / 2 -> 21.8157
1001 / 3 -> 21.8404
1001 / 4 -> 21.8593


  model = cd_fast.enet_coordinate_descent(


In [33]:
max_iter = 1
alpha = 1

modelo_linear_elastic = lm.ElasticNet(max_iter = max_iter, alpha = alpha)
modelo_linear_elastic.fit(x_treino, y_treino)

y_pred = modelo_linear_elastic.predict(x_treino)

r_2 = mt.r2_score(y_treino, y_pred)
mse = mt.mean_squared_error(y_treino, y_pred)
rmse = np.sqrt(mse)
mae = mt.mean_absolute_error(y_treino, y_pred)
mape = mt.mean_absolute_percentage_error(y_treino, y_pred)
        
resultado_linear_elastic_treino = pd.DataFrame(np.array([r_2, mse, rmse, mae, mape])).T
resultado_linear_elastic_treino = resultado_linear_elastic_treino.rename(columns = {0: 'r_2', 
                                                                                    1: 'mse',
                                                                                    2: 'rmse',
                                                                                    3: 'mae',
                                                                                    4: 'mape'})
resultado_linear_elastic_treino.insert(0, 'dados', 'treino')
resultado_linear_elastic_treino.insert(0, 'algoritmo', 'linear regression elastic')
resultado_linear_elastic_treino

  model = cd_fast.enet_coordinate_descent(


Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,linear regression elastic,treino,0.008096,474.142435,21.774812,17.296745,8.731581


#### Dados de validação

In [34]:
#Definição de parâmetros do treinamento
max_iter = np.arange(1, 2000, 1000)
alpha = np.arange(1, 5, 1)

for i in max_iter:
    for e in alpha:
        modelo_linear_elastic = lm.ElasticNet(max_iter = i, alpha = e)
        modelo_linear_elastic.fit(x_treino, y_treino)

        #Avaliando a performance do modelo
        y_pred = modelo_linear_elastic.predict(x_validacao)
        mse = mt.mean_squared_error(y_validacao, y_pred)
        rmse = np.sqrt(mse)    

        print('{max_iter} / {alpha} -> {rmse:.4f}'.format(max_iter = i, alpha = e, rmse = rmse))

1 / 1 -> 21.7607
1 / 2 -> 21.8018
1 / 3 -> 21.8279
1 / 4 -> 21.8477
1001 / 1 -> 21.7632
1001 / 2 -> 21.8018
1001 / 3 -> 21.8279
1001 / 4 -> 21.8477


  model = cd_fast.enet_coordinate_descent(


In [35]:
max_iter = 1
alpha = 1

modelo_linear_elastic = lm.ElasticNet(max_iter = max_iter, alpha = alpha)
modelo_linear_elastic.fit(x_treino, y_treino)

y_pred = modelo_linear_elastic.predict(x_validacao)

r_2 = mt.r2_score(y_validacao, y_pred)
mse = mt.mean_squared_error(y_validacao, y_pred)
rmse = np.sqrt(mse)
mae = mt.mean_absolute_error(y_validacao, y_pred)
mape = mt.mean_absolute_percentage_error(y_validacao, y_pred)
        
resultado_linear_elastic_validacao = pd.DataFrame(np.array([r_2, mse, rmse, mae, mape])).T
resultado_linear_elastic_validacao = resultado_linear_elastic_validacao.rename(columns = {0: 'r_2', 
                                                                                          1: 'mse',
                                                                                          2: 'rmse',
                                                                                          3: 'mae',
                                                                                          4: 'mape'})
resultado_linear_elastic_validacao.insert(0, 'dados', 'validacao')
resultado_linear_elastic_validacao.insert(0, 'algoritmo', 'linear regression elastic')
resultado_linear_elastic_validacao

  model = cd_fast.enet_coordinate_descent(


Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,linear regression elastic,validacao,0.008342,473.528157,21.760702,17.261015,8.692446


#### Dados de teste

In [36]:
max_iter = 1
alpha = 1

modelo_linear_elastic = lm.ElasticNet(max_iter = max_iter, alpha = alpha)
modelo_linear_elastic.fit(pd.concat([x_treino, x_validacao]),
                          pd.concat([y_treino, y_validacao]))

y_pred = modelo_linear_elastic.predict(x_teste)

r_2 = mt.r2_score(y_teste, y_pred)
mse = mt.mean_squared_error(y_teste, y_pred)
rmse = np.sqrt(mse)
mae = mt.mean_absolute_error(y_teste, y_pred)
mape = mt.mean_absolute_percentage_error(y_teste, y_pred)
        
resultado_linear_elastic_teste = pd.DataFrame(np.array([r_2, mse, rmse, mae, mape])).T
resultado_linear_elastic_teste = resultado_linear_elastic_teste.rename(columns = {0: 'r_2', 
                                                                                  1: 'mse',
                                                                                  2: 'rmse',
                                                                                  3: 'mae',
                                                                                  4: 'mape'})
resultado_linear_elastic_teste.insert(0, 'dados', 'teste')
resultado_linear_elastic_teste.insert(0, 'algoritmo', 'linear regression elastic')
resultado_linear_elastic_teste

  model = cd_fast.enet_coordinate_descent(


Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,linear regression elastic,teste,0.008255,482.881497,21.974565,17.467771,8.743041


In [37]:
resultado_linear_elastic = pd.concat([resultado_linear_elastic_treino, resultado_linear_elastic_validacao, resultado_linear_elastic_teste])
resultado_linear_elastic

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,linear regression elastic,treino,0.008096,474.142435,21.774812,17.296745,8.731581
0,linear regression elastic,validacao,0.008342,473.528157,21.760702,17.261015,8.692446
0,linear regression elastic,teste,0.008255,482.881497,21.974565,17.467771,8.743041


## Algoritmo Polinomial Regression

#### Dados de treino

In [38]:
lista_parametros = list()

for a in np.arange(1, 4, 1):
    polinomio = pp.PolynomialFeatures(degree = a)
    x_polinomio_treino = polinomio.fit_transform(x_treino) #caracteristicas e rotulos sendo treinados

    modelo_polinomial = lm.LinearRegression()
    modelo_polinomial.fit(x_polinomio_treino, y_treino)
    
    y_pred = modelo_polinomial.predict(x_polinomio_treino)    
    mse = mt.mean_squared_error(y_treino, y_pred)
    rmse = np.sqrt(mse)

    lista_parametros.append(rmse)
    
    print('{grau} -> {rmse:.4f}'.format(grau = a, rmse = rmse))

1 -> 21.3541
2 -> 20.8083
3 -> 20.1047


In [39]:
polinomio = pp.PolynomialFeatures(degree = np.argmin(lista_parametros) + 1)
x_polinomio_treino = polinomio.fit_transform(x_treino) #caracteristicas e rotulos sendo treinados

modelo_polinomial = lm.LinearRegression()
modelo_polinomial.fit(x_polinomio_treino, y_treino)

y_pred = modelo_polinomial.predict(x_polinomio_treino)

r_2 = mt.r2_score(y_treino, y_pred)
mse = mt.mean_squared_error(y_treino, y_pred)
rmse = np.sqrt(mse)
mae = mt.mean_absolute_error(y_treino, y_pred)
mape = mt.mean_absolute_percentage_error(y_treino, y_pred)
        
resultado_polinomial_treino = pd.DataFrame(np.array([r_2, mse, rmse, mae, mape])).T
resultado_polinomial_treino = resultado_polinomial_treino.rename(columns = {0: 'r_2', 
                                                                            1: 'mse',
                                                                            2: 'rmse',
                                                                            3: 'mae',
                                                                            4: 'mape'})
resultado_polinomial_treino.insert(0, 'dados', 'treino')
resultado_polinomial_treino.insert(0, 'algoritmo', 'polinomial regression')
resultado_polinomial_treino

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,polinomial regression,treino,0.154418,404.19895,20.1047,15.883592,7.800181


#### Dados de validação

In [40]:
lista_parametros = list()

for a in np.arange(1, 4, 1):
    polinomio = pp.PolynomialFeatures(degree = a)
    x_polinomio_treino = polinomio.fit_transform(x_treino) #caracteristicas e rotulos sendo treinados
    x_polinomio_validacao = polinomio.fit_transform(x_validacao) #caracteristicas e rotulos sendo treinados

    modelo_polinomial = lm.LinearRegression()
    modelo_polinomial.fit(x_polinomio_treino, y_treino)
    
    y_pred = modelo_polinomial.predict(x_polinomio_validacao)    
    mse = mt.mean_squared_error(y_validacao, y_pred)
    rmse = np.sqrt(mse)

    lista_parametros.append(rmse)
    
    print('{grau} -> {rmse:.4f}'.format(grau = a, rmse = rmse))

1 -> 21.4114
2 -> 21.1132
3 -> 22.3680


In [41]:
polinomio = pp.PolynomialFeatures(degree = np.argmin(lista_parametros) + 1)
x_polinomio_treino = polinomio.fit_transform(x_treino) #caracteristicas e rotulos sendo treinados
x_polinomio_validacao = polinomio.fit_transform(x_validacao) #caracteristicas e rotulos sendo treinados

modelo_polinomial = lm.LinearRegression()
modelo_polinomial.fit(x_polinomio_treino, y_treino)

y_pred = modelo_polinomial.predict(x_polinomio_validacao)

r_2 = mt.r2_score(y_validacao, y_pred)
mse = mt.mean_squared_error(y_validacao, y_pred)
rmse = np.sqrt(mse)
mae = mt.mean_absolute_error(y_validacao, y_pred)
mape = mt.mean_absolute_percentage_error(y_validacao, y_pred)
        
resultado_polinomial_validacao = pd.DataFrame(np.array([r_2, mse, rmse, mae, mape])).T
resultado_polinomial_validacao = resultado_polinomial_validacao.rename(columns = {0: 'r_2', 
                                                                                  1: 'mse',
                                                                                  2: 'rmse',
                                                                                  3: 'mae',
                                                                                  4: 'mape'})
resultado_polinomial_validacao.insert(0, 'dados', 'validacao')
resultado_polinomial_validacao.insert(0, 'algoritmo', 'polinomial regression')
resultado_polinomial_validacao

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,polinomial regression,validacao,0.066477,445.768223,21.113224,16.749939,8.547931


#### Dados de teste

In [42]:
polinomio = pp.PolynomialFeatures(degree = np.argmin(lista_parametros) + 1)
x_polinomio_treino = polinomio.fit_transform(x_treino) #caracteristicas e rotulos sendo treinados
x_polinomio_validacao = polinomio.fit_transform(x_validacao) #caracteristicas e rotulos sendo treinados
x_polinomio_teste = polinomio.fit_transform(x_teste) #caracteristicas e rotulos sendo treinados

modelo_polinomial = lm.LinearRegression()
modelo_polinomial.fit(np.concatenate((x_polinomio_treino, x_polinomio_validacao)),
                      np.concatenate((y_treino, y_validacao)))

y_pred = modelo_polinomial.predict(x_polinomio_teste)

r_2 = mt.r2_score(y_teste, y_pred)
mse = mt.mean_squared_error(y_teste, y_pred)
rmse = np.sqrt(mse)
mae = mt.mean_absolute_error(y_teste, y_pred)
mape = mt.mean_absolute_percentage_error(y_teste, y_pred)
        
resultado_polinomial_teste = pd.DataFrame(np.array([r_2, mse, rmse, mae, mape])).T
resultado_polinomial_teste = resultado_polinomial_teste.rename(columns = {0: 'r_2', 
                                                                                  1: 'mse',
                                                                                  2: 'rmse',
                                                                                  3: 'mae',
                                                                                  4: 'mape'})
resultado_polinomial_teste.insert(0, 'dados', 'teste')
resultado_polinomial_teste.insert(0, 'algoritmo', 'polinomial regression')
resultado_polinomial_teste

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,polinomial regression,teste,0.090901,442.641386,21.039044,16.736414,8.276972


In [43]:
resultado_polinomial = pd.concat([resultado_polinomial_treino, resultado_polinomial_validacao, resultado_polinomial_teste])
resultado_polinomial

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,polinomial regression,treino,0.154418,404.19895,20.1047,15.883592,7.800181
0,polinomial regression,validacao,0.066477,445.768223,21.113224,16.749939,8.547931
0,polinomial regression,teste,0.090901,442.641386,21.039044,16.736414,8.276972


## Algoritmo Polinomial Regression (Lasso)

#### Dados de treino

In [44]:
for a in np.arange(1, 4, 1):
    polinomio = pp.PolynomialFeatures(degree = a)
    x_polinomio_treino = polinomio.fit_transform(x_treino) #caracteristicas e rotulos sendo treinados

    modelo_polinomial = lm.LinearRegression()
    modelo_polinomial.fit(x_polinomio_treino, y_treino)
    
    y_pred = modelo_polinomial.predict(x_polinomio_treino)    
    mse = mt.mean_squared_error(y_treino, y_pred)
    rmse = np.sqrt(mse)   

    print('{grau} -> {rmse:.4f}'.format(grau = a, rmse = rmse))

1 -> 21.3541
2 -> 20.8083
3 -> 20.1047


In [45]:
#Definição de parâmetros do treinamento
max_iter = np.arange(1, 2000, 1000)
alpha = np.arange(1, 3, 1)

for i in max_iter:
    for e in alpha:        
        modelo_polinomial_lasso = lm.Lasso(max_iter = i, alpha = e)
        modelo_polinomial_lasso.fit(x_polinomio_treino, y_treino)
        
        #Avaliando a performance do modelo
        y_pred = modelo_polinomial_lasso.predict(x_polinomio_treino)
        mse = mt.mean_squared_error(y_treino, y_pred)
        rmse = np.sqrt(mse)    

        print('{max_iter} / {alpha} -> {rmse:.4f}'.format(max_iter = i, alpha = e, rmse = rmse))

  model = cd_fast.enet_coordinate_descent(


1 / 1 -> 21.7353


  model = cd_fast.enet_coordinate_descent(


1 / 2 -> 21.8251
1001 / 1 -> 21.7090
1001 / 2 -> 21.8227


In [46]:
max_iter = 1001
alpha = 1

modelo_polinomial_lasso = lm.Lasso(max_iter = max_iter, alpha = alpha)
modelo_polinomial_lasso.fit(x_polinomio_treino, y_treino)

y_pred = modelo_polinomial_lasso.predict(x_polinomio_treino)

r_2 = mt.r2_score(y_treino, y_pred)
mse = mt.mean_squared_error(y_treino, y_pred)
rmse = np.sqrt(mse)
mae = mt.mean_absolute_error(y_treino, y_pred)
mape = mt.mean_absolute_percentage_error(y_treino, y_pred)
        
resultado_polinomial_lasso_treino = pd.DataFrame(np.array([r_2, mse, rmse, mae, mape])).T
resultado_polinomial_lasso_treino = resultado_polinomial_lasso_treino.rename(columns = {0: 'r_2', 
                                                                                        1: 'mse',
                                                                                        2: 'rmse',
                                                                                        3: 'mae',
                                                                                        4: 'mape'})
resultado_polinomial_lasso_treino.insert(0, 'dados', 'treino')
resultado_polinomial_lasso_treino.insert(0, 'algoritmo', 'polinomial regression lasso')
resultado_polinomial_lasso_treino

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,polinomial regression lasso,treino,0.014084,471.280382,21.708993,17.229625,8.648566


#### Dados de validação

In [47]:
for a in np.arange(1, 4, 1):
    polinomio = pp.PolynomialFeatures(degree = a)
    x_polinomio_treino = polinomio.fit_transform(x_treino) #caracteristicas e rotulos sendo treinados
    x_polinomio_validacao = polinomio.fit_transform(x_validacao) #caracteristicas e rotulos sendo treinados

    modelo_polinomial = lm.LinearRegression()
    modelo_polinomial.fit(x_polinomio_treino, y_treino)
    
    y_pred = modelo_polinomial.predict(x_polinomio_validacao)
    rmse = np.sqrt(mse)   

    print('{grau} -> {rmse:.4f}'.format(grau = a, rmse = rmse))

1 -> 21.7090
2 -> 21.7090
3 -> 21.7090


In [48]:
#Definição de parâmetros do treinamento
max_iter = np.arange(1, 2000, 1000)
alpha = np.arange(1, 3, 1)

for i in max_iter:
    for e in alpha:        
        modelo_polinomial_lasso = lm.Lasso(max_iter = i, alpha = e)
        modelo_polinomial_lasso.fit(x_polinomio_treino, y_treino)
        
        #Avaliando a performance do modelo
        y_pred = modelo_polinomial_lasso.predict(x_polinomio_validacao)
        mse = mt.mean_squared_error(y_validacao, y_pred)
        rmse = np.sqrt(mse)    

        print('{max_iter} / {alpha} -> {rmse:.4f}'.format(max_iter = i, alpha = e, rmse = rmse))

  model = cd_fast.enet_coordinate_descent(


1 / 1 -> 21.7341


  model = cd_fast.enet_coordinate_descent(


1 / 2 -> 21.8279
1001 / 1 -> 21.6969
1001 / 2 -> 21.8189


In [49]:
max_iter = 1001
alpha = 1

modelo_polinomial_lasso = lm.Lasso(max_iter = max_iter, alpha = alpha)
modelo_polinomial_lasso.fit(x_polinomio_treino, y_treino)

y_pred = modelo_polinomial_lasso.predict(x_polinomio_validacao)

r_2 = mt.r2_score(y_validacao, y_pred)
mse = mt.mean_squared_error(y_validacao, y_pred)
rmse = np.sqrt(mse)
mae = mt.mean_absolute_error(y_validacao, y_pred)
mape = mt.mean_absolute_percentage_error(y_validacao, y_pred)
        
resultado_polinomial_lasso_validacao = pd.DataFrame(np.array([r_2, mse, rmse, mae, mape])).T
resultado_polinomial_lasso_validacao = resultado_polinomial_lasso_validacao.rename(columns = {0: 'r_2', 
                                                                                              1: 'mse',
                                                                                              2: 'rmse',
                                                                                              3: 'mae',
                                                                                              4: 'mape'})
resultado_polinomial_lasso_validacao.insert(0, 'dados', 'validacao')
resultado_polinomial_lasso_validacao.insert(0, 'algoritmo', 'polinomial regression lasso')
resultado_polinomial_lasso_validacao

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,polinomial regression lasso,validacao,0.014148,470.755769,21.696907,17.180595,8.655828


#### Dados de teste

In [50]:
max_iter = 1001
alpha = 1

polinomio = pp.PolynomialFeatures(degree = 3)
x_polinomio_teste = polinomio.fit_transform(x_teste) #caracteristicas e rotulos sendo treinados

modelo_polinomial_lasso = lm.Lasso(max_iter = max_iter, alpha = alpha)
modelo_polinomial_lasso.fit(np.concatenate((x_polinomio_treino, x_polinomio_validacao)),
                            np.concatenate((y_treino, y_validacao)))

y_pred = modelo_polinomial_lasso.predict(x_polinomio_teste)

r_2 = mt.r2_score(y_teste, y_pred)
mse = mt.mean_squared_error(y_teste, y_pred)
rmse = np.sqrt(mse)
mae = mt.mean_absolute_error(y_teste, y_pred)
mape = mt.mean_absolute_percentage_error(y_teste, y_pred)
        
resultado_polinomial_lasso_teste = pd.DataFrame(np.array([r_2, mse, rmse, mae, mape])).T
resultado_polinomial_lasso_teste = resultado_polinomial_lasso_teste.rename(columns = {0: 'r_2', 
                                                                                      1: 'mse',
                                                                                      2: 'rmse',
                                                                                      3: 'mae',
                                                                                      4: 'mape'})
resultado_polinomial_lasso_teste.insert(0, 'dados', 'teste')
resultado_polinomial_lasso_teste.insert(0, 'algoritmo', 'polinomial regression lasso')
resultado_polinomial_lasso_teste

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,polinomial regression lasso,teste,-0.001276,487.522423,22.07991,17.440768,8.755603


In [51]:
resultado_polinomial_lasso = pd.concat([resultado_polinomial_lasso_treino, resultado_polinomial_lasso_validacao, resultado_polinomial_lasso_teste])
resultado_polinomial_lasso

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,polinomial regression lasso,treino,0.014084,471.280382,21.708993,17.229625,8.648566
0,polinomial regression lasso,validacao,0.014148,470.755769,21.696907,17.180595,8.655828
0,polinomial regression lasso,teste,-0.001276,487.522423,22.07991,17.440768,8.755603


## Algoritmo Polinomial Regression (Ridge)

#### Dados de treino

In [52]:
for a in np.arange(1, 4, 1):
    polinomio = pp.PolynomialFeatures(degree = a)
    x_polinomio_treino = polinomio.fit_transform(x_treino) #caracteristicas e rotulos sendo treinados

    modelo_polinomial = lm.LinearRegression()
    modelo_polinomial.fit(x_polinomio_treino, y_treino)
    
    y_pred = modelo_polinomial.predict(x_polinomio_treino)
    rmse = np.sqrt(mse)   

    print('{grau} -> {rmse:.4f}'.format(grau = a, rmse = rmse))

1 -> 22.0799
2 -> 22.0799
3 -> 22.0799


In [53]:
#Definição de parâmetros do treinamento
max_iter = np.arange(1, 2000, 1000)
alpha = np.arange(1, 3, 1)

for i in max_iter:
    for e in alpha:        
        modelo_polinomial_ridge = lm.Ridge(max_iter = i, alpha = e)
        modelo_polinomial_ridge.fit(x_polinomio_treino, y_treino)
        
        #Avaliando a performance do modelo
        y_pred = modelo_polinomial_ridge.predict(x_polinomio_treino)
        mse = mt.mean_squared_error(y_treino, y_pred)
        rmse = np.sqrt(mse)    

        print('{max_iter} / {alpha} -> {rmse:.4f}'.format(max_iter = i, alpha = e, rmse = rmse))

1 / 1 -> 20.3322
1 / 2 -> 20.3850
1001 / 1 -> 20.3322
1001 / 2 -> 20.3850


In [54]:
max_iter = 1
alpha = 1

modelo_polinomial_ridge = lm.Ridge(max_iter = max_iter, alpha = alpha)
modelo_polinomial_ridge.fit(x_polinomio_treino, y_treino)

y_pred = modelo_polinomial_ridge.predict(x_polinomio_treino)

r_2 = mt.r2_score(y_treino, y_pred)
mse = mt.mean_squared_error(y_treino, y_pred)
rmse = np.sqrt(mse)
mae = mt.mean_absolute_error(y_treino, y_pred)
mape = mt.mean_absolute_percentage_error(y_treino, y_pred)
        
resultado_polinomial_ridge_treino = pd.DataFrame(np.array([r_2, mse, rmse, mae, mape])).T
resultado_polinomial_ridge_treino = resultado_polinomial_ridge_treino.rename(columns = {0: 'r_2', 
                                                                                        1: 'mse',
                                                                                        2: 'rmse',
                                                                                        3: 'mae',
                                                                                        4: 'mape'})
resultado_polinomial_ridge_treino.insert(0, 'dados', 'treino')
resultado_polinomial_ridge_treino.insert(0, 'algoritmo', 'polinomial regression ridge')
resultado_polinomial_ridge_treino

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,polinomial regression ridge,treino,0.135169,413.400281,20.332247,16.065341,8.036622


#### Dados de validação

In [55]:
for a in np.arange(1, 4, 1):
    polinomio = pp.PolynomialFeatures(degree = a)
    x_polinomio_treino = polinomio.fit_transform(x_treino) #caracteristicas e rotulos sendo treinados
    x_polinomio_validacao = polinomio.fit_transform(x_validacao) #caracteristicas e rotulos sendo treinados

    modelo_polinomial = lm.LinearRegression()
    modelo_polinomial.fit(x_polinomio_treino, y_treino)
    
    y_pred = modelo_polinomial.predict(x_polinomio_validacao)
    rmse = np.sqrt(mse)   

    print('{grau} -> {rmse:.4f}'.format(grau = a, rmse = rmse))

1 -> 20.3322
2 -> 20.3322
3 -> 20.3322


In [56]:
#Definição de parâmetros do treinamento
max_iter = np.arange(1, 2000, 1000)
alpha = np.arange(1, 3, 1)

for i in max_iter:
    for e in alpha:        
        modelo_polinomial_ridge = lm.Ridge(max_iter = i, alpha = e)
        modelo_polinomial_ridge.fit(x_polinomio_treino, y_treino)
        
        #Avaliando a performance do modelo
        y_pred = modelo_polinomial_ridge.predict(x_polinomio_validacao)
        mse = mt.mean_squared_error(y_validacao, y_pred)
        rmse = np.sqrt(mse)    

        print('{max_iter} / {alpha} -> {rmse:.4f}'.format(max_iter = i, alpha = e, rmse = rmse))

1 / 1 -> 22.6667
1 / 2 -> 22.6107
1001 / 1 -> 22.6667
1001 / 2 -> 22.6107


In [57]:
max_iter = 1
alpha = 2

modelo_polinomial_ridge = lm.Ridge(max_iter = max_iter, alpha = alpha)
modelo_polinomial_ridge.fit(x_polinomio_treino, y_treino)

y_pred = modelo_polinomial_ridge.predict(x_polinomio_validacao)

r_2 = mt.r2_score(y_validacao, y_pred)
mse = mt.mean_squared_error(y_validacao, y_pred)
rmse = np.sqrt(mse)
mae = mt.mean_absolute_error(y_validacao, y_pred)
mape = mt.mean_absolute_percentage_error(y_validacao, y_pred)
        
resultado_polinomial_ridge_validacao = pd.DataFrame(np.array([r_2, mse, rmse, mae, mape])).T
resultado_polinomial_ridge_validacao = resultado_polinomial_ridge_validacao.rename(columns = {0: 'r_2', 
                                                                                              1: 'mse',
                                                                                              2: 'rmse',
                                                                                              3: 'mae',
                                                                                              4: 'mape'})
resultado_polinomial_ridge_validacao.insert(0, 'dados', 'validacao')
resultado_polinomial_ridge_validacao.insert(0, 'algoritmo', 'polinomial regression ridge')
resultado_polinomial_ridge_validacao

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,polinomial regression ridge,validacao,-0.07064,511.242963,22.610682,16.835024,8.535142


#### Dados de teste

In [58]:
max_iter = 1
alpha = 2

polinomio = pp.PolynomialFeatures(degree = 3)
x_polinomio_teste = polinomio.fit_transform(x_teste) #caracteristicas e rotulos sendo treinados

modelo_polinomial_ridge = lm.Ridge(max_iter = max_iter, alpha = alpha)
modelo_polinomial_ridge.fit(np.concatenate((x_polinomio_treino, x_polinomio_validacao)),
                            np.concatenate((y_treino, y_validacao)))

y_pred = modelo_polinomial_ridge.predict(x_polinomio_teste)

r_2 = mt.r2_score(y_teste, y_pred)
mse = mt.mean_squared_error(y_teste, y_pred)
rmse = np.sqrt(mse)
mae = mt.mean_absolute_error(y_teste, y_pred)
mape = mt.mean_absolute_percentage_error(y_teste, y_pred)
        
resultado_polinomial_ridge_teste = pd.DataFrame(np.array([r_2, mse, rmse, mae, mape])).T
resultado_polinomial_ridge_teste = resultado_polinomial_ridge_teste.rename(columns = {0: 'r_2', 
                                                                                      1: 'mse',
                                                                                      2: 'rmse',
                                                                                      3: 'mae',
                                                                                      4: 'mape'})
resultado_polinomial_ridge_teste.insert(0, 'dados', 'teste')
resultado_polinomial_ridge_teste.insert(0, 'algoritmo', 'polinomial regression ridge')
resultado_polinomial_ridge_teste

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,polinomial regression ridge,teste,0.026821,473.841665,21.767904,16.73435,8.175951


In [59]:
resultado_polinomial_ridge = pd.concat([resultado_polinomial_ridge_treino, resultado_polinomial_ridge_validacao, resultado_polinomial_ridge_teste])
resultado_polinomial_ridge

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,polinomial regression ridge,treino,0.135169,413.400281,20.332247,16.065341,8.036622
0,polinomial regression ridge,validacao,-0.07064,511.242963,22.610682,16.835024,8.535142
0,polinomial regression ridge,teste,0.026821,473.841665,21.767904,16.73435,8.175951


## Algoritmo Polinomial Regression (Elastic Net)

#### Dados de treino

In [60]:
for a in np.arange(1, 4, 1):
    polinomio = pp.PolynomialFeatures(degree = a)
    x_polinomio_treino = polinomio.fit_transform(x_treino) #caracteristicas e rotulos sendo treinados

    modelo_polinomial = lm.LinearRegression()
    modelo_polinomial.fit(x_polinomio_treino, y_treino)
    
    y_pred = modelo_polinomial.predict(x_polinomio_treino)
    rmse = np.sqrt(mse)   

    print('{grau} -> {rmse:.4f}'.format(grau = a, rmse = rmse))

1 -> 21.7679
2 -> 21.7679
3 -> 21.7679


In [61]:
#Definição de parâmetros do treinamento
max_iter = np.arange(1, 2000, 1000)
alpha = np.arange(1, 3, 1)

for i in max_iter:
    for e in alpha:        
        modelo_polinomial_elastic = lm.ElasticNet(max_iter = i, alpha = e)
        modelo_polinomial_elastic.fit(x_polinomio_treino, y_treino)
        
        #Avaliando a performance do modelo
        y_pred = modelo_polinomial_elastic.predict(x_polinomio_treino)
        mse = mt.mean_squared_error(y_treino, y_pred)
        rmse = np.sqrt(mse)    

        print('{max_iter} / {alpha} -> {rmse:.4f}'.format(max_iter = i, alpha = e, rmse = rmse))

  model = cd_fast.enet_coordinate_descent(


1 / 1 -> 21.6665


  model = cd_fast.enet_coordinate_descent(


1 / 2 -> 21.7565
1001 / 1 -> 21.6639
1001 / 2 -> 21.7502


In [62]:
max_iter = 1
alpha = 1

modelo_polinomial_elastic = lm.ElasticNet(max_iter = max_iter, alpha = alpha)
modelo_polinomial_elastic.fit(x_polinomio_treino, y_treino)

y_pred = modelo_polinomial_elastic.predict(x_polinomio_treino)

r_2 = mt.r2_score(y_treino, y_pred)
mse = mt.mean_squared_error(y_treino, y_pred)
rmse = np.sqrt(mse)
mae = mt.mean_absolute_error(y_treino, y_pred)
mape = mt.mean_absolute_percentage_error(y_treino, y_pred)
        
resultado_polinomial_elastic_treino = pd.DataFrame(np.array([r_2, mse, rmse, mae, mape])).T
resultado_polinomial_elastic_treino = resultado_polinomial_elastic_treino.rename(columns = {0: 'r_2', 
                                                                                            1: 'mse',
                                                                                            2: 'rmse',
                                                                                            3: 'mae',
                                                                                            4: 'mape'})
resultado_polinomial_elastic_treino.insert(0, 'dados', 'treino')
resultado_polinomial_elastic_treino.insert(0, 'algoritmo', 'polinomial regression elastic')
resultado_polinomial_elastic_treino

  model = cd_fast.enet_coordinate_descent(


Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,polinomial regression elastic,treino,0.017936,469.439018,21.666541,17.189311,8.594211


#### Dados de validação

In [63]:
for a in np.arange(1, 4, 1):
    polinomio = pp.PolynomialFeatures(degree = a)
    x_polinomio_treino = polinomio.fit_transform(x_treino) #caracteristicas e rotulos sendo treinados
    x_polinomio_validacao = polinomio.fit_transform(x_validacao) #caracteristicas e rotulos sendo treinados

    modelo_polinomial = lm.LinearRegression()
    modelo_polinomial.fit(x_polinomio_treino, y_treino)
    
    y_pred = modelo_polinomial.predict(x_polinomio_validacao)
    rmse = np.sqrt(mse)   

    print('{grau} -> {rmse:.4f}'.format(grau = a, rmse = rmse))

1 -> 21.6665
2 -> 21.6665
3 -> 21.6665


In [64]:
#Definição de parâmetros do treinamento
max_iter = np.arange(1, 2000, 1000)
alpha = np.arange(1, 3, 1)

for i in max_iter:
    for e in alpha:        
        modelo_polinomial_elastic = lm.ElasticNet(max_iter = i, alpha = e)
        modelo_polinomial_elastic.fit(x_polinomio_treino, y_treino)
        
        #Avaliando a performance do modelo
        y_pred = modelo_polinomial_elastic.predict(x_polinomio_validacao)
        mse = mt.mean_squared_error(y_validacao, y_pred)
        rmse = np.sqrt(mse)    

        print('{max_iter} / {alpha} -> {rmse:.4f}'.format(max_iter = i, alpha = e, rmse = rmse))

  model = cd_fast.enet_coordinate_descent(


1 / 1 -> 21.6847


  model = cd_fast.enet_coordinate_descent(


1 / 2 -> 21.7635
1001 / 1 -> 21.6925
1001 / 2 -> 21.7518


In [65]:
max_iter = 1
alpha = 1

modelo_polinomial_elastic = lm.ElasticNet(max_iter = max_iter, alpha = alpha)
modelo_polinomial_elastic.fit(x_polinomio_treino, y_treino)

y_pred = modelo_polinomial_elastic.predict(x_polinomio_validacao)

r_2 = mt.r2_score(y_validacao, y_pred)
mse = mt.mean_squared_error(y_validacao, y_pred)
rmse = np.sqrt(mse)
mae = mt.mean_absolute_error(y_validacao, y_pred)
mape = mt.mean_absolute_percentage_error(y_validacao, y_pred)
        
resultado_polinomial_elastic_validacao = pd.DataFrame(np.array([r_2, mse, rmse, mae, mape])).T
resultado_polinomial_elastic_validacao = resultado_polinomial_elastic_validacao.rename(columns = {0: 'r_2', 
                                                                                                  1: 'mse',
                                                                                                  2: 'rmse',
                                                                                                  3: 'mae',
                                                                                                  4: 'mape'})
resultado_polinomial_elastic_validacao.insert(0, 'dados', 'validacao')
resultado_polinomial_elastic_validacao.insert(0, 'algoritmo', 'polinomial regression elastic')
resultado_polinomial_elastic_validacao

  model = cd_fast.enet_coordinate_descent(


Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,polinomial regression elastic,validacao,0.015255,470.22735,21.684726,17.160746,8.658599


#### Dados de teste

In [66]:
max_iter = 1
alpha = 1

polinomio = pp.PolynomialFeatures(degree = 3)
x_polinomio_teste = polinomio.fit_transform(x_teste) #caracteristicas e rotulos sendo treinados

modelo_polinomial_elastic = lm.ElasticNet(max_iter = max_iter, alpha = alpha)
modelo_polinomial_elastic.fit(np.concatenate((x_polinomio_treino, x_polinomio_validacao)),
                              np.concatenate((y_treino, y_validacao)))

y_pred = modelo_polinomial_elastic.predict(x_polinomio_teste)

r_2 = mt.r2_score(y_teste, y_pred)
mse = mt.mean_squared_error(y_teste, y_pred)
rmse = np.sqrt(mse)
mae = mt.mean_absolute_error(y_teste, y_pred)
mape = mt.mean_absolute_percentage_error(y_teste, y_pred)
        
resultado_polinomial_elastic_teste = pd.DataFrame(np.array([r_2, mse, rmse, mae, mape])).T
resultado_polinomial_elastic_teste = resultado_polinomial_elastic_teste.rename(columns = {0: 'r_2', 
                                                                                          1: 'mse',
                                                                                          2: 'rmse',
                                                                                          3: 'mae',
                                                                                          4: 'mape'})
resultado_polinomial_elastic_teste.insert(0, 'dados', 'teste')
resultado_polinomial_elastic_teste.insert(0, 'algoritmo', 'polinomial regression elastic')
resultado_polinomial_elastic_teste

  model = cd_fast.enet_coordinate_descent(


Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,polinomial regression elastic,teste,-0.00071,487.246668,22.073665,17.412697,8.752562


In [67]:
resultado_polinomial_elastic = pd.concat([resultado_polinomial_elastic_treino, resultado_polinomial_elastic_validacao, resultado_polinomial_elastic_teste])
resultado_polinomial_elastic

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,polinomial regression elastic,treino,0.017936,469.439018,21.666541,17.189311,8.594211
0,polinomial regression elastic,validacao,0.015255,470.22735,21.684726,17.160746,8.658599
0,polinomial regression elastic,teste,-0.00071,487.246668,22.073665,17.412697,8.752562


## Resultado

In [68]:
resultado = pd.concat([resultado_arvore, resultado_random,
                       resultado_linear, resultado_linear_lasso,
                       resultado_linear_ridge, resultado_linear_elastic,
                       resultado_polinomial, resultado_polinomial_lasso,
                       resultado_polinomial_ridge, resultado_polinomial_elastic])

#### Treino

In [72]:
resultado_treino = resultado.loc[resultado['dados'] == 'treino'].reset_index(drop = True)
resultado_treino.style.highlight_max(subset = ['r_2', 'mse', 'rmse', 'mae', 'mape'], color = 'red')

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,decision tree,treino,0.904085,45.84859,6.771159,2.775438,0.530053
1,random forest,treino,0.102111,429.202263,20.717197,16.446413,8.259016
2,linear regression,treino,0.046058,455.996112,21.354065,16.998249,8.653186
3,linear regression lasso,treino,0.007401,474.474834,21.782443,17.305484,8.736697
4,linear regression ridge,treino,0.046058,455.996401,21.354072,16.998308,8.653415
5,linear regression elastic,treino,0.008096,474.142435,21.774812,17.296745,8.731581
6,polinomial regression,treino,0.154418,404.19895,20.1047,15.883592,7.800181
7,polinomial regression lasso,treino,0.014084,471.280382,21.708993,17.229625,8.648566
8,polinomial regression ridge,treino,0.135169,413.400281,20.332247,16.065341,8.036622
9,polinomial regression elastic,treino,0.017936,469.439018,21.666541,17.189311,8.594211


#### Validação

In [70]:
resultado_validacao = resultado.loc[resultado['dados'] == 'validacao'].reset_index(drop = True)
resultado_validacao.style.highlight_max(subset = ['r_2', 'mse', 'rmse', 'mae', 'mape'], color = 'red')

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,decision tree,validacao,0.063559,447.161319,21.146189,16.843452,8.395778
1,random forest,validacao,0.078941,439.816143,20.971794,16.708369,8.421289
2,linear regression,validacao,0.039925,458.447042,21.411376,17.039754,8.682542
3,linear regression lasso,validacao,0.007884,473.747081,21.765732,17.264922,8.695808
4,linear regression ridge,validacao,0.039928,458.445477,21.41134,17.039472,8.682412
5,linear regression elastic,validacao,0.008342,473.528157,21.760702,17.261015,8.692446
6,polinomial regression,validacao,0.066477,445.768223,21.113224,16.749939,8.547931
7,polinomial regression lasso,validacao,0.014148,470.755769,21.696907,17.180595,8.655828
8,polinomial regression ridge,validacao,-0.07064,511.242963,22.610682,16.835024,8.535142
9,polinomial regression elastic,validacao,0.015255,470.22735,21.684726,17.160746,8.658599


#### Teste

In [71]:
resultado_teste = resultado.loc[resultado['dados'] == 'teste'].reset_index(drop = True)
resultado_teste.style.highlight_max(subset = ['r_2', 'mse', 'rmse', 'mae', 'mape'], color = 'red')

Unnamed: 0,algoritmo,dados,r_2,mse,rmse,mae,mape
0,decision tree,teste,0.090475,442.848381,21.043963,16.829781,7.883226
1,random forest,teste,0.084106,445.949495,21.117516,16.85793,8.177958
2,linear regression,teste,0.051166,461.988435,21.493916,17.144197,8.531355
3,linear regression lasso,teste,0.007814,483.096411,21.979454,17.47241,8.752995
4,linear regression ridge,teste,0.051167,461.987772,21.493901,17.143954,8.532046
5,linear regression elastic,teste,0.008255,482.881497,21.974565,17.467771,8.743041
6,polinomial regression,teste,0.090901,442.641386,21.039044,16.736414,8.276972
7,polinomial regression lasso,teste,-0.001276,487.522423,22.07991,17.440768,8.755603
8,polinomial regression ridge,teste,0.026821,473.841665,21.767904,16.73435,8.175951
9,polinomial regression elastic,teste,-0.00071,487.246668,22.073665,17.412697,8.752562
