# 1.Imports

In [1]:
import pandas as pd
import numpy as np
from sklearn import metrics as mt
from sklearn import linear_model as lm
import pickle

# 2. Funcao para carregar os datasets

In [2]:
def Load_Data_Set(df_x_train, df_y_train):
    df1 = pd.read_csv(df_x_train)
    df2 = pd.read_csv(df_y_train)
    return df1, df2

# 3. Criando e concatenando os dataframes

### 3.1 Dataset de treinamento

In [3]:
df_x_train = "../2_ensaio_regressao/1_dados_treinamento/X_training.csv"

In [4]:
df_y_train = "../2_ensaio_regressao/1_dados_treinamento/y_training.csv"

In [5]:
df1_train, df2_train = Load_Data_Set(df_x_train, df_y_train)

In [6]:
df1_train['label'] = df2_train

In [7]:
df_train = df1_train.copy()

### 3.2 Dataset de validacao

In [8]:
df_x_val = "../2_ensaio_regressao/2_dados_validacao/X_validation.csv"

In [9]:
df_y_val = "../2_ensaio_regressao/2_dados_validacao/y_val.csv"

In [10]:
df1_val, df2_val = Load_Data_Set(df_x_val, df_y_val)

In [11]:
df1_val['label'] = df2_val

In [12]:
df_val = df1_val.copy()

### 3.3 Dataset de teste

In [13]:
df_x_test = "../2_ensaio_regressao/3_dados_teste/X_test.csv"

In [14]:
df_y_test = "../2_ensaio_regressao/3_dados_teste/y_test.csv"

In [15]:
df1_test, df2_test = Load_Data_Set(df_x_test, df_y_test)

In [16]:
df1_test['label'] = df2_test

In [17]:
df_test = df1_test.copy()

# 4. Funções para treinar o modelo e avaliar as métricas

In [18]:
#Criando uma função para Treinar o Modelo encima dos dados de treinamento

#Fazer as previsoes encima dos proprios dados de treinamento

#Entrada: dataframe de treinamento

#Saida: valores de y_train + valores de previsao feitos a partir dos dados de treinamento (y_pred_train) +
# algoritmo linear_regression treinado

def Model_Training(df_train):
    
    features = ['song_duration_ms', 'acousticness', 'danceability', 'energy',
       'instrumentalness', 'key', 'liveness', 'loudness', 'audio_mode',
       'speechiness', 'tempo', 'time_signature', 'audio_valence']
    
    
    label = ['label']
    
    #Preparação dos dados de treino
    x_train = df_train.loc[:, features]

    #Esse metodo ravel transforma os valores em um array
    y_train = df_train.loc[:, label].values.ravel()      
    
    #Treinamento do algoritmo Linear Regression
      
    linear_regression = lm.LinearRegression()    
  
    linear_regression.fit(x_train, y_train)

    #Fazendo previsoes emcima dos dados de treinamento
    y_pred_train = linear_regression.predict(x_train)
    
    return y_train, y_pred_train, linear_regression
   



In [19]:
def Previsoes_Dataframe_Test(df_test, linear_regression):
    
    #Entrada: dataset de teste +  algoritmo linear_regression treinado
    
    #Saida: os dados de y do proprio dataset de teste (y_test) e as previsoes feitas encima dos dados de teste (y_pred_test)
    
    features = ['song_duration_ms', 'acousticness', 'danceability', 'energy',
       'instrumentalness', 'key', 'liveness', 'loudness', 'audio_mode',
       'speechiness', 'tempo', 'time_signature', 'audio_valence']
    
    
    label = ['label'] 
       
    #Separando os dados
    x_test = df_test.loc[:, features]

    y_test = df_test.loc[:, label].values.ravel() 
    
    #Fazendo previsões
    y_pred_test = linear_regression.predict(x_test)
    
    return y_test, y_pred_test 
       

In [20]:
def Previsoes_Dataframe_Val(df_val, linear_regression):
    
   #Entrada: dataset de validacao +  algoritmo Linear Regression treinado
    
   #Saida: os dados de y do proprio dataset de validacao (y_val) e as previsoes feitas encima dos dados de validacao
   #(y_pred_val)
    

    features = ['song_duration_ms', 'acousticness', 'danceability', 'energy',
       'instrumentalness', 'key', 'liveness', 'loudness', 'audio_mode',
       'speechiness', 'tempo', 'time_signature', 'audio_valence']
    
    
    label = ['label'] 
    
           
    #Separando os dados
    x_val = df_val.loc[:, features]

    y_val = df_val.loc[:, label].values.ravel() 
    
    #Fazendo previsões
    y_pred_val = linear_regression.predict(x_val)
    
    return y_val, y_pred_val
        

In [21]:
#Criando uma função para avaliar as metricas do modelo

#Entrada: Os proprios valores da label(y) do dataset que precisamos avaliar as metricas,
# as previsoes feitas a partir desses dados

#Saida: Dataframe com as principais metricas do modelo

def Model_Metrics(y, y_pred):
    
    #R2_Score
    r2_score = np.round(mt.r2_score(y , y_pred ),4)
        
    #Mean_Squared_Error (MSE)
    mean_squared_error = np.round(mt.mean_squared_error(y, y_pred ),4)
        
    #Root Mean_Squared Error (RMSE)
    rmse = np.round(np.sqrt(mean_squared_error),4)
        
    #Mean_Absolute_Error(MAE)
    mean_absolute_error = np.round(mt.mean_absolute_error (y,y_pred),4)
   
    #Mean Absolute Percentage Error (MAPE)
    mean_absolute_percentage_error = np.round(mt.mean_absolute_percentage_error (y,y_pred),4)
    
    #Criando um dataframe com as metricas
    
    metrics = [r2_score, mean_squared_error, rmse, mean_absolute_error, mean_absolute_percentage_error]       
        
    return metrics

# 5. Treinamento do modelo, validação e verificação de performance

In [22]:
y_train, y_pred_train, linear_regression = Model_Training(df_train)
metrics_train_final = Model_Metrics(y_train, y_pred_train)
metrics_train_final

[0.0461, 455.9961, 21.3541, 16.9982, 8.6532]

In [23]:
y_test, y_pred_test = Previsoes_Dataframe_Test(df_test, linear_regression)
metrics_test_final = Model_Metrics(y_test, y_pred_test)
metrics_test_final

[0.0523, 461.4277, 21.4809, 17.13, 8.5219]

In [24]:
y_val, y_pred_val = Previsoes_Dataframe_Val(df_val, linear_regression)
metrics_val_final = Model_Metrics(y_val, y_pred_val)
metrics_val_final

[0.0399, 458.447, 21.4114, 17.0398, 8.6825]

# 6. Concatenando os dataframes finais

In [25]:
d1 = {'Linear Regression': metrics_train_final}
d2 = {'Linear Regression': metrics_test_final}
d3 = {'Linear Regression':metrics_val_final}

### 6.1 Dataframe com as métricas sob os dados de treinamento

In [26]:
df_train_final = pd.DataFrame(data = d1, index = ['r2_score', 'mse', 'rmse', 'mae','mape'])
df_train_final

Unnamed: 0,Linear Regression
r2_score,0.0461
mse,455.9961
rmse,21.3541
mae,16.9982
mape,8.6532


### 6.2 Dataframe com as métricas sob os dados de validação

In [27]:
df_val_final = pd.DataFrame(data = d2, index = ['r2_score', 'mse', 'rmse', 'mae','mape'])
df_val_final

Unnamed: 0,Linear Regression
r2_score,0.0523
mse,461.4277
rmse,21.4809
mae,17.13
mape,8.5219


### 6.3 Dataframe com as métricas sob os dados de teste

In [28]:
df_test_final = pd.DataFrame(data = d3, index = ['r2_score', 'mse', 'rmse', 'mae','mape'])
df_test_final

Unnamed: 0,Linear Regression
r2_score,0.0399
mse,458.447
rmse,21.4114
mae,17.0398
mape,8.6825


# 7. Salvar os objetos com as melhores métricas em um arquivo pickle

### a) dataframe com métricas dos dados de treinamento

In [29]:
with open('arquivo_linear_regression_train.pkl', 'wb') as arquivo_linear_regression_train:
    pickle.dump(df_train_final, arquivo_linear_regression_train)  

In [30]:
arquivo_linear_regression_train.close()

### b) dataframe com métricas dos dados de validação

In [31]:
with open('arquivo_linear_regression_val.pkl', 'wb') as arquivo_linear_regression_val:
    pickle.dump(df_val_final, arquivo_linear_regression_val)  

In [32]:
arquivo_linear_regression_train.close()

### c) dataframe com métricas dos dados de teste

In [33]:
with open('arquivo_linear_regression_test.pkl', 'wb') as arquivo_linear_regression_test:
    pickle.dump(df_test_final, arquivo_linear_regression_test)    

In [34]:
arquivo_linear_regression_test.close()