# Treinamento & Validação
Esse **Jupyter Notebook** tem como objetivo treinar modelos de *Machine Learning* com uma ou mais *features* e verificar quão bem esses modelos estão aprendendo com base na métrica de validação - [Erro Médio Absoluto](https://en.wikipedia.org/wiki/Mean_absolute_error).

---

# Classes "Training"
Como um dos requisitos da **GRIA** para o desafio era que os códigos fossem reaproveitados e documentados. Para satisfazer esses requisitos vamos criar a classe **Training** que vai ser responsável pelo processo de treinar nossos dados em vários modelos diferentes e metrifica-los.

In [1]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import ElasticNet
from sklearn.linear_model import Lasso
from sklearn.linear_model import Ridge

from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold

from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error

import pandas as pd
import numpy as np
import joblib


class Training:

  def split_data(self, x, y):
    x_train, x_valid, y_train, y_valid = train_test_split(x, y, test_size=0.3, random_state=42)
    return x_train, x_valid, y_train, y_valid


  def predict_linear_regression(self, x_train, y_train, x_valid_test, model_name=None):
    model = LinearRegression() # Instance.
    model.fit(x_train, y_train) # Training.
    salaries_predicted = pd.DataFrame(model.predict(x_valid), columns=["SalaryNormalized"])
    # Save model process.
    if model_name is None:
      return salaries_predicted
    else:
      joblib.dump(
        value=model,
        filename=f"../resources/load/{model_name}.pkl"
      )
      print("Model saved!")
      return salaries_predicted


  def predict_ridge_regression(self, x_train, y_train, x_valid_test, model_name=None):
    model = Ridge(alpha=1.0) # Alpha = Learning Rate.
    model.fit(x_train, y_train) # Training.
    salaries_predicted = pd.DataFrame(model.predict(x_valid), columns=["SalaryNormalized"])
    # Save model process.
    if model_name is None:
      return salaries_predicted
    else:
      joblib.dump(
        value=model,
        filename=f"../resources/load/{model_name}.pkl"
      )
      print("Model saved!")
      return salaries_predicted


  def predict_lasso_regression(self, x_train, y_train, x_valid_test, model_name=None):
    model = Lasso(alpha=10, max_iter=1000, tol=0.1)
    model.fit(x_train, y_train) # Training.
    salaries_predicted = pd.DataFrame(model.predict(x_valid), columns=["SalaryNormalized"])
    # Save model process.
    if model_name is None:
      return salaries_predicted
    else:
      joblib.dump(
        value=model,
        filename=f"../resources/load/{model_name}.pkl"
      )
      print("Model saved!")
      return salaries_predicted


  def predict_elasticnet_regression(self, x_train, y_train, x_valid_test, model_name=None):
    model = ElasticNet(alpha=1, l1_ratio=0.5, tol=0.3)
    model.fit(x_train, y_train) # Training.
    salaries_predicted = pd.DataFrame(model.predict(x_valid), columns=["SalaryNormalized"])
    # Save model process.
    if model_name is None:
      return salaries_predicted
    else:
      joblib.dump(
        value=model,
        filename=f"../resources/load/{model_name}.pkl"
      )
      print("Model saved!")
      return salaries_predicted


  def predict_random_forest_regressor(self, x_train, y_train, x_valid_test, model_name=None):
    model = RandomForestRegressor(n_jobs=-1) # Instance.
    model.fit(x_train, np.ravel(y_train)) # Training.
    salaries_predicted = pd.DataFrame(model.predict(x_valid), columns=["SalaryNormalized"])
    # Save model process.
    if model_name is None:
      return salaries_predicted
    else:
      joblib.dump(
        value=model,
        filename=f"../resources/load/{model_name}.pkl"
      )
      print("Model saved!")
      return salaries_predicted


  def get_mae_scores(self, x, y):

    # KFold instance -  # shuffle=True, Shuffle (embaralhar) the data.
    kfold = KFold(
      n_splits=10,
      shuffle=True
    )

    # Models instances.
    randomForestRegressor = RandomForestRegressor(n_jobs=-1)
    linearRegression      = LinearRegression()
    elasticNet            = ElasticNet()
    ridge                 = Ridge()
    lasso                 = Lasso()

    # Apply cross-validation with KFold for all models.
    randomForestRegressor_result = abs(cross_val_score(randomForestRegressor, x, y, cv = kfold, scoring='neg_mean_absolute_error'))
    linearRegression_result      = abs(cross_val_score(linearRegression, x, y, cv = kfold, scoring='neg_mean_absolute_error'))
    elasticNet_result            = abs(cross_val_score(elasticNet, x, y, cv = kfold, scoring='neg_mean_absolute_error'))
    ridge_result                 = abs(cross_val_score(ridge, x, y, cv = kfold, scoring='neg_mean_absolute_error'))
    lasso_result                 = abs(cross_val_score(lasso, x, y, cv = kfold, scoring='neg_mean_absolute_error'))

    # Create a dictionary to store the Models.
    dic_models = {
      "randomForestRegressor": randomForestRegressor_result.mean(),
      "LinearRegression": linearRegression_result.mean(),
      "ElasticNet": elasticNet_result.mean(),
      "Ridge": ridge_result.mean(),
      "Lasso": lasso_result.mean()
    }
    bestModel = min(dic_models, key=dic_models.get) # Select the best model.

    print("MAE for Random Forest Regressor: {0}\nMAE for Linear Regression: {1}\nMAE for Ridge (L2) Regression: {2}\nMAE for Lasso (L1) Regression: {3}\nMAE for Elastic Net (L2 + L1) Regression: {4}".format(randomForestRegressor_result.mean(), linearRegression_result.mean(), elasticNet_result.mean(), ridge_result.mean(), lasso_result.mean()))
    print("The best model is: {0} with MAE value: {1}".format(bestModel, dic_models[bestModel]))


Agora vamos criar uma instância da classe **Training**:

In [2]:
# Training instance.
training = Training()

---

# 01 - Preparando o Ambiente e importando módulos externos
Nessa etapa vamos preparar os dados e o ambiente (jupyter notebook) e importar o módulo externo **preprocessing.py**.

## 01 - Baixando as Bibliotecas necessárias
Inicialmente vamos baixar as bibliotecas necessárias para nossa análise (Eu já tenho todas baixadas no meu ambiente virtual, mas vocês podem remover o comentário e baixar para sua máquina local ou Ambiente Virtual).

In [3]:
#!pip install --upgrade -r ../requirements.txt --user

## 01.2 - Importando o módulo "Preprocessing"
Nós também vamos utilizar o módulo **"Preprocessing"** que foi criado na etapa de *Pré-Processamento*.

In [4]:
%run "../src/preprocessing.py"

In [5]:
preprocessing = Preprocessing()

---

# 02 - Treinando & Validando os Loads
> Na parte de **Treinamento & Validação** nós vamos utilizar as colunas (features) já Pré-Processadas em cada **Load** para treinar vários modelos de Regressão e tentar encontrar o que nós dar o melhor resultado (performance) de acordo com os dados passados.

---

## 02.1 - Treinando & Validando o Load-v1
Bem, no **load-v1** foi passado para a etapa de **treinamento & validação** a coluna (feature) **"Title"**. Ou seja, nós vamos ter as seguintes variáveis (features) para os nossos modelos:

 - **Variáveis Independente:**
   - Title *(com CountVectorizer):*
     - stop_words="english"
     - max_df=0.60 (Ignores terms that appear in MORE than 60% of documents)
     - min_df=0.05 (Ignores terms that appear in LESS than 5% of documents)
 - **Variáveis Dependente:**
   - SalaryNormalized (normalizada pelo a Adzuna)

**NOTE:**  
Esse vai ser o nosso **baseline model**.

**Pegando a variável dependente (target=y):**

In [6]:
# Extract training set.
preprocessing.extract_7z_data("../datasets/Train_rev1.7z")

File extracted!


In [7]:
df_training = preprocessing.get_training_data()

Training data ready!


In [8]:
y = df_training["SalaryNormalized"]

**Pegando a variável Independente (X):**

In [9]:
import scipy.sparse
df_title_vectorized = scipy.sparse.load_npz('../resources/processed_features/df_title_train_vectorized.npz')

In [10]:
x = df_title_vectorized

**Dividindo os dados em *dados de treino* e *dados de validação*:**

In [11]:
x_train, x_valid, y_train, y_valid = training.split_data(x, y)

**Testando a Métrica de validação MAE com Validação-Cruzada K-Fold**  
Agora vamos testar nossa **Métrica de Validação MAE (Mean Absolute Error)** para cada algoritmo, porém, utilizando uma **Validação-Cruzada** com **K-Fold**.

In [12]:
training.get_mae_scores(x_train, y_train)

MAE for Random Forest Regressor: 12072.93565079078
MAE for Linear Regression: 12218.599215523192
MAE for Ridge (L2) Regression: 13111.741153975387
MAE for Lasso (L1) Regression: 12218.43993615294
MAE for Elastic Net (L2 + L1) Regression: 12218.764416645457
The best model is: randomForestRegressor with MAE value: 12072.93565079078


**NOTE:**  
Bem, para esse conjunto de dados o modelo que teve a melhor performance (MAE) foi o **Random Forest Regressor**.

**NOTE:**  
Agora vamos fazer algumas predições com esse modelo, porém, nos dados de teste.

**Pegando a variável independente (X) de teste:**

In [13]:
import scipy.sparse
df_title_test_vectorized = scipy.sparse.load_npz('../resources/processed_features/df_title_test_vectorized.npz')

**Fazendo previsões para os dados de teste:**  
Para fazer previsões com os dados de teste nós devemos passar:
 - x_train;
 - y_train;
 - x_test (ou seja, feature que nós pré-processamos).

In [14]:
salaries_predicted = training.predict_random_forest_regressor(x_train, y_train, df_title_test_vectorized)

In [15]:
salaries_predicted

Unnamed: 0,SalaryNormalized
0,34094.010509
1,31017.623697
2,40618.417291
3,31017.623697
4,31017.623697
...,...
73426,40618.417291
73427,28149.871342
73428,31017.623697
73429,31017.623697


**Salvando o load-v1:**  
Por fim, agora vamos salvar o nosso **load-v1** que vai ser:
 - O modelo que teve melhor performance (Random Forest Regresso);
 - As predições desse modelo para os dados de teste.

**NOTE:**  
Para salvar o modelo, para cada implementações eu criei um "mecanismo", onde só é passar o nome do modelo que ele já vai salvar automaticamente. Se nenhum nome for passado ele apenas vai fazer predições.

In [None]:
training.predict_random_forest_regressor(x_train, y_train, df_title_test_vectorized, model_name="model-v1")

In [None]:
preprocessing.save_to_csv(df=salaries_predicted, df_name="test-predict-load-v1")

---

# Resumos

 - **No *Load-v1* nós tinhamos as seguintes situações:**
   - Variáveis (features):
     - Independentes:
       - Title *(com CountVectorizer):*
         - stop_words="english"
         - max_df=0.60 (Ignores terms that appear in MORE than 60% of documents)
         - min_df=0.05 (Ignores terms that appear in LESS than 5% of documents)
     - Dependente:
       - SalaryNormalized (normalizada pelo a Adzuna)
   - *Como Métrica de Avaliação (MAE) tivemos os seguintes resultados (ordenados do menor para o maior):*
     -  MAE for RandomForestRegressor Model: 12037.451130584002
     -  MAE for Linear Regression Model: 12174.533594760238
     -  MAE for Ridge Model: 12174.538439350576
     -  MAE for Lasso Model: 12174.714368247884
     -  MAE for Elastic Net Model: 13057.741326652269

**Rodrigo Leite -** *drigols*