# Pipelines de treinamento: XGBoost

Esse notebook contém as pipelines de treinamento usadas na obtenção do melhor modelo classificador do problema desenvolvido no EP2.

O modelo LogisticRegression aceita diversas parametrizações diferentes - veja documentação: https://xgboost.readthedocs.io/en/stable/python/index.html.

As **features** que exploramos são:  

1. Bag of Words  
2. TF/TF-IDF  
3. CHAR NGrams  
4. Embeddings

Os **modelos de embeddings** que exploramos aqui são:  

1. BAAI bge-3
2. Google Gemma 300m 

PS: Os embeddings Gemma 300m eu ainda NÃO CONSEGUI GERAR. Então, não precisa testar a parte que roda com eles no EP.

Você pode encontrar uma execução já parametrizada do melhor modelo encontrado por essas pipelines no notebook model.ipynb, **que é nossa versão de entrega do EP2**.

## Bootstrap Imports

In [1]:
import pandas as pd
import numpy as np

import os
import sys
from pathlib import Path

### Teste de importação: Lib.utils do projeto

In [2]:
filedir = Path(os.getcwd())
base_path = filedir.resolve().parents[3]
sys.path.append(str(base_path))

from Lib.utils import printhello
printhello()

HELLO!


## Configura variáveis de execução

In [7]:
sep = ";"
dec = ","
quotech = "\""
encoding = "latin-1"


EP_dir = "EP2"
CSV_input_name = "ep2-train.csv"
path_to_archive = f"../../../../Traindata/{EP_dir}/{CSV_input_name}"


do_print = True
if do_print:
    print(f"Path to csv input is:  {path_to_archive}")

Path to csv input is:  ../../../../Traindata/EP2/ep2-train.csv


### Configure variáveis de reprodutibilidade

In [4]:
random_state = 12345

### Lista de melhores modelos

In [5]:
best_models_list = []

## Pré-tratamento de dados

### Importar dados do csv

In [8]:
df = pd.read_csv(path_to_archive, na_values=['na'],
sep=sep,
decimal=dec,
quotechar=quotech,
encoding=encoding,
encoding_errors='strict')
print(df.shape)
print(df.columns)

(43678, 2)
Index(['req_text', 'profession'], dtype='object')


### Embaralhamento dos dados

O .csv de entrada tem alto ordenamento dos inputs por classe. Carregá-los dessa maneira nos modelos p/ treinamento introduz viés, então é preciso embaralhar os dados para garantir randomicidade. 
As classes em sklearn.model_selection - como a StratfiedKFold usada mais a frente - implementam parâmetro shuffle="", que pode ser passado como True para embaralhar mais os dados.

Note que é importante também garantir a reprodutibilidade do embaralhamento, especificando um valor hardcoded (Neste caso random_state=100)

In [None]:
print("Shape antes do shuffle:", df.shape)

df = df.sample(frac=1, random_state=random_state).reset_index(drop=True) #NAO MUDE random_state, essa variavel DEVE valer 12345, ou QUEBRARÁ REPRODUTIBILIDADE dos experimentos

print("Shape depois do shuffle:", df.shape)

Shape antes do shuffle: (43678, 2)
Shape depois do shuffle: (43678, 2)


### Limpeza dos dados

In [None]:
from Lib.utils import clean_text
#def clean_text(text, do_lowercase: bool, rem_emails: bool, rem_urls: bool, normalize_whitespaces: bool):

df['req_text_cleaned'] = df['req_text'].apply(lambda row_text: clean_text(
        row_text, 
        do_lowercase=True, 
        rem_emails=True, 
        rem_urls=True, 
        normalize_whitespaces=True
    ))

df['req_text'] = df['req_text_cleaned']
df = df.drop(columns=['req_text_cleaned']) # Remove a coluna temporária

# Treino dos modelos XGBoost

## Imports

In [None]:
import xgboost as xgb
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV
from sklearn.feature_selection import SelectKBest, chi2
from imblearn.under_sampling import RandomUnderSampler

## Training Features: Bag of Words, TF-IDF, Word NGram

### Disable Warnings

In [None]:
import warnings
from sklearn.exceptions import ConvergenceWarning

# Ignora warnings de ConvergenceWarning
warnings.filterwarnings("ignore", category=ConvergenceWarning)

# Ignora UserWarnings específicos de l1_ratio etc
warnings.filterwarnings("ignore", category=UserWarning)

### Feature: Bag of words 

#### Definição da Pipeline

In [None]:
BoW_pipeline = Pipeline([
    ('undersample', RandomUnderSampler(random_state=random_state)),
    ('vect', CountVectorizer()),
    ('kbest', SelectKBest(score_func=chi2)),
    ('classifier', xgb.XGBClassifier(early_stopping_rounds=3)), 
]) 

#### Treinamento

In [None]:
BoW_parameters = {
    'undersample__sampling_strategy': [
        {
            'classeGov': 10303,
            'classeAcad': 10303,
            'classePriv': 10303,
        },
        {
            'classeGov': 18782,
            'classeAcad': 14593,
            'classePriv': 10303,
        }],
    'kbest__k': [50, 100, 200, 500, 750, 1500, 4000, 10000, 'all'],
    'classifier__objective': ['multi:softmax'], #softprob seria interessante, mas nao usaremos
    'classifier__use_label_encoder': [False],
    'classifier__eval_metric': ['logloss'],
    'classifier__n_estimators': [50, 75, 100, 125, 150, 200, 250],
    'classifier__learning_rate': [0.02, 0.1, 0.2],
    'classifier__max_depth': [3, 5, 7],
    'classifier__colsample_bytree': [0.8, 1.0],
}

In [None]:
BoW_classifier = GridSearchCV(BoW_pipeline, BoW_parameters, 
                                       cv=10, n_jobs=-1, scoring="accuracy", verbose=1, error_score = np.nan)
BoW_classifier.fit(df["req_text"].fillna(""), df["profession"].values)

In [None]:
print("Melhor acurácia média:", BoW_classifier.best_score_)
print("Melhores parâmetros:", BoW_classifier.best_params_)

best_models_list.append({
    "features": "BoW",
    "accuracy": BoW_classifier.best_score_,
    "params": BoW_classifier.best_params_,
})

### Feature: TF-IDF

#### Definição da Pipeline

In [None]:
TF_pipeline = Pipeline([
    ('undersample', RandomUnderSampler(random_state=random_state)),
    ('vect', CountVectorizer()),
    ('tfidf', TfidfTransformer()),
    ('kbest', SelectKBest(score_func=chi2)),
    ('classifier', xgb.XGBClassifier(early_stopping_rounds=3)), 
])

#### Treinamento

In [None]:
TF_parameters = {
    'undersample__sampling_strategy': [
        {
            'classeGov': 10303,
            'classeAcad': 10303,
            'classePriv': 10303,
        },
        {
            'classeGov': 18782,
            'classeAcad': 14593,
            'classePriv': 10303,
        }],
    'tfidf__use_idf': [True, False],
    'kbest__k': [50, 100, 200, 500, 750, 1500, 4000, 10000, 'all'],
    'classifier__objective': ['multi:softmax'], #softprob seria interessante, mas nao
    'classifier__use_label_encoder': [False],
    'classifier__eval_metric': ['logloss'],
    'classifier__n_estimators': [50, 75, 100, 125, 150, 200, 250],
    'classifier__learning_rate': [0.02, 0.1, 0.2],
    'classifier__max_depth': [3, 5, 7],
    'classifier__colsample_bytree': [0.8, 1.0],
}

In [None]:
TF_classifier = GridSearchCV(TF_pipeline, TF_parameters, 
                                       cv=10, n_jobs=-1, scoring="accuracy", verbose=1, error_score = np.nan)
TF_classifier.fit(df["req_text"].fillna(""), df["profession"].values)

In [None]:
print("Melhor acurácia média:", TF_classifier.best_score_)
print("Melhores parâmetros:", TF_classifier.best_params_)

best_models_list.append({
    "features": "TF",
    "accuracy": TF_classifier.best_score_,
    "params": TF_classifier.best_params_,
})

### Feature: CHAR Ngram

#### Definição da Pipeline

In [None]:
NGram_pipeline = Pipeline([
    ('undersample', RandomUnderSampler(random_state=random_state)),
    ('vect', CountVectorizer()),
    ('kbest', SelectKBest(score_func=chi2)),
    ('classifier', xgb.XGBClassifier(early_stopping_rounds=3)), 
]) 

#### Treinamento

In [None]:
CHAR_NGram_parameters = { 
    'undersample__sampling_strategy': [
        {
            'classeGov': 10303,
            'classeAcad': 10303,
            'classePriv': 10303,
        },
        {
            'classeGov': 18782,
            'classeAcad': 14593,
            'classePriv': 10303,
        }],
    'vect__ngram_range': [(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6), (7, 7), (8, 8), (9, 9), (10, 10), (11, 11), (12, 12)],
    'vect__analyzer': ["char", "char_wb"],
    'kbest__k': [100, 200, 750, 4000, 10000, 'all'],
    'classifier__objective': ['multi:softmax'], #softprob seria interessante, mas nao
    'classifier__use_label_encoder': [False],
    'classifier__eval_metric': ['logloss'],
    'classifier__n_estimators': [50, 75, 100, 125, 150, 200, 250],
    'classifier__learning_rate': [0.02, 0.1, 0.2],
    'classifier__max_depth': [3, 5, 7],
    'classifier__colsample_bytree': [0.8, 1.0],
}

In [None]:
CHAR_NGram_classifier = GridSearchCV(NGram_pipeline, CHAR_NGram_parameters, 
                                       cv=10, n_jobs=2, scoring="accuracy", verbose=1, error_score = np.nan)
CHAR_NGram_classifier.fit(df["req_text"].fillna(""), df["profession"].values)

In [None]:
print("Melhor acurácia média:", CHAR_NGram_classifier.best_score_)
print("Melhores parâmetros:", CHAR_NGram_classifier.best_params_)

best_models_list.append({
    "features": "CHAR-NGram",
    "accuracy": CHAR_NGram_classifier.best_score_,
    "params": CHAR_NGram_classifier.best_params_,
})

## Training Features: Embeddings

### Algoritmo & parâmetros

In [None]:
xgb_pipeline_embeddings = Pipeline([
    ('undersample', RandomUnderSampler(random_state=random_state)),
    ('classifier', xgb.XGBClassifier(early_stopping_rounds=3)), 
]) 

xgb_parameters = {
    'undersample__sampling_strategy': [
        {
            'classeGov': 10303,
            'classeAcad': 10303,
            'classePriv': 10303,
        },
        {
            'classeGov': 18782,
            'classeAcad': 14593,
            'classePriv': 10303,
        }],
    'classifier__objective': ['multi:softmax'], #softprob seria interessante, mas nao
    'classifier__use_label_encoder': [False],
    'classifier__eval_metric': ['logloss'],
    'classifier__n_estimators': [50, 75, 100, 125, 150, 200, 250],
    'classifier__learning_rate': [0.02, 0.1, 0.2],
    'classifier__max_depth': [3, 5, 7],
    'classifier__colsample_bytree': [0.8, 1.0],
}


### Treino c/ embeddings do modelo: BAAI-bge-3

#### Importação dos embeddings

In [None]:
# 1. Gerar os dados X e Y
X_baai = np.load('../../Embeddings/npys/gen_baai_bge_3.ipynb')
y_baai = df["profession"].values

Gerando BAAI embeddings
Shape dos embeddings (X): (500, 1024)
embeddings gerados


#### Treino do modelo

In [None]:
xgb_grid_baai = GridSearchCV(xgb_pipeline_embeddings, xgb_parameters, 
                            cv=10, n_jobs=-1, scoring="accuracy", verbose=1, error_score=np.nan)
xgb_grid_baai.fit(X_baai, y_baai)

In [None]:
print("Melhor acurácia média:", xgb_grid_baai.best_score_)
print("Melhores parâmetros:", xgb_grid_baai.best_params_)

best_models_list.append({
    "feature": "embeddings baai-bge-3",
    "accuracy": xgb_grid_baai.best_score_,
    "params": xgb_grid_baai.best_params_,
})

### Treino c/ embeddings do modelo: Google-Gemma-300m

#### Importação dos embeddings

In [None]:
# 1. Gerar os dados X e Y
X_gemma = np.load('../../Embeddings/npys/gen_google_gemma_300m.ipynb')
y_gemma = df["profession"].values

#### Treino do modelo 

In [None]:
xgb_grid_gemma = GridSearchCV(xgb_pipeline_embeddings, xgb_parameters, 
                            cv=10, n_jobs=-1, scoring="accuracy", verbose=1, error_score=np.nan)
xgb_grid_gemma.fit(X_baai, y_baai)

In [None]:
print("Melhor acurácia média:", xgb_grid_gemma.best_score_)
print("Melhores parâmetros:", xgb_grid_gemma.best_params_)

best_models_list.append({
    "feature": "embeddings google-gemma-300m",
    "accuracy": xgb_grid_gemma.best_score_,
    "params": xgb_grid_gemma.best_params_,
})

# Seleciona melhores parâmetros

In [None]:
best_score = -1
best = 0
for idx, candidate in enumerate(best_models_list):
    if candidate["accuracy"] > best_score:
        best = idx
        best_score = candidate["accuracy"]

print(f"O melhor classificador encontrado pelas pipelines é -->    feature={best_models_list[best]["features"]}\n")
print(f"Melhor acucácia encontrada:  {best_models_list[best]['accuracy']}")
print(f"Melhores parametros encontrados:  {best_models_list[best]['params']}")