# Importação das Bibliotecas

In [1]:
import pickle
from pathlib import Path
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, accuracy_score
from sklearn.model_selection import GridSearchCV

In [2]:
# Definindo caminho padrão para o uso dos arquivos já vetorizados
base_path = Path("../../../data/vectorized")

# Lista com os tipos de vetorização
vectorizations = ["bow", "ngram", "tfidf"]

# Definindo Funções para treino e avaliação do modelo

In [3]:
def load_pickle(file_path):
    with open(file_path, "rb") as f:
        return pickle.load(f)

In [4]:
def train_and_evaluate_model(vectorization_type):
    print(f"\n === Vetorização: {vectorization_type} ===")
    
    folder = base_path / vectorization_type
    vectorizer, X_train, X_test = load_pickle(folder / f"{vectorization_type}.pkl")
    y_train = load_pickle(folder / f"y_train_{vectorization_type}.pkl")
    y_test = load_pickle(folder / f"y_test_{vectorization_type}.pkl")

    param_grid = {'C': [0.01, 0.1, 1, 10, 100]}
    grid = GridSearchCV(LogisticRegression(max_iter=1000), param_grid, cv=5)
    grid.fit(X_train, y_train)

    # Melhor modelo
    best_model = grid.best_estimator_
    print("Melhor valor de C:", grid.best_params_)

    # Avaliação
    y_pred = best_model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    print(f"Acurácia: {accuracy:.4f}")
    print("Relatório de Classificação:\n", classification_report(y_test, y_pred))


In [5]:
# Roda o treinamento e avaliação para cada vetorização
for vec_type in vectorizations:
    train_and_evaluate_model(vec_type)


 === Vetorização: bow ===
Melhor valor de C: {'C': 0.1}
Acurácia: 0.8803
Relatório de Classificação:
               precision    recall  f1-score   support

    negative       0.89      0.87      0.88      4939
    positive       0.87      0.89      0.88      4978

    accuracy                           0.88      9917
   macro avg       0.88      0.88      0.88      9917
weighted avg       0.88      0.88      0.88      9917


 === Vetorização: ngram ===
Melhor valor de C: {'C': 0.1}
Acurácia: 0.8811
Relatório de Classificação:
               precision    recall  f1-score   support

    negative       0.89      0.87      0.88      4939
    positive       0.87      0.89      0.88      4978

    accuracy                           0.88      9917
   macro avg       0.88      0.88      0.88      9917
weighted avg       0.88      0.88      0.88      9917


 === Vetorização: tfidf ===
Melhor valor de C: {'C': 1}
Acurácia: 0.8845
Relatório de Classificação:
               precision    recall  