# Importação das Bibliotecas

In [26]:
import pickle
from pathlib import Path
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report, accuracy_score

In [27]:
# Definindo caminho padrão para o uso dos arquivos já vetorizados
base_path = Path("../../../data/vectorized")

# Lista com os tipos de vetorização
vectorizations = ["bow", "ngram", "tfidf"]

# Definindo Funções para treino e avaliação do modelo

In [28]:
def load_pickle(file_path):
    with open(file_path, "rb") as f:
        return pickle.load(f)

In [None]:
def train_and_evaluate_model(vectorization_type):
    print(f"\n === Vetorização: {vectorization_type} ===")
    
    folder = base_path / vectorization_type
    vectorizer, X_train, X_test = load_pickle(folder / f"{vectorization_type}.pkl")
    y_train = load_pickle(folder / f"y_train_{vectorization_type}.pkl")
    y_test = load_pickle(folder / f"y_test_{vectorization_type}.pkl")

    # Treinamento
    model = MultinomialNB()
    model.fit(X_train, y_train)

    # Avaliação
    y_pred = model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    print(f"Acurácia: {accuracy:.4f}")
    print("Relatório de Classificação:\n", classification_report(y_test, y_pred))


In [30]:
# Roda o treinamento e avaliação para cada vetorização
for vec_type in vectorizations:
    train_and_evaluate_model(vec_type)


 === Vetorização: BOW ===
Acurácia: 0.8438
Relatório de Classificação:
               precision    recall  f1-score   support

    negative       0.84      0.85      0.84      4939
    positive       0.85      0.84      0.84      4978

    accuracy                           0.84      9917
   macro avg       0.84      0.84      0.84      9917
weighted avg       0.84      0.84      0.84      9917


 === Vetorização: NGRAM ===
Acurácia: 0.8483
Relatório de Classificação:
               precision    recall  f1-score   support

    negative       0.85      0.84      0.85      4939
    positive       0.84      0.86      0.85      4978

    accuracy                           0.85      9917
   macro avg       0.85      0.85      0.85      9917
weighted avg       0.85      0.85      0.85      9917


 === Vetorização: TFIDF ===
Acurácia: 0.8515
Relatório de Classificação:
               precision    recall  f1-score   support

    negative       0.85      0.85      0.85      4939
    positive  