# Importação das Bibliotecas

In [11]:
import pickle
from pathlib import Path
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report, accuracy_score

In [12]:
# Definindo caminho padrão para o uso dos arquivos já vetorizados
base_path = Path("../../../data/vectorized")

# Lista com os tipos de vetorização
vectorizations = ["bow", "ngram", "tfidf"]

# Definindo Funções para treino e avaliação do modelo

In [13]:
def load_pickle(file_path):
    with open(file_path, "rb") as f:
        return pickle.load(f)

In [None]:
def train_and_evaluate_model(vectorization_type):
    print(f"\n === Vetorização: {vectorization_type} ===")
    
    folder = base_path / vectorization_type
    vectorizer, X_train, X_test = load_pickle(folder / f"{vectorization_type}.pkl")
    y_train = load_pickle(folder / f"y_train_{vectorization_type}.pkl")
    y_test = load_pickle(folder / f"y_test_{vectorization_type}.pkl")

    # Treinamento com teste para saber melhor K entre 1 e 20
    best_k = None
    best_score = 0
    best_model = None
    k_range = range(1, 21)

    for k in k_range:
        model = KNeighborsClassifier(n_neighbors=k)
        model.fit(X_train, y_train)
        score = model.score(X_test, y_test)

        if score > best_score:
            best_score = score
            best_k = k
            best_model = model

    # Avaliação
    y_pred = best_model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    print(f"Melhor valor de k: {best_k}")
    print(f"Acurácia: {accuracy:.4f}")
    print("Relatório de Classificação:\n", classification_report(y_test, y_pred))


In [15]:
# Roda o treinamento e avaliação para cada vetorização
for vec_type in vectorizations:
    train_and_evaluate_model(vec_type)


 === Vetorização: bow ===
Melhor valor de k: 20
Acurácia: 0.6836
Relatório de Classificação:
               precision    recall  f1-score   support

    negative       0.67      0.72      0.69      4939
    positive       0.70      0.65      0.67      4978

    accuracy                           0.68      9917
   macro avg       0.68      0.68      0.68      9917
weighted avg       0.68      0.68      0.68      9917


 === Vetorização: ngram ===
Melhor valor de k: 19
Acurácia: 0.6733
Relatório de Classificação:
               precision    recall  f1-score   support

    negative       0.66      0.72      0.69      4939
    positive       0.69      0.63      0.66      4978

    accuracy                           0.67      9917
   macro avg       0.67      0.67      0.67      9917
weighted avg       0.67      0.67      0.67      9917


 === Vetorização: tfidf ===
Melhor valor de k: 20
Acurácia: 0.7835
Relatório de Classificação:
               precision    recall  f1-score   support

  