In [3]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import joblib

In [4]:
# Cargar el DataFrame normalizado desde el archivo CSV
df = pd.read_csv('../../data/data_normalized.csv')

# Dividir los datos en entrenamiento y prueba
X = df['normalized_review']
y = df['sentiment']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear matriz TF-IDF para representar las reseñas como vectores numéricos
tfidf_vectorizer = TfidfVectorizer(max_features=5000)  # Ajusta el número de características máximas según sea necesario
X_train_tfidf = tfidf_vectorizer.fit_transform(X_train)
X_test_tfidf = tfidf_vectorizer.transform(X_test)

# Guardar el vectorizador TF-IDF
joblib.dump(tfidf_vectorizer, '../gui/tfidf_vectorizer.pkl')

# Entrenar el clasificador Naive Bayes
nb_classifier = MultinomialNB()
nb_classifier.fit(X_train_tfidf, y_train)

# Guardar el modelo Naive Bayes entrenado
joblib.dump(nb_classifier, 'naive_bayes_model.pkl')

# Predecir en el conjunto de prueba
y_pred = nb_classifier.predict(X_test_tfidf)

In [5]:
# Evaluar el rendimiento del clasificador Naive Bayes
accuracy = accuracy_score(y_test, y_pred)
print(f'Precisión del clasificador Naive Bayes: {accuracy:.4f}\n')

Precisión del clasificador Naive Bayes: 0.8526



In [6]:
print('Matriz de Confusión:')
print(confusion_matrix(y_test, y_pred), '\n')

Matriz de Confusión:
[[4196  765]
 [ 709 4330]] 



In [7]:
print('Reporte de Clasificación:')
print(classification_report(y_test, y_pred))

Reporte de Clasificación:
              precision    recall  f1-score   support

    negative       0.86      0.85      0.85      4961
    positive       0.85      0.86      0.85      5039

    accuracy                           0.85     10000
   macro avg       0.85      0.85      0.85     10000
weighted avg       0.85      0.85      0.85     10000

