In [30]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report
import random

# Dataset với các comment mẫu (positive và negative)
positive_comments = [
    "Dịch vụ rất tốt, nhân viên thân thiện",
    "Tôi rất hài lòng, sẽ quay lại lần nữa",
    "Rất tuyệt vời, mọi thứ đều ổn",
    "Giá cả hợp lý và chất lượng ổn định",
    "Thức ăn rất ngon và phục vụ nhiệt tình",
    "Không gian thoải mái, nhân viên chu đáo",
    "Chất lượng sản phẩm rất tốt, đáng tiền",
    "Dịch vụ nhanh chóng và tiện lợi",
    "Tôi rất hài lòng với trải nghiệm ở đây",
    "Sản phẩm đa dạng và giá cả hợp lý",
    "Nhân viên nhiệt tình, dịch vụ nhanh chóng",
    "Sản phẩm tốt và chất lượng ổn",
    "Không gian sạch sẽ, thoải mái",
    "Dịch vụ rất nhanh và dễ dàng",
    "Sản phẩm bền và đẹp"
]

negative_comments = [
    "Thức ăn tệ và phục vụ chậm chạp",
    "Không đáng tiền, thật thất vọng",
    "Không bao giờ quay lại, tệ hại!",
    "Dịch vụ chậm, nhân viên không thân thiện",
    "Thức ăn nguội lạnh và không ngon",
    "Giá quá cao so với chất lượng",
    "Nhân viên thô lỗ và không chuyên nghiệp",
    "Không gian ồn ào, khó chịu",
    "Đặt hàng nhưng giao sai sản phẩm",
    "Sản phẩm kém chất lượng, không dùng được",
    "Không phục vụ kịp thời, rất bực bội",
    "Sản phẩm dễ hư hỏng, không đáng tiền",
    "Nhân viên không hỗ trợ tốt, thái độ kém",
    "Không gian bừa bộn, không sạch sẽ",
    "Không đáng để quay lại lần nữa"
]

# Tạo dataset với 1000 comment ngẫu nhiên
comments = []
labels = []
for _ in range(500):
    comments.append(random.choice(positive_comments))
    labels.append(1)  # 1 cho comment tích cực
for _ in range(500):
    comments.append(random.choice(negative_comments))
    labels.append(0)  # 0 cho comment tiêu cực

# Bước 1: Chuyển đổi text thành vector số bằng TfidfVectorizer
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(comments)

# Bước 2: Chia dữ liệu thành tập huấn luyện và kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.25, random_state=42)

# Bước 3: Sử dụng Multinomial Naive Bayes để huấn luyện mô hình
model = MultinomialNB()
model.fit(X_train, y_train)

# Bước 4: Dự đoán trên tập kiểm tra
y_pred = model.predict(X_test)

# Bước 5: Đánh giá mô hình
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.4f}")

# In báo cáo chi tiết về độ chính xác, recall và F1-score
print("\nClassification Report:")
print(classification_report(y_test, y_pred))

# Bước 6: Chuẩn đoán cảm xúc của một số câu mới
new_comments = [
    "Dịch vụ tuyệt vời và nhân viên thân thiện",
    "Thức ăn không ngon, rất thất vọng",
    "Chất lượng tuyệt vời và nhanh chóng",
    "Giá quá cao so với chất lượng sản phẩm"
]

# Chuyển đổi các comment mới thành vector số và dự đoán cảm xúc
new_comments_vectorized = vectorizer.transform(new_comments)
new_predictions = model.predict(new_comments_vectorized)

# In kết quả dự đoán
for comment, prediction in zip(new_comments, new_predictions):
    sentiment = "Positive" if prediction == 1 else "Negative"
    print(f"Comment: '{comment}' => Predicted Sentiment: {sentiment}")


Accuracy: 1.0000

Classification Report:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00       128
           1       1.00      1.00      1.00       122

    accuracy                           1.00       250
   macro avg       1.00      1.00      1.00       250
weighted avg       1.00      1.00      1.00       250

Comment: 'Dịch vụ tuyệt vời và nhân viên thân thiện' => Predicted Sentiment: Positive
Comment: 'Thức ăn không ngon, rất thất vọng' => Predicted Sentiment: Negative
Comment: 'Chất lượng tuyệt vời và nhanh chóng' => Predicted Sentiment: Positive
Comment: 'Giá quá cao so với chất lượng sản phẩm' => Predicted Sentiment: Negative
