In [11]:
import pandas as pd

# Tải dữ liệu từ file CSV
url = 'https://drive.google.com/uc?id=1Gn6YWHXRuPbTUXY5HFxM5C_tJHuZxCka'
data = pd.read_csv(url)

# Xem qua dữ liệu
print(data.head())
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.preprocessing import LabelEncoder
from sklearn.naive_bayes import BernoulliNB, MultinomialNB
from sklearn.metrics import accuracy_score, classification_report

# Tách dữ liệu thành tập huấn luyện và tập kiểm tra
X = data['Text']
y = data['Label']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=42)

# Chuyển đổi văn bản thành số
vectorizer = CountVectorizer()
X_train_counts = vectorizer.fit_transform(X_train)
X_test_counts = vectorizer.transform(X_test)

# Chuyển đổi nhãn thành số
label_encoder = LabelEncoder()
y_train_encoded = label_encoder.fit_transform(y_train)
y_test_encoded = label_encoder.transform(y_test)


# Áp dụng Naive Bayes với phân phối Bernoulli
bernoulli_model = BernoulliNB()
bernoulli_model.fit(X_train_counts, y_train_encoded)
y_pred_bernoulli = bernoulli_model.predict(X_test_counts)

# Áp dụng Naive Bayes với phân phối Multinomial
multinomial_model = MultinomialNB()
multinomial_model.fit(X_train_counts, y_train_encoded)
y_pred_multinomial = multinomial_model.predict(X_test_counts)

# Dự đoán cho toàn bộ tập kiểm tra với mô hình BernoulliNB
y_pred_bernoulli_full = bernoulli_model.predict(X_test_counts)
y_pred_bernoulli_proba_full = bernoulli_model.predict_proba(X_test_counts)

# Dự đoán cho toàn bộ tập kiểm tra với mô hình MultinomialNB
y_pred_multinomial_full = multinomial_model.predict(X_test_counts)
y_pred_multinomial_proba_full = multinomial_model.predict_proba(X_test_counts)

# In kết quả dự đoán cho tập kiểm tra
print("Dự đoán với BernoulliNB cho toàn bộ tập kiểm tra:")
for text, true_label, pred, proba in zip(X_test, y_test, y_pred_bernoulli_full, y_pred_bernoulli_proba_full):
    true_label = true_label
    pred_label = label_encoder.inverse_transform([pred])[0]
    print(f"Văn bản: \"{text}\"")
    print(f"Nhãn thực tế: {true_label}")
    print(f"Dự đoán: {pred_label}")
    print(f"Xác suất dự đoán: {proba}")
    print()

print("Dự đoán với MultinomialNB cho toàn bộ tập kiểm tra:")
for text, true_label, pred, proba in zip(X_test, y_test, y_pred_multinomial_full, y_pred_multinomial_proba_full):
    true_label = true_label
    pred_label = label_encoder.inverse_transform([pred])[0]
    print(f"Văn bản: \"{text}\"")
    print(f"Nhãn thực tế: {true_label}")
    print(f"Dự đoán: {pred_label}")
    print(f"Xác suất dự đoán: {proba}")
    print()



                                                Text     Label
0  The impact of educational reforms remains unce...  positive
1  Critics argue that recent improvements in the ...  negative
2  Innovative teaching methods have led to unexpe...  positive
3  Despite budget constraints, the school has man...  positive
4  The true effectiveness of online learning plat...  negative
Dự đoán với BernoulliNB cho toàn bộ tập kiểm tra:
Văn bản: "Educational policies fail to address the diverse needs of students from different backgrounds."
Nhãn thực tế: negative
Dự đoán: negative
Xác suất dự đoán: [0.75657415 0.24342585]

Văn bản: "Educational initiatives often prioritize short-term gains over long-term sustainability."
Nhãn thực tế: positive
Dự đoán: negative
Xác suất dự đoán: [0.5156164 0.4843836]

Văn bản: "Educational policies should be responsive to the needs and aspirations of diverse communities."
Nhãn thực tế: negative
Dự đoán: positive
Xác suất dự đoán: [0.27586361 0.72413639]

Văn bản: "