Câu 1: Phân phối Bernoulli và Multinomial

Cho tập dữ liệu Education.csv [https://drive.google.com/file/d/1Gn6YWHXRuPbTUXY5HFxM5C_tJHuZxCka/view?usp=sharing]
- Trong đó:
    - Text: Chứa đoạn văn bản liên quan đến chủ đề giáo dục.
    - Label: Chứa nhãn cảm xúc của văn bản [Tích cực (Positive)/Tiêu cực (Negative)].
- Yêu cầu: Áp dụng thuật toán Naive Bayes (phân phối bernoulli và phân phối Multinomial) để dự đoán cảm xúc của văn bản là tích cực hay tiêu cực và so sánh kết quả của hai phân phối đó.

In [1]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import BernoulliNB, MultinomialNB
from sklearn.metrics import accuracy_score, classification_report

In [2]:
dataset = "Education.csv"
data = pd.read_csv(dataset)
# Hiển thị dữ liệu đầu tiên để kiểm tra
print("Dữ liệu đầu tiên:")
print(data.head())
# Sử dụng LabelEncoder để chuyển đổi nhãn từ văn bản thành số
label_encoder = LabelEncoder()
data['Label_2'] = label_encoder.fit_transform(data['Label'])
# In dữ liệu sau khi mã hóa nhãn
print("\n Dữ liệu sau khi mã hóa nhãn: \n")
print(data[['Text', 'Label', 'Label_2']].head())
# Sử dụng CountVectorizer để chuyển đổi văn bản thành ma trận đặc trưng
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(data['Text'])  # Chuyển đổi cột 'Text' thành ma trận số
# Cột 'Label_2' là nhãn đã mã hóa (0: Negative, 1: Positive)
y = data['Label_2']
# Chia dữ liệu thành tập huấn luyện và tập kiểm thử
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Dữ liệu đầu tiên:
                                                Text     Label
0  The impact of educational reforms remains unce...  positive
1  Critics argue that recent improvements in the ...  negative
2  Innovative teaching methods have led to unexpe...  positive
3  Despite budget constraints, the school has man...  positive
4  The true effectiveness of online learning plat...  negative

 Dữ liệu sau khi mã hóa nhãn: 

                                                Text     Label  Label_2
0  The impact of educational reforms remains unce...  positive        1
1  Critics argue that recent improvements in the ...  negative        0
2  Innovative teaching methods have led to unexpe...  positive        1
3  Despite budget constraints, the school has man...  positive        1
4  The true effectiveness of online learning plat...  negative        0


In [3]:
# Áp dụng Bernoulli Naive Bayes
bernoulli_nb = BernoulliNB()  # Khởi tạo mô hình Bernoulli Naive Bayes
bernoulli_nb.fit(X_train, y_train)  # Huấn luyện mô hình
y_pred_bernoulli = bernoulli_nb.predict(X_test)  # Dự đoán trên tập kiểm thử
# Đánh giá kết quả Bernoulli Naive Bayes
print("\nBernoulli Naive Bayes Results:")
print("Accuracy:", accuracy_score(y_test, y_pred_bernoulli))
print("Classification Report:")
print(classification_report(y_test, y_pred_bernoulli))
# Áp dụng Multinomial Naive Bayes
multinomial_nb = MultinomialNB()  # Khởi tạo mô hình Multinomial Naive Bayes
multinomial_nb.fit(X_train, y_train)  # Huấn luyện mô hình
y_pred_multinomial = multinomial_nb.predict(X_test)  # Dự đoán trên tập kiểm thử
# Đánh giá kết quả Multinomial Naive Bayes
print("\nMultinomial Naive Bayes Results:")
print("Accuracy:", accuracy_score(y_test, y_pred_multinomial))
print("Classification Report:")
print(classification_report(y_test, y_pred_multinomial))
# So sánh tổng quát giữa hai mô hình
print("\n So sánh kết quả giữa Bernoulli và Multinomial Naive Bayes:")
print(f"Bernoulli Naive Bayes Accuracy: {accuracy_score(y_test, y_pred_bernoulli)}")
print(f"Multinomial Naive Bayes Accuracy: {accuracy_score(y_test, y_pred_multinomial)}")


Bernoulli Naive Bayes Results:
Accuracy: 0.6363636363636364
Classification Report:
              precision    recall  f1-score   support

           0       0.50      1.00      0.67         4
           1       1.00      0.43      0.60         7

    accuracy                           0.64        11
   macro avg       0.75      0.71      0.63        11
weighted avg       0.82      0.64      0.62        11


Multinomial Naive Bayes Results:
Accuracy: 0.7272727272727273
Classification Report:
              precision    recall  f1-score   support

           0       0.57      1.00      0.73         4
           1       1.00      0.57      0.73         7

    accuracy                           0.73        11
   macro avg       0.79      0.79      0.73        11
weighted avg       0.84      0.73      0.73        11


 So sánh kết quả giữa Bernoulli và Multinomial Naive Bayes:
Bernoulli Naive Bayes Accuracy: 0.6363636363636364
Multinomial Naive Bayes Accuracy: 0.7272727272727273


Câu 2: Phân phối Gaussian

Cho tập dữ liệu Drug.csv [https://drive.google.com/file/d/1_G8oXkLlsauQkujZzJZJwibAWu5PgBXK/view?usp=sharing]
- Trong đó:
  - Age: Tuổi của bệnh nhân
  - Sex: Giới tính của bệnh nhân
  - BP: Mức huyết áp
  - Cholesterol: Mức cholesterol trong máu
  - Na_to_K: Tỷ lệ Natri và Kali trong máu
  - Drug: Loại thuốc [A/B/C/X/Y]
- Yêu cầu: Áp dụng thuật toán Naive Bayes (phân phối Gaussian) để dự đoán kết quả loại thuốc phù hợp với bệnh nhân.

In [4]:
import pandas as pd  
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, classification_report

In [11]:
try:
    drug_data = pd.read_csv(r"drug200.csv")
    print(drug_data.head())  # Kiểm tra vài dòng dữ liệu đầu tiên
except Exception as e:
    print(f"Lỗi khi đọc file CSV:{e}")
    drug_data = None  

# Kiểm tra nếu drug_data đã được nạp
if drug_data is not None:
    # Mã hóa các biến phân loại
    label_encoders = {}
    for column in ['Sex', 'BP', 'Cholesterol', 'Drug']:
        le = LabelEncoder()
        drug_data[column] = le.fit_transform(drug_data[column])
        label_encoders[column] = le
    
    # Tách dữ liệu thành các đặc trưng và nhãn mục tiêu
    X = drug_data.drop(columns='Drug')
    y = drug_data['Drug']
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
    
    # Khởi tạo mô hình Naive Bayes Gaussian
    gnb = GaussianNB()
    gnb.fit(X_train, y_train)
    y_pred = gnb.predict(X_test)
    
    # Đánh giá mô hình
    accuracy = accuracy_score(y_test, y_pred)
    report = classification_report(y_test, y_pred, target_names=label_encoders['Drug'].classes_)
    
    print(f"Độ chính xác: {accuracy:.2f}")
    print(f"Báo cáo phân loại:\n{report}")
else:
    print("Không thể tiếp tục vì dữ liệu không được nạp.")
    

   Age Sex      BP Cholesterol  Na_to_K   Drug
0   23   F    HIGH        HIGH   25.355  DrugY
1   47   M     LOW        HIGH   13.093  drugC
2   47   M     LOW        HIGH   10.114  drugC
3   28   F  NORMAL        HIGH    7.798  drugX
4   61   F     LOW        HIGH   18.043  DrugY
Độ chính xác: 0.90
Báo cáo phân loại:
              precision    recall  f1-score   support

       DrugY       1.00      0.77      0.87        26
       drugA       0.88      1.00      0.93         7
       drugB       0.50      1.00      0.67         3
       drugC       0.75      1.00      0.86         6
       drugX       1.00      1.00      1.00        18

    accuracy                           0.90        60
   macro avg       0.82      0.95      0.87        60
weighted avg       0.94      0.90      0.90        60

