Câu 1: Phân phối Bernoulli và Multinomial

Cho tập dữ liệu Education.csv [https://drive.google.com/file/d/1Gn6YWHXRuPbTUXY5HFxM5C_tJHuZxCka/view?usp=sharing]
- Trong đó:
    - Text: Chứa đoạn văn bản liên quan đến chủ đề giáo dục.
    - Label: Chứa nhãn cảm xúc của văn bản [Tích cực (Positive)/Tiêu cực (Negative)].
- Yêu cầu: Áp dụng thuật toán Naive Bayes (phân phối bernoulli và phân phối Multinomial) để dự đoán cảm xúc của văn bản là tích cực hay tiêu cực và so sánh kết quả của hai phân phối đó.

In [None]:
# Import thư viện và data
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import BernoulliNB, MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report


data1 = pd.read_csv('Education.csv')
data1.head()

Unnamed: 0,Text,Label
0,The impact of educational reforms remains unce...,positive
1,Critics argue that recent improvements in the ...,negative
2,Innovative teaching methods have led to unexpe...,positive
3,"Despite budget constraints, the school has man...",positive
4,The true effectiveness of online learning plat...,negative


In [None]:
# Tiền xử lý dữ liệu (ví dụ đơn giản)
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(data1['Text'])
y = data1['Label']

In [None]:
# Chia tập dữ liệu
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

In [None]:
# Huấn luyện mô hình
bnb = BernoulliNB()
bnb.fit(X_train, y_train)

mnb = MultinomialNB()
mnb.fit(X_train, y_train)

In [None]:
# Dự đoán
y_pred_bnb = bnb.predict(X_test)
y_pred_mnb = mnb.predict(X_test)

In [None]:
# Đánh giá
print("BernoulliNB:", accuracy_score(y_test, y_pred_bnb))
print(classification_report(y_test, y_pred_bnb))

print("MultinomialNB:", accuracy_score(y_test, y_pred_mnb))
print(classification_report(y_test, y_pred_mnb))

BernoulliNB: 0.7272727272727273
              precision    recall  f1-score   support

    negative       0.67      0.80      0.73         5
    positive       0.80      0.67      0.73         6

    accuracy                           0.73        11
   macro avg       0.73      0.73      0.73        11
weighted avg       0.74      0.73      0.73        11

MultinomialNB: 0.7272727272727273
              precision    recall  f1-score   support

    negative       0.67      0.80      0.73         5
    positive       0.80      0.67      0.73         6

    accuracy                           0.73        11
   macro avg       0.73      0.73      0.73        11
weighted avg       0.74      0.73      0.73        11



______________________________________________________________________

Câu 2: Phân phối Gaussian

Cho tập dữ liệu Drug.csv [https://drive.google.com/file/d/1_G8oXkLlsauQkujZzJZJwibAWu5PgBXK/view?usp=sharing]
- Trong đó:
  - Age: Tuổi của bệnh nhân
  - Sex: Giới tính của bệnh nhân
  - BP: Mức huyết áp
  - Cholesterol: Mức cholesterol trong máu
  - Na_to_K: Tỷ lệ Natri và Kali trong máu
  - Drug: Loại thuốc [A/B/C/X/Y]
- Yêu cầu: Áp dụng thuật toán Naive Bayes (phân phối Gaussian) để dự đoán kết quả loại thuốc phù hợp với bệnh nhân.

In [None]:
# Import thư viện
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score, classification_report
from sklearn.naive_bayes import GaussianNB
import pandas as pd

In [None]:
# Import data
data = pd.read_csv('drug.csv')
data.head()

Unnamed: 0,Age,Sex,BP,Cholesterol,Na_to_K,Drug
0,23,F,HIGH,HIGH,25.355,DrugY
1,47,M,LOW,HIGH,13.093,drugC
2,47,M,LOW,HIGH,10.114,drugC
3,28,F,NORMAL,HIGH,7.798,drugX
4,61,F,LOW,HIGH,18.043,DrugY


In [None]:
# Mã hóa thuộc tính
le = LabelEncoder()
data['Sex'] = le.fit_transform(data['Sex'])
data['BP'] = le.fit_transform(data['BP'])
data['Cholesterol'] = le.fit_transform(data['Cholesterol'])

In [None]:
# Chia tập dữ liệu
X = data.drop('Drug', axis=1)
y = data['Drug']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Huấn luyện mô hình
gnb = GaussianNB()
gnb.fit(X_train, y_train)

In [None]:
# Dự đoán
y_pred = gnb.predict(X_test)

In [None]:
# Đánh giá
print("Accuracy:", accuracy_score(y_test, y_pred))
print(classification_report(y_test, y_pred))

Accuracy: 0.925
              precision    recall  f1-score   support

       DrugY       1.00      0.80      0.89        15
       drugA       0.86      1.00      0.92         6
       drugB       0.75      1.00      0.86         3
       drugC       0.83      1.00      0.91         5
       drugX       1.00      1.00      1.00        11

    accuracy                           0.93        40
   macro avg       0.89      0.96      0.92        40
weighted avg       0.94      0.93      0.92        40

