Câu 1: Phân phối Bernoulli và Multinomial

Cho tập dữ liệu Education.csv [https://drive.google.com/file/d/1Gn6YWHXRuPbTUXY5HFxM5C_tJHuZxCka/view?usp=sharing]
- Trong đó:
    - Text: Chứa đoạn văn bản liên quan đến chủ đề giáo dục.
    - Label: Chứa nhãn cảm xúc của văn bản [Tích cực (Positive)/Tiêu cực (Negative)].
- Yêu cầu: Áp dụng thuật toán Naive Bayes (phân phối bernoulli và phân phối Multinomial) để dự đoán cảm xúc của văn bản là tích cực hay tiêu cực và so sánh kết quả của hai phân phối đó.

In [5]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import BernoulliNB, MultinomialNB
from sklearn.metrics import accuracy_score, classification_report

data = pd.read_csv('Education.csv')

print(data.head())

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(data['Text'])

y = data['Label']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

bernoulli_nb = BernoulliNB()
bernoulli_nb.fit(X_train, y_train)
y_pred_bernoulli = bernoulli_nb.predict(X_test)

print(f"Bernoulli Naive Bayes Accuracy:, {accuracy_score(y_test, y_pred_bernoulli)*100:.2f}%")
print("Classification Report for BernoulliNB:\n", classification_report(y_test, y_pred_bernoulli))

multinomial_nb = MultinomialNB()
multinomial_nb.fit(X_train, y_train)
y_pred_multinomial = multinomial_nb.predict(X_test)

print(f"Multinomial Naive Bayes Accuracy:, {accuracy_score(y_test, y_pred_multinomial)*100:.2f}%")
print("Classification Report for MultinomialNB:\n", classification_report(y_test, y_pred_multinomial))

                                                Text     Label
0  The impact of educational reforms remains unce...  positive
1  Critics argue that recent improvements in the ...  negative
2  Innovative teaching methods have led to unexpe...  positive
3  Despite budget constraints, the school has man...  positive
4  The true effectiveness of online learning plat...  negative
Bernoulli Naive Bayes Accuracy:, 63.64%
Classification Report for BernoulliNB:
               precision    recall  f1-score   support

    negative       0.50      1.00      0.67         4
    positive       1.00      0.43      0.60         7

    accuracy                           0.64        11
   macro avg       0.75      0.71      0.63        11
weighted avg       0.82      0.64      0.62        11

Multinomial Naive Bayes Accuracy:, 72.73%
Classification Report for MultinomialNB:
               precision    recall  f1-score   support

    negative       0.57      1.00      0.73         4
    positive       1.0

Câu 2: Phân phối Gaussian

Cho tập dữ liệu Drug.csv [https://drive.google.com/file/d/1_G8oXkLlsauQkujZzJZJwibAWu5PgBXK/view?usp=sharing]
- Trong đó:
  - Age: Tuổi của bệnh nhân
  - Sex: Giới tính của bệnh nhân
  - BP: Mức huyết áp
  - Cholesterol: Mức cholesterol trong máu
  - Na_to_K: Tỷ lệ Natri và Kali trong máu
  - Drug: Loại thuốc [A/B/C/X/Y]
- Yêu cầu: Áp dụng thuật toán Naive Bayes (phân phối Gaussian) để dự đoán kết quả loại thuốc phù hợp với bệnh nhân.

In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score, classification_report

In [4]:
data = pd.read_csv('drug200.csv')

print(data.head())

labelencoder = LabelEncoder()

data['Sex'] = labelencoder.fit_transform(data['Sex'])  
data['BP'] = labelencoder.fit_transform(data['BP'])    
data['Cholesterol'] = labelencoder.fit_transform(data['Cholesterol'])  
data['Drug'] = labelencoder.fit_transform(data['Drug'])  

X = data[['Age', 'Sex', 'BP', 'Cholesterol', 'Na_to_K']]
y = data['Drug']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

gnb = GaussianNB()

gnb.fit(X_train, y_train)

y_pred = gnb.predict(X_test)


   Age Sex      BP Cholesterol  Na_to_K   Drug
0   23   F    HIGH        HIGH   25.355  DrugY
1   47   M     LOW        HIGH   13.093  drugC
2   47   M     LOW        HIGH   10.114  drugC
3   28   F  NORMAL        HIGH    7.798  drugX
4   61   F     LOW        HIGH   18.043  DrugY


In [5]:
print(f"Accuracy:, {accuracy_score(y_test, y_pred)*100:.2f}%")
print("Classification Report:\n", classification_report(y_test, y_pred))

Accuracy:, 92.50%
Classification Report:
               precision    recall  f1-score   support

           0       1.00      0.80      0.89        15
           1       0.86      1.00      0.92         6
           2       0.75      1.00      0.86         3
           3       0.83      1.00      0.91         5
           4       1.00      1.00      1.00        11

    accuracy                           0.93        40
   macro avg       0.89      0.96      0.92        40
weighted avg       0.94      0.93      0.92        40

