Câu 1: Phân phối Bernoulli và Multinomial

Cho tập dữ liệu Education.csv [https://drive.google.com/file/d/1Gn6YWHXRuPbTUXY5HFxM5C_tJHuZxCka/view?usp=sharing]
- Trong đó:
    - Text: Chứa đoạn văn bản liên quan đến chủ đề giáo dục.
    - Label: Chứa nhãn cảm xúc của văn bản [Tích cực (Positive)/Tiêu cực (Negative)].
- Yêu cầu: Áp dụng thuật toán Naive Bayes (phân phối bernoulli và phân phối Multinomial) để dự đoán cảm xúc của văn bản là tích cực hay tiêu cực và so sánh kết quả của hai phân phối đó.

In [15]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import BernoulliNB, MultinomialNB
from sklearn.metrics import accuracy_score, classification_report

In [16]:
data = pd.read_csv('~/Documents/thuchanhhocmayungdung/Lab2/Data/Education.csv')
print(data)

                                                 Text     Label
0   The impact of educational reforms remains unce...  positive
1   Critics argue that recent improvements in the ...  negative
2   Innovative teaching methods have led to unexpe...  positive
3   Despite budget constraints, the school has man...  positive
4   The true effectiveness of online learning plat...  negative
5   The role of standardized testing in education ...  positive
6   School curricula should focus more on practica...  positive
7   Educational technology has the potential to re...  positive
8   Charter schools offer alternatives to traditio...  positive
9   Teacher tenure policies aim to protect educato...  positive
10  Special education programs strive to support d...  positive
11  Early childhood education lays the foundation ...  positive
12  Higher education should prioritize critical th...  positive
13  Online learning platforms provide flexibility,...  positive
14  Education funding disparities perpet

In [17]:
text, label = data['Text'], data['Label']
data.head(5)

Unnamed: 0,Text,Label
0,The impact of educational reforms remains unce...,positive
1,Critics argue that recent improvements in the ...,negative
2,Innovative teaching methods have led to unexpe...,positive
3,"Despite budget constraints, the school has man...",positive
4,The true effectiveness of online learning plat...,negative


In [18]:
X_train, X_test, y_train, y_test = train_test_split(data['Text'], data['Label'], test_size=0.2, random_state=42)


In [19]:
# Sử dụng CountVectorizer để chuyển đổi văn bản thành ma trận đặc trưng
vectorizer = CountVectorizer()  
X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)


In [20]:
#Áp dụng mô hình Bernoulli Naive Bayes
bernoulli_nb = BernoulliNB()
bernoulli_nb.fit(X_train_vec, y_train)
y_pred_bernoulli = bernoulli_nb.predict(X_test_vec)

# Áp dụng mô hình Multinomial Naive Bayes
multinomial_nb = MultinomialNB()
multinomial_nb.fit(X_train_vec, y_train)
y_pred_multinomial = multinomial_nb.predict(X_test_vec)

In [21]:
# Đánh giá mô hình Bernoulli
print(f"Độ chính xác của BernoulliNB: {accuracy_score(y_test, y_pred_bernoulli)*100:.2f}")

# Đánh giá mô hình Multinomial
print(f"Độ chính xác của MultinomialNB: {accuracy_score(y_test, y_pred_multinomial):.2f}")



Độ chính xác của BernoulliNB: 54.55
Độ chính xác của MultinomialNB: 0.64


In [22]:
report_multinomial = classification_report(y_test, y_pred_multinomial, target_names=["Negative", "Positive"])
report_bernoulli = classification_report(y_test, y_pred_bernoulli, target_names=["Negative", "Positive"])


print("\nClassification Report BernoulliNB:\n", report_bernoulli)
print("\nClassification Report MultinomialNB:\n", report_multinomial)


Classification Report BernoulliNB:
               precision    recall  f1-score   support

    Negative       0.44      1.00      0.62         4
    Positive       1.00      0.29      0.44         7

    accuracy                           0.55        11
   macro avg       0.72      0.64      0.53        11
weighted avg       0.80      0.55      0.51        11


Classification Report MultinomialNB:
               precision    recall  f1-score   support

    Negative       0.50      1.00      0.67         4
    Positive       1.00      0.43      0.60         7

    accuracy                           0.64        11
   macro avg       0.75      0.71      0.63        11
weighted avg       0.82      0.64      0.62        11



In [23]:
# So sánh kết quả
if accuracy_score(y_test, y_pred_bernoulli) > accuracy_score(y_test, y_pred_multinomial):
    print("Mô hình BernoulliNB tốt hơn.")
elif accuracy_score(y_test, y_pred_multinomial) > accuracy_score(y_test, y_pred_bernoulli):
    print("Mô hình MultinomialNB tốt hơn.")
else:
    print("Hai mô hình có độ chính xác tương đương.")


Mô hình MultinomialNB tốt hơn.


In [None]:
!streamlit run web.py


Câu 2: Phân phối Gaussian

Cho tập dữ liệu Drug.csv [https://drive.google.com/file/d/1_G8oXkLlsauQkujZzJZJwibAWu5PgBXK/view?usp=sharing]
- Trong đó:
  - Age: Tuổi của bệnh nhân
  - Sex: Giới tính của bệnh nhân
  - BP: Mức huyết áp
  - Cholesterol: Mức cholesterol trong máu
  - Na_to_K: Tỷ lệ Natri và Kali trong máu
  - Drug: Loại thuốc [A/B/C/X/Y]
- Yêu cầu: Áp dụng thuật toán Naive Bayes (phân phối Gaussian) để dự đoán kết quả loại thuốc phù hợp với bệnh nhân.

In [19]:
import numpy as np 
from sklearn.naive_bayes import GaussianNB
import pandas as pd


In [20]:
data = pd.read_csv("~/Documents/thuchanhhocmayungdung/Lab2/Data/drug200.csv")
print(data)

     Age Sex      BP Cholesterol  Na_to_K   Drug
0     23   F    HIGH        HIGH   25.355  DrugY
1     47   M     LOW        HIGH   13.093  drugC
2     47   M     LOW        HIGH   10.114  drugC
3     28   F  NORMAL        HIGH    7.798  drugX
4     61   F     LOW        HIGH   18.043  DrugY
..   ...  ..     ...         ...      ...    ...
195   56   F     LOW        HIGH   11.567  drugC
196   16   M     LOW        HIGH   12.006  drugC
197   52   M  NORMAL        HIGH    9.894  drugX
198   23   M  NORMAL      NORMAL   14.020  drugX
199   40   F     LOW      NORMAL   11.349  drugX

[200 rows x 6 columns]


In [21]:
print(data.head())

   Age Sex      BP Cholesterol  Na_to_K   Drug
0   23   F    HIGH        HIGH   25.355  DrugY
1   47   M     LOW        HIGH   13.093  drugC
2   47   M     LOW        HIGH   10.114  drugC
3   28   F  NORMAL        HIGH    7.798  drugX
4   61   F     LOW        HIGH   18.043  DrugY


In [23]:
from sklearn.preprocessing import LabelEncoder
# LabelEncoder: Dùng để mã hóa các biến phân loại như Sex, BP, và Cholesterol thành các số nguyên (0, 1, 2 ...)
bd_sex = LabelEncoder() 
bd_bp = LabelEncoder()
bd_cholesterol = LabelEncoder()

data['Sex'] = bd_sex.fit_transform(data['Sex'])#fit_transform: Hàm này giúp mã hóa các giá trị phân loại trong cột tương ứng thành các số.
#Vd: cột Sex có giá trị "Male" và "Female", sau khi sử dụng fit_transform(), sẽ trở thành 0 (Male) và 1 (Female).
data['BP'] = bd_bp.fit_transform(data['BP'])
data['Cholesterol'] = bd_cholesterol.fit_transform(data['Cholesterol'])
print(data['Sex'], data['BP'], data['Cholesterol'])


0      0
1      1
2      1
3      0
4      0
      ..
195    0
196    1
197    1
198    1
199    0
Name: Sex, Length: 200, dtype: int64 0      0
1      1
2      1
3      2
4      1
      ..
195    1
196    1
197    2
198    2
199    1
Name: BP, Length: 200, dtype: int64 0      0
1      0
2      0
3      0
4      0
      ..
195    0
196    0
197    0
198    1
199    1
Name: Cholesterol, Length: 200, dtype: int64


In [24]:
from sklearn.model_selection import train_test_split
X = data[['Age', 'Sex', 'BP', 'Cholesterol', 'Na_to_K']]
y = data['Drug']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [25]:
gnb = GaussianNB()
gnb.fit(X_train, y_train)


In [26]:
y_pred = gnb.predict(X_test)


In [27]:
print(f"Predicted labels: {y_pred}")
print(f"Actual labels: {y_test.values}")


Predicted labels: ['drugX' 'drugA' 'drugX' 'drugC' 'DrugY' 'drugB' 'DrugY' 'drugX' 'drugA'
 'drugX' 'drugA' 'drugX' 'drugC' 'drugA' 'drugB' 'DrugY' 'drugB' 'drugX'
 'drugC' 'DrugY' 'drugB' 'drugX' 'drugX' 'DrugY' 'DrugY' 'DrugY' 'drugC'
 'drugX' 'DrugY' 'drugX' 'DrugY' 'drugC' 'drugC' 'DrugY' 'drugA' 'DrugY'
 'drugX' 'drugA' 'DrugY' 'drugA']
Actual labels: ['drugX' 'DrugY' 'drugX' 'drugC' 'DrugY' 'DrugY' 'DrugY' 'drugX' 'drugA'
 'drugX' 'drugA' 'drugX' 'DrugY' 'drugA' 'drugB' 'DrugY' 'drugB' 'drugX'
 'drugC' 'DrugY' 'drugB' 'drugX' 'drugX' 'DrugY' 'DrugY' 'DrugY' 'drugC'
 'drugX' 'DrugY' 'drugX' 'DrugY' 'drugC' 'drugC' 'DrugY' 'drugA' 'DrugY'
 'drugX' 'drugA' 'DrugY' 'drugA']


In [28]:
from sklearn.metrics import accuracy_score# hàm tính dộ chính xác
tinh_do_chinh_xac = accuracy_score(y_test, y_pred)
print(f"Độ chính xác là: {tinh_do_chinh_xac:.2f}")


Độ chính xác là: 0.93
