Câu 1: Phân phối Bernoulli và Multinomial

Cho tập dữ liệu Education.csv [https://drive.google.com/file/d/1Gn6YWHXRuPbTUXY5HFxM5C_tJHuZxCka/view?usp=sharing]
- Trong đó:
    - Text: Chứa đoạn văn bản liên quan đến chủ đề giáo dục.
    - Label: Chứa nhãn cảm xúc của văn bản [Tích cực (Positive)/Tiêu cực (Negative)].
- Yêu cầu: Áp dụng thuật toán Naive Bayes (phân phối bernoulli và phân phối Multinomial) để dự đoán cảm xúc của văn bản là tích cực hay tiêu cực và so sánh kết quả của hai phân phối đó.

In [86]:
import numpy as np 
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, f1_score
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import BernoulliNB, MultinomialNB ,GaussianNB

In [87]:
data = pd.read_csv(r"T:\20242025\machinelearning\Data\Education.csv")
print(data.head())

                                                Text     Label
0  The impact of educational reforms remains unce...  positive
1  Critics argue that recent improvements in the ...  negative
2  Innovative teaching methods have led to unexpe...  positive
3  Despite budget constraints, the school has man...  positive
4  The true effectiveness of online learning plat...  negative


In [88]:
# Tách dữ liệu thành features (text) và labels (nhãn)
data["Text"] = data["Text"].str.lower()
X = data["Text"]
X= np.array(X)
print(X)
y = data["Label"].map({'positive': 1, 'negative': 0})
y = np.array(y)
print(type(y))
print(y)

['the impact of educational reforms remains uncertain despite extensive research.'
 'critics argue that recent improvements in the school system are merely superficial.'
 'innovative teaching methods have led to unexpected challenges for both students and teachers.'
 'despite budget constraints, the school has managed to maintain a high level of academic excellence.'
 'the true effectiveness of online learning platforms is still a matter of debate among educators.'
 'the role of standardized testing in education remains a contentious issue.'
 'school curricula should focus more on practical skills and less on theoretical knowledge.'
 'educational technology has the potential to revolutionize learning, but it also poses risks.'
 'charter schools offer alternatives to traditional education, but their effectiveness is debated.'
 'teacher tenure policies aim to protect educators, but they also hinder accountability.'
 'special education programs strive to support diverse learners, but fund

In [89]:
# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Vector hóa dữ liệu văn bản thành ma trận đếm
vectorizer = CountVectorizer(binary=True)
X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)

# Huấn luyện mô hình Bernoulli Naive Bayes
bernoulli_nb = BernoulliNB()
bernoulli_nb.fit(X_train_vec, y_train)
y_pred_bernoulli = bernoulli_nb.predict(X_test_vec)

# Đo lường độ chính xác và F1-score của mô hình Bernoulli Naive Bayes
accuracy_bernoulli = accuracy_score(y_test, y_pred_bernoulli)
f1_bernoulli = f1_score(y_test, y_pred_bernoulli)

# Huấn luyện mô hình Multinomial Naive Bayes
multinomial_nb = MultinomialNB()
multinomial_nb.fit(X_train_vec, y_train)
y_pred_multinomial = multinomial_nb.predict(X_test_vec)

# Đo lường độ chính xác và F1-score của mô hình Multinomial Naive Bayes
accuracy_multinomial = accuracy_score(y_test, y_pred_multinomial)
f1_multinomial = f1_score(y_test, y_pred_multinomial)

In [90]:
# In kết quả
print("Bernoulli Naive Bayes - Accuracy:", accuracy_bernoulli)
print("Bernoulli Naive Bayes - F1-score:", f1_bernoulli)
print("Multinomial Naive Bayes - Accuracy:", accuracy_multinomial)
print("Multinomial Naive Bayes - F1-score:", f1_multinomial)

Bernoulli Naive Bayes - Accuracy: 0.5454545454545454
Bernoulli Naive Bayes - F1-score: 0.4444444444444444
Multinomial Naive Bayes - Accuracy: 0.6363636363636364
Multinomial Naive Bayes - F1-score: 0.6


Câu 2: Phân phối Gaussian

Cho tập dữ liệu Drug.csv [https://drive.google.com/file/d/1_G8oXkLlsauQkujZzJZJwibAWu5PgBXK/view?usp=sharing]
- Trong đó:
  - Age: Tuổi của bệnh nhân
  - Sex: Giới tính của bệnh nhân
  - BP: Mức huyết áp
  - Cholesterol: Mức cholesterol trong máu
  - Na_to_K: Tỷ lệ Natri và Kali trong máu
  - Drug: Loại thuốc [A/B/C/X/Y]
- Yêu cầu: Áp dụng thuật toán Naive Bayes (phân phối Gaussian) để dự đoán kết quả loại thuốc phù hợp với bệnh nhân.

In [128]:
import numpy as np 
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, f1_score
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import BernoulliNB, MultinomialNB, GaussianNB

In [129]:
data = pd.read_csv(r"T:\20242025\machinelearning\Data\drug200.csv")
print(data.head())

   Age Sex      BP Cholesterol  Na_to_K   Drug
0   23   F    HIGH        HIGH   25.355  DrugY
1   47   M     LOW        HIGH   13.093  drugC
2   47   M     LOW        HIGH   10.114  drugC
3   28   F  NORMAL        HIGH    7.798  drugX
4   61   F     LOW        HIGH   18.043  DrugY


In [130]:
# Chuyển cột "Na_to_K" và "Drug" của dữ liệu thành X
y = data[["Drug"]]
# Đảm bảo rằng việc chuyển đổi giá trị của cột "BP" và "Cholesterol" thành số được thực hiện đúng
b= data["BP"].map({'NORMAL': 1, 'LOW': 0, 'HIGH': 2})
a=data['Cholesterol'].map({'NORMAL': 1, 'HIGH': 0})
X= np.column_stack((b, a))
# Chia tập dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [132]:
# Initialize the Gaussian Naive Bayes model
gnb = GaussianNB()

# Train the model on the training data
gnb.fit(X_train, y_train)

# Make predictions on the testing data
y_pred = gnb.predict(X_test)

# Evaluate the model's performance
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)

# Output the results
print(f"Accuracy: {accuracy * 100:.2f}%")
print("\nClassification Report:\n", report)

Accuracy: 55.00%

Classification Report:
               precision    recall  f1-score   support

       DrugY       0.50      0.47      0.48        15
       drugA       0.40      1.00      0.57         6
       drugB       0.00      0.00      0.00         3
       drugC       0.83      1.00      0.91         5
       drugX       0.80      0.36      0.50        11

    accuracy                           0.55        40
   macro avg       0.51      0.57      0.49        40
weighted avg       0.57      0.55      0.52        40



  y = column_or_1d(y, warn=True)
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
