In [5]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import BernoulliNB, MultinomialNB
from sklearn.metrics import accuracy_score
import csv

data = pd.read_csv('Education.csv')
# Xử lý dữ liệu dưới dạng Text
X = data['Text']
# Chuyển về dạng số
y = data['Label'].map({'positive': 1, 'negative': 0})
print('Dữ Liệu chuyển về dạng số với 1 là positive và 0 là negative: ')
print(y)

# Chia tập dữ liệu để train và test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Sử dụng CountVectorizer để chuyển đổi văn bản thành ma trận đặc trưng
vectorizer = CountVectorizer(binary=False)
# Đổi dữ liệu văn bản thành ma trận đếm từ
X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)

# Áp dụng Bernoulli Naive Bayes
bernoulli_nb = BernoulliNB()
bernoulli_nb.fit(X_train_vec, y_train)
y_pred_bernoulli = bernoulli_nb.predict(X_test_vec)

# Áp dụng Multinomial Naive Bayes
multinomial_nb = MultinomialNB()
multinomial_nb.fit(X_train_vec, y_train)
y_pred_multinomial = multinomial_nb.predict(X_test_vec)

# Độ chính xác của 2 giải thuật
accuracy_bernoulli = accuracy_score(y_test, y_pred_bernoulli)
accuracy_multinomial = accuracy_score(y_test, y_pred_multinomial)
print("Kết quả của 2 giải thuật: ")
# In độ chính xác
print(f"Accuracy Bernoulli Naive Bayes: {accuracy_bernoulli}")
print(f"Accuracy Multinomial Naive Bayes: {accuracy_multinomial}")

Dữ Liệu chuyển về dạng số với 1 là positive và 0 là negative: 
0     1
1     0
2     1
3     1
4     0
5     1
6     1
7     1
8     1
9     1
10    1
11    1
12    1
13    1
14    1
15    0
16    0
17    0
18    0
19    0
20    0
21    0
22    0
23    0
24    0
25    1
26    1
27    1
28    1
29    1
30    1
31    1
32    1
33    0
34    0
35    0
36    0
37    0
38    0
39    0
40    0
41    1
42    1
43    1
44    1
45    1
46    0
47    0
48    0
49    0
50    0
51    0
Name: Label, dtype: int64
Kết quả của 2 giải thuật: 
Accuracy Bernoulli Naive Bayes: 0.5454545454545454
Accuracy Multinomial Naive Bayes: 0.6363636363636364


In [6]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, classification_report

# Đọc file CSV
df = pd.read_csv("drug200.csv")

# In thử file CSV
# print(df)

# Thay đổi dữ liệu sang số của drug200.csv
le_sex = LabelEncoder()
le_bp = LabelEncoder()
le_cholesterol = LabelEncoder()
le_drug = LabelEncoder()
df['Sex'] = le_sex.fit_transform(df['Sex'])
df['BP'] = le_bp.fit_transform(df['BP'])
df['Cholesterol'] = le_cholesterol.fit_transform(df['Cholesterol'])
df['Drug'] = le_drug.fit_transform(df['Drug'])

# Gắn nhãn cho dữ liệu
X = df[['Age', 'Sex', 'BP', 'Cholesterol', 'Na_to_K']]
y = df['Drug']

# Chia tập dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Tạo model để gắn Gaussian Naive Bayes
model = GaussianNB()

# Huấn luyện mô hình
model.fit(X_train, y_train)

# Dự đoán trên tập kiểm tra
y_pred = model.predict(X_test)

# Đánh giá mô hình
accuracy = accuracy_score(y_test, y_pred)

classification_rep = classification_report(y_test, y_pred, target_names=le_drug.classes_)

# Đổi kết quả dự đoán trên thành tên loại thuốc
predicted_drugs = le_drug.inverse_transform(y_pred)

# Lập ra results để in kết quả (chỉ in tên loại thuốc)
results = X_test.copy()
results['Actual_Drug'] = le_drug.inverse_transform(y_test)
results['Predicted_Drug'] = predicted_drugs
# print(results)
print(f'\nAccuracy: {accuracy * 100:.2f}%')
print('Classification Report:')
print(classification_rep)


Accuracy: 90.00%
Classification Report:
              precision    recall  f1-score   support

       DrugY       1.00      0.77      0.87        26
       drugA       0.88      1.00      0.93         7
       drugB       0.50      1.00      0.67         3
       drugC       0.75      1.00      0.86         6
       drugX       1.00      1.00      1.00        18

    accuracy                           0.90        60
   macro avg       0.82      0.95      0.87        60
weighted avg       0.94      0.90      0.90        60

