Câu 1: Phân phối Bernoulli và Multinomial

Cho tập dữ liệu Education.csv [https://drive.google.com/file/d/1Gn6YWHXRuPbTUXY5HFxM5C_tJHuZxCka/view?usp=sharing]
- Trong đó:
    - Text: Chứa đoạn văn bản liên quan đến chủ đề giáo dục.
    - Label: Chứa nhãn cảm xúc của văn bản [Tích cực (Positive)/Tiêu cực (Negative)].
- Yêu cầu: Áp dụng thuật toán Naive Bayes (phân phối bernoulli và phân phối Multinomial) để dự đoán cảm xúc của văn bản là tích cực hay tiêu cực và so sánh kết quả của hai phân phối đó.

In [1]:
import pandas as pd

# Đọc file CSV được tải lên
file_path = 'Education.csv'
data = pd.read_csv(file_path)

# Hiển thị 5 dòng đầu tiên để xem cấu trúc dữ liệu
data.head()

Unnamed: 0,Text,Label
0,The impact of educational reforms remains unce...,positive
1,Critics argue that recent improvements in the ...,negative
2,Innovative teaching methods have led to unexpe...,positive
3,"Despite budget constraints, the school has man...",positive
4,The true effectiveness of online learning plat...,negative


In [2]:
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.preprocessing import LabelEncoder
import string

# Tiền xử lý dữ liệu văn bản
def preprocess_text(text):
    # Loại bỏ dấu câu và chuyển về chữ thường
    text = text.translate(str.maketrans('', '', string.punctuation)).lower()
    return text

# Áp dụng tiền xử lý cho cột Text
data['Text'] = data['Text'].apply(preprocess_text)

# Chuyển đổi nhãn 'positive' và 'negative' sang dạng số
label_encoder = LabelEncoder()
data['Label'] = label_encoder.fit_transform(data['Label'])

In [3]:
# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(data['Text'], data['Label'], test_size=0.2, random_state=42)

# Biểu diễn dữ liệu văn bản thành vector
vectorizer = CountVectorizer(stop_words='english')
X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)

X_train_vec.shape, X_test_vec.shape, y_train.shape, y_test.shape

((41, 211), (11, 211), (41,), (11,))

In [4]:
from sklearn.naive_bayes import BernoulliNB, MultinomialNB
from sklearn.metrics import accuracy_score

# Phân phối Bernoulli
bernoulli_nb = BernoulliNB()
bernoulli_nb.fit(X_train_vec, y_train)
y_pred_bernoulli = bernoulli_nb.predict(X_test_vec)
accuracy_bernoulli = accuracy_score(y_test, y_pred_bernoulli)

# Phân phối Multinomial
multinomial_nb = MultinomialNB()
multinomial_nb.fit(X_train_vec, y_train)
y_pred_multinomial = multinomial_nb.predict(X_test_vec)
accuracy_multinomial = accuracy_score(y_test, y_pred_multinomial)

print(f"Kết quả của mô hình Bernoulli: {accuracy_bernoulli}\nKết quả của mô hình Multinomial: {accuracy_multinomial}")

Kết quả của mô hình Bernoulli: 0.5454545454545454
Kết quả của mô hình Multinomial: 0.5454545454545454


Câu 2: Phân phối Gaussian

Cho tập dữ liệu Drug.csv [https://drive.google.com/file/d/1_G8oXkLlsauQkujZzJZJwibAWu5PgBXK/view?usp=sharing]
- Trong đó:
  - Age: Tuổi của bệnh nhân
  - Sex: Giới tính của bệnh nhân
  - BP: Mức huyết áp
  - Cholesterol: Mức cholesterol trong máu
  - Na_to_K: Tỷ lệ Natri và Kali trong máu
  - Drug: Loại thuốc [A/B/C/X/Y]
- Yêu cầu: Áp dụng thuật toán Naive Bayes (phân phối Gaussian) để dự đoán kết quả loại thuốc phù hợp với bệnh nhân.

In [5]:
import pandas as pd
import csv

file_path_2 = "drug.csv"
data_drug = pd.read_csv(file_path_2)

data_drug.head()

Unnamed: 0,Age,Sex,BP,Cholesterol,Na_to_K,Drug
0,23,F,HIGH,HIGH,25.355,DrugY
1,47,M,LOW,HIGH,13.093,drugC
2,47,M,LOW,HIGH,10.114,drugC
3,28,F,NORMAL,HIGH,7.798,drugX
4,61,F,LOW,HIGH,18.043,DrugY


In [6]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder

#Xử lý dữ liệu đưa các thuộc tính về dạng số
label_encoders = {}
for col in ['Sex', 'BP', 'Cholesterol', 'Drug']:
    le = LabelEncoder()
    data_drug[col] = le.fit_transform(data_drug[col])
    label_encoders[col] = le
label_encoders

{'Sex': LabelEncoder(),
 'BP': LabelEncoder(),
 'Cholesterol': LabelEncoder(),
 'Drug': LabelEncoder()}

In [7]:
#Đưa dữ liệu thành các cột tính năng (X) và mục tiêu (Y)
X = data_drug.drop('Drug', axis=1)
y = data_drug['Drug']

# Chia dữ liệu thành các tập huấn luyện và thử nghiệm
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

X.head()

Unnamed: 0,Age,Sex,BP,Cholesterol,Na_to_K
0,23,0,0,0,25.355
1,47,1,1,0,13.093
2,47,1,1,0,10.114
3,28,0,2,0,7.798
4,61,0,1,0,18.043


In [8]:
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, classification_report

# Đưa mô hình Naive_bayes vào bài toán
gnb = GaussianNB()

# Chạy mô hình
gnb.fit(X_train, y_train)

# Đưa ra dự đoán về bộ kiểm tra
y_pred = gnb.predict(X_test)

# Đánh giá mô hình và diễn giải
accuracy = accuracy_score(y_test, y_pred)
classification_rep = classification_report(y_test, y_pred, target_names=label_encoders['Drug'].classes_)

print(accuracy, classification_rep)

0.925               precision    recall  f1-score   support

       DrugY       1.00      0.80      0.89        15
       drugA       0.86      1.00      0.92         6
       drugB       0.75      1.00      0.86         3
       drugC       0.83      1.00      0.91         5
       drugX       1.00      1.00      1.00        11

    accuracy                           0.93        40
   macro avg       0.89      0.96      0.92        40
weighted avg       0.94      0.93      0.92        40

