# Thuật toán Naive Bayes

## **1. Khái niệm**

- Naive Bayes là một thuật toán học máy phổ biến trong lĩnh vực học máy và thống kê, đặc biệt là trong bài toán phân loại. Thuật toán này dựa trên định lý Bayes với giả định "ngây thơ" (naive) rằng các đặc trưng đầu vào là độc lập với nhau.

- Naive Bayes chủ yếu sử dụng:
    - `Định lý Bayes` là nền tảng, dựa trên giả định độc lập giữa các đặc trưng (biến ngẫu nhiên) của dữ liệu khi đã biết lớp của dữ liệu đó. Naive Bayes được sử dụng để phân loại dữ liệu dựa trên các đặc trưng có sẵn.
    - `Định lý độc lập (Independence assumption)`: Đây là giả định "ngây thơ" (naive assumption) trong Naive Bayes, giả định rằng các đặc trưng (biến ngẫu nhiên) của mẫu dữ liệu là độc lập với nhau. Mặc dù giả định này thường không chính xác trong thực tế, nó giúp giảm bớt độ phức tạp của mô hình và dễ dàng tính toán xác suất có điều kiện P(X | C_k) bằng cách nhân các xác suất riêng lẻ của các đặc trưng lại với nhau.

## **2. Đặc trưng**

- **Giả định độc lập**:  Naive Bayes giả định rằng các đặc trưng của mẫu dữ liệu là độc lập với nhau khi biết lớp của mẫu dữ liệu đó. Điều này có nghĩa là xác suất của mỗi đặc trưng không phụ thuộc vào các đặc trưng khác trong mẫu dữ liệu. Tuy giả định này thường không hoàn toàn chính xác trong thực tế, nhưng nó giúp đơn giản hóa tính toán và thường cho kết quả tốt đối với các bài toán phân loại.

- **Xác suất có điều kiện**: Dựa trên định lý Bayes

- **Mô hình xác suất**: Naive Bayes là một mô hình xác suất (probabilistic model), nghĩa là nó dựa trên xác suất để đưa ra dự đoán. Thuật toán này không chỉ đưa ra dự đoán về lớp của mẫu dữ liệu mà còn cung cấp các xác suất để đánh giá mức độ tin cậy của dự đoán đó.

- **Tính đơn giản và dễ triển khai**: Naive Bayes có cấu trúc đơn giản và dễ triển khai. Vì vậy, nó thường được sử dụng làm một thuật toán cơ sở cho các bài toán phân loại và trong các hệ thống thời gian thực.

## **3. Tiêu chí đánh giá mô hình**

- `Accuracy (Độ chính xác)`: Là tỷ lệ số lượng dự đoán đúng trên tổng số lượng dự đoán. Đây là phương pháp đánh giá cơ bản và thường được sử dụng đối với các bài toán phân loại có sự cân bằng giữa các lớp.

- `Precision (Độ chính xác của lớp)`: Được tính bằng tỷ lệ số lượng các mẫu dự đoán là đúng trong số các mẫu được dự đoán là positive (được phân loại là positive).

- `Recall (Tỉ lệ bắt được)`: Được tính bằng tỷ lệ số lượng các mẫu dự đoán là đúng trong số các mẫu thực sự là positive.

- `F1-score`: Là trung bình điều hòa giữa precision và recall, cung cấp một đánh giá tổng thể về hiệu suất của mô hình.

- `Confusion Matrix (Ma trận nhầm lẫn)`: Là một bảng xác định số lượng các dự đoán đúng và sai của mô hình trên từng lớp.

- `ROC Curve và AUC (Area Under Curve)`: Được sử dụng đặc biệt trong các bài toán phân loại nhị phân để đánh giá hiệu suất của mô hình.

- `Cross-validation`: Là kỹ thuật chia dữ liệu thành các tập train và test khác nhau để đánh giá hiệu suất của mô hình.

## **4. Ví dụ bằng sklearn**

In [1]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score

# Load iris dataset
iris = load_iris()
X = iris.data
y = iris.target

# Split data into training and test sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Initialize Gaussian Naive Bayes classifier
gnb = GaussianNB()

# Train the classifier
gnb.fit(X_train, y_train)

# Predict on the test data
y_pred = gnb.predict(X_test)

# Calculate accuracy
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy using Gaussian Naive Bayes: {accuracy}")


Accuracy using Gaussian Naive Bayes: 0.9777777777777777


## **5. Các hàm cơ bản**

**1. Tương ứng với các loại phân phối (Sử dụng thư viện `sklearn.naive_bayes`)**

- **`GaussianNB()`** - Phân phối Gauss
- **`MultinomialNB()`** - Phân phối siêu bội
- **`BernouliNB()`** - Phân phối nhị thức
- **`ComplementNB()`** - Dùng cho các bài toán phân loại văn bản và các bài toán có đặc trưng đếm.


**2. Các hàm phổ thông (Sử dụng thư viện `sklearn.model_selection`)**

- **`fit(X, y)`**: Huấn luyện mô hình trên tập huấn luyện.
- **`predict(X)`**: Dự đoán nhãn cho tập dữ liệu mới.
- **`predict_proba(X)`**: Trả về xác suất của các lớp cho từng mẫu.
- **`score(X, y)`**: Tính toán độ chính xác của mô hình trên tập dữ liệu kiểm tra.

In [10]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score

# Đọc dữ liệu từ file Excel
df = pd.read_excel(r"D:\Root\DataScience\TH\CoBan\BDKH_TTX\DanhSachSinhVien.xlsx")
df = df.fillna(0)

# Ánh xạ điểm số tổng kết thành nhãn Pass/Fail
df['KetQua'] = df['TỔNG'].apply(lambda x: 'Pass' if x >= 5 else 'Fail')

# Chọn lại các cột dữ liệu quan trọng
X = df[['BC giữa kì (30%)', 'BC cuối kì (50%)']]
y = df['KetQua']

# Chia dữ liệu thành train và test set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Khởi tạo và huấn luyện mô hình Gaussian Naive Bayes
gnb = GaussianNB()
gnb.fit(X_train, y_train)

# Dự đoán trên tập huấn luyện
y_train_pred = gnb.predict(X_train)

# Dự đoán trên tập test
y_test_pred = gnb.predict(X_test)

# Đánh giá độ chính xác của mô hình trên tập huấn luyện và tập test
train_accuracy = accuracy_score(y_train, y_train_pred)
test_accuracy = accuracy_score(y_test, y_test_pred)

print(f"Độ chính xác trên tập huấn luyện: {train_accuracy}")
print(f"Độ chính xác trên tập test: {test_accuracy}")


Độ chính xác trên tập huấn luyện: 1.0
Độ chính xác trên tập test: 1.0


## **6. Dấu hiệu mô hình không đáng tin cậy**

- **Dữ liệu không phù hợp**: Khi dữ liệu không tuân theo giả định của Naive Bayes về độc lập giữa các biến độc lập (independence assumption). Ví dụ, nếu có sự phụ thuộc mạnh mẽ giữa các biến độc lập thì Naive Bayes có thể dự đoán sai.

- **Phân phối dữ liệu không phù hợp**: Nếu dữ liệu của bạn không phân phối theo phân phối Gaussian (đối với Gaussian Naive Bayes) hoặc không phân phối đồng nhất (uniform distribution), mô hình có thể không phù hợp và dẫn đến dự đoán không chính xác.

- **Quá ít dữ liệu huấn luyện**: Khi số lượng dữ liệu huấn luyện quá ít, mô hình Naive Bayes có thể bị overfitting (hiệu ứng quá khớp) và không thể tổng quát hóa tốt trên dữ liệu mới.

- **Biến độc lập không hoàn toàn đúng**: Giả định về độc lập giữa các biến độc lập trong Naive Bayes là một giả định mạnh mẽ và không phải lúc nào cũng đúng trong thực tế. Nếu các biến có sự phụ thuộc mạnh mẽ vào nhau, mô hình sẽ dự đoán sai.

- **Dữ liệu nhiễu hoặc thiếu sót**: Nếu dữ liệu của bạn chứa nhiễu cao hoặc thiếu sót nghiêm trọng, mô hình Naive Bayes có thể không đủ mạnh để xử lý và dự đoán chính xác.

- **Các giả định không phù hợp với vấn đề cụ thể**: Đôi khi, vấn đề bạn đang cố gắng giải quyết không phù hợp với mô hình Naive Bayes. Ví dụ, nếu có mối quan hệ phức tạp giữa các biến độc lập, mô hình có thể không thể phân biệt và dự đoán đúng.