Đây là một trong những thuật toán phân loại, đặc biệt trong xử lý văn bản và các bài toán có xác suất.


## 🧠 I. Naive Bayes là gì?

**Naive Bayes** là một thuật toán phân loại **xác suất**, dựa trên **Định lý Bayes**, với giả định đơn giản (naive) rằng:
👉 **các đặc trưng là độc lập điều kiện** nhau khi biết nhãn lớp.


## 📜 II. Định lý Bayes

$$
P(y \mid \mathbf{x}) = \frac{P(\mathbf{x} \mid y) \cdot P(y)}{P(\mathbf{x})}
$$

Với:

* $\mathbf{x} = (x_1, x_2, ..., x_n)$: vector đặc trưng
* $y$: nhãn
* $P(y \mid \mathbf{x})$: xác suất hậu nghiệm → cái ta muốn tính
* $P(\mathbf{x} \mid y)$: xác suất quan sát các đặc trưng nếu biết lớp
* $P(y)$: xác suất tiên nghiệm của lớp
* $P(\mathbf{x})$: xác suất xảy ra đặc trưng → không cần tính vì giống nhau cho mọi lớp

**Giả định Naive**:

$$
P(\mathbf{x} \mid y) = \prod_{i=1}^{n} P(x_i \mid y)
$$

→ Ta tính:

$$
\hat{y} = \arg\max_y \left[ P(y) \prod_{i=1}^{n} P(x_i \mid y) \right]
$$


## 🧬 III. Các biến thể của Naive Bayes

| Tên                                 | Mô tả                                         | Dữ liệu áp dụng     |
| ----------------------------------- | --------------------------------------------- | ------------------- |
| **Gaussian Naive Bayes**            | $x_i \mid y \sim \mathcal{N}(\mu, \sigma^2)$  | Dữ liệu liên tục    |
| **Multinomial Naive Bayes**         | $x_i \mid y \sim \text{Multinomial}$          | Số đếm, văn bản     |
| **Bernoulli Naive Bayes**           | $x_i \in \{0,1\}$                             | Dữ liệu nhị phân    |
| **Complement NB**                   | Biến thể ổn định hơn với dữ liệu mất cân bằng | NLP, text           |
| **Categorical NB (new in sklearn)** | Dữ liệu phân loại rời rạc                     | Categorical feature |


## 🧪 IV. Ví dụ code: Multinomial NB với văn bản

```python
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import make_pipeline
from sklearn.metrics import classification_report

# Load data
data = fetch_20newsgroups(subset='train')
X, y = data.data, data.target

# Tạo mô hình NB với pipeline
model = make_pipeline(CountVectorizer(), MultinomialNB())
model.fit(X, y)

# Dự đoán & đánh giá
y_pred = model.predict(X)
print(classification_report(y, y_pred))
```


## 📊 V. Ưu & Nhược điểm

| Ưu điểm                     | Nhược điểm                                                 |
| --------------------------- | ---------------------------------------------------------- |
| Rất nhanh & nhẹ             | Giả định độc lập đặc trưng quá đơn giản                    |
| Hiệu quả bất ngờ với text   | Không học mối quan hệ phức tạp                             |
| Dễ triển khai & giải thích  | Không xử lý tốt dữ liệu liên tục (nếu không dùng Gaussian) |
| Cần rất ít dữ liệu để train | Dễ overconfidence (xác suất gần 0 hoặc 1)                  |


## 🔥 VI. Ứng dụng thực tế

* 📧 Phân loại email (spam/ham)
* 💬 Phân tích cảm xúc (sentiment analysis)
* 🗂️ Phân loại tài liệu
* 🧬 Chẩn đoán bệnh
* 📊 Hệ thống gợi ý đơn giản


## 🧠 VII. Mẹo kỹ thuật

| Mẹo                     | Giải thích                                                                             |
| ----------------------- | -------------------------------------------------------------------------------------- |
| **Smoothing (Laplace)** | Tránh xác suất bằng 0: $P(x_i \mid y) = \frac{count + \alpha}{total + \alpha \cdot V}$ |
| **Log probability**     | Thay vì nhân các xác suất → dùng log để cộng                                           |
| **TF-IDF**              | Nếu dùng văn bản, thử thay CountVectorizer bằng TfidfVectorizer                        |


## 📌 Tổng kết nhanh

| Mục        | Nội dung                                     |
| ---------- | -------------------------------------------- |
| Loại       | Supervised – Phân loại                       |
| Ý tưởng    | Dùng Bayes với giả định độc lập              |
| Ưu điểm    | Rất nhanh, mạnh với text                     |
| Nhược điểm | Giả định quá đơn giản, không học phi tuyến   |
| Biến thể   | Gaussian, Multinomial, Bernoulli, Complement |
