# 朴素贝叶斯算法（Naive Bayes）

朴素贝叶斯（Naive Bayes）是一类基于贝叶斯定理与特征条件独立假设的分类算法，具有计算效率高、对小样本数据表现良好的特点，广泛应用于文本分类、垃圾邮件过滤、情感分析等领域。

---

## 📘 一、贝叶斯定理

贝叶斯定理用于计算在已知某些条件下某事件发生的概率：

```math
P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}
```

其中：

- `P(A|B)`：在事件 B 发生的前提下，事件 A 发生的概率（后验概率）
- `P(B|A)`：在事件 A 发生的前提下，事件 B 发生的概率（似然）
- `P(A)`：事件 A 的先验概率
- `P(B)`：事件 B 的先验概率

---

## 🧠 二、朴素贝叶斯基本思想

朴素贝叶斯假设：

1. 特征之间条件独立
2. 每个特征对最终结果的影响是“独立且等价”的

对于一个给定样本 `X = (x₁, x₂, ..., xₙ)`，分类目标是选择类别 `Cₖ`，使得：

```math
P(C_k|X) \propto P(C_k) \cdot \prod_{i=1}^n P(x_i|C_k)
```

最终预测类别为使上述概率最大的 `Cₖ`。

---

## 🔢 三、常见的朴素贝叶斯模型

| 模型类型                 | 特征类型     | 使用场景             |
|--------------------------|--------------|----------------------|
| 高斯朴素贝叶斯（GaussianNB）   | 连续型变量   | 连续值特征，如身高、体重等 |
| 多项式朴素贝叶斯（MultinomialNB） | 计数字符频率 | 文本分类，如垃圾邮件过滤   |
| 伯努利朴素贝叶斯（BernoulliNB）  | 0-1 二值特征 | 文本中单词是否出现       |

---

## 🧪 四、算法流程

1. **训练阶段：**
   - 计算各类别的先验概率 `P(Cₖ)`
   - 计算每个特征在各类别下的条件概率 `P(xᵢ | Cₖ)`

2. **预测阶段：**
   - 对于新样本 `X`，使用贝叶斯公式计算各类别的后验概率
   - 选择后验概率最大的类别作为预测结果

---

## 🧮 五、案例示例（Python伪代码）

```python
from sklearn.naive_bayes import MultinomialNB

# 假设已准备好训练数据 X_train 和 y_train
model = MultinomialNB()
model.fit(X_train, y_train)

# 对测试集进行预测
y_pred = model.predict(X_test)
```

---

## ✅ 六、优点与缺点

### ✅ 优点：

- 实现简单、训练速度快
- 对小样本、噪声不敏感
- 适合高维数据（如文本）

### ❌ 缺点：

- 特征独立性假设过于强烈，可能影响准确性
- 对数值特征要求分布近似正态（GaussianNB）

---

## 📚 七、应用场景

- 文本分类（情感分析、垃圾邮件检测）
- 医疗诊断
- 信用风险评估
- 推荐系统中的兴趣分类

---

## 🔚 总结

朴素贝叶斯是经典的概率分类模型，虽然假设简单，但在很多实际应用中依然具有较强的表现力，特别是在文本领域。它既可作为独立分类器，也常作为集成学习中的基准模型。

---

> 📌 如需该文档的图示版本（如思维导图、算法流程图、分类模型对比图），可随时联系我协助生成！