# Tutorial 1 — Text Document Classification with Naive Bayes

简要说明：本教程演示如何使用 20 Newsgroups 数据集对文本进行向量化并训练多种朴素贝叶斯模型（伯努利、多项式、泊松），包含实验（平滑参数、词汇表大小）与误分类分析。

主要文件/数据
- Notebook: [Tutorial1/Tutorial1.ipynb](Tutorial1/Tutorial1.ipynb) — 教学与代码实现（包含所有步骤）。
- 原始数据（请放在同一目录并不要解压）：[Tutorial1/20news-bydate_py3.pkz](Tutorial1/20news-bydate_py3.pkz)

关键步骤（在 notebook 中实现）
- 加载数据：使用 [`datasets.fetch_20newsgroups`](Tutorial1/Tutorial1.ipynb) 从压缩数据加载选定类别。
- 文本向量化：
  - 计数向量：[`CountVectorizer`](Tutorial1/Tutorial1.ipynb)
  - TF-IDF：[`TfidfVectorizer`](Tutorial1/Tutorial1.ipynb)
- 训练/评估模型：
  - 伯努利朴素贝叶斯：[`BernoulliNB`](Tutorial1/Tutorial1.ipynb)
  - 多项式朴素贝叶斯：[`MultinomialNB`](Tutorial1/Tutorial1.ipynb)
  - 泊松朴素贝叶斯：自定义类 [`PoissonBayes`](Tutorial1/Tutorial1.ipynb)（使用 `poisson.logpmf` 计算对数概率）
- 实验：比较不同 alpha 值和平滑（见 notebook 的绘图部分），以及不同词汇表大小对精度的影响。
- 误分类检查：列出并分析测试集中被错误分类的文档。

重要数学公式
- 泊松分布：
$$
\mathrm{Poisson}(x, \mu) = \frac{1}{x!} e^{-\mu} \mu^x
$$
（在 notebook 中用于 Poisson NB 的对数似然计算）

运行说明
1. 在该目录打开 Jupyter Notebook：
   - jupyter lab 或 jupyter notebook，然后打开 [Tutorial1/Tutorial1.ipynb](Tutorial1/Tutorial1.ipynb)
2. 确保已安装依赖：scikit-learn、scipy、numpy、matplotlib
3. 按顺序执行 notebook 中的 cells 完成实验（已包含示例参数与绘图）。

备注
- notebook 中对稀疏矩阵的处理已有说明：使用 `X.toarray()` 在调用 `poisson.logpmf` 前将稀疏矩阵转换为 ndarray（如需）。
- 若要修改或扩展实验，可在 notebook 中增加 cells，例如更细的 alpha 搜索或交叉验证。

参考（在 notebook 中）
- 见 [Tutorial1/Tutorial1.ipynb](Tutorial1/Tutorial1.ipynb) 中的具体实现与注释（包括 [`BernoulliNB`](Tutorial1/Tutorial1.ipynb), [`MultinomialNB`](Tutorial1/Tutorial1.ipynb), [`PoissonBayes`](Tutorial1/Tutorial1.ipynb)）。