# 朴素贝叶斯简述

朴素贝叶斯方法是一组基于应用贝叶斯定理的监督学习算法，在给定类变量值的情况下，每对特征之间都有条件独立的“朴素”假设。贝叶斯定理陈述了以下关系，给定类变量$y$和通过$x_1$，$x_2$的相关特征向量：

$$P(y|x_1,\ldots,x_n)=\frac{P(y)P(x_1,\ldots,x_n|y)}{P(x_1,\ldots,x_n)}$$

使用朴素的条件独立假设：

$$P(x_i|y,x_1,\ldots,x_{i-1},x_{i+1},\ldots,x_n)=P(x_i|y)$$

对于任意的$x_i$，这个关系被简化为：

$$P(y|x_1,\ldots,x_n)=\frac{P(y)\prod_{i=1}^{n}P(x_i|y)}{P(x_1,\ldots,x_n)}$$

由于给定输入$P(x_1,\ldots,x_n)$是常数，我们可以使用以下分类规则：

$$P(y|x_1,\ldots,x_n)\propto P(y)\prod_{i=1}^{n}P(x_i|y)$$

$$\Downarrow$$

$$\hat{y}=\arg\max_{y}P(y)\prod_{i=1}^{n}P(x_i|y)$$

我们可以使用最大后验概率（MAP）来估计$P(y)$和$P(x_i|y)$；前者是训练集中$y$类的相对频率。

不同的朴素贝叶斯分类器的区别主要在于它们对$P(x_i|y)$的分布所做的假设。

显然，尽管朴素的贝叶斯分类器过于简化了假设，但它在许多实际问题中都表现得很好，比如应用最广的文档分类和垃圾邮件过滤。它们需要少量的训练数据来估计必要的参数。

与更复杂的方法相比，朴素的贝叶斯学习者和分类器可以非常快速。类条件特征分布的解耦意味着每个分布可以独立地估计为一维分布。这反过来有助于缓解高维数据带来的问题。

# 使用scikit-learn实现朴素贝叶斯分类器

## 导入必要包

In [1]:
from pandas import read_csv
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score

## 读取数据

### 从文件读取数据

In [2]:
data_train=read_csv("../fashion-mnist_train.csv")
data_test=read_csv("../fashion-mnist_test.csv")

### 拆分数据集

- 训练集

In [3]:
data_train_x = data_train.iloc[:, 1:]
data_train_y = data_train["label"]

- 测试集

In [4]:
data_test_x = data_test.iloc[:, 1:]
data_test_y = data_test["label"]

## 训练模型

- 实例化模型

In [5]:
model=GaussianNB()

- 训练模型

In [6]:
model.fit(data_train_x,data_train_y)

## 测试模型
- 使用测试集预测

In [7]:
data_test_y_pre = model.predict(data_test_x)

- 计算正确率

In [8]:
score_sklearn = accuracy_score(data_test_y, data_test_y_pre)
print(score_sklearn)

0.5914
