# 分类算法之朴素贝叶斯
1、**基本原理**

- 朴素贝叶斯分类器是一个以贝叶斯定理为基础的多分类的分类器。该分类器属于典型的生成学习算法，由训练数据学习联合概率分布，并求得后验概率分布。**在小规模数据上表现很好，适合进行多分类任务。**

$$贝叶斯定理:p(A|B) = \frac{p(B|A) \cdot p(A)}{p(B)}$$

- 对于给定数据，首先基于特征的条件独立性检验，学习输入输出的联合概率分布，然后基于此对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。

- 基本步骤为：
 - 设$X = {a_{1},a_{2},...,a_{n}}$为一个待分类项，每个a为x的一个特征属性
 - 类别集合$Y = {y_{1},y_{2},...,y_{n}}$
 - 分别计算$p(y_{1}|x), p(y_{2}|x),..., p(y_{n}|x)$
 - 若$p(y_{k}|x) = max\{p(y_{1}|x), p(y_{2}|x),..., p(y_{n}|x)\}$，则$x \in y_{k}$
 
2、**sklearn库与朴素贝叶斯**

- **navie_bayes.GaussianNB**：高斯朴素贝叶斯
- **naive_bayes.GaussianNB**：针对多项式模型的朴素贝叶斯分类器
- **naive_bayes.GaussianNB**：针对多元伯努利模型的朴素贝叶斯分类器
- **三者区别**：假设某一特征的所有属于某个类别的观测值符合特定分布，如：分类问题的特征包括人的身高，身高符合高斯分布，即该问题适用于高斯朴素贝叶斯

3、**sklearn.naive_bayes.GaussianNB主要参数**

- **priors**：给定各个类别的先验概率。若不指定，则按训练数据的实际情况进行统计；若给定先验概率，则在训练过程中不可进行更改。

4、****

### 1、导入相关模块

In [8]:
import numpy as np
from sklearn.naive_bayes import GaussianNB

### 2、加载数据集

In [9]:
x = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
y = np.array([1, 1, 1, 2, 2, 2])

### 3、调用朴素贝叶斯算法，设定默认参数

In [14]:
baye = GaussianNB(priors = None)

baye.fit(x, y)
print(baye.predict([[-0.8, -1], [4, 5]]))

[1 2]
