# 朴素贝叶斯

之前的分类问题，都是令我们的算法最终给出“样本或新数据属于哪一类”这样的结果，有时预测会准确，有时会出错，这时人们提出不仅要告诉我样本属于哪一类，还要告诉我判断为这一类型的概率是多少？



下面我们使用概率论来进行分类：

- 首先，从一个最简单的概率分类器开始

- 给出一些假设，学习朴素贝叶斯分类器

之所以称为朴素，是因为整个形式化过程只是做最原始、最简单的假设。

朴素贝叶斯分类器，是一个以贝叶斯定理为基础的多分类分类器。

对于给定数据，首先基于特征的条件独立性假设，学习输入、输出的联合概率分布，然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。

$P(A|B) = \frac{P(B|A)P(A)}{P(B)}$

- 利用python的文本处理能力将文档切分成词向量

- 然后利用词向量进行文档分类



在sklearn库种，实现了三个朴素贝叶斯分类器，如下表所示：

|分类器|描述|
|-|-|
| naive_bayes.GaussianNB|高斯朴素贝叶斯分类器|
|naive_bayes.BernoulliNB|贝努力朴素贝叶斯分类器|
|naive_bayes.MultinomialNB|多项式贝叶斯分类器|

它们的区别在于假设某一特征的所有属于某个类别的观测值符合特定分布，如：分类问题的特征包括人的身高，而人的身高一般符合高斯分布，这类问题就适合使用高斯朴素贝叶斯。

In [5]:
from sklearn.naive_bayes import GaussianNB
help(GaussianNB)

Help on class GaussianNB in module sklearn.naive_bayes:

class GaussianNB(BaseNB)
 |  GaussianNB(priors=None, var_smoothing=1e-09)
 |  
 |  Gaussian Naive Bayes (GaussianNB)
 |  
 |  Can perform online updates to model parameters via `partial_fit` method.
 |  For details on algorithm used to update feature means and variance online,
 |  see Stanford CS tech report STAN-CS-79-773 by Chan, Golub, and LeVeque:
 |  
 |      http://i.stanford.edu/pub/cstr/reports/cs/tr/79/773/CS-TR-79-773.pdf
 |  
 |  Read more in the :ref:`User Guide <gaussian_naive_bayes>`.
 |  
 |  Parameters
 |  ----------
 |  priors : array-like, shape (n_classes,)
 |      Prior probabilities of the classes. If specified the priors are not
 |      adjusted according to the data.
 |  
 |  var_smoothing : float, optional (default=1e-9)
 |      Portion of the largest variance of all features that is added to
 |      variances for calculation stability.
 |  
 |  Attributes
 |  ----------
 |  class_prior_ : array, shape (n_

## 正态分布/高斯分布

正态分布（Normal distribution），也称“常态分布”，又名高斯分布（Gaussian distribution），最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布，在统计学的许多方面有着重大的影响力。

自然界和人类社会中，很多现象可以看作正态分布，例如：

- 人的身高、体重（或其他生理尺寸）
- 医学检查指标（血小板数、红细胞数）
- 测量误差


![正态分布](images/bayes/正态分布.jpg)

正太分布的定义：

若X的概率密度函数为：

$f(x) = \frac{1}{\sqrt{2 \pi} \delta}e^{-\frac{(x-\mu)^2}{2\delta^2}},-\infty < x < +\infty$

其中，$-\infty < \mu < \infty, \mu > 0 $，就称X服从参数为$\mu,\delta$的正态分布（或高斯分布）。

记为$X \sim N(\mu,\delta^2)$

特征：
- f(x)关于$ x = \mu$对称
- 当$x \leq \mu$时，f(x)是严格单调递增函数
- $f_{max} = f(\mu) = \frac{1}{\sqrt{2 \pi}\delta}$
- $lim_{|x-\mu| \to \infty}f(x) = 0$

### 正态分布的概率计算

若$X \sim N(\mu,\delta^2)$，对实数x,

$P(X \leq x) = F(x) $

## 高斯朴素贝叶斯

$P(x_i|y) = \frac{1}{\sqrt{2 \pi \delta_y^2}}exp(- \frac{(x_i - \mu _y)^2}{2 \delta _y^2})$