# 朴素贝叶斯

## 引言

如果我们想对一个未知的水果进行分类，而我们已经知道的分类特征如下：

![title](other/fruit.jpg)

这些水果中的每一种都有三个我们关心的特征：大小，重量和颜色。

现在有一个测试水果和椰子一样重，但另外两个特征与苹果相同，我们将认为它是苹果。

因此在分类问题中，我们会将未知样本特征与我们已知类别的特征进行比较，从而实现分类。

朴素贝叶斯也是一种分类方法，只不过它使用的是我们已知的数据概率来对未知的数据样本进行分类。它的思想基础：对于给出的待分类样本，求解在此样本出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。

## 贝叶斯定理

![title](other/bayesian.png)

首先我们引入两个个概念：概率、条件概率

概率：事件A发生的可能性就被称为A发生的概率，用P(A)来表示

条件概率：当事件B已经发生的时候，事件A发生的可能性，称为在B条件下A发生的条件概率，用P(A|B)表示

那么针对于事件A、B同时发生的概率，就可以用P(AB)来表示

由此我们可以得出以下公式：
1. P(AB) = P(A|B) × P(B)
2. P(AB) = P(B|A) × P(A)
3. 因此可以得到贝叶斯公式：
    * P(A|B) = P(AB) / P(B) = P(B|A) × P(A) / P(B)

根据上图也可以很清楚地看到在事件 B 发生的情况下，事件 A 发生的概率就是 P (A∩B) 除以 P (B)。

$P(A | B)=\frac{P(A \cap B)}{P(B)}$

$P (A \cap B)$又可以由 $P (B | A) P (A)$ 表示，然后我们就可以推得贝叶斯公式：

$ P(A | B)=\frac{P(B | A) P(A)}{P(B)} $

在分类任务中，我们可以把贝叶斯定理换一个更清楚的形式：

$ P (类别 | 特征)=\frac {P (特征 | 类别) P (类别)}{P (特征)} $

## 基本概念：

![title](other/公式2.png)

举个例子：

1. 先验概率: 

    一所学校里面有 60% 的男生，40% 的女生。男生总是穿长裤，女生则一半穿长裤一半穿裙子。有了这些信息之后我们可以容易地计算“随机选取一个学生，他（她）穿长裤的概率和穿裙子的概率是多大”，这个就是“先验概率”。

2. 后验概率: 

    假设你走在校园中，迎面走来一个穿长裤的学生（很不幸的是你高度近似，你只看得见他（她）穿的是否长裤，而无法确定他（她）的性别）,你能够推断出他（她）是女生的概率是多大吗？这就是所谓的“后验概率”。

3. 似然概率（条件概率）：

    我们已经知道女生一半穿长裤一半穿裙子，因此女生穿长裤的条件概率为：1 ÷ 2 = 50%。
    
4. 边际似然概率也属于先验概率，往往用全概率公式计算得到，在例子中的边际似然概率为： 男生穿长裤的概率 + 女生穿长裤的概率。

* 计算：

    * 已知女生穿长裤的先验概率为：40%
    
    * 似然概率为：50%
    
    * 边际似然概率（所有学生穿长裤的概率）为：
    
    P(pants) = 60% ∗ 100% + 40% ∗ 50% = 80%。
    
    * 最后计算后验概率（表示随机选取一个学生，他（她）穿长裤的概率）的计算为：
    
    P(girl∣pants) = 所有女生穿长裤的概率/所有学生穿长裤的概率 = 似然概率 × 已知女生穿长裤的先验概率 / 边际似然概率（所有学生穿长裤的先验概率）
                   = P(girl,pants) / P(pants)
                   = P(girl) ∗ P(pants∣girl) / P(pants) 
                   = 40% ∗ 50% ÷ 80% = 25%
                   
    * 因此推断出他（她）是女生的概率为25%
    
# 朴素贝叶斯的基本方法

上面的例子我们学习到了几个基本概念，下面就来学习朴素贝叶斯算法的具体过程。

具体过程：

1. 用集合表示样本 X 及其n个特征：

$ X = \left \{ a_1,a_2,a_3\cdot \cdot \cdot \cdot a_n \right \} $

2. 用集合 Y 表示m个类别标签：

$ Y = \left \{ y_1,y_2,y_3\cdot \cdot \cdot \cdot y_m \right \} $

3. 那么分别计算X属于每个类别的概率就为：

$ P(y_1|X),P(y_2|X),P(y_3|X)\cdot \cdot \cdot \cdot P(y_m|X) $

4. 然后选取上述条件中概率的最大值所对应的标签类别就是样本 X 的分类类别predY。

$ pred_Y = max\left \{ P(y_1|X),P(y_2|X),P(y_3|X)\cdot \cdot \cdot \cdot P(y_m|X) \right \} $

那么问题来了：对于任意的一个样本K求他的分类类别，后验概率P(yk|X)的值应该如何计算呢？ 

根据公式得出：$ P(y_k|X) = \frac{P(X|y_k)* P(y_k)}{P(X)} $

因为样本 X 有n个特征，因此$ P(X|y_k)* P(y_k) =  P(a_1|y_k) * P(a_2|y_k)\cdot \cdot \cdot \cdot * P(a_n|y_k)* P(y_k) $

所以用符号简写公式为： $ P(X|y_k)* P(y_k) =  P(y_k)\prod_{i=1}^{N}P(a_i|y_k) $
 * 符号$ \prod_{i=1}^{N}P(a_i|y_k) $就表示上面公式中的连乘，从a1一直乘到an，n代表样本的第n个特征。

最终得到后验概率公式 $ P(y_k|X) = \frac{P(y_k)\prod_{i=1}^{N}P(a_i|y_k)}{P(X)} $


# 朴素贝叶斯算法

朴素贝叶斯算法又分为两种方法用以处理不同数据的分布情况。

1. 连续分布的数据：这意味着最终的标签为实际的值（可以存在小数，比如通过学生的身高进行分类）
2. 离散分布的数据：这以为着最终的结果为分类的类别值（只能为整数，比如通过学生穿长裤的数量进行分类）

## 高斯模型

如果是数据是连续分布的我们就会用到高斯模型。

高斯模型表示数据满足正态分布：

![title](other/分布1.jpg)

可以看到均值所对应的概率密度函数最高，也就是说数据的均值越大，概率越大。

因此在计算数据为连续分布的特征值时，通常先假定样本特征值满足高斯分布（也称正态分布），然后通过高斯模型计算公式计算 $P(a_i|y_k)$ 

因此高斯模型似然概率计算公式为：$P(a_i|y_k) = \frac{1}{2\pi(\sigma_{yk})^2}*e^-\frac{(a_i-\mu_{yk})^2}{2(\sigma_{yk})^2}$，表示第i个特征的先验概率。

其中 $(\sigma_{yk})^2$ 代表类别 $y_k$ 的样本时，第i维特征的方差, $\mu$ 代表类别为 $y_k$ 的样本时，第i维特征的均值。

# 西瓜分类

我们将通过下面的例子来学习朴素贝叶斯在现实示例中的运用。

## 训练样本

数据集一共有17个样本，每个样本有8个特征包括有（色泽，根蒂，敲声，纹理，脐部，触感，密度，含糖率），每个特征有各自的特征属性，属性包含有文字和数据（连续分布的数据和离散分布的数据）,样本有两个类别标签（是否为好瓜）。

In [1]:
import pandas as pd
# 加载数据集
data = pd.read_csv('data/watermelon.csv', sep=",")
data

Unnamed: 0,编号,色泽,根蒂,敲声,纹理,脐部,触感,密度,含糖率,好瓜
0,1,青绿,蜷缩,浊响,清晰,凹陷,硬滑,0.697,0.46,是
1,2,乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,0.774,0.376,是
2,3,乌黑,蜷缩,浊响,清晰,凹陷,硬滑,0.634,0.264,是
3,4,青绿,蜷缩,沉闷,清晰,凹陷,硬滑,0.608,0.318,是
4,5,浅白,蜷缩,浊响,清晰,凹陷,硬滑,0.556,0.215,是
5,6,青绿,稍蜷,浊响,清晰,稍凹,软粘,0.403,0.237,是
6,7,乌黑,稍蜷,浊响,稍糊,稍凹,软粘,0.481,0.149,是
7,8,乌黑,稍蜷,浊响,清晰,稍凹,硬滑,0.437,0.211,是
8,9,乌黑,稍蜷,沉闷,稍糊,稍凹,硬滑,0.666,0.091,否
9,10,青绿,硬挺,清脆,清晰,平坦,软粘,0.243,0.267,否


## 测试样本

接下来就可以通过上面训练样本再使用朴素贝叶斯分类器对下面的测试样进行判断是否为好瓜。

![title](other/test.jpg)

In [2]:
test_data = {'色泽':'青绿', '根蒂':'蜷缩', '敲声':'浊响', '纹理':'清晰', '脐部':'凹陷', '触感':'硬滑', '密度':0.697, '含糖率':0.460}

## 计算先验概率

首先计算训练样本类别的先验概率：

$P(好瓜=是) = \frac{8}{17}\approx0.471$

$P(好瓜=否) = \frac{9}{17}\approx0.529$

## 边际似然概率（先验概率）

因为在这个例子中只有关于“好瓜”两个类别“是”“否”，没有其他影响类别的因素，因此，边际似然概率为: 50% + 50% = 1

In [3]:
# 计算训练样本类别的先验概率
Num = len(data)

counts = data['好瓜'].value_counts()
print('西瓜类别数量分别为：',counts)

P_pre = counts.apply(lambda x:'{0:.3f}'.format(x/Num))

result = {}
result['好瓜'] = P_pre.values
print('先验概率分别为：', result['好瓜'])

西瓜类别数量分别为： 否    9
是    8
Name: 好瓜, dtype: int64
先验概率分别为： ['0.529' '0.471']


## 计算似然概率（条件概率）

然后，为每个特征属性计算似然概率（条件概率）： 

如果特征属性是文字，就通过文字个数计算。

$P_{青绿|是} = P(色泽 = 青绿| 好瓜 = 是) = \frac{3}{8} = 0.375$

$P_{青绿|否} = P(色泽 = 青绿| 好瓜 = 否) = \frac{3}{9} \approx 0.333$

......

如果特征属性是数字，就通过高斯模型公式计算。

$P_{密度:0.697|是} = P(密度 = 0.697|好瓜 = 是) = \frac{1}{\sqrt{2\pi}\cdot0.129}exp\left(-\frac{(0.697 - 0.574)^2}{2\cdot{0.129}^2}\right)\approx 1.959$

......

## 后验概率

因此测试样本的后验概率为：
$P_{好瓜=是|青绿=是，蜷缩=是，浊响=是，清晰=是，凹陷=是，硬滑=是，密度：0.697，含糖：0.460} = P(好瓜=是) \times P_{青绿|是} \times P_{蜷缩|是} \times P_{浊响|是} \times P_{清晰|是} \times P_{凹陷|是} \times P_{硬滑|是} \times P_{密度：0.697|是} \times P_{含糖：0.460|是} \approx 0.063$

$P_{好瓜=否|青绿=是，蜷缩=是，浊响=是，清晰=是，凹陷=是，硬滑=是，密度：0.697，含糖：0.460} = P(好瓜=否) \times P_{青绿|否} \times P_{蜷缩|否} \times P_{浊响|否} \times P_{清晰|否} \times P_{凹陷|否} \times P_{硬滑|否} \times P_{密度：0.697|否} \times P_{含糖：0.460|否} \approx 6.80 \times 10^{-5}$

In [4]:
import math

# 定义高斯模型计算公式,输入：（测试样本，样本均值，样本方差），输出：高斯模型似然概率计算结果。
def gauss(data,data_mean,data_std):
    return 1.0/(math.sqrt(2*math.pi)*data_std)*math.e**(-(data - data_mean)**2/(2*data_std**2))

# 计算后验概率
for key, val in test_data.items():
    if data[key].dtype.name == 'object':
        raw = data[data[key] == val]
        
        # 先验概率 × 似然概率（特征属性是文字）
        temp = raw.groupby('好瓜')[key].count().apply(lambda x:'{0:.3f}'.format(x/len(raw)))
        result[key] = temp.values
    else:
        raw = data
        
        # 先验概率 × 似然概率（特征属性是数字）
        temp = raw.groupby('好瓜')[key].apply(lambda x: gauss(val ,x.mean(),x.std()))
        result[key] = temp.values

## 找出最大后验概率

比较两个类别的后验概率大小，因为$0.063 > 6.80 \times 10^{-5}$ ，所以朴素贝叶斯分类器将测试样本判别为好瓜。

In [5]:
# 输出最大概率分类
dataFrame = pd.DataFrame(result, index=['好瓜：否', '好瓜：是'])
pred = dataFrame.prod(axis=1).idxmax()
print(pred)

好瓜：是
