# 概念
先验概率：以以往的经验(训练集)，该事件发生的概率，例如：$P(B)$    
后验概率：基于B事件发生，A事件发生的概率，即$P=(A|B)$   
似然函数：关于参数$\theta$的似然函数$L(\theta|x)$,关于参数$L(\theta|x)$在数值上等于给定参数$\theta$后变量$x$的概率，即：$$ L(\theta|x)=P(X=x| \theta ) $$   

后验概率由似然函数及先验概率所得，即$$P(Y|X)=\frac{{P(Y)}\times{P(X|Y)}}{P(X)}$$    

朴素贝叶斯的 **本质** ：取后验概率最大的预测结果即为输出值，即
$$f(x)=\argmax_{c_{k}}P(Y=c_{k}|X)$$    



朴素贝叶斯对条件概率分布做了 **条件独立性** 的假设，这是一个很强的假设(假设发生的概率很小)，因此朴素贝叶斯法由此得名。  

朴素贝叶斯法实际学习到 **生成数据的机制** ，所以属于 **生成模型**   


# 公式推导
设输入空间 $\chi \subseteq R^{n}$为$n$维向量的集合  
输出空间为$Y=\left\{c_{1},c_{2},\cdots,c_{K}\right\}$       
训练集$T=\left\{(x_{1},y_{1}),(x_{2},y_{2}),\cdots,(x_{n},y_{n})\right\}$   

先验概率分布：$$P(Y=c_{k}),\quad k=1,2,\cdots,K \tag{4.1}$$     

条件概率分布：$$P(X=x|Y=c_{k})=P(X^{(1)}=x^{(1)},\cdots,X^{n}=x^{(n)}|Y=c_{k}),\quad k=1,2,\cdots,K \tag{4.2}$$
<p></p>
由假设独立性可得：  
<p></p>     

$$ \begin{split}
P(X=x|Y=c_{k})  
&= P(X^{(1)}=x^{(1)},\cdots,X^{n}=x^{(n)}|Y=c_{k}) \\ 
&= \prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_{k}) 
\end{split} \tag{4.3}
$$


后验概率：  

$$
P(Y=c_{k}|X=x)=\frac{P(X=x|Y=c_{k})P(Y=c_{k})}{\sum_{k}P(X=x|Y=c_{k})P(Y=c_{k})} \tag{4.4}
$$

将式(4.3)代入式(4.4)，有：  

$$
\bm{P(Y=c_{k}|X=x)=\frac{P(Y=c_{k})\prod_{j}P(X^{(j)}=x^{(j)}|Y=c_{k})}{\sum_{k}P(Y=c_{k})\prod_{j}P(X^{(j)}=x^{(j)}|Y=c_{k})},\quad k=1,2,\cdots,K \tag{4.5} }
$$

以上即为 朴素贝叶斯分类的基本公式。     

朴素贝叶斯分类器可表示为：  

$$
\begin{split}
y=f(x)
&=\argmax_{c_{k}}P(Y=c_{k}|X=x) \\
&=\argmax_{c_{k}}\frac{P(Y=c_{k})\prod_{j}P(X^{(j)}=x^{(j)})|Y=c_{k}}{\sum_{k}P(Y=c_{k})\prod_{j}P(X^{(j)}=x^{(j)}|Y=c_{k})} \tag{4.6}
\end{split} 
$$

注意，式(4.6)中分母对所有$c_{k}$都是 **相同** 的，所以还可表示为：    

$$
y=\argmax_{c_{k}}P(Y=c_{k})\prod_{j}P(X^{(j)}=x^{(j)}|Y=c_{k}) \tag{4.7}
$$



# 后验概率最大化的意义
朴素贝叶斯法将实例分到 **后验概率最大的类** 中，等价于 **期望风险最小化**。     
假设选择0-1损失函数，期望风险函数为：   

$$
R_{exp}(f)=E[L(Y,f(X))]
$$

取条件期望

$$
R_{exp}(f)=E_{X}\sum_{k=1}^{K}[L(c_{k},f(X))]P(c_{k}|X)\cdots\cdots\cdots(X在每个类别中的损失函数之和)
$$

期望风险最小化,对 $X=x$ 逐个极小化,由此得：

$$
\begin{split}
f(x)
&=\argmin_{y \in Y}\sum_{k=1}^{K}L(c_{k},y)P(c_{k}|X=x)\\
&=\argmin_{y \in Y}\sum_{k=1}^{K}P(y \neq c_{k}|X=x)\\
&=\argmin_{y \in Y}(1-P(y=c_{k}|X=x))\\
&=\argmax_{y \in Y}P(y=c_{k}|X=x)
\end{split}
$$

由此一来，**期望风险最小化准则**就得到了 **后验概率最大化准则**，即:    

$$
f(x)=\argmax_{c_{k}}P(c_{k}|X=x)
$$

# 参数估计

## 极大似然估计
先验概率 $ P(Y=c_{k}) $的极大似然估计为:    

$$
P(Y=c_{k})=\frac{\sum_{i=1}^{N}I(y_{i}=c_{k})}{N},\quad \quad k=1,2,\cdots,K \tag{4.8}
$$

设第$j$个特征$x^{(j)}$的取值集合为$\left\{a_{j1},a_{j2},\cdots,a_{jS_{j}}\right\}$      
条件概率$P(X^{(j)}=a_{jl}|Y=c_{k})$的极大似然估计为：

$$
P(X^{j}=a_{jl}|Y=c_{k})=\frac{\sum_{i=1}^{N}I(x_{i}^{(j)}=a_{jl},y_{i}=c_{k})}{\sum_{i=1}^{N}I(y_{i}=c_{k})}\\
j=1,2,\cdots,n;\quad l=1,2,\cdots,S_{j}; \quad k=1,2,\cdots,K \tag{4.9}
$$






## 贝叶斯估计
极大似然估计可能出现要估计的 **概率值为0** 的情况，会影响后验概率的计算结果，使分类产生偏差，而 **贝叶斯估计** 可以解决这一问题。       

条件概率$P(X^{(j)}=a_{jl}|Y=c_{k})$的极大似然估计为：

$$
P(X^{j}=a_{jl}|Y=c_{k})=\frac{\sum_{i=1}^{N}I(x_{i}^{(j)}=a_{jl},y_{i}=c_{k})+\lambda}{\sum_{i=1}^{N}I(y_{i}=c_{k})+S_{j}\lambda}\\
j=1,2,\cdots,n;\quad l=1,2,\cdots,S_{j}; \quad k=1,2,\cdots,K \tag{4.10}
$$

式中，$\lambda \geq 0$,等价于在随机变量各个取值的频数上赋予一个整数$\lambda >0$。当$\lambda=0$时，即为 **极大似然估计**。
常取$\lambda=1$，这时称为 **拉普拉斯平滑**。
显然对于任何$l=1,2,\cdots,S_{j},k=1,2,\cdots,K$,有  

$$
P_{\lambda}(X^{(j)}=a_{jl}|Y=c_{k})>0\\
\sum_{l=1}^{S_{j}}P(X^{(j)}=a_{jl}|Y=c_{k})=1
$$

先验概率的贝叶斯估计为：    

$$
P(Y=c_{k})=\frac{\sum_{i=1}^{N}I(y_{i}=c_{k})+\lambda}{N+K\lambda},\quad \quad k=1,2,\cdots,K \tag{4.11}
$$

## 区别与联系
贝叶斯估计考虑到了 **先验概率**，即先前的经验。    
$eg:$   
掷骰子，如果训练样本的取值只在$[1,5]$之间      
那极大似然估计将不考虑 $6$ 的出现,即6出现的概率预测为0      
而贝叶斯估计根据以往的经验得知，骰子是均匀的，6是会出现的，训练样本虽然没有，但概率不应该为0。
   
**当先验分布为均匀分布时，贝叶斯估计等于极大似然估计。**

## 例题
![](datas\example4.1.png)
### 极大似然估计

$$
P(Y=c_{k})=\frac{\sum_{i=1}^{N}I(y_{i}=c_{k})}{N},\quad \quad k=1,2,\cdots,K \tag{4.8}
$$

$$
P(X^{j}=a_{jl}|Y=c_{k})=\frac{\sum_{i=1}^{N}I(x_{i}^{(j)}=a_{jl},y_{i}=c_{k})}{\sum_{i=1}^{N}I(y_{i}=c_{k})}\\
j=1,2,\cdots,n;\quad l=1,2,\cdots,S_{j}; \quad k=1,2,\cdots,K \tag{4.9}
$$

根据式(4.8)得： 

$$
P(Y=1)=\frac{9}{15},P(Y=-1)=\frac{6}{15}
$$

根据式(4.9)得：
$$
P(X^{(1)}=1|Y=1)=\frac{2}{9},P(X^{(1)}=2|Y=1)=\frac{3}{9},P(X^{(1)}=3|Y=1)=\frac{4}{9}\\
\quad \\
P(X^{(2)}=S|Y=1)=\frac{1}{9},P(X^{(2)}=M|Y=1)=\frac{4}{9},P(X^{(2)}=L|Y=1)=\frac{4}{9}\\
\quad \\
P(X^{(1)}=1|Y=-1)=\frac{3}{6},P(X^{(1)}=2|Y=-1)=\frac{2}{6},P(X^{(1)}=3|Y=--1)=\frac{1}{6}\\ \quad \\
P(X^{(2)}=S|Y=-1)=\frac{3}{6},P(X^{(2)}=M|Y=-1)=\frac{2}{6},P(X^{(2)}=L|Y=-1)=\frac{1}{6}
$$

对于给定的$x=(2,S)^{T}$计算：
$$
P(Y=1)P(X^{(1)}=2|Y=1)P(X^{(2)}=S|Y=1)=\frac{9}{15}*\frac{3}{9}*\frac{1}{9}=\frac{1}{45}\\
P(Y=-1)P(X^{(1)}=2|Y=-1)P(X^{(2)}=S|Y=-1)=\frac{6}{15}*\frac{2}{6}*\frac{3}{6}=\frac{1}{15}
$$
由于$P(Y=-1)P(X^{(1)}=2|Y=-1)P(X^{(2)}=S|Y=-1)$最大，故$y=-1$

### 贝叶斯估计

$$
P(X^{j}=a_{jl}|Y=c_{k})=\frac{\sum_{i=1}^{N}I(x_{i}^{(j)}=a_{jl},y_{i}=c_{k})+\lambda}{\sum_{i=1}^{N}I(y_{i}=c_{k})+S_{j}\lambda}\\
j=1,2,\cdots,n;\quad l=1,2,\cdots,S_{j}; \quad k=1,2,\cdots,K \tag{4.10}
$$

&emsp;  

$$
P(Y=c_{k})=\frac{\sum_{i=1}^{N}I(y_{i}=c_{k})+\lambda}{N+K\lambda},\quad \quad k=1,2,\cdots,K \tag{4.11}
$$

按照拉普拉斯平滑估计概率，即取$\lambda=1$。     
由式(4.11)得：  
$$
P(Y=1)=\frac{10}{17},P(Y=-1)=\frac{7}{17}
$$

根据式(4.10)得：    

$$
P(X^{(1)}=1|Y=1)=\frac{3}{12},P(X^{(1)}=2|Y=1)=\frac{4}{12},P(X^{(1)}=3|Y=1)=\frac{5}{12}\\
\quad \\
P(X^{(2)}=S|Y=1)=\frac{2}{12},P(X^{(2)}=M|Y=1)=\frac{5}{12},P(X^{(2)}=L|Y=1)=\frac{5}{12}\\
\quad \\
P(X^{(1)}=1|Y=-1)=\frac{4}{9},P(X^{(1)}=2|Y=-1)=\frac{3}{9},P(X^{(1)}=3|Y=--1)=\frac{2}{9}\\ \quad \\
P(X^{(2)}=S|Y=-1)=\frac{4}{9},P(X^{(2)}=M|Y=-1)=\frac{3}{9},P(X^{(2)}=L|Y=-1)=\frac{2}{9}
$$

对于给定的$x=(2,S)^{T}$计算：
$$
P(Y=1)P(X^{(1)}=2|Y=1)P(X^{(2)}=S|Y=1)=\frac{10}{17}*\frac{4}{12}*\frac{2}{12}=\frac{5}{153}\\
\quad \\
P(Y=-1)P(X^{(1)}=2|Y=-1)P(X^{(2)}=S|Y=-1)=\frac{7}{17}*\frac{3}{9}*\frac{4}{9}=\frac{28}{459}
$$
由于$P(Y=-1)P(X^{(1)}=2|Y=-1)P(X^{(2)}=S|Y=-1)$最大，故$y=-1$