

# 第10章 隐马尔科夫模型

## 10.1 HMM的基本概念

#### 1. 引例

我们假设一个赌场里来了一个老千，他带有两种作弊骰子，分别记为骰子2，骰子3，骰子2掷出较小点数的概率较大，骰子3掷出较大点数的概率更大。所以现在我们有三种骰子，分别是赌场正常骰子1，和两种作弊骰子2，骰子3。这就是三种隐状态，因为我们不知道老千每次使用的是哪种骰子。但是我们知道老千切换骰子的习惯，可以表示如下图：

<img src="10.1_骰子例子.jpg" style="zoom:50%;" />

这个概率就是`状态转移概率`，表明了隐状态从一种状态转换到另一种状态的概率，可以写成如下矩阵的形式：
$$
A = \begin{bmatrix}
0.15  & 0.45 & 0.40 \\
 0.30 & 0.20 & 0.50 \\
 0.20 & 0.50 & 0.30
\end{bmatrix}
$$
我们也知道三种骰子掷出1~6点的概率分别如下：

<img src="10.1_骰子例子2.jpg" alt="10.1_骰子例子2" style="zoom:50%;" />

这些概率称作==观测概率==，观测概率也可用矩阵形式表示如下：
$$
B = \begin{bmatrix}
 0.16 & 0.16 & 0.16 & 0.16 & 0.16 & 0.16 \\
 0.06 & 0.06 & 0.06 & 0.06 & 0.06 & 0.70 \\
 0.40 & 0.20 & 0.15 & 0.05 & 0.05 & 0.05
\end{bmatrix}
$$
以上状态转移概率矩阵、观测概率矩阵和初始概率分布就囊括了整个HMM模型。



#### 2. 定义

<img src="10.1_HMM示例.png" alt="10.1_HMM示例" style="zoom:50%;" />

隐状态序列 $I=(i_{1},i_{2}, \cdots, i_{T})$

观测序列 $O=(o_{1}, o_{2}, \cdots, o_{T})$

隐状态可能取值集合：$Q={q_{1}, q_{2}, \cdots, q_{N}}$

观测值的集合： $V={v_{1}, v_{2}, \cdots, v_{M}}$



#### 3. 三要素

`状态转移矩阵A：`
$$
A = [a_{ij}]_{N \times N} \\
a_{ij} = P(i_{t+1}=q_{j} | i_{t} = q_{i} ) \quad \quad i,j=1,2, \cdots , N; 
$$
是在时刻 $t$ 处于状态 $q_{i}$ 的条件下，在下一时刻 $t+1$ 转移到状态 $q_{j}$的概率。



`观测概率矩阵B：`
$$
B = [b_{j}(k)]_{N \times M} \\
b_{j}(k) = P(o_{t} = v_{k} | i_{t}=q_{j}) \quad \quad k=1,2, \cdots,M; \quad j=1,2,\cdots,N
$$
表示，$t$ 时刻处于状态$q_{j}$ 的条件下生成观测 $v_{k}$ 的概率。



`初始状态概率向量$\pi$：`
$$
\pi = (\pi_{i}) \\
\pi_{i} = P(i_1=q_{i}) \quad  \quad  i=1,2,\cdots,N
$$
表示$t=1$时刻处于状态 $q_{i}$ 的概率。



$A,B,\pi$ 称为隐马尔科夫模型的**三要素**，记作：
$$
\lambda = (A,B,\pi)
$$


#### 4. 两个基本假设

1. `齐次马尔科夫性假设：`

$$
P(i_{t}|i_{t-1},o_{i-1}, \cdots, i_{1},o_{1}) = P(i_{t}|i_{t-1})
$$

2. `观测独立性假设：`

$$
P(o_{t}|i_{1},o_{1},\cdots,i_{t-1},o_{t-1},i_{t+1},o_{t+1},\cdots, i_{T},o_{T}) = P(o_{t}|i_{t})
$$



#### 5. 三个基本问题

1. **概率计算问题：** 即求 $P(O|\lambda)$， 对应前向、后向算法

2. **学习问题：**
   $$
   \hat{\lambda} = \underset{\lambda}{\text{argmax}} P(O|\lambda)
   $$
   对应Baum-Welch算法求解

3. **预测问题：**也称解码（decoding）问题。
   $$
   I^{*} = (i_{1}^{*},i_{2}^{*},\cdots,i_{T}^{*}) = \underset{I}{\text{argmax}}P(I|O,\lambda)
   $$
   对应Viterbi算法求解。



## 10.2  概率计算算法

给定模型$\lambda = (A,B,\pi)$ 和观测序列 $O=(o_{1},o_{2}, \cdots, o_{T})$，计算观测序列$O$ 出现的概率 $P(O|\lambda)$.

### 10.2.1 直接计算法

先求各状态序列$I$ 和观测序列 $O$ 的联合概率 $P(O,I|\lambda)$， 然后对所有可能的状态序列求和，得到$P(O|\lambda)$ .

首先：

$$
P(I|\lambda) = \pi_{i_1}a_{i_1i_2} \cdots a_{i_{T-1}i_{T}}
$$

其次：

$$
P(O|I,\lambda) = b_{i_1}(o_1)b_{i_2}(o_2) \cdots b_{i_T}(o_{T})
$$

所以，$O、I$ 的联合概率为：

$$
P(O,I|\lambda) = P(O|I,\lambda)P(I|\lambda) = \pi_{i_1}b_{i_1}(o_1)a_{i_1i_2}b_{i_2}(o_2) \cdots a_{i_{T-1}i_{T}}b_{i_T}(o_{T})
$$


对所有可能状态的$I$求和，得到$P(O|\lambda)$:

$$
\begin{eqnarray*}
P(O|\lambda) &=& \sum_{I}P(O|I,\lambda)P(I|\lambda) \\
&=& \sum_{i_1i_2 \cdots i_T} \pi_{i_1}b_{i_1}(o_1)a_{i_1i_2}b_{i_2}(o_2) \cdots a_{i_{T-1}i_{T}}b_{i_T}(o_{T})
\end{eqnarray*}
$$

长度为$T$ 的状态序列，所有可能的序列数为$N^{T}$ ，因此总的时间复杂度为$O(TN^{T})$。

很明显，时间复杂度太高，不可行。



### 10.2.2 前向算法

 <img src="10.2_前向算法.png" alt="10.2_前向算法" style="zoom:50%;" />

#### 1. 前向概率

$t$ 时刻的前向概率定义如上图所示：
$$
\alpha_{t}(i) = P(O_{1},o_{2},o_{t},i_{t}=q_{i}|\lambda)
$$


#### 2. 算法

输入：模型$\lambda $， 观测序列$O$；

输出：观测序列概率$P(O|\lambda)$.



(1) 初值：

$$
\begin{eqnarray}
\alpha_{1}(i) &=& P(o_{1}, i_{1} = q_{i}|\lambda) = P(i_{1} = q_{i}|\lambda) \cdot P(o_{1}|i_{1} = q_{i}, \lambda) \\
&=& \pi_{i}b_{i}(o_{1}) \quad \quad i=1,2,\cdots,N
\end{eqnarray}
$$

(2)递推： 对t=1,2,T-1:

$$
\alpha_{t+1}(i) = \left[ \sum_{j=1}^{N}  \alpha_{t}(j)a_{ji}\right] b_{i}(o_{t+1})
$$


(3)终止：

$$
P(O|\lambda) = \sum_{i=1}^{N} \alpha_{T}(i)
$$

前向算法高效的关键是：<font color=red>**其局部计算前向概率，然后利用路径结构将前向概率“递推”到全局。**</font>  

在$t$ 时刻，需计算$\alpha_{t}(i)$ 的$N$ 个值，在$t+1$ 时刻，计算$\alpha_{t+1}(i)$的$N$ 个值时需利用前一时刻的$N$个结果，考虑序列长度为$T$，因此总的时间复杂度为$O(TN^{2})$.

### 10.2.3  后向算法

#### 1. 后向概率
$t$ 时刻的后向概率为：
$$
    \beta_{t}(i) = P(o_{t+1}, o_{t+2}, \cdots, o_{T} | i_{t}=q_{i}, \lambda)
$$

#### 2. 算法

(1)初值

$$
\beta_{T}(i) = 1, \quad i=1,2,\cdots,N
$$

(2)递推，对于$t=T-1,T-2,\cdots, 1$
$$
\beta_{t}(i) = \sum_{j=1}^{N}a_{ij}b_{j}(o_{t+1})\beta_{t+1}(j)
$$

(3)终止
$$
P(O|\lambda) = \sum_{i=1}^{N} \pi_{i}b_{i}(o_{1})\beta_{1}(i)
$$

### 10.2.4 一些概率和期望值的计算

1. 给定模型$\lambda$ 和 观测$O$，在时刻$t$ 处于状态 $ q_{i} $ 的概率，记为：

$$
\begin{eqnarray*}
\gamma_{t}(i) &=& P(i_{t}=q_{i}|O,\lambda) \\
&=& \frac{\alpha_{t}(i)\beta_{t}(i)}{\sum_{j=1}^{N}\alpha_{t}(j)\beta_{t}(j)}
\end{eqnarray*}
$$

2. 给定$\lambda, O$ ，在时刻$t$ 处于状态$q_{i}$ 且在时刻$t+1$ 处于状态 $q_{j}$ 的概率，记为：
$$
\begin{eqnarray*}
\xi _{t}(i,j) &=& P(i_{t}=q_{i}, i_{t+1}=q_{j}|O,\lambda) \\
&=& \frac{\alpha_{t}(i)a_{ij}b_{j}(o_{t+1})\beta_{t+1}(j)}{\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_{t}(i)a_{ij}b_{j}(o_{t+1})\beta_{t+1}(j)}
\end{eqnarray*}
$$

3. 在观测$O$下状态$i$出现的期望：
$$
\sum_{i=1}^{T}\gamma_{t}(i)
$$

4. 在观测$O$下由状态$i$转移的期望：
$$
\sum_{i=1}^{T-1}\gamma_{t}(i)
$$

5. 在观测$O$下由状态$i$转移到状态$j$的期望：
$$
\sum_{j=1}^{T-1}\xi_{t}(i,j)
$$

## 10.3 学习算法

若训练数据包括：观测序列和对应的状态序列，则是监督学习；

若训练数据只有观测序列，而无状态序列，则是无监督学习，对应Baum-Welch算法。

### 10.3.1 监督学习方法

假设给定数据集包含$S$ 个长度相同的观测序列和对应的状态序列${(O_1, I_1), (O_2, I_2), \cdots, (O_s, I_s)}$，那么可以用MLE估计参数：

1. 设样本中时刻$t$ 处于状态$i$，时刻$t+1$ 处于状态$j$ 的频数是$A_{ij}$，则
$$ 
\hat{a}_{ij}= \frac{ A_{ij} }{ \sum_{j=1}^{N} A_{ij} }
$$

2. 设样本中状态为$j$ 并观测为$k$ 的频数为$B_{jk}$，则
$$
\hat{b}_{j}(k) = \frac{ B_{jk} }{ \sum_{k=1}^{M} B_{jk} }
$$

3. $\hat{\pi}_{i}$ 为S个样本中$q_{i}$的频率。

### 10.3.2 Baum-Welch算法

假设给定训练数据只有$S$个长度为$T$ 的观测序列${O_1, O_2, \cdots, O_T}$，而没有对应的状态序列。

HMM模型事实上是一个含有隐变量的概率模型：
$$
P(O|\lambda) = \sum_{I} P(O|I, \lambda)P(I|\lambda)
$$

1. 确定完全数据的对数似然函数

    完全数据$(O,I)=(o_1,o_2, \cdots, o_T,i_1,i_2, \cdots, i_T)$
    
    完全数据的对数似然函数是 $\log{P(O,I|\lambda)}$

2. EM算法的E步：求Q函数$Q(\lambda,\hat{\lambda})$

    就是求完全数据对数似然函数$\log{P(O,I|\lambda)}$ 在后验 $P(I|O,\lambda)$ 上的分布：
    
    $$
    \begin{eqnarray*}
    Q(\lambda, \hat{\lambda}) &=& E_{I} \left[ \log{P(O,I|\lambda)|O, \bar{\lambda}} \right] \\
    &=& \sum_{I} \log{P(O,I|\lambda)} \cdot P(I|O, \bar{\lambda}) \\
    &=& \sum_{I} \log{P(O,I|\lambda)} \cdot \frac{P(I,O| \bar{\lambda}) }{ \color{grey}{P(O| \bar{\lambda}) }} \\
    &=& \sum_{I} \log{P(O,I|\lambda)} \cdot P(O, I| \bar{\lambda}) 
    \end{eqnarray*}
    $$
    
    将：
    
    $$
    P(O,I|\lambda) = P(O|I,\lambda)P(I|\lambda) = \pi_{i_1}b_{i_1}(o_1)a_{i_1i_2}b_{i_2}(o_2) \cdots a_{i_{T-1}i_{T}}b_{i_T}(o_{T})
    $$
    
    带入上式，$Q(\lambda, \hat{\lambda})$可写成：
    
    $$
    \begin{eqnarray*}
    Q(\lambda, \hat{\lambda}) &=& \sum_{I}\log{\pi_{i_{1}}}P(O,I|\bar{\lambda}) \\
    &+& \sum_{I} \left( \sum_{t=1}^{T-1} \log{ a_{i_{t}i_{t+1}} }  \right)P(O,I|\bar{\lambda}) + \sum_{I} \left( \sum_{t=1}^{T} \log{ b_{i_{t}}(o_{t}) }  \right)P(O,I|\bar{\lambda})
    \end{eqnarray*}
    $$
    



3. EM算法的M步：极大化$Q$函数，求模型参数$A,B,\pi$.

    由于要极大化的参数在上式中单独地出现在3个项中，因此只需对各项分别极大化。
    
    利用拉格朗日乘数法，对拉格朗日函数求偏导，可得到对应的参数值：
    
    (1)
    $$
    \pi_{i} = \frac{ P(O,i_1=i|\bar{\lambda}) }{ P(O|\bar{\lambda}) }
    $$
    
    (2)
    $$
    a_{ij} = \frac{ \sum_{t=1}^{T-1}P(O,i_{t}=i,i_{t+1}=j|\bar{\lambda}) }{ \sum_{t=1}^{T-1}P(O,i_{t}=i|\bar{\lambda}) }
    $$
    
    (3)
    $$
    b_{j}(k) = \frac{ \sum_{t=1}^{T}P( O,i_{t}=j | \bar{\lambda})I(o_{t}=v_{k}) }{ \sum_{t=1}^{T}P( O,i_{t}=j|\bar{\lambda} ) }
    $$

### 10.3.3 Baum-Welch模型参数估计公式

将$\pi_{i}, a_{ij}, b_{j}(k)$ 分别用$\gamma_{t}(i)，\xi_{t}(i,j)$表示，可写成如下公式：

$$
\begin{eqnarray*}
a_{ij} &=& \frac{ \sum_{t=1}^{T-1}\xi_{t}(i,j) }{ \sum_{t=1}^{T-1}\gamma_{t}(i) } \\
b_{j}(k) &=& \frac{ \sum_{t=1,o_{t}=v_{k}}^{T}\gamma_{t}(i) }{ \sum_{t=1}^{T}\gamma_{t}(i) } \\
\pi_{i} &=& \gamma_{1}(i)
\end{eqnarray*}
$$

#### Baum-Welch算法
输入：观测数据$O=(o_{1}, o_{2}, \cdots, o_{T})$;  

输出：$\lambda = (A,B,\pi)$

(1)初始化

对于$n=0$，选取$a_{ij}^{(0)}, b_{j}(k)^{(0)}, \pi_{i}^{(0)}$ ，得到模型$\lambda^{(0)} = (A^{(0)}, B^{(0)}, \pi^{(0)})$

(2)递推，对于$n=1,2,\cdots$


$$
\begin{eqnarray*}
a_{ij}^{(n+1)} &=& \frac{ \sum_{t=1}^{T-1}\xi_{t}(i,j) }{ \sum_{t=1}^{T-1}\gamma_{t}(i) } \\
b_{j}(k)^{(n+1)} &=& \frac{ \sum_{t=1,o_{t}=v_{k}}^{T}\gamma_{t}(i) }{ \sum_{t=1}^{T}\gamma_{t}(i) } \\
\pi_{i}^{(n+1)} &=& \gamma_{1}(i)
\end{eqnarray*}
$$

(3)终止

得到模型参数$\lambda^{(n+1)} = (A^{(n+1)}, B^{(n+1)}, \pi^{(n+1)})$


## 10.4 预测算法

已知模型参数$\lambda$ 和观测数据$O$，求条件概率$P(I|O)$最大的状态序列$T=(i_1, i_2, \cdots, i_T)$。

### 10.4.1 近似算法

近似算法的思想是： <font color=blue>在每个时刻$t$ 选择在该时刻最有可能的状态$i_{t}^{*}$，从而得到一个状态序列$I^* = (i_{1}^{*}, i_{2}^{*}, \cdots, i_{T}^{*})$</font>

在10.2.4中已求出：
$$
\begin{eqnarray*}
\gamma_{t}(i) &=& P(i_{t}=q_{i}|O,\lambda) \\
&=& \frac{\alpha_{t}(i)\beta_{t}(i)}{\sum_{j=1}^{N}\alpha_{t}(j)\beta_{t}(j)}
\end{eqnarray*}
$$

因此每一个时刻$t$ 最有可能出现的$i_{t}^*$ 是：
$$
i_{t}^* = \text{arg}\max_{1 \leq i \leq N}[\gamma_{t}(i)]
$$

近似算法的缺点：<font color=blue>不能保证预测的状态序列整体是最有可能的状态序列，因为预测的状态序列可能有实际不发生的部分。</font>

### 10.4.2 Viterbi算法

Viterbi算法实际上是用动态规划解HMM的预测问题。

定义$\delta_{t}(i)$为时刻$t$ 状态为$i$ 的所有单个路径$(i_{1},i_2,\cdots,i_t)$中概率最大的值：
$$
\delta_{t}(i) = \max_{i_1, \cdots, \color{red}{i_{t-1}}}P(i_t=i,i_{t-1},\cdots, i_{1},o_{1},\cdots,o_{t}|\lambda)
$$

由定义可得$\delta$的递推式：
$$
\delta_{t+1}(i) = \max_{1 \leq j \leq N}\left[ \delta_{t}(j)a_{ji} \right]b_{i}(o_{t+1})
$$

定义$\psi_{t}(i)$ 为t时刻状态为i的所有单个路径$i_1,\cdots,i_{t-1},i_{t}$中概率最大路径的第<font color=red>t-1</font>个节点：
$$
\psi_{t}(i) = \text{arg} \max_{1 \leq j \leq N}[\delta_{t-1}(j)a_{ji}]
$$

#### Viterbi算法
(1)初始化
$$
\delta_{1}(i) = \pi_{i}b_{i}(o_{1}) \\
\psi_{1}(i) = 0
$$

(2)递推，对t=2,3,...,T
$$
\delta_{t}(i) = \max_{1 \leq j \leq N}\left[ \delta_{t-1}(j)a_{ji} \right]b_{i}(o_{t}) \\
\psi_{t}(i) = \text{arg} \max_{1 \leq j \leq N}[\delta_{t-1}(j)a_{ji}]
$$

(3)终止
$$
P^* = \max_{1 \leq i \leq N} \delta_{T}(i) \\
i_{T}^{*} = \text{arg} \max_{1 \leq i \leq N} \left[ \delta_{T}(i) \right]
$$

(4)最优路径回溯，对t=T-1,T-2,...,1
$$
i_{t}^{*} =\psi_{t+1}(i_{i+1}^{*})
$$

于是得到最优路径$I^* = (i_{1}^{*}, i_{2}^{*}, \cdots, i_{T}^{*})$

```
package chapter10_HMM;

/**
 * Created with IntelliJ IDEA.
 * Description:
 * User: liuqiang
 * Date: 2020-12-22 11:47
 */
public class HMM {

    public static void main(String[] args) {

        double[][] A = {
                {0.5, 0.2, 0.3},
                {0.3, 0.5, 0.2},
                {0.2, 0.3, 0.5}};

        double[][] B = {
                {0.5, 0.5},
                {0.4, 0.6},
                {0.7, 0.3}
        };

        double[] pi = {0.2, 0.4, 0.4};

        int[] O = {0, 1, 0};

        // 前向算法
        double prob = forward(A, B, pi, O);
        System.out.println(String.format("观测序列的概率为:%4f", prob));

        // 维特比算法
        int[] path = viterbi(A, B, pi, O);
        System.out.print("最优状态路径：");
        for (int i : path) {
            System.out.printf("%d ", i);
        }
    }

    /**
     * 概率计算算法之前向算法
     *
     * @param A  状态转移矩阵
     * @param B  观测概率矩阵
     * @param pi 初始状态向量
     * @param O  观测序列
     * @return
     */
    public static double forward(double[][] A, double[][] B, double[] pi, int[] O) {
        int N = A.length; // 状态数N
        int M = B.length; // 观测数
        int T = O.length; // 序列长度
        double prob = 0.0; // 观测序列O的概率

        // 定义前向概率矩阵: T × N
        double[][] alpha = new double[T][N];

        // 计算初值
        for (int i = 0; i < N; i++) {
            alpha[0][i] = pi[i] * B[i][O[0]];
        }

        // 递推计算t=2,3,...,T
        for (int t = 1; t < T; t++) {
            for (int j = 0; j < N; j++) {
                double tmp = 0.0;
                for (int k = 0; k < N; k++) {
                    tmp += alpha[t - 1][k] * A[k][j];
                }
                alpha[t][j] = tmp * B[j][O[t]];
            }
        }

        // 打印alpha矩阵
        for (int i = 0; i < T; i++) {
            for (int j = 0; j < N; j++) {
                System.out.printf("%4f ", alpha[i][j]);
                if (j == N - 1) {
                    System.out.println();
                }
            }
        }

        // 将T时刻的所有alpha求和，得到概率
        for (int i = 0; i < M; i++) {
            prob += alpha[T - 1][i];
        }

        return prob;
    }

    /**
     * viterbi算法，计算最优路径
     *
     * @param A  状态转移矩阵 N×N
     * @param B  观测概率矩阵 N×M
     * @param pi 初始状态向量 N×1
     * @param O  观测序列 T×1
     * @return 状态序列 T×1
     */
    public static int[] viterbi(double[][] A, double[][] B, double[] pi, int[] O) {
        int N = A.length; // 状态数N
        int M = B.length; // 观测数
        int T = O.length; // 序列长度

        // 定义状态序列
        int[] I = new int[T];

        // 定义delta矩阵
        double[][] delta = new double[T][N];

        // 定义psi矩阵
        int[][] psi = new int[T][N];

        // 1. 初始化
        for (int i = 0; i < N; i++) {
            delta[0][i] = pi[i] * B[i][O[0]];
            psi[0][i] = 0;
        }

        // 2. 递推
        for (int t = 1; t < T; t++) {
            for (int i = 0; i < N; i++) { // 对N个状态
                delta[t][i] = 0;
                double psiTmp = -1.0;
                for (int j = 0; j < N; j++) {
                    // 计算delta
                    double tmp = delta[t - 1][j] * B[i][O[t]];
                    if (tmp > delta[t][i]) {
                        delta[t][i] = tmp;
                    }

                    // 计算psi
                    double tmp2 = delta[t - 1][j] * A[j][i];
                    if (tmp2 > psiTmp) {
                        psi[t][i] = j;
                    }
                }
            }
        }

        // 3. 终止，得到T时刻delta最大的状态iT*
        double maxPro = 0.0;
        int iT = -1;
        for (int i = 0; i < N; i++) {
            if (delta[T - 1][i] > maxPro) {
                iT = i;
            }
        }
        I[T - 1] = iT;

        // 4. 从T-1时刻往前回溯，得到路径I*
        for (int t = T - 2; t > -1; t--) {
            I[t] = psi[t + 1][I[t + 1]];
        }
        return I;
    }
}
```