# 第10章 隐马尔可夫模型

1．隐马尔可夫模型是关于时序的概率模型，描述由一个隐藏的马尔可夫链随机生成不可观测的状态的序列，再由各个状态随机生成一个观测而产生观测的序列的过程。

隐马尔可夫模型由初始状态概率向$\pi$、状态转移概率矩阵$A$和观测概率矩阵$B$决定。因此，隐马尔可夫模型可以写成$\lambda=(A, B, \pi)$。

隐马尔可夫模型是一个生成模型，表示状态序列和观测序列的联合分布，但是状态序列是隐藏的，不可观测的。

隐马尔可夫模型可以用于标注，这时状态对应着标记。标注问题是给定观测序列预测其对应的标记序列。

2．概率计算问题。给定模型$\lambda=(A, B, \pi)$和观测序列$O＝(o_1，o_2,…,o_T)$，计算在模型$\lambda$下观测序列$O$出现的概率$P(O|\lambda)$。前向-后向算法是通过递推地计算前向-后向概率可以高效地进行隐马尔可夫模型的概率计算。
 
3．学习问题。已知观测序列$O＝(o_1，o_2,…,o_T)$，估计模型$\lambda=(A, B, \pi)$参数，使得在该模型下观测序列概率$P(O|\lambda)$最大。即用极大似然估计的方法估计参数。Baum-Welch算法，也就是EM算法可以高效地对隐马尔可夫模型进行训练。它是一种非监督学习算法。

4．预测问题。已知模型$\lambda=(A, B, \pi)$和观测序列$O＝(o_1，o_2,…,o_T)$，求对给定观测序列条件概率$P(I|O)$最大的状态序列$I＝(i_1，i_2,…,i_T)$。维特比算法应用动态规划高效地求解最优路径，即概率最大的状态序列。


# 马尔可夫链
## 马尔可夫(Markov)过程及其概率分布
**马尔可夫性**或**无后效性**: 过程(或系统)在时刻$t_0$所处状态为已知条件下, 过程在时刻$t>t_0$所处状态的条件分布与过程在时刻$t_0$之前所处的状态无关. 通俗地说, 就是在已知过程"现在"的条件下, 其"将来"不依赖于"过去".

设随机过程$\{X(t), t \in T\}$的状态空间为$I$. 如果对时间$t$的任意$n$个数值$t_1<t_2< \cdots< t_n, n\geq3, t_i \in T $, 在条件$X(t_i)=x_i, x_i \in I, i=1,2, \cdots, n-1$下, $X(t_n)$的条件分布函数恰等于在条件$X(t_{n-1})=x_{n-1}$下$X(t_n)$的条件分布函数, 即
$$
P\{X(t_n) \leq x_n| X(t_1)=x_1, X(t_2)=x_2, \cdots, X(t_{n-1})=x_{n-1}\} \\
= P\{X(t_{n}) \leq x_{n}|X(t_{n-1})=x_{n-1}\}, x_n \in \mathcal R
$$
或写成
$$F_{t_n|t_1\cdots t_{n-1}}(x_n,t_n|x_1, x_2, \cdots, x_{n-1};t_1, t_2, \cdots, t_{n-1}) 
= F_{t_n|t_{n-1}}(x_n, t_n|x_{n-1},t_{n-1})
$$
则称过程$\{X(t), t\in T\}$具有马尔可夫性或无后效性, 并称此过程为**马尔可夫过程**

时间和状态都是**离散**的马尔可夫过程称为**马尔可夫链**, 简称马氏链, 记为$\{X_n=X(n), n=0, 1, 2, \cdots\}$, 它可以看作在时间集$T_1 = \{0, 1, 2, \cdots\}$上对离散状态的马尔可夫过程相继观察的结果.记链的状态空间为$I=\{a_1, a_2, \cdots\}, a_i \in R$, 马尔可夫性常用条件分布律来表示, 即对任意的正整数$n,r$和$0\leq t_1 < t_2<\cdots<t_r<t_m; t_i,m,m+n \in T_1$, 有
$$P\{X_{m+n}= a_j|X_{t_1}=a_{1}, X_{t_2}=a_{2}, \cdots X_{t_r}=a_{r}, X_{m}=a_{i}\} \\
= P\{X_{m+n}=a_j |X_m=a_i\}
$$
记上式右端为$P_{ij}(m, m+n)$, 称条件概率
$$P_{ij}(m, m+n) = P\{X_{m+n}=a_j | X_m=a_i\}$$
为马尔科夫链在时刻$m$处于状态$a_i$条件下, 在时刻$m+n$转移到状态$a_j$的**转移概率**.  
由于链在时刻$m$从任何一个状态$a_i$出发, 到另一时刻$m+n$, 必然转移到$a_1, a_2, \cdots$诸状态中的某一个,所以
$$\sum_{j}P_{ij}(m, m+n) = 1, \quad i=1, 2, \cdots.$$
由转移概率组成的矩阵$P(m, m+n) = (P_{ij}(m, m+n))$称为马氏链的**转移概率矩阵**, 每一行之和等于1.

当转移概率$P_{ij}(m, m+n)$只与$i,j$及时间间距$n$有关时, 把它记为$P_{ij}(n)$, 即
$$P_{ij}(m, m+n) = P_{ij}(n)$$
并称此转移概率具有**平稳性**. 同时也称此链是**齐次**的或**齐时**的. 在齐次情形下, 上述定义的转移概率可以写成
$$P_{ij}(n) = P\{X_{m+n}=a_j|X_m=a_i\}$$
称为马氏链的**n步转移概率**, $P(n)=(P_{ij}(n))$为**n步转移概率矩阵**. 其中特别重要的就是一步转移概率
$$p_{ij}=P_{ij}(1)=P\{X_{m+1}=a_j|X_m=a_i\}$$
和他们组成的一步转移概率矩阵
$$\begin{bmatrix}p_{11} & p_{12} & \cdots & p_{1j} & \cdots \\
p_{21} & p_{22} & \cdots & p_{2j} & \cdots \\
\vdots & \vdots& &\vdots \\
p_{i1} & p_{i2} & \cdots & p_{ij} & \cdots \\
\vdots & \vdots& &\vdots \\
\end{bmatrix} = P(1)$$
记作$P.$

In [None]:
import numpy as np

In [None]:
# 例1 股市模型
def markov_market(init, transfer, n):
    # 股市 bull 0 , bear 1 , stagnant 2 
    # 初始状态
    init_array = init
    # 一步状态转移矩阵
    transfer_array = transfer
    temp = init_array
    for i in range(n):
        res = np.dot(temp, transfer_array)
        print(f'{i}\t{res}')
        temp = res

In [None]:
transfer = np.array([[0.9, 0.075, 0.025],
                   [0.15, 0.8, 0.05],
                   [0.25, 0.25, 0.5]])
init = np.array([0.1, 0.2, 0.7])
markov_market(init, transfer, 30)

In [None]:
markov_market(np.array([0.3, 0.3, 0.4]), transfer, 30)

可以看到初始状态$a_1$发生变化, 但两者都在第18次时候, 收敛到$[0.624, 0.312, 0.0625]$. 不管初始状态是什么样子, 只要状态转移矩阵不变, 当$n\rightarrow \infty$时, 最终状态始终会收敛到一个固定值.

In [None]:
# 状态转移矩阵的n次幂
def matrix_power(matrix, n):
    temp = matrix
    for i in range(n):
        res = np.dot(temp, matrix)
        print(f'{i}\t{res}')
        temp = res

In [None]:
matrix_power(transfer, 25)

随着幂的次数的增加, 结果开始收敛, 每一行都为$[0.624, 0.312, 0.0625]$

# 隐马尔可夫模型(hidden Markov model, HMM)
隐马尔可夫模型是关于时序的概率模型，描述由一个隐藏的马尔可夫链随机生成不可观测的状态的序列(状态序列, state sequence)，再由各个状态随机生成一个观测而产生观测的序列(观测序列, observation sequence)的过程。序列的每一个位置又可以看作是一个时刻.
设$Q$为所有可能的状态集合, $V$是所有可能的观测集合:
$$Q=\{q_1, q_2, \cdots, q_N\}, \quad V=\{v_1, v_2, \cdots, v_M\}$$
其中, $N$是可能的状态数, $M$是可能的观测数.  
$I$是长度$T$的状态序列, $O$是对应的观测序列:
$$I=(i_1, i_2, \cdots, i_T), \quad O=(o_1, o_2, \cdots, o_T)$$
$A$是(一步)状态转移概率矩阵:
$$A=[a_{ij}]_{N\times N}$$
$$a_{ij}=P(i_{t+1}=q_j|i_t=q_i), \quad i=1, 2, \cdots, N; \quad j=1, 2, \cdots, N$$
与上述$P_{ij}(1)$含义相同.
$B$是观测概率矩阵:
$$B=[b_j(k)]_{N\times M}$$
其中,
$$b_j(k)=P(o_t=v_k|i_t=q_j), \quad k=1, 2, \cdots, M; \quad j=1, 2, \cdots, N$$
是在时刻$t$处于状态$q_i$条件下生成观测$v_k$的概率.
$\pi$是初始状态概率向量:
$$\pi = (\pi_i)$$
其中,
$$\pi_i = P(i_1 = q_i), \quad i=1, 2, \cdots, N$$
是初始时刻$t=1$处于状态$q_i$的概率.

隐马尔可夫模型由初始状态概率向$\pi$、状态转移概率矩阵$A$和观测概率矩阵$B$决定。因此，隐马尔可夫模型可以写成
$$\lambda=(A, B, \pi)$$

## 概率计算问题-评估观察序列概率
给定模型$\lambda=(A, B, \pi)$和观测序列$O＝(o_1，o_2,…,o_T)$，计算在模型$\lambda$下观测序列$O$出现的概率$P(O|\lambda)$。前向-后向算法是通过递推地计算前向-后向概率可以高效地进行隐马尔可夫模型的概率计算。  
### 前向算法
**前向概率** 给定隐马尔可夫模型$\lambda$, 定义到时刻$t$部分观测序列为$o_1, o_2, \cdots, o_t$且状态为$q_i$的概率为前向概率, 记作
$$\alpha_t(i) = P(o_1, o_2, \cdots, o_t, i_t=q_i|\lambda)$$

1. 初值 $$\alpha_1 = P(o_1,i_1=q_i) = P(o_1|i_1=q_i)P(i_1=q_i) = b_i(o_1)\pi_i$$

2. 递推 对$t=1, 2, \cdots, T-1$
   $$\begin{align}\alpha_{t+1}(i) &= P(o_1, o_2, \cdots, o_t, o_{t+1}, i_{t+1}=q_i) \\
   &= P(o_1, o_2, \cdots, o_t, i_{t+1} = q_i)P(o_{t+1}|i_{t+1}=q_i, o_1, o_2, \cdots, o_t) \\
   &= \left[\sum_{j=1}^N P(o_1, o_2, \cdots, o_t, i_{t} = q_j, i_{t+1}=q_i)\right]b_i(o_{t+1}) \\
   &= \left[\sum_{j=1}^N P(o_1, o_2, \cdots, o_t, i_{t} = q_j)P(i_{t+1}=q_i|i_{t}= q_j)\right]b_i(o_{t+1}) \\
   &= \left[\sum_{j=1}^N \alpha_t(j)a_{ji}\right]b_i(o_{t+1})
   \end{align}$$
   按定义$\alpha_{t+1}(i)$可以表示为$t$时刻观测到$o_1, o_2, \cdots, o_t$且在$t+1$时刻处于状态$q_i$的联合概率与观测概率$b_i(o_{t+1})$乘积;而前半部分又可以写成全概率公式的模式;再由马尔可夫链的齐次性质写成条件概率形式
3. 终止
   $$P(O|\lambda) = \sum_{i=1}^N P(o_1, o_2, \cdots, o_T, i_{T} = q_i) = \sum_{j=1}^N \alpha_T(i)$$
   
复杂度分析: 每一次计算直接引用前一个时刻的计算结果, 避免重复计算, 时间复杂度$O(TN^2)$

**习题10.1**

In [None]:
#习题10.1
Q = [1, 2, 3]
V = ['红', '白']
A = np.array([[0.5, 0.2, 0.3], [0.3, 0.5, 0.2], [0.2, 0.3, 0.5]])
B = np.array([[0.5, 0.5], [0.4, 0.6], [0.7, 0.3]])
# O = ['红', '白', '红', '红', '白', '红', '白', '白']
O = ['红', '白', '红', '白']    #习题10.1的例子
PI = np.array([0.2, 0.4, 0.4])

In [None]:
def forward(A, B, Q, O, V, PI):
    N = len(Q)  # 可能的状态数量
    T = len(O)  # 观测序列长度=时刻
    for t in range(0, T):
        k = V.index(O[t])  # O_t对应的观测状态序号k
        if t == 0 :
            alpha = PI * B[:, k]  # PI[i] * b_i(o_1)  (N, )
        else:
            for i in range(N):
                # alpha_{t+1}(i) = (\sum_j alpha_{t}(j) A[j, i] ) B[i, k]
                alpha[i] = np.sum(alpha_last * A[:, i]) * B[i, k]
        alpha_last = alpha.copy()
        print(f"alpha[{t}]: {alpha}")
    return np.sum(alpha)

In [None]:
forward(A, B, Q, O, V, PI)

### 后向算法
**后向概率**: 给定隐马尔可夫模型$\lambda$, 定义到时刻$t$状态为$q_i$的条件下, 从$t+1$到$T$的部分观测序列为$o_{t+1}, o_{t+2}, \cdots, o_T$的概率为后向概率, 记作
$$\beta_t(i) = P(o_{t+1}, o_{t+2}, \cdots, o_T|i_t=q_i, \lambda)$$
用递推的方法求后向概率$\beta_t{i}$以及观测序列概率$P(O|\lambda)$

后向概率的动态规划递推公式和前向概率是相反的。现在我们假设我们已经找到了在时刻$t+1$时各个隐藏状态的后向概率$\beta_{t+1}(j)$，现在我们需要递推出时刻$t$时各个隐藏状态的后向概率。我们可以计算出观测状态的序列为$o_{t+2},o_{t+3},...o_T$， $t$时隐藏状态为$q_i$, 时刻$t+1$隐藏状态为$q_j$的概率为$a_{ij}\beta_{t+1}(j)$, 接着可以得到观测状态的序列为$o_{t+1},o_{t+2},...o_T$， $t$时隐藏状态为$q_i$, 时刻$t+1$隐藏状态为$q_j$的概率为$a_{ij}b_j(o_{t+1})\beta_{t+1}(j)$, 则把所有对应的概率加起来，我们可以得到观测状态的序列为$o_{t+1},o_{t+2},...o_T$， $t$时隐藏状态为$q_i$的概率为$\sum\limits_{j=1}^{N}a_{ij}b_j(o_{t+1})\beta_{t+1}(j)$，这个概率即为时刻$t$的后向概率。

输入：HMM模型$\lambda = (A, B, \pi)$，观测序列$O=(o_1,o_2,...o_T)$

输出：观测序列概率$P(O|\lambda)$

1) 初始化时刻$T$的各个隐藏状态后向概率：$$\beta_T(i) = 1,\; i=1,2,...N$$

2) 递推时刻$T-1,T-2,...1$时刻的后向概率：$$\beta_{t}(i) = \sum\limits_{j=1}^{N}a_{ij}b_j(o_{t+1})\beta_{t+1}(j),\; i=1,2,...N$$

3) 计算最终结果：$$P(O|\lambda) = \sum\limits_{i=1}^N\pi_ib_i(o_1)\beta_1(i)$$

此时我们的算法时间复杂度仍然是$O(TN^2)$。

利用前向概率和后向概率的定义可以将观测序列概率$P(O|\lambda)$统一写成:
$$P(O|\lambda) = \sum_{j=1}^N \sum_{i=1}^N \alpha_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j), \quad t=1, 2, \cdots, T-1$$

In [None]:
def backforwad(A, B, Q, O, V, PI):
    N = len(Q)
    T = len(O)
    for t in range(T-1, -1, -1):
        if t == T-1:
            beta = np.ones(N)
        else:
            k = V.index(O[t + 1])  # t时刻观测值o_t对应在观测集合中索引k 
            for i in range(N):
                beta[i] = np.sum(A[i, :] * B[:, k] * beta_last)
        print(f'beta[{t}]:, {beta}')
        beta_last = beta.copy()
    return np.sum(PI * B[:, V.index(O[0])] * beta_last)

In [None]:
backforwad(A, B, Q, O, V, PI)

### 一些概率与期望值的计算
利用前向概率和后向概率，我们可以计算出HMM中单个状态和两个状态的概率公式。

1）给定模型$\lambda$和观测序列$O$,在时刻$t$处于状态$q_i$的概率记为:$$\gamma_t(i) = P(i_t = q_i | O,\lambda) = \frac{P(i_t = q_i ,O|\lambda)}{P(O|\lambda)} $$

利用前向概率和后向概率的定义可知：$$P(i_t = q_i ,O|\lambda) = \alpha_t(i)\beta_t(i)$$

于是我们得到：$$\gamma_t(i) = \frac{ \alpha_t(i)\beta_t(i)}{\sum\limits_{j=1}^N \alpha_t(j)\beta_t(j)}$$

2）给定模型$\lambda$和观测序列$O$,在时刻$t$处于状态$q_i$，且时刻$t+1$处于状态$q_j$的概率记为:$$\xi_t(i,j) = P(i_t = q_i, i_{t+1}=q_j | O,\lambda) = \frac{ P(i_t = q_i, i_{t+1}=q_j , O|\lambda)}{P(O|\lambda)} $$

而$P(i_t = q_i, i_{t+1}=q_j , O|\lambda)$可以由前向后向概率来表示为:$$P(i_t = q_i, i_{t+1}=q_j , O|\lambda) = \alpha_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)$$

从而最终我们得到$\xi_t(i,j)$的表达式如下：$$\xi_t(i,j) = \frac{\alpha_t(i)a_{ij}b_j(o_{t+1})\beta_{t+1}(j)}{\sum\limits_{r=1}^N\sum\limits_{s=1}^N\alpha_t(r)a_{rs}b_s(o_{t+1})\beta_{t+1}(s)}$$

 3) 将$\gamma_t(i)$和$\xi_t(i,j)$在各个时刻$t$求和，可以得到：

在观测序列$O$下状态$i$出现的期望值$\sum\limits_{t=1}^T\gamma_t(i)$

在观测序列$O$下由状态$i$转移的期望值$\sum\limits_{t=1}^{T-1}\gamma_t(i)$

在观测序列$O$下由状态$i$转移到状态$j$的期望值$\sum\limits_{t=1}^{T-1}\xi_t(i,j)$


**习题10.2**

In [None]:
Q = [1, 2, 3]
V = ['红', '白']
A = np.array([[0.5, 0.1, 0.4], [0.3, 0.5, 0.2], [0.2, 0.2, 0.6]])
B = np.array([[0.5, 0.5], [0.4, 0.6], [0.7, 0.3]])
O = ['红', '白', '红', '红', '白', '红', '白', '白']
PI = np.array([0.2, 0.3, 0.5])

In [None]:
def forword_backword(A, B, Q, O, V, PI):
    # 前向-后向概率算法
    N = len(Q)
    T = len(O)
    alphas = np.zeros((T, N))
    betas = np.zeros((T, N))
    gammas = np.zeros((T, N))
    for t in range(0, T):
        k = V.index(O[t])  # O_t对应的观测状态序号k
        t_reverse = T-1-t
        if t == 0 :
            alphas[0, :] = PI * B[:, k]  # PI[i] * b_i(o_1)  (N, )
            betas[t_reverse, :] = np.ones(N)
        else:
            for i in range(N):
                # alpha_{t+1}(i) = (\sum_j alpha_{t}(j) A[j, i] ) B[i, k]
                alphas[t, i] = np.sum(alphas[t-1, :] * A[:, i]) * B[i, k]
                betas[t_reverse, i] = np.sum(A[i, :] * B[:, k] * betas[t_reverse+1, :])
    for t in range(0, T):
        gammas[t, :] = alphas[t, :] * betas[t, :] / np.sum(alphas[t, :] * betas[t, :])
    print(f"alphas:\n {alphas}")
    print(f"betas:\n {betas}")
    print(f"gammas:\n {gammas}")
    print("P(O|\lambda):", np.sum(alphas[-1]), np.sum(PI * B[:, V.index(O[0])] * betas[0,:]))
    return gammas

In [None]:
gammas = forword_backword(A, B, Q, O, V, PI)
# P(i_4=q_3|O)
gammas[3, 2]

## 学习算法-参数求解
### 监督学习方法
已知$D$个长度为$T$的观测序列和对应的隐藏状态序列，即$\{(O_1, I_1), (O_2, I_2), ...(O_D, I_D)\}$是已知的，此时我们可以很容易的用**极大似然法**来求解模型参数。

1. 转移概率$a_{ij}$估计  
假设样本从隐藏状态$q_i$转移到$q_j$的频率计数是$A_{ij}$,那么状态转移矩阵求得为：$$A = \Big[\hat a_{ij}\Big], \;其中\hat a_{ij} = \frac{A_{ij}}{\sum\limits_{s=1}^{N}A_{is}}$$
2. 观测概率$b_j(k)$  
假设样本隐藏状态为$q_j$且观测状态为$v_k$的频率计数是$B_{jk}$,那么观测状态概率矩阵为：$$B= \Big[\hat b_{j}(k)\Big], \;其中\hat b_{j}(k) = \frac{B_{jk}}{\sum\limits_{s=1}^{M}B_{js}}$$
3. 初始状态概率估计  
假设所有样本中初始隐藏状态为$q_i$的频率计数为$C(i)$,那么初始概率分布为：$$\Pi = \pi(i) = \frac{C(i)}{\sum\limits_{s=1}^{N}C(s)}$$

### Baum-Wecle 算法
在很多时候，我们无法得到HMM样本观察序列对应的隐藏序列，只有$D$个长度为$T$的观测序列$\{(O_1), (O_2), ...(O_D)\}$而没有对应的状态序列$I_1, I_2, \cdots, I_D$, 目标是学习隐马尔可夫模型参数$\lambda=(A, B, \pi)$, 将可观测的序列数据看做$O$, 状态序列数据看做不可观测的隐数据$I$, 那么隐马尔可夫模型事实上式一个含有隐变量的概率模型
$$P(O|\lambda) = \sum_I P(O|I, \lambda)P(I|\lambda)$$
它的参数学习可以由EM算法实现.
鲍姆-韦尔奇算法原理既然使用的就是EM算法的原理，那么我们需要在E步求出联合分布$P(O,I|\lambda)$基于条件概率$P(I|O,\overline{\lambda})$的期望，其中$\overline{\lambda}$为当前的模型参数，然后再M步最大化这个期望，得到更新的模型参数$\lambda$。接着不停的进行EM迭代，直到模型参数的值收敛为止。

1. E步，当前模型参数为$\overline{\lambda}$, 联合分布$P(O,I|\lambda)$基于条件概率$P(I|O,\overline{\lambda})$的期望表达式为：$$L(\lambda, \overline{\lambda}) = \sum\limits_{I}P(I|O,\overline{\lambda})logP(O,I|\lambda)$$

2. M步，我们极大化上式，然后得到更新后的模型参数如下：　$$\overline{\lambda} = arg\;\max_{\lambda}\sum\limits_{I}P(I|O,\overline{\lambda})logP(O,I|\lambda)$$

In [None]:
class HiddenMarkov:
    def forward(self, Q, V, A, B, O, PI):  # 使用前向算法
        N = len(Q)  #可能存在的状态数量
        M = len(O)  # 观测序列的大小
        alphas = np.zeros((N, M))  # alpha值
        T = M  # 有几个时刻，有几个观测序列，就有几个时刻
        for t in range(T):  # 遍历每一时刻，算出alpha值
            indexOfO = V.index(O[t])  # 找出序列对应的索引
            for i in range(N):
                if t == 0:  # 计算初值
                    alphas[i][t] = PI[t][i] * B[i][indexOfO]  # P176（10.15）
                    print(
                        'alpha1(%d)=p%db%db(o1)=%f' % (i, i, i, alphas[i][t]))
                else:
                    alphas[i][t] = np.dot(
                        [alpha[t - 1] for alpha in alphas],
                        [a[i] for a in A]) * B[i][indexOfO]  # 对应P176（10.16）
                    print('alpha%d(%d)=[sigma alpha%d(i)ai%d]b%d(o%d)=%f' %
                          (t, i, t - 1, i, i, t, alphas[i][t]))
                    # print(alphas)
        P = np.sum([alpha[M - 1] for alpha in alphas])  # P176(10.17)
        # alpha11 = pi[0][0] * B[0][0]    #代表a1(1)
        # alpha12 = pi[0][1] * B[1][0]    #代表a1(2)
        # alpha13 = pi[0][2] * B[2][0]    #代表a1(3)

    def backward(self, Q, V, A, B, O, PI):  # 后向算法
        N = len(Q)  # 可能存在的状态数量
        M = len(O)  # 观测序列的大小
        betas = np.ones((N, M))  # beta
        for i in range(N):
            print('beta%d(%d)=1' % (M, i))
        for t in range(M - 2, -1, -1):
            indexOfO = V.index(O[t + 1])  # 找出序列对应的索引
            for i in range(N):
                betas[i][t] = np.dot(
                    np.multiply(A[i], [b[indexOfO] for b in B]),
                    [beta[t + 1] for beta in betas])
                realT = t + 1
                realI = i + 1
                print(
                    'beta%d(%d)=[sigma a%djbj(o%d)]beta%d(j)=(' %
                    (realT, realI, realI, realT + 1, realT + 1),
                    end='')
                for j in range(N):
                    print(
                        "%.2f*%.2f*%.2f+" % (A[i][j], B[j][indexOfO],
                                             betas[j][t + 1]),
                        end='')
                print("0)=%.3f" % betas[i][t])
        # print(betas)
        indexOfO = V.index(O[0])
        P = np.dot(
            np.multiply(PI, [b[indexOfO] for b in B]),
            [beta[0] for beta in betas])
        print("P(O|lambda)=", end="")
        for i in range(N):
            print(
                "%.1f*%.1f*%.5f+" % (PI[0][i], B[i][indexOfO], betas[i][0]),
                end="")
        print("0=%f" % P)

    def viterbi(self, Q, V, A, B, O, PI):
        N = len(Q)  #可能存在的状态数量
        M = len(O)  # 观测序列的大小
        deltas = np.zeros((N, M))
        psis = np.zeros((N, M))
        I = np.zeros((1, M))
        for t in range(M):
            realT = t + 1
            indexOfO = V.index(O[t])  # 找出序列对应的索引
            for i in range(N):
                realI = i + 1
                if t == 0:
                    deltas[i][t] = PI[0][i] * B[i][indexOfO]
                    psis[i][t] = 0
                    print('delta1(%d)=pi%d * b%d(o1)=%.2f * %.2f=%.2f' %
                          (realI, realI, realI, PI[0][i], B[i][indexOfO],
                           deltas[i][t]))
                    print('psis1(%d)=0' % (realI))
                else:
                    deltas[i][t] = np.max(
                        np.multiply([delta[t - 1] for delta in deltas],
                                    [a[i] for a in A])) * B[i][indexOfO]
                    print(
                        'delta%d(%d)=max[delta%d(j)aj%d]b%d(o%d)=%.2f*%.2f=%.5f'
                        % (realT, realI, realT - 1, realI, realI, realT,
                           np.max(
                               np.multiply([delta[t - 1] for delta in deltas],
                                           [a[i] for a in A])), B[i][indexOfO],
                           deltas[i][t]))
                    psis[i][t] = np.argmax(
                        np.multiply(
                            [delta[t - 1] for delta in deltas],
                            [a[i]
                             for a in A])) + 1  #由于其返回的是索引，因此应+1才能和正常的下标值相符合。
                    print('psis%d(%d)=argmax[delta%d(j)aj%d]=%d' %
                          (realT, realI, realT - 1, realI, psis[i][t]))
        print(deltas)
        print(psis)
        I[0][M - 1] = np.argmax([delta[M - 1] for delta in deltas
                                 ]) + 1  #由于其返回的是索引，因此应+1才能和正常的下标值相符合。
        print('i%d=argmax[deltaT(i)]=%d' % (M, I[0][M - 1]))
        for t in range(M - 2, -1, -1):
            I[0][t] = psis[int(I[0][t + 1]) - 1][t + 1]
            print('i%d=psis%d(i%d)=%d' % (t + 1, t + 2, t + 2, I[0][t]))
        print("状态序列I：", I)

参考: [隐马尔科夫模型HMM](https://www.cnblogs.com/pinard/p/6945257.html)

----
参考代码：https://blog.csdn.net/tudaodiaozhale

中文注释制作：机器学习初学者

微信公众号：ID:ai-start-com

配置环境：python 3.5+

代码全部测试通过。
![gongzhong](../gongzhong.jpg)