## 3.4 马尔可夫链

### 3.4.1 定义

马尔可夫链是一组具有马尔可夫性质的离散随机变量的集合。具体地，对概率空间$(\Omega,F,P)$内以一维可数集为指数集（index set） 的随机变量集合 $X=\{X_n:n>0\}$，若随机变量的取值都在可数集内： $X=s_i, s_i \in s $，且随机变量的条件概率满足如下关系：

$$p(X_{t+1}|X_t,\dots,X_1)=p(X_{t+1}|X_t)$$

则$X$被称为马尔可夫链，可数集$s\in Z$被称为状态空间（state space），马尔可夫链在状态空间内的取值称为状态。这里定义的马尔可夫链是离散时间马尔可夫链（Discrete-Time MC, DTMC），其具有连续指数集的情形虽然被称为连续时间马尔可夫链（Continuous-Time MC, CTMC），但在本质上是马尔可夫过程（Markov process）。常见地，马尔可夫链的指数集被称为“步”或“时间步（time-step）”。

上式在定义马尔可夫链的同时定义了马尔可夫性质，该性质也被称为“无记忆性（memorylessness）”，即t+1步的随机变量在给定第t步随机变量后与其余的随机变量条件独立（conditionally independent）：$X_{t+1}\coprod (x_{t-1},x_0)|X_t$。在此基础上，马尔可夫链具有强马尔可夫性（strong Markov property），即对任意的停时（ stopping time）（停止时间是一种特殊的随机变量，表示一个随机的时刻。），马尔可夫链在停时前后的状态相互独立。

解释性例子：

马尔科夫链的一个常见例子是简化的股票涨跌模型：若一天中某股票上涨，则明天该股票有概率p开始下跌，1-p继续上涨；若一天中该股票下跌，则明天该股票有概率q开始上涨，1-q继续下跌。该股票的涨跌情况是一个马尔可夫链，且定义中各个概念在例子中有如下对应：

+ 随机变量：第t天该股票的状态；状态空间：“上涨”和“下跌”；指数集：天数。

+ 条件概率关系：按定义，即便已知该股票的所有历史状态，其在某天的涨跌也仅与前一天的状态有关。

+ 无记忆性：该股票当天的表现仅与前一天有关，与其他历史状态无关（定义条件概率关系的同时定义了无记忆性）。

+ 停时前后状态相互独立：取出该股票的涨跌记录，然后从中截取一段，我们无法知道截取的是哪一段，因为截取点，即停时t前后的记录（t-1和t+1）没有依赖关系。


### 什么是马尔可夫过程

### 马尔可夫性（无后效性）

过程或（系统）在时刻$t_0$所处的状态为已知的条件下，过程在时刻$t>t_0$所处状态的条件分布，与过程在时刻$t_0$之前处的状态无关的特性称为马尔可夫性或无后效性。

即：已知过程“现在”的情况，过程“将来”的情况与“过去”的情况是无关的。

### 马尔可夫过程的定义

具有马尔可夫性的随机过程称为马尔可夫过程。

用分布函数表述马尔可夫过程：

设：随机过程${X(t),t \in T}$的状态空间，如果对时间t的任意n个数值：

$$P(X(t_n)|X(t_1)=x_1,X(t_2)=x_2,\dots,X(t_{n-1}))=P(X(t_n\leq x_n)|X(t_{n-1})=x_{n-1} ),x_n \in R$$

时间和状态都是离散的马尔可夫过程称为马尔可夫链，简记为$X_n=X(n),n=0,1,2,\dots$

马尔可夫过程的应用举例

设任意相机的两天中，雨天转晴天的概率为1/3，晴天转雨天的概率为1/2，任一天晴或雨是互逆事件。以0表示晴天状态，以1表示雨天状态，$X_n$表示第n天状态（0或1）。试定出马氏链$X_n,n \geq 1$的一步转移概率矩阵。又已知5月1日为晴天，问5月3日晴天，5月5日为雨天的概率各等于多少？

解：由于人一天晴或雨是互为逆事件且雨天转晴天的概率为1/3，晴天转雨天的概率为1/2，故一步转移概率和一步转移概率矩阵分别为：

$$P(X_n=j|X_{n-1}=i)=\begin {cases} \frac {1}{3} ,i=1,j=0 \\ \frac {2}{3} ,i=1,j=1 \\ \frac {1}{2},i=0,j=0 \\ \frac {1}{2} ,i=0,j=1 \end{cases}$$

$$
P=\left[
\begin{matrix}
1/2&1/2\\
1/3&2/3
\end{matrix} \right] 
$$

$$
p^2 = \left[
\begin{matrix}
5/12&7/12\\
7/18&11/18
\end{matrix}\right]\
$$

故5月1日为晴天，5月3日为晴天的概率为：$P_{00}(2)= \frac {5}{12}=0.4167$

$$
p^4 = \left[
\begin{matrix}
0.4005&0.5995\\
0.3997&0.6003
\end{matrix}\right]\
$$

故5月1日为晴天，5月5日为雨天的概率为：$P_{01}(4)=0.5995$

### 3.4.2 理论与性质


#### 3.4.2.1转移理论

马尔可夫链中随机变量的状态随时间步的变化被称为演变（evolution）或转移（transition）。

马尔可夫链中随机变量间的条件概率可定义为如下形式的（单步）转移概率和n-步转移概率：

$$P_{i_n,i_{n+1}}=p(X_{n+1}=s_{i_{n+1}}|X_n=s_{i_n})$$

$$p^{(n)}_{i_0,i_n}=p(X_n=s_{i_n}|X_0=s_{i_0})$$


式中下标$i_n$表示第$n$步的转移。由马尔可夫性质可知，在给定初始概率 $\alpha=p(X_0)$后，转移概率的连续乘法可以表示马尔可夫链的有限维分布（finite-dimensional distribution）：

式中的$A_n=\{X_n=s_{i_n},X_{n-1}=s_{i_{n-1}},\dots,X_0=s_{i_0} \}$为样本轨道（sample path），即马尔可夫链每步的取值。对n-步转移概率，由Chapman–Kolmogorov等式可知，其值为所有样本轨道的总和：

$$p^{(n)}_{i_0,i_n}=\sum _{{i_0,i_m,i_n}\in s} P^{(k)}_{i_0,i_m} P^{(n-k)}_{i_m,i_n} = \sum _{{i_0,\dots,i_n} \in s} \alpha_{i_0}P_{i_0,i_1}\dots P_{i_{n-1},i_n}$$

上式表明，马尔可夫链直接演变n步等价于其先演变n-k步，再演变k步（k处于该马尔可夫链的状态空间内）。n-步转移概率与初始概率的乘积被称为该状态的绝对概率。

$$p(A_n)=\alpha P_{i_0,i_1} \dots P_{i_{n-2},i_{n-1}} P_{i_{n-1},i_n}$$

$$p(X_{n+1}=s_{i_{n+1}}|A_n)=P_{i_n,i_{n+1}}$$

$$p(A_{n+1})=p(A_n)P_{i_n,i_{n+1}}$$

若一个马尔可夫链的状态空间是有限的，则可在单步演变中将所有状态的转移概率按矩阵排列，得到转移矩阵:

$$P_{n,{n+1}}=(P_{i_n,i_{n+1}})= \begin{bmatrix} P_{0,0} & P_{0,1} & P_{0,2} & \dots \\ P_{1,0} & P_{1,1} & P_{1,2} & \dots \\ P_{2,0} & P_{2,1} & p_{2,2} & \dots \\ \dots & \dots & \dots & \dots \\ \dots & \dots & \dots & \dots \\ \end{bmatrix}\quad$$

马尔可夫链的转移矩阵是右随机矩阵（right stochastic matrix），矩阵的第$i_n$行表示 $X_n = s_{i_n}$时 $X_{n+1}$取所有可能状态的概率（离散分布），因此马尔可夫链完全决定转移矩阵，转移矩阵也完全决定马尔可夫链。由概率分布的性质可得，转移矩阵是一个正定矩阵，且每行元素之和等于1：

$$\forall i,j: P_{i,j}>0,\forall i: \sum _j P_{i,j}=1$$

#### 3.4.2.2 转移图（transition graph）


1.可达（accessible）与连通（communicate）


马尔可夫链的演变可以按图（graph）结构，表示为转移图（transition graph），图中的每条边都被赋予一个转移概率。通过转移图可引入“可达”和“连通”的概念：


若对马尔可夫链中的状态$s_i,s_j$有：$p_{i,k_1}p_{k_1,j}\dots p_{k_n,j}>0$，，即采样路径上的所有转移概率不为0，则状态 $s_j$ 是状态 $s_i$的可达状态，在转移图中表示为有向连接：$s_i \rightarrow s_j $。如果 $s_i,s_j$互为可达状态，则二者是连通的，在转移图中形成闭合回路，记为$s_i \leftrightarrow s_j $。由定义，可达与连通可以是间接的，即不必在单个时间步完成。


连通是一组等价关系，因此可以构建等价类（equivalence classes），在马尔可夫链中，包含尽可能多状态的等价类被称为连通类（communicating class）。


2.闭合集（closed set）与吸收态（absorbing state）

给定状态空间的一个子集，若马尔可夫链进入该子集后无法离开： $\forall s_i \in C :\sum_{s_j \in C} p_{i,j}=1$，则该子集是闭合的，称为闭合集，一个闭合集外部的所有状态都不是其可达状态。若闭合集中只有一个状态，则该状态是吸收态，在转移图中是一个概率为1的自环。一个闭合集可以包括一个或多个连通类。马尔可夫链从任意状态出发最终都会进入吸收态，这类马尔可夫链被称为吸收马尔可夫链（absorbing Markov chain）。


#### 3.4.2.3 性质

这里对马尔可夫链的4个性质：不可约性、重现性、周期性和遍历性进行定义。与马尔可夫性质不同，这些性质不是马尔可夫链必然拥有的性质，而是其在转移过程中对其状态表现出的性质。


1.不可约性（irreducibility）

如果一个马尔可夫链的状态空间仅有一个连通类，即状态空间的全体成员，则该马尔可夫链是不可约的，否则马尔可夫链具有可约性（reducibility）。马尔可夫链的不可约性意味着在其演变过程中，随机变量可以在任意状态间转移。

2.重现性（recurrence）

若马尔可夫链在到达一个状态后，在演变中能反复回到该状态，则该状态具有重现性，或该马尔可夫链具有（局部）重现性，反之则具有瞬变性（transience）的。此外，若状态$s_i \in s$具有重现性，则可计算其平均重现时间（mean recurrence time）：

$$E(T_i)= \sum^\infty _{n=1} n·p(T_i=n)$$


若平均重现时间$E(T_i)< \infty $， ，该状态是“正重现的（positive recurrent）”，否则为“零重现的”。若一个状态是零重现的，那意味着马尔可夫链两次访问该状态的时间间隔的期望是正无穷。

由上述瞬变性和重现性的定义可有如下推论：

推论1：对有限个状态的马尔可夫链，其至少有一个状态是可重现的，且所有可重现状态都是正可重现的。

推论2：若有限个状态的马尔可夫链是不可约的，则其所有状态是正重现的。

推论3：若状态A是可重现的，且状态B是A的可达状态，则A与B是连通的，且B是可重现的。

推论4：若状态B是A的可达状态，且状态B是吸收态，则B是可重现状态，A是瞬变状态。

推论5：由正可重现状态组成的集合是闭合集，但闭合集中的状态未必是可重现状态。



3.周期性（periodicity）

一个正重现的马尔可夫链可能具有周期性，即在其演变中，马尔可夫链能够按大于1的周期重现其状态。正式地，给定具有正重现性的状态$s_i \in s$，其重现周期按如下方式计算：

$$d = gcd | \{n>0:p(x_n=s_i|X_0 = s_i)>0 \}$$

式中$gcd|\{·\}$表示取集合元素的最大公约素。举例说明，若在转移图中，一个马尔可夫链重现某状态需要的步数为$\{3,6,9,12,\dots\}$，则其周期是3，即重现该状态所需的最小步数。若按上式计算得到$d>1$，该状态具有周期性，若$d=1$，该状态具有非周期性（aperiodicity）。由周期性的定义可有如下推论：

推论1：吸收态是非周期性状态。

推论2：若状态A与状态B连通，则A与B周期相同。

推论3：若不可约的马尔可夫链有周期性状态A，则该马尔可夫链的所有状态为周期性状态。

4.遍历性（ergodicity）

若马尔可夫链的一个状态是正重现的和非周期的，则该状态具有遍历性。若一个马尔可夫链是不可还原的，且有某个状态是遍历的，则该马尔可夫链的所有状态都是遍历的，被称为遍历链。由上述定义，遍历性有如下推论：

推论1：若状态A是吸收态，且A是状态B的可达状态，则A是遍历的，B不是遍历的。

推论2：若多个状态的马尔可夫链包含吸收态，则该马尔可夫链不是遍历链。

推论3：若多个状态的马尔可夫链形成有向无环图，或单个闭环，则该马尔可夫链不是遍历链。

遍历链是非周期的平稳马尔可夫链。

#### 3.4.2.4 稳态分析

平稳分布（stationary distribution）


给定一个马尔可夫链，若在其状态空间存在概率分布 $\pi=\pi(s)$，且该分布满足以下条件：

$$\forall s_j \in s: \pi(s_j)= \sum_{s_i \in s} \pi(s_i)P_{i,} \rightarrow \pi=\pi P,0< \pi (s_i) <1,||\pi||=1$$ 


则$\pi$是该马尔可夫链的平稳分布。式中$P=(P_{i,j})$是转移矩阵和转移概率，等价符号右侧的线性方程组被称为平衡方程（balance equation）。进一步地，若马尔可夫链的平稳分布存在，且其初始分布是平稳分布，则该马尔可夫链处于稳态（steady state）。

极限分布（limiting distribution）

若一个马尔可夫链的状态空间存在概率分布 $\pi$ 并满足如下关系：

$$\lim _{n \to \infty} p(X_n=s_i)=\pi(s_I)$$

则该分布是马尔可夫链的极限分布。注意到极限分布的定义与初始分布无关，即对任意的初始分布，当时间步趋于无穷时，随机变量的概率分布趋于极限分布。按定义，极限分布一定是平稳分布，但反之不成立，例如周期性的马尔可夫链可能具有平稳分布，但周期性马尔可夫链不收敛于任何分布，其平稳分布不是极限分布。


1.极限定理（limiting theorem）

两个独立的非周期平稳马尔可夫链，即遍历链如果有相同的转移矩阵，那么当时间步趋于无穷时，两者极限分布间的差异趋于0。对状态空间相同的遍历链$\{X_n\},\{Y_n\}$，给定任意初始分布后有:

$$\lim_{n \to \infty } sup_{s_i}|p(X_n=s_i)-p(Y_n=s_i)|=0$$

式中sup表示上确界（supremum）。考虑平稳分布的性质，该结论有推论：对遍历链 $\{X_n\}$，当时间步趋于无穷时，其极限分布趋于平稳分布：

$$\lim_{n \to \infty } sup_{s_i}|p(X_n=s_i)-\pi(s_i)|=0$$

该结论有时被称为马尔可夫链的极限定理（limit theorem of Markov chain），表明若马尔可夫链是遍历的，则其极限分布是平稳分布。

2. 遍历定理（ergodic theorem）

若一个马尔可夫链为遍历链，则由遍历定理，其对某一状态的访问次数与时间步的比值，在时间步趋于无穷时趋近于平均重现时间的倒数，即该状态的平稳分布或极限分布：

$$\lim_{n \to \infty} \frac{1}{n} \sum ^{\infty}_{n=1}p(X_n=s_i|X_0=s_i)=\frac {1}{E(s_i)}=\pi(s_i)$$

遍历定理的证明依赖于强大数定律（Strong Law of Large Numbers, SLLN），表明遍历链无论初始分布如何，在经过足够长的演变后，对其中一个随机变量进行多次观测（极限定理）和对多个随机变量进行一次观测（上式左侧）都可以得到极限分布的近似。


平稳马尔可夫链（stationary Markov chain）

若一个马尔可夫链拥有唯一的平稳分布且极限分布收敛于平稳分布，则按定义等价于，该马尔可夫链是平稳马尔可夫链 。平稳马尔可夫链是严格平稳随机过程，其演变与时间顺序无关：

$$P_{i_n,i_{n+1}}=p(X_{i_{n+1}}=s_{n+1}|X_{i_{n}=s_n})=p(X_{i_n}|X_{i_{n-1}}=s_{n-1})$$

平稳马尔可夫链也被称为齐次马尔可夫链（time-homogeneous Markov chain）。

若平稳马尔可夫链对其任意两个状态满足细致平衡（detailed balance）条件，则其具有可逆性，被称为可逆马尔可夫链（reversible Markov chain）：

$$\pi(s_i)p(X_{n+1}=s_j|X_n=s_i)=\pi(s_j)p(X_{n+1}=s_i|X_n=s_j)$$

马尔可夫链的可逆性是更严格的不可约性，即其不仅可以在任意状态间转移，且向各状态转移的概率是相等的，因此可逆马尔可夫链是平稳马尔可夫链的充分非必要条件。
