# 第19章 马尔可夫链蒙特卡罗法 之 马尔可夫链
     
    19.2 马尔可夫链    
        19.2.1 基本定义    
        19.2.2 离散状态马尔可夫链    
        19.2.3 连续状态马尔可夫链    
        19.2.4 马尔可夫链的性质        
        
阅读资料

1. [Markov Chain Analysis and Simulation using Python](https://towardsdatascience.com/markov-chain-analysis-and-simulation-using-python-4507cee0b06e)

In [1]:
import random
import math
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

%matplotlib inline
sns.set_style('darkgrid')
plt.rcParams['figure.figsize'] = (12, 8)

## 19.2 马尔可夫链    

###     19.2.1 基本定义    

#### 马尔可夫链

考虑一个随机变量的序列
$X=\{X_0, X_1, \cdots, X_t, \cdots \}$
这里 $X_t$ 表示时刻 $t$ 的随机变量，$t=0,1,2,\cdots$。
每个随机变量$X_t(t=0,1,2,\cdots)$的取值集合相同，称为状态空间，表示为 $S$ 。
随机变量可以是离散的，也可以是连续的。
以上随机变量的序列构成随机过程 （stochastic process )。

假设在时刻$0$的随机变量 $X_0$ 遵循概率分布 $P(X_0)=\pi_0$，称为初始状态分布。
在某个时刻 $t \geq 1$ 的随机变量 $X_t$ 与前一个时刻的随机变量 $X_{t-1}$ 之间有条件分布 $P(X_t | X_{t-1})$，
如果 $X_t$ 只依赖于 $X_{t-1}$，而不依赖于过去的随机变量
$\{X_0,X_1, \cdots, X_{t-2}\}$，
这一性质称为马尔可夫性，即

$$ P\left(X_{t} | X_{0}, X_{1}, \cdots, X_{t-1}\right)=P\left(X_{t} | X_{t-1}\right), \quad t=1,2, \cdots $$

具有马尔可夫性的随机序列 $X = \{ X_0,X_1, \cdots,X_t,\cdots \}$ 称为马尔可夫链（Markov
chain）, 或马尔可夫过程（Markov process）。
条件概率分布$P(X_t | X_{t-1})$ 称为马尔可夫链的转移概率分布。
转移概率分布决定了马尔可夫链的特性。

马尔可夫性的直观解释是“未来只依赖于现在（假设现在已知），而与过去无关”。
这个假设在许多应用中是合理的。

###     19.2.2 离散状态马尔可夫链    

#### 1.转移概率矩阵和状态分布

离散状态马尔可夫链 $X = \{X_0, X_1, \cdots, X_t, \cdots \} $，
随机变量 $ X_t(t = 0,1,2, \cdots)$ 定义在离散空间 $\mathcal{S}$，转移概率分布可以由矩阵表示。

若马尔可夫链在时刻 $(t-1)$ 处于状态 $j$，在时刻 $t$ 移动到状态 $i$，将转移概率记作

$$p_{i j}=\left(X_{t}=i | X_{t-1}=j\right), \quad i=1,2, \cdots ; \quad j=1,2, \cdots$$

满足

$$ p_{i j} \geqslant 0, \quad \sum_{i} p_{i j}=1 $$

#### 马尔可夫链应用的例子

假设天气的变化具有马尔可夫性， 即明天的天气只依赖于今天的天气，而与昨天及以前的天气无关。
这个假设经验上是合理的，至少是现实情况的近似。
具体地，比如，如果今天是晴天，那么明天是晴天的概率是$0.9$，是雨天的概率是 $0.1$。
如果今天是雨天，那么明天是晴天的概率是 $0.5$，是雨天的概率也是 $0.5$。

基于这个马尔可夫链，从一个初始状态出发，随时间在状态之间随机转移，就可以产生天气的序列，可以对天气进行预测。

In [45]:
# 天气模型的马尔可夫链转移矩阵可以表示为
P = np.array([[.9, .5],
             [.1, .5]])

# 如果第一天是晴天的话，其天气概率分布（初始状态分布）为
pi_init = np.array([[1], [0]])

# 根据这个马尔可夫链模型，可以计算第二天、第三天及之后的天气概率分布（状态分布）
pi_1 = P @ pi_init
pi_2 = P @ P @ pi_init

#### 2. 平稳分布

设有马尔可夫链 $X={X_0, X_1, \cdots, X_t, \cdots}$，其状态空间为 $S$，转移概率矩阵为 $P=(p_{ij})$ ，如果存在状态空间 $S$ 上的一个分布

$$ \pi=\left[\begin{array}{c}
{\pi_{1}} \\
{\pi_{2}} \\
{\vdots}
\end{array}\right] $$

使得

$$ \pi = P\pi $$

则称 $\pi$ 为马尔可夫链 $X = \{X_0, X_1, \cdots, X_t, \cdots \}$ 的平稳分布。

###     19.2.3 连续状态马尔可夫链    

###     19.2.4 马尔可夫链的性质

#### 1. 不可约

设有马尔可夫链 $X = {X_0, X_1, \cdots, X_t, \cdots }$，状态空间为 $S$ 对于任意状态 $i,j \in S$，如果存在一个时刻 $t(t>0)$ 满足

$$ P\left(X_{t}=i | X_{0}=j\right)>0 $$

也就是说，时刻 $0$ 从状态 $j$ 出发，时刻 $t$ 到达状态 $i$ 的概率大于 $0$，则称此马尔可夫
链 $X$ 是不可约的（irreducible），否则称马尔可夫链是可约的（reducible）。

直观上，一个不可约的马尔可夫链，从任意状态出发，当经过充分长时间后，可以到达任意状态。

In [44]:
# 转移矩阵
P = np.array([[.0, .5, .0],
             [1, .0, .0],
             [.0, .5, 1],])

#  初始状态
T = np.array([[1], [0], [0]])

# 此马尔可夫链，转移到状态3后，就在该状态上循环跳转。
# 不能到达状态1和状态2，最终停留在状态3。

while True:
    if (T == P @ T).all():
        print(T)
        break
    else:
        T = P @ T

[[0.]
 [0.]
 [1.]]


#### 2. 非周期

设有马尔可夫链 $X = \{ X_0, X_1, \cdots, X_t, \cdots \}$，状态空间为 $S$，对于任意状态 $i \in S$。
如果时刻 $0$ 从状态 $i$ 出发，$t$ 时刻返回状态的所有时间长 $\{t:P(X_t=i|X_0=i) > 0\}$ 的 最大公约数是 $1$，则称此马尔可夫链 $X$ 是非周期的（aperiodic），否则称马尔可夫链是周期的 （periodic）。

直观上，一个非周期性的马尔可夫链，不存在一个状态，从这一个状态出发，再返回到这个状态时所经历的时间长呈一定的周期性。

In [None]:
# 转移概率矩阵
P = np.array([[0, 0, 1],
             [1, 0, 0],
             [0, 1, 0],])

# 平稳分布
T = np.array([[1/3], [1/3], [1/3]])

# 此马尔可夫链从每个状态出发，返回该状态的时刻都是3的倍数，具有周期性
# 最终停留在每个状态的概率都为 1/3。 

#### 3. 正常返

设有马尔可夫链 $X = \{ X_0, X_1, \cdots, X_t, \cdots \}$，状态空间为 $S$，对于任意状态 $i,j \in S$, 定义概率 $p^t_{ij}$ 为时刻 $0$ 从状态 $j$ 出发，时刻 $t$ 首次转移到状态 $i$ 的概率，即 

$$ p_{i j}^{t}=P\left(X_{t}=i, X_{s} \neq i, s=1,2, \cdots, t-1 | X_{0}=j\right), t=1,2, \cdots $$

若对所有状态 $i,j$ 都满足 $\lim _{t \rightarrow \infty} p_{i j}^{l}>0$，则称马尔可夫链 $X$ 是正常返的 （positive recurrent）。

直观上，一个正常返的马尔可夫链，其中任意一个状态，从其他任意一个状态出发，当时间趋于无穷时，首次转移到这个状态的概率不为 $0$ 。

**不可约、非周期且正常返的马尔可夫链，有唯一平稳分布存在。**

#### 4. 遍历定理

设有马尔可夫链 $X = \{ X_0, X_1, \cdots, X_t, \cdots \}$，状态空间为 $S$，若马尔可夫链 $X$ 是不可约、非周期且正常返的，则该马尔可夫链有唯一平稳分布 $\pi = (\pi_1, \pi_2, \cdots)^T$, 并且转移概率的极限分布是马尔可夫链的平稳分布

$$ \lim _{t \rightarrow \infty} P\left(X_{t}=i | X_{0}=j\right)=\pi_{i}, \quad i=1,2, \cdots ; \quad j=1,2, \cdots $$

**遍历定理的直观解释**

满足相应条件的马尔可夫链，当时间趋于无穷时，马尔可夫链的状态分布趋近于平稳分布，随机变量的函数的样本均值以概率 $1$ 收敛于该函数的数学期望。
样本均值可以认为是时间均值，而数学期望是空间均值。

遍历定理实际表述了遍历性的含义：
当时间趋于无穷时，时间均值等于空间均值。
遍历定理的三个条件：**不可约、非周期、正常返**，保证了当时间趋于无穷时达到任意一个状态的概率不为 $0$。

理论上并不知道经过多少次迭代，马尔可夫链的状态分布才能接近于平稳分布，在实际应用遍历定理时，取一个足够大的整数 $m$， 经过 $m$ 次迭代之后认为状态分布就是平稳分布，这时计算从第 $m+1$ 次迭代到第 $n$ 次迭代的均值，即

$$ \hat{E} f=\frac{1}{n-m} \sum_{i=m+1}^{n} f\left(x_{i}\right) $$

称为遍历均值。

#### 5. 可逆马尔科夫链

设有马尔可夫链 $X = \{ X_0, X_1, \cdots, X_t, \cdots \}$，状态空间为 $S$，转移概率矩阵为$P$, 如果有状态分布 $\pi = (\pi_1, \pi_2, \cdots)^T$，对于任意状态 $i,j \in \mathcal{S}$, 对任意一个时刻 $t$ 满足

$$ P\left(X_{t}=i | X_{t-1}=j\right) \pi_{j}=P\left(X_{t-1}=j | X_{t}=i\right) \pi_{i}, \quad i, j=1,2, \cdots $$

或简写为

$$ p_{ji}\pi_j = p_{ij}\pi_i$$

则称此马尔可夫链为可逆马尔可夫链（reversible Markov chain），方程式称为细致平衡方程 （detailed balance equation）。

满足细致平衡方程的状态分布$\pi$就是该马尔可夫链的平稳分布，即$P\pi = \pi $。

**直观上，如果有可逆的马尔可夫链，那么以该马尔可夫链的平稳分布作为初始分布，进行随机状态转移，无论是面向未来还是面向过去，任何一个时刻的状态分布都是该平稳分布。**