# Metropolis-Hastings Algorithm

## 一、算法背景

对具有$m$个有限状态的时序过程进行模拟，获得该时序过程的相关统计指标。

例如：社会根据人民所拥有的资产分为上层、中层、下层，且它们之间可以转换，也就是每一层的人民都有一定的几率变成其他层，它们之间的转移概率矩阵$\bf P$为：  

||下层|中层|上层|
|---|---|---|---|
|下层|0.65|0.28|0.17|
|中层|0.15|0.67|0.18|
|上层|0.12|0.36|0.52|

从上图易知，转移概率矩阵$\bf P$满足：

$$
\sum_{j=1}^{m} P_{i,j} = 1, \forall i \in [1, m] \tag{1}
$$

系统在某时刻$t$的状态$s^{(t)}$表示处于各状态的概率：

$$
s^{(t)} = [\pi_1,\cdots,\pi_m] \tag{2}
$$

那么，系统在时刻$t$的状态$s^{(t)}$可由上一时刻状态计算：

$$
s^{(t)} = s^{(t-1)} \cdot {\bf P} \tag{3}
$$

即构成了Markov链：

$$
s^{(0)} \rightarrow s^{(1)} \rightarrow \cdots \rightarrow s^{(t-1)} \rightarrow s^{(t)} \rightarrow \cdots \tag{4}
$$

**1.1 Markov链平稳性**  
若(4)中的Markov链在进行了无限次(3)中的迭代后状态值收敛，即

$$
\lim_{t \rightarrow \infty} s^{(t)} \rightarrow s^* \tag{5}
$$

则称该Markov链是平稳的。

**1.2 Markov链的细致平稳条件**  
给定一条Markov链，若

$$
\pi_i P_{i,j} = \pi_j P_{j,i}, \forall i, j \tag{6}
$$

则该Markov链是平稳的，并收敛到平稳分布$\pi$满足：

$$
s^* \cdot {\bf P} = s^* \tag{7}
$$

**注意**：1.2是1.1的充分条件，不满足1.2的Markov链也可能是平稳的吗？  
**疑问**：满足(7)一般满足(6)吗？

## 二、Metropolis采样算法

一般在实际场景中面临的问题是：已知时序数据状态数$m$以及各状态概率$\pi$，对各状态之间的状态转移矩阵$\bf P$进行估计。但是，随意设定的状态转移矩阵，即提议分布$\bf Q$，可能并不满足式(6)中的细致平稳条件，

$$
\pi_i \cdot Q_{i,j} \neq \pi_j \cdot Q_{j,i} \tag{8}
$$

为了让上式(8)左右相等，考虑分别乘以接收概率$\alpha$：

$$
\pi_i \cdot Q_{i,j} \cdot \alpha_{i,j} = \pi_j \cdot Q_{j,i} \cdot \alpha_{j,i} \tag{9}
$$

其中，

$$
\begin{align*}
\alpha_{i,j}=\pi_j \cdot Q_{j, i} \\ \tag{10}
\alpha_{j,i}=\pi_i \cdot Q_{i, j} \\
\end{align*}
$$

这样一来，将提议分布于接受概率相组合便构成了转移概率

$$
\begin{align*}
P_{i,j} = Q_{i,j} \cdot \alpha_{i, j} \\ \tag{11}
P_{j,i} = Q_{j,i} \cdot \alpha_{j, i} \\
\end{align*}
$$

对于一个十分复杂的分布$\pi$，其**潜在地**对应着一个转移概率矩阵$\bf P$。我们希望从一个已知**对称**转移矩阵为${\bf Q}$的较为简单的分布$\theta$中进行采样，并以一定概率接受采得样本作为对$\pi$分布的近似采样。

假设我们采得了$\pi$在第$t-1$步的近似样本$x_{t-1}$，接下来便从$\theta(x|x_{t-1})$中新采集一个样本$\hat x$。以概率$\alpha = \min (1, \pi(\hat x) / \pi(x_{t-1}))$接受$x_{t} = \hat x$，否则$x_{t} = x_{t-1}$。

以上过程对应的转移概率矩阵$\bf P$满足：

$$
P_{i,j} = \alpha_{i,j} \cdot Q_{i,j} \tag{12}
$$

只要保证$\bf P$满足式(6)中的细致平稳条件，那么从$(\theta, {\bf Q})$中根据接受概率$\alpha$所采集的样本就符合$(\pi, \bf P)$的分布。

事实上：

$$
\begin{align*}
\pi_i \cdot P_{i,j} &= \pi_i \cdot \alpha_{i,j} \cdot Q_{i,j} \\ \tag{13}
&= \pi_i \cdot \min(1, \pi_j / \pi_i) \cdot Q_{i,j} \\
&= \min(\pi_i \cdot Q_{i,j}, \pi_j \cdot Q_{i,j}) \\
\end{align*}
$$

根据$\bf Q$的对称性，

$$
\begin{align*}
\pi_i \cdot P_{i,j} &= \min(\pi_i \cdot Q_{j,i}, \pi_j \cdot Q_{j,i}) \\ \tag{14}
&= \pi_j \cdot \min(1, \pi_i / \pi_j) \cdot Q_{j,i} \\
&= \pi_j \cdot P_{j,i} \\
\end{align*}
$$

Metropolis采样过程满足细致平稳条件。

参见：https://blog.csdn.net/jingjishisi/article/details/79291258