# マルコフ連鎖と特異摂動とハミルトニアン路

参考：
* [Handbook of Markov Decision Processes](https://link.springer.com/book/10.1007/978-1-4615-0805-2)の３章

マルコフ連鎖における遷移関数が摂動している場合を考えてみましょう．
例えば，
$$
P(\varepsilon)=
\left(\begin{array}{cc}
1-\frac{\varepsilon}{2} & \frac{\varepsilon}{2} \\
\frac{\varepsilon}{2} & 1-\frac{\varepsilon}{2}
\end{array}\right)
= 
I - \varepsilon \left(\begin{array}{cc}
\frac{1}{2} & -\frac{1}{2} \\
-\frac{1}{2} & \frac{1}{2}
\end{array}\right)
$$
を考えてみます．
この行列は
* 固有値は$(1, 1 - \varepsilon)$
* 固有ベクトルは$[1, 1]$, $[1, -1]$

であり，対角化すると，
$$
P(\varepsilon)=
\left(\begin{array}{cc}
1 & -1 \\
1 & 1
\end{array}\right)
\left(\begin{array}{cc}
1 & 0 \\
0 & 1-\varepsilon
\end{array}\right)
\left(\begin{array}{cc}
1 & 1 \\
-1 & 1
\end{array}\right)
\frac{1}{2}
$$
なので，その極限は$\varepsilon > 0$のとき，
$$
P^*(\varepsilon) \equiv \lim _{t \rightarrow \infty} P^t(\varepsilon)=\left(\begin{array}{cc}
\frac{1}{2} & \frac{1}{2} \\
\frac{1}{2} & \frac{1}{2}
\end{array}\right) \nrightarrow P^*(0) \equiv \lim _{t \rightarrow \infty} P^t(0)=\left(\begin{array}{cc}
1 & 0 \\
0 & 1
\end{array}\right)
$$
です．これは$\varepsilon = 0$のときの極限とは明らかに異なります

つまり，この$P^*(\varepsilon)$のランクは$\varepsilon > 0$のときは$1$ですが，$\varepsilon=0$になると急に$2$にジャンプしてます．

このように，$\varepsilon$の影響が
* $\varepsilon \to 0$で徐々に消える場合，その摂動をregularであると呼び，
* 上のように消えない場合は，singularであると言います．

このようなsingular perturbationは無限ホライゾンを考えると自然に出てきます（$\varepsilon = 1 - 割引率$のときですね）



## TODO 途中を書く

## ハミルトニアン路との関係

実は，特異摂動なMDPはハミルトニアン路問題を含みます．見ていきましょう．

### 準備

ハミルトニアン路問題の詳細は省略します（[RL_CMDP_feasibility_NP_hard.ipynb](RL_CMDP_feasibility_NP_hard.ipynb)参照）．ハミルトニアン路問題はNP 完全問題 のクラスに属することが知られており，そのためアルゴリズム的な観点から非常に難しいとされています．

ハミルトニアン路問題は次のように解釈できます：
* 移動する物体がグラフ $G$ 上を有向経路に沿って移動する様子を考えましょう．
* その移動は関数 $f$ によって制御され，この関数はノードの集合 $X = {1, 2, \dots, N}$ を弧の集合 $A$ へ写像します．
* 明らかに，このノード集合をMDP $\Gamma$ の状態空間として考えることができ，各状態（ノード）$i$ に対して、行動空間 $A(i)$ は次のように表されます：
    * この行動空間は，そのノードから出ている弧の集合と一対一に対応してます
    * $A(i)=\emptyset$の場合は無視します（ハミルトニアン路が存在しないので）
$$
A(i) = \{ a = j \mid (i, j) \in A \}
$$

**ポイント** $f(i) \in A(i)$のように，エッジ（行動）を出力する場合は，$f$は決定的な方策とみなせます．

さて，ノード$1$を$G$におけるホームノードとしたとき，$f$は次を満たすときに$G$におけるハミルトニアン路である，としましょう：

* $\{(1, f(1)),(2, f(2)), \ldots,(N, f(N))\}$ が$G$におけるハミルトニアン路になっている．
* もしこのエッジの集合が複数の閉路を含み，その長さが$N$よりも小さければ，$f$は$G$における部分路を持つ，といいます．

以降，$P(f)$を$f$によって誘導されるマルコフ連鎖とします．
このとき，$f$がハミルトニアン路なら，
* $P(f)$は明らかにirreducibleであり，
* さらに各状態における定常訪問確率は$x_i(f)=1 / N$です．

**ポイント** $f$が$G$において部分路を含むなら，$P(f)$は複数の（ergodicな）クラスを持つことになります．これはMDPの解析をめっちゃだるくするわけですね（multi-chainはめんどくさい）．




### 摂動

さて，MDP $\Gamma$の遷移確率を摂動させ，次の$\Gamma(\varepsilon)$を作ってみましょう：

$$
p^{\varepsilon}(j \mid i, a)= \begin{cases}1 & \text { if } i=1 \text { and } a=j \\ 0 & \text { if } i=1 \text { and } a \neq j \\ 1 & \text { if } i>1 \text { and } a=j=1 \\ \varepsilon & \text { if } i>1, a \neq j, \text { and } j=1 \\ 1-\varepsilon & \text { if } i>1, a=j, \text { and } j>1 \\ 0 & \text { if } i>1, a \neq j, \text { and } j>1 .\end{cases}
$$

つまり，
「ホームノードから出る or ホームノードに戻る」
状態行動以外を，低確率でホームノードに戻るように摂動させたMDPです：

![singular-perturbation](figs/singular-perturbation.png)

---

**例** 次のようなグラフを考えてみましょう．

![](figs/perturbed-mdp.png)

このとき，
* ハミルトニアン路$c_1: 1 \rightarrow 2 \rightarrow 3 \rightarrow 4 \rightarrow 1$は，方策$f_1:\{1,2,3,4\} \rightarrow\{2,3,4,1\}$に相当します．

つまり，これによって遷移行列
$$
P\left(f_1\right)=\left(\begin{array}{llll}
0 & 1 & 0 & 0 \\
0 & 0 & 1 & 0 \\
0 & 0 & 0 & 1 \\
1 & 0 & 0 & 0
\end{array}\right)
$$
が作られ，これはirreducibleです．
一方で，２つの部分路$1\to 2\to 1$と$3\to 4\to 3$を考えましょう．これは方策$f_2:\{1,2,3,4\} \rightarrow\{2,1,4,3\}$に相当し，その遷移行列は
$$
P\left(f_2\right)=\left(\begin{array}{llll}
0 & 1 & 0 & 0 \\
1 & 0 & 0 & 0 \\
0 & 0 & 0 & 1 \\
0 & 0 & 1 & 0
\end{array}\right)
$$
です．この場合は２つのErgodicなクラスが登場しています．

**ポイント** 摂動させることで，こうした部分路を合体させることができます：
$$
P\left(f_2\right)=\left(\begin{array}{cccc}
0 & 1 & 0 & 0 \\
1 & 0 & 0 & 0 \\
\varepsilon & 0 & 0 & 1-\varepsilon \\
\varepsilon & 0 & 1-\varepsilon & 0
\end{array}\right)
$$

---


### 定常分布（occupancy measure）による表記

さて，このハミルトニアン路問題をより深く見通すために，$\Gamma(\varepsilon)$の定常分布を使って路を見てみましょう．

確率的な方策$f \in \Pi^S$に対して，その定常分布を
$\mathbf{x}(f)$とします．つまり，次のような写像$M: \Pi^S \rightarrow X(\varepsilon)$を考えましょう：

$$
x_{i a}(f)=\pi_i(\varepsilon, f) f(a \mid i) ; \quad f \in \Pi^S
$$

ここで，
* $f(a\mid i)$は状態$i$で$a$を選択する確率
* $\pi_i(\varepsilon, f)$は$P(f)$における誘導された$i$にいる定常確率です．

---

**表記**

便利のために，次で定義される定常分布の集合$\mathbf{X}(\varepsilon)$を考えましょう．

1. $\sum_{i=1}^N \sum_{a \in A(i)}\left[\delta(i, j)-p_{\varepsilon}(j \mid i, a)\right] x_{i a}=0 ; j \in \mathbb{X}$
2. $\sum_{i=1}^N \sum_{a \in A(i)} x_{i a}=1$
3. $x_{i a} \geq 0 ; a \in A(i), i \in \mathbb{X}$


また，定常分布から誘導される方策（定常分布から方策への写像$\hat{M}: \mathbf{X}(\varepsilon) \rightarrow \Pi^S$）も定義しておきます：
$$
f_{\mathbf{x}}(i, a)=\left\{\begin{array}{cl}
\frac{x_{i a}}{x_i} ; & \text { if } x_i=\sum_{a \in A(i)} x_{i a}>0 \\
1 ; & \text { if } x_i=0 \text { and } a=a_1 \\
0 ; & \text { if } x_i=0 \text { and } a \neq a_1
\end{array}\right.
$$

ここで，訪問しない状態では確定で$a_1$を選択させています．

---

このとき，次が成立します：

* [Hamiltonian Cycles and Markov Chains](https://www.jstor.org/stable/3690387)
* [Aggregation of states in a Markov chain with weak interaction](https://link.springer.com/article/10.1007/BF01069471)

など参考．


1. $\mathbf{X}(\varepsilon)=\left\{\mathbf{x}(f) \mid f \in \Pi^S\right\}$が成立します．これを$\Gamma(\varepsilon)$のfrequency spaceと呼ぶことにします（結局Occupancy measureの集合なだけ）
2. 任意の$\mathbf{x} \in \mathbf{X}(\varepsilon)$について，$M(\hat{M}(\mathbf{x}))=\mathbf{x}$が成立します
3. $\mathbf{x}$が$\mathbf{X}(\varepsilon)$の極点ならば，$f_{\mathbf{x}}=\hat{M}(\mathbf{x}) \in \Pi^D$が成立します（つまり決定的な方策）
4. $f \in \Pi^D$がハミルトニアン路ならば，$\mathbf{x}(\mathbf{f})$ は $\mathbf{X}(\varepsilon)$ の極点です．

---



### 方策による路の表記

決定的な方策$f\in \Pi^D$を考えると，$G$における部分グラフ$G_f$について，$\operatorname{edge}(i, j) \in G_f \Longleftrightarrow f(i)=j$が言えます．
これを使った表記を導入します．

* 長さ$m$で，ノード$1$から始まり，路を形成するエッジの集合：$c_m^1=\left\{\left(i_1=1, i_2\right),\left(i_2, i_3\right), \ldots,\left(i_m, i_{m+1}=1\right)\right\} ; \quad m=2,3, \ldots, N$
    * 明らかに，$C^1_N$はハミルトニアン路です．
* $G_f$が$c^1_m$を含むなら，$G_f \supset c_m^1$とします．
* $2 \leq m \leq N$について，長さ$m$の路を形成する決定的な方策の集合：$C_m:=\left\{f \in \Pi^D \mid G_f \supset c_m^1\right\}$
    * 明らかに，$C_N$はハミルトニアン路を形成する方策の集合です
    * $C_m$は$G$によっては空集合の可能性があります．

例えば$f\in C_3$は次のような方策に相当します（右のドットはグラフの残りの部分を表します）：

![](figs/C3-example.png)

これを踏まえると，次のように決定的な方策の集合を分解することができます：
$$
\Pi^D=\left[\bigcup_{m=2}^N C_m\right] \bigcup B
$$
ここで，$B$はどのような$C_m$にも属さない決定的な方策の集合です．
次の図のような方策は$f\in B$に相当します：

![](figs/B-example.png)

ここで，$\varepsilon > 0$ならば，左の方の$1, i_2, \dots, i_{k-1}$はtransientにならないことに注意しましょう．

**ポイント** この表記は摂動とは多分関係ありません．どの$\varepsilon$についても成り立つ，摂動を無視した表記だと思われます．

さて，この分解において，同じ$C_\cdot$に属する方策はすべて，状態$1$についての定常確率が同じになります．具体的には次が成立します：

---

**Proposition 4.2**

$\varepsilon \in (0, 1)$，$f \in \Pi^D$，そして$\mathbf{x}(f)$をその定常分布とします．
このとき，ホームノード$1$を訪れる定常確率は
$$
x_1(f)=\sum_{a \in A(1)} x_{1 a}(f)= \begin{cases}\frac{1}{d_m(\varepsilon)} ; & \text { if } f \in C_m, m=2,3, \ldots, N \\ \frac{\varepsilon}{1+\varepsilon} ; & \text { if } f \in B\end{cases}
$$
で与えられ，ここで$d_m(\varepsilon)=1+\sum_{i=2}^m(1-\varepsilon)^{i-2}$です．

---

さらに，次のようにハミルトニアン路との関係が言えます：

**Theorem 3.9**

1. $f \in \Pi^D$ を$G$におけるハミルトニアン路とします. このとき，$G_f=c_N^1, \mathbf{x}(f)$ は$\mathbf{X}(\varepsilon)$ の極点であり，$x_1(f)=\frac{1}{d_N(\varepsilon)}$です．
2. 逆に，$\mathbf{x}$が$\mathbf{X}(\varepsilon)$の極点であり，$x_1 = \sum_{a \in A(1)} x_{1 a}=\frac{1}{d_N(\varepsilon)}$を満たすとき，$f=\hat{M}(\mathbf{x})$は$G$のハミルトニアン路です．
3. $G$におけるハミルトニアン路と$\mathbf{X}(\varepsilon)$において次を満たす点は１対１対応します：
   1. $x_1=\sum_{a \in A(1)} x_{1 a}=\frac{1}{d_N(\varepsilon)}$
   2. 任意の$i \in \mathbb{X}$について，$x_i=\sum_{a \in A(1)} x_{i a}>0$ かつ $\frac{x_{i a}}{x_i} \in\{0,1\}$ がそれぞれの$a \in A(i), i \in \mathbb{X}$で成立


**ポイント** 定義から，
$$
\frac{1}{d_m(\varepsilon)}>\frac{1}{d_{m+1}(\varepsilon)}>\frac{\varepsilon}{1+\varepsilon}
$$
が成り立つことに注意しましょう．よって，各極点について，$l(\mathbf{x})=\sum_{a \in A(1)} x_{1 a}$の値を評価して，並び替えて，$d_N(\varepsilon)$を満たすやつを探せば，ハミルトニアン路が見つかります．

---

上のような見つけ方もありますが，次の最適化問題として直接求めることもできます：

$f^* \in \Pi^D$を$G$のハミルトニアン路とします．このとき，十分小さい$\varepsilon$について，$f^*$は次の最適化問題の解です：

$$
\min _{f \in \Pi^D}\left\{\left[I-P(f)+P^*(f)\right]_{11}^{-1}\right\}
$$

ここで，$H_{1 1}$は行列$H$の$(1, 1)$番目の要素を指します．


