# CMDPで決定的＆安全な方策を見つけるのはNP困難

参考
* [Constrained MDPs and the reward hypothesis](http://readingsml.blogspot.com/2020/03/constrained-mdps-and-reward-hypothesis.html)
* [Constrained Discounted Markov Decision Processes and Hamiltonian Cycles](http://www.ams.sunysb.edu/~feinberg/public/paper3.pdf)

与えられた（有向）グラフに対して，各頂点をちょうど一回ずつ訪れるような経路のことを，ハミルトニアン路といいます．ハミルトニアン路を見つける問題はNP-困難です．（[ハミルトン路](https://ja.wikipedia.org/wiki/%E3%83%8F%E3%83%9F%E3%83%AB%E3%83%88%E3%83%B3%E8%B7%AF)）

実は，特定のCMDPにおいて実行可能解をみつけることは，このハミルトニアン路を見つけることに相当します．
特に，ハミルトニアン路を見つけるのは次の３つのどれかに相当します．

1. CMDPにおいて，決定的な実行可能解を見つける
2. Weighted CMDPにおいて，Stationaryな実行可能解を見つける
3. Weighted CMDPにおいて，決定的な実行可能解を見つける

ここで，CMDPは
$$
\begin{aligned}
& \max V\left(i, \pi, \gamma, r_0\right) \\
& V\left(i_1 \pi, \gamma, r_k\right) \geq R_{k,} \quad k=1, \ldots, K .
\end{aligned}
$$
であり，weighted CMDPは$k$個の割引率を使った
$V_m(i, \pi)=\sum_{k=1}^K b_{k, m} V\left(i, \pi, \gamma_k, r_k\right) ; \quad m=0, \ldots, M$
について，
$$
\begin{aligned}
& \max V_0(i, \pi) \\
& V_m(i, \pi) \geq R_m: \quad \quad m=1, \ldots, M
\end{aligned}
$$
のことです．

見ていきましょう．

## ハミルトニアン路とMDP

まず，ハミルトニアン路はMDPと方策を使って表現することができることを見ていきましょう．
その話にまつわる定理などを踏まえて，CMDPのNP困難性を見ていきます．

まず，有向グラフを使ってMDPを構築しましょう．
* グラフの頂点の集合を$V$として，これを状態の集合とします．
* 各頂点（状態）$v$で取れる行動$e$は，$v$から他の頂点へ向かうエッジとします．
* $v, e$を選択したときの遷移は対応する次の頂点とします．つまり決定的な遷移になります．

このとき，このグラフでのハミルトニアン路$H$を考えると，対応する決定的な方策を構築できます（グラフを書いてみるとすぐにわかります）．
一方で，今回やりたいのは「CMDPが解けるとハミルトニアン路が解けちゃう」なので，以下では方策からハミルトニアン路を構築することを考えていきます

![HC](figs/Hamiltonian-cycle.jpg)

## 方策からハミルトニアン路へ

$\pi$が$N$ステップで訪れる状態をつなぐとハミルトニアン路になっている場合，$\pi$のことをハミルトニアンと呼ぶことにします．
つまり，ハミルトニアンな方策が見つかれば，ハミルトニアン路を構築できることになります．
ハミルトニアンな方策と等価な条件について見ていきましょう．

---

固定された状態$s_0$を考えましょう．
報酬$r$として，$s_0$から出発した遷移についてだけ$+1$とし，それ以外の報酬は$0$とします．つまり，

$$
r\left(s^{\prime}, a\right)= \begin{cases}1, & \text { if } s^{\prime}=s_0 \\ 0, & \text { otherwise }\end{cases}
$$

とします．状態の数を$N$としましょう．
このとき，次が成立します．

---

**定理** 次は等価である：

1. 方策$\pi$が，次の式$(H)$を満たす（任意の$\gamma$であることに注意しよう）．
$$
V^\pi(\gamma, s_0) = 1 + \gamma^N + \gamma^{2N} + \dots = \frac{1}{1-\gamma^N} \; \forall \gamma \in [0, 1)
$$
2. $P^\pi_s(s_n=0)$を，状態$s$からスタートした$\pi$が，$n$ステップ目で状態$s_0$にいる確率とする．このとき，

$$
P_0^\pi(s_n=0)= \begin{cases}1, & \text { if } n \in\{0, N, 2 N, 3 N, \ldots\} \\ 0, & \text { otherwise. }\end{cases}
$$

つまり，$N$ステップおきにだけ，$\pi$は$s_0$に滞在する．

**証明**

2 → 1は$V^\pi(\gamma, s_0)=\sum^\infty_{n=0}\gamma^n P^\pi_0(s_n=0)$なので明らかに成立します．
この$V^\pi$と$P^\pi_0$の式から，$P^\pi_0$は$V^\pi$を$\gamma$について$n$回微分したあとで，$\gamma=0$を代入すれば取り出せることが明らかにわかります（次の式を微分してみましょう）．

$$
V^\pi(\gamma, s_0) = 
\gamma^0 P^\pi_0(s_0=0) +
\gamma^1 P^\pi_0(s_1=0) +
\gamma^2 P^\pi_0(s_2=0) +
\gamma^3 P^\pi_0(s_3=0) \dots
$$

よって，

$$
P_0^\pi(s_n=0) = \frac{1}{n!}\frac{\partial^n}{\partial \gamma^n} V^\pi(\gamma, s_0)\mid_{\gamma=0}
$$

なので，題意が満たされます．


---

ハミルトニアンな方策は上の条件（２）を満たしますが，（２）を満たしてもハミルトニアンな方策とは限りません．たとえば，non-stationaryな次の方策を考えてみます．

* 状態数$N=4$
* 行動：$A(1)=\{2\}, A(2)=\{1,3\}, A(3)=\{2,4\}, A(4)=\{1\}$
* 方策：
    * 状態$s_3$では状態$s_2$に遷移
    * 状態$s_2$では，$n=4 i + 1$回目だけ状態$s_3$に遷移し，それいがいは状態$s_1$に遷移し

このような方策は明らかにハミルトニアンではありませんが，一方で，条件（２）を満たします．

![NHC](figs/Non-Hamiltonian-policy.jpg)


## 決定的な方策で実行可能解を見つけるのはNP困難

一方で，決定的な方策については式(H)を満たすとハミルトニアンが言えます．
つまり，次を示します．

**定理**：次は等価である．
1. 方策$\pi$が決定的かつハミルトニアンである
2. 方策$\pi$が決定的かつ$V^\pi_0(\gamma, s_0)=(1-\gamma^N)^{-1}$を少なくとも一つの$\gamma \in (0, 1)$について満たす

**証明**

1→2は上で示した定理から明らかですね．2→1を示しましょう．

$\pi$は決定的なので，$s_0$からスタートしたとき，その方策は$s_0, s_1, \dots$を生成します．
このとき，$s_0$は一回だけ登場するか，もしくは無限回登場します（二回出たら三回目も出ることになり，結局無限回でます）

一回だけ登場する場合，$V^\pi\left(\gamma, s_0\right)=1$であるから，$H$に矛盾します．よって$s_0$は無限回登場します．

続いて，$m$を$s_m=s_0$を満たす最小の自然数とします．このとき，$m$回おきに報酬が発生することになるので，に$V^\pi\left(\gamma, s_0\right)=1 /\left(1-\gamma^m\right)$であることがわかります．よって，$H$が成立する場合は$m=n$です．

また，$(s_1, \dots, s_m)$には重複がないことも明らかです（重複すると$s_0$が一度しか出てこないことになり，矛盾します）．
よって，$s_0, s_1, \dots, s_{m-1}=s_{n-1}$は必ず一度だけ訪問されることになります．これは明らかにハミルトニアン路です．

---

最後に，簡単のために$\gamma=1/2$とします．
$V^\pi\left(\gamma, s_0\right)=1 /\left(1-\gamma^n\right)$は$V^\pi\left(\gamma, s_0\right)\geq1 /\left(1-\gamma^n\right)$かつ$V^\pi\left(-r, s_0\right)\geq1 /\left(1-\gamma^n\right)$であることに注意しましょう．
よって，決定的な方策について，$r_1=r$と$r_2=-r$および閾値$1/(1-\gamma^n)$と$-1/(1-\gamma^n)$についての実行可能性を調べるのはNP困難です．
（$\gamma=1/2$より，この閾値は$n$についての多項式長であるため，CMDPが多項式時間で判定できることになります．）

---


## 定常方策の実行可能解を見つけるのがNP困難な場合

決定的な方策以外にもNP困難性を言うことができます．
まず，次が成立します．

---

**定理**：定常方策$\pi$が$(H)$を満たすなら，$\pi$は決定的である．ちなみに式$(H)$は次：

$$
V^\pi(\gamma, s_0) = 1 + \gamma^N + \gamma^{2N} + \dots = \frac{1}{1-\gamma^N} \; \forall \gamma \in [0, 1)
$$

**証明**

任意の定常方策は状態空間$I$上でマルコフ連鎖を構築することに注意しましょう．
$m^\phi(i, j)=\min \left\{k \geq 0 \mid P_i^\phi\left(s_k=j\right)>0\right\}$を，$i$から$j$に遷移する確率が正になる最小の時刻とします．
明らかに，$m^\phi(i, j)=\infty$ or $m^\phi(i, j)<N$です．

ここで，$\phi$を$(H)$を満たすが決定的ではない方策としましょう．$\phi$は決定的ではないので，$0<\phi\left(k_2 \mid k_1\right)<1$であるような$k_1, k_2 \in I$が存在します．
$s_0$に注目すると，
* $k_2$には決定的に遷移しない：$0<P_0^\phi\left(s_n=k_2\right)<1$が何らかの$n=1, \dots, N-1$で成立する
* $k_1$にそもそも訪れない：$P_0^\phi\left(s_n=k_1\right)=0$が全ての$n=1, \dots, N-1$で成立する

のどちらかが成り立ちます．

ところで上でやった定理から，$(H)$を満たすとき，$\pi$は$N$ステップおきにだけ$s_0$に滞在します．
つまり，他のステップでは$s_0$以外に滞在しているので，
$$
\sum_{n=1}^{N-1} \sum_{s=1}^{N-1} P_0^\phi\left\{s_n=s\right\}=N-1
$$
が成立しています．
どこかの状態では確率的になってるので，この$N-1$を１回ずつ均等に訪れることはありません．よって，$1 \leq l, n \leq N-1$なる$l\neq n$について，$P_0^\phi\left(s_n=s\right)>0$ および $P_0^\phi\left(s_l=s\right)>0$が成立する$l, n, s$が存在します．

さて，このような$s$について，$m=m^\phi(s, 0)$としましょう．つまり$m$は$s$から$s_0$に遷移する最小の時刻です．
$$
P_1^\phi\left(s_l=s\right)>0 \text { and } P_1^\phi\left(s_N=0\right)=1
$$
なので，$m < N$です．
よって，
$$
P_0^\phi\left(i_{n+m}=0\right)>0 \text { and } P_0^\phi\left(i_{l+m}=0\right)>0 \text { where } 0<n+m, l+m<2 N
$$
かつ$n+m \neq l+m$なので，これは$(H)$に矛盾します．

---



よって，次は等価になります．
1. 方策$\pi$が決定的かつハミルトニアンである
2. 方策$\pi$が定常的かつハミルトニアンである
3. 方策$\pi$が決定的かつ$V^\pi_0(\gamma, s_0)=(1-\gamma^N)^{-1}$を少なくとも一つの$\gamma \in (0, 1)$について満たす

実は次が等価です．

4. 方策$\pi$が定常的かつ，次の式$(G)$を満たす．

$$
V^\pi(\gamma_k, s_0) = \frac{1}{1 - \gamma_k^N} \; \forall k=1, \dots, 2N-1
$$

つまり，$2N-1$個の異なる割引率$\gamma_k \in (0, 1)$を考えると，実行可能解を見つけるのはNP困難です．

証明しましょう．

**証明**

上で証明したように，全ての$\gamma \in [0, 1)$について定常方策$\pi$が$V^\pi_0(\gamma, s_0)=(1-\gamma^N)^{-1}$を満たすなら，$\pi$は決定的です．
これを使います．すなわち，

「もし$V^\pi_0(\gamma, s_0)=(1-\gamma^N)^{-1}$が適当な異なる$\gamma=\gamma_1, \dots, \gamma_{2N-1}$について成り立つならば，任意の$\gamma\in [0, 1)$について成立する．」

を示します．

[RL_Exercise.ipynb](RL_Exercise.ipynb)でやったように，価値関数は報酬行列$R$と遷移行列$P^\pi$を使って，$(I-\gamma P^\pi)^{-1}R$として表現できます．ここで，$I$は$N\times N$の単位行列です．

よって，適当な$a_1, a_2, \dots, a_{N-1}$と$b_1, b_2, \dots, b_{N}$を使って，

$$
V^\pi_0(\gamma, s_0)= \frac{a_{N-1} \gamma^{N-1}+\ldots+a_1 \gamma+1}{b_N \gamma^N+\ldots+b_1 \gamma+1}
$$

です．$V^\pi_0(\gamma, s_0)=(1-\gamma^N)^{-1}$ならば，

$$
a_{N-1} \gamma^{2 N-1}+\ldots+a_1 \gamma^{N+1}+\left(b_N+1\right) \gamma^N+\left(b_{N-1}-a_{N-1}\right) \gamma^{N-1}+\ldots+\left(b_1-a_1\right) \gamma=0 \text {. }
$$

が成り立ちます．
これは$2N-1$の異なる解$\gamma_1, \dots, \gamma_{2N-1}$について成り立つなら，全ての係数は$0$です．
よって$a_k=b_k=0$が$k=1, \dots, N-1$について成り立ち，$b_N=-1$であり，$V^\pi_0(\gamma, s_0)=(1-\gamma^N)^{-1}$は任意の$\gamma$について成り立つことになります．

よって，上の条件を満たす場合，方策$\pi$が定常的な場合と同じになり，結局，実行可能解を見つけるのがNP困難になります．

## Mathematical Programmingに直す話

改めて，次の３つの問題を考えてみましょう：

**P1**: CMDPにおいて，決定的な実行可能解を見つける

$$
\begin{aligned}
& \max V\left(i, \pi, \gamma, r_0\right) \\
& V\left(i_1 \pi, \gamma, r_k\right) \geq R_{k,} \quad k=1, \ldots, K \\
& \pi \in 決定的
\end{aligned}
$$

**P2**: Weighted CMDPにおいて，確率的な実行可能解を見つける

$V_m(i, \pi)=\sum_{k=1}^K b_{k, m} V\left(i, \pi, \gamma_k, r_k\right) ; \quad m=0, \ldots, M$
について，
$$
\begin{aligned}
& \max V_0(i, \pi) \\
& V_m(i, \pi) \geq R_m: \quad \quad m=1, \ldots, M\\
& \pi \in 確率的
\end{aligned}
$$

**P3**: Weighted CMDPにおいて，決定的な実行可能解を見つける

$$
\begin{aligned}
& \max V_0(i, \pi) \\
& V_m(i, \pi) \geq R_m: \quad \quad m=1, \ldots, M\\
& \pi \in 決定的
\end{aligned}
$$

---

さて，一旦普通のCMDPを考えると，普通のCMDPはOccupancy measureを使って次のように表せます．

$$
\begin{aligned}
&\max \sum_{i=1}^N \sum_{a \in A(i)} r_0(i, a) x_{i, a}\\
& \sum_{a \in A(i)} x_{i, a}-\beta \sum_{j=1}^N \sum_{a \in A(j)} p_{j, i}(a) x_{j, a}=\mathbf{1}\{i=1\}, \quad i=1, \ldots, N, \\
& \sum_{i=1}^N \sum_{a \in A(i)} r_k(i, a) x_{i, a} \geq R_k ; \quad k=1, \ldots, K, \\
& x_{i, a} \geq 0, \quad i=1, \ldots, N_i \quad a \in A(i) .
\end{aligned}
$$

さて，すべての方策の集合$\Delta$について，その部分集合$\Delta'$を考えます．そして，
$X\left(\beta, \Delta^{\prime}\right)=\left\{x(\beta, \pi) \pi \in \Delta^{\prime}\right\}$を$\Delta'$が誘導するOccupancy measureの集合とします．
このとき，$X(決定的)$は，Occupancy measureを指定する制約に，さらに次の制約を加えた形で表現できます：

$$
\left|x_{i, a}-x_{i, a^*}\right|=x_{i, a}+x_{i, a^*,} \quad i=1, \ldots, N, a, a^* \in A(i), \text { and } a \neq a^*
$$

つまり，任意の２つの行動について，そのOccupancy measureの差を考えたときに，$0$ or $1$でないと成り立たない等式を課してるわけですね．（ただ，この最適化は線形でも凸でもないことに注意しましょう）

$n_i$を状態$i$での行動の数とすると，これは$\sum_{i=1}^N n_i\left(n_i-1\right) / 2$個の制約を追加する状況です．

実際，この等式制約を追加すると，決定的行動でのCMDPと同じ最適方策が求まることが言えます（Theorem 3.1参照）．

---

P2については，次の補題が便利です．

割引率$\alpha, \beta \in (0, 1)$ に対して，
２つのOccupancy measure $x \in X(\alpha, \Delta), y \in X(\beta, \Delta)$を考えましょう．
このとき，次の２つは等価です．
* $x_{i, a} y_i=y_{i, a} x_i, \quad i \in I, a \in A(i)$
    * つまり，$x\text{の方策} \frac{x_{i, a}}{x_i} = \frac{y_{i,a}}{y_i} = y\text{の方策}$
* 次を満たす定常方策$\phi$が存在する：$x=x(\alpha, \phi) \quad$ and $\quad y=x(\beta, \phi)$.

すなわち，方策$\pi$について，割引率が異なる２つのoccupancy measure $x = x(\alpha, \pi)$と$y = x(\beta, \pi)$を考えると，$x_{i, a} >0$ iff $y_{i, a} > 0$が成り立ちます．

以上を踏まえると，$P2$は次で表せます：

$$
\begin{aligned}
&\max \sum_{k=1}^K \sum_{i=1}^N \sum_{a \in A(i)} b_{k, 0} r_{k ; 0}(i, a) x_{i, a}^{(k)}\\
& \sum_{a \in A(i)} x_{i, a}^{(k)}-\beta_k \sum_{j=1}^N \sum_{a \in A(j)} p_{j, i}(a) x_{j, a}^{(k)}=1\{i=1\}, k=1, \ldots, K, i=1, \ldots, N, \\
& \sum_{k=1}^K \sum_{i=1}^N \sum_{a \in A(i)} b_{k ; m} r_{k, m}(i, a) x_{i, a}^{(k)} \geq R_m, \quad m=1, \ldots, M, \\
& x_{i ; a}^{(k)} \geq 0 ; \\
& x_{i, a}^{(k)} \sum_{a^* \in A(i)} x_{i, a^*}^{(k+1)}=x_{i ; a}^{(k+1)} \sum_{a^* \in A(i)} x_{i, a^*,}^{(k)} \quad k=1, \ldots, K, \quad i=1, \ldots, N, \quad a \in A(i),
\end{aligned}
$$

最後の等式によって，すべてのOccupancy measureを誘導する方策が存在することを保証します．

---

P3は次の補題が便利です．

割引率$\alpha, \beta \in (0, 1)$ に対して，
２つのOccupancy measure $x \in X(\alpha, \Delta), y \in X(\beta, \Delta)$を考えましょう．
このとき，次の２つは等価です．
* $x_{i, a} y_{i, a^*}=0, i \in I_1, a, a^* \in A(i)$, and $a \neq a^*$
* 次を満たす決定的な定常方策$\phi$が存在する：$x=x(\alpha, \phi) \quad$ and $\quad y=x(\beta, \phi)$.

よって，P3は次と等価です：


$$
\begin{aligned}
&\max \sum_{k=1}^K \sum_{i=1}^N \sum_{a \in A(i)} b_{k, 0} r_{k ; 0}(i, a) x_{i, a}^{(k)}\\
& \sum_{a \in A(i)} x_{i, a}^{(k)}-\beta_k \sum_{j=1}^N \sum_{a \in A(j)} p_{j, i}(a) x_{j, a}^{(k)}=1\{i=1\}, k=1, \ldots, K, i=1, \ldots, N, \\
& \sum_{k=1}^K \sum_{i=1}^N \sum_{a \in A(i)} b_{k ; m} r_{k, m}(i, a) x_{i, a}^{(k)} \geq R_m, \quad m=1, \ldots, M, \\
& x_{i ; a}^{(k)} \geq 0 ; \\
& x_{i, a}^{(k)} x_{i, a^*}^{(k+1)}=0, \quad k=1, \ldots, K \quad 1, i \in I, a, a^* \in A(i), \text { and } a \neq a^* ;
\end{aligned}
$$