# CMDPで決定的＆安全な方策を見つけるのはNP困難

参考
* [Constrained MDPs and the reward hypothesis](http://readingsml.blogspot.com/2020/03/constrained-mdps-and-reward-hypothesis.html)


## 決定的方策の実行可能解を見つけるのはNP困難

CMDPにおいて，決定的な方策の中の安全な方策を見つけるのはNP困難です．
これを示していきます．

**準備：ハミルトニアン路について**

与えられた（有向）グラフに対して，各頂点をちょうど一回ずつ訪れるような経路のことを，ハミルトニアン路といいます．ハミルトニアン路を見つける問題はNP-困難です．（[ハミルトン路](https://ja.wikipedia.org/wiki/%E3%83%8F%E3%83%9F%E3%83%AB%E3%83%88%E3%83%B3%E8%B7%AF)）

このハミルトニアン路を見つける問題にCMDPを多項式時間還元することでNP困難を証明します．

---

**ハミルトニアン路とMDP**

まず，有向グラフを使ってMDPを構築しましょう．
* グラフの頂点の集合を$V$として，これを状態の集合とします．
* 各頂点（状態）$v$で取れる行動$e$は，$v$から他の頂点へ向かうエッジとします．
* $v, e$を選択したときの遷移は対応する次の頂点とします．つまり決定的な遷移になります．

このとき，このグラフでのハミルトニアン路$H$を考えると，対応する決定的な方策を構築できます．

---

ここで，固定された状態$s_0$を考えましょう．
報酬$r$として，$s_0$から出発した遷移についてだけ$+1$とし，それ以外の報酬は$0$とします．つまり，

$$
r\left(s^{\prime}, a\right)= \begin{cases}1, & \text { if } s^{\prime}=s_0 \\ 0, & \text { otherwise }\end{cases}
$$

とします．このとき，$n$個の状態があり，ハミルトニアン路$H$が存在するとすると，上のMDPにおける価値関数は

$$
V^\pi(r, s_0) = 1 + \gamma^n + \gamma^{2n} + \dots = \frac{1}{1-\gamma^n}
$$

になります．この式を$(H)$としましょう．

以降，簡単のために$\gamma=1/2$とします．

---

続いて，「「式$(H)$が成り立つような決定的な方策$\pi$がMDP内に存在するか？」をチェックできると，ハミルトニアン路が存在するか判定できることになる」を示しましょう．

まず，$\pi$が$H$を満たすような決定的な方策であるとします．
$\pi$は決定的なので，$s_0$からスタートしたとき，その方策は$s_0, s_1, \dots$を生成します．
このとき，$s_0$は一回だけ登場するか，もしくは無限回登場します．

一回だけ登場する場合，$V^\pi\left(r, s_0\right)=1$であるから，$H$に矛盾します．よって$s_0$は無限回登場します．

続いて，$m$を$s_m=s_0$を満たす最小の自然数とします．このとき，明らかに$V^\pi\left(r, s_0\right)=1 /\left(1-\gamma^m\right)$であることがわかります．よって，$H$が成立する場合は$m=n$です．

また，$(s_1, \dots, s_m)$には重複がないことも明らかです（重複すると$s_0$が一度しか出てこないことになり，矛盾します）．
よって，$s_0, s_1, \dots, s_{m-1}=s_{n-1}$は必ず一度だけ訪問されることになります．これは明らかにハミルトニアン路です．

---

最後に，$V^\pi\left(r, s_0\right)=1 /\left(1-\gamma^n\right)$は$V^\pi\left(r, s_0\right)\geq1 /\left(1-\gamma^n\right)$かつ$V^\pi\left(-r, s_0\right)\geq1 /\left(1-\gamma^n\right)$であることに注意しましょう．
よって，決定的な方策について，$r_1=r$と$r_2=-r$および閾値$1/(1-\gamma^n)$と$-1/(1-\gamma^n)$についての実行可能性を調べるのはNP困難です．
（$\gamma=1/2$より，この閾値は$n$についての多項式長であるため，CMDPが多項式時間で判定できることになります．）

---


## 定常方策の実行可能解を見つけるのがNP困難な場合

CMDPが線型計画法によって書けることを思い出しましょう．
特にOccupancy measureは$|S|+1$つの制約によって表現できることを思い出しましょう．

Occupancy measureの集合は次を満たします：

$$
X_\gamma \subset\left\{x \in[0, \infty)^Z: \sum x(s, a)=(1-\gamma) \mu(s)+\gamma \sum_{,} x\left(s^{\prime}, a^{\prime}\right) P_{s^{\prime}, a^{\prime}}(s), \forall s \in S\right\}
$$

このとき，実行可能性を調べるのは次の集合が空であるかどうかを調べるのと同じです．

$$
F=\left\{x \in X_\gamma:\left\langle x, r_i\right\rangle \geq(1-\gamma) \theta_i, i=1, \ldots, N\right\}
$$

これは$|S|+1+N$個の線形な制約を調べるのと同じであり，線形実行可能問題と同じです．
これは制約の設定がwell-conditionedであれば多項式時間で解けることが知られています．

特に$N=1$のときは簡単です．MDPを一つもってきて，それの最適価値を調べれば簡単に実行可能性が判断できます（価値が閾値より上であれば，Yesを返します）．

一方で，割引率が複数個ある場合は話が違ってきます．

---

割引率が異なる制約について，$m$個の状態と$2m-1$個の制約を考えるときに，その実行可能性を調べるのはNP困難です．

