# Chance Constrained MDPのNP困難性など

参考：
* [Probabilistic Goal Markov Decision Processes](https://www.ijcai.org/Proceedings/11/Papers/341.pdf)

表記：
* ホライゾン：$T$
* $p$：遷移確率
* $g$：報酬の分布の集合．$g_t(r \mid s, a)$は時刻$t$での報酬が$r$になる確率を表す．
* 収益：$X_\pi$

決定的方策：
* 履歴依存な決定的方策の集合：$\Pi^h$
* 現在の状態（と時刻）に依存した決定的な方策の集合：$\Pi^{t, s}$
* 現在の状態と時刻，そして今までの報酬の総和に依存した決定的な方策の集合：$\Pi^{t, s, x}$


確率的方策：
* 履歴依存な確率的方策の集合：$\Pi^{h, u}$
* 現在の状態（と時刻）に依存した確率的な方策の集合：$\Pi^{t, s, u}$
* 現在の状態と時刻，そして今までの報酬の総和に依存した確率的な方策の集合：$\Pi^{t, s, x, u}$

今回は次の問題を考えます：
* 決定問題（$D(\Pi)$）：目標値$V \in \mathbb{R}$に対して，その目標を達成する確率が$\alpha \in (0, 1)$以上の方策$\pi \in \Pi$は存在するか？ $\operatorname{Pr}\left(X_\pi \geq V\right) \geq \alpha$
* Probabilistic Goal：目標値$V \in \mathbb{R}$に対して，その目標を達成する確率を最大にする方策$\pi$を探す $\operatorname{Pr}\left(X_\pi \geq V\right)$

方策集合について，次の定義を導入します：
* $\Pi$は$\Pi'$に劣る：$D(\Pi)$が真ならば$D(\Pi')$も真．しかし，逆は成立しない場合の状況．
* $\Pi$は$\Pi'$と等価である：$D(\Pi)$が真ならば$D(\Pi')$も真．逆も成立する状況．

## 決定問題における方策集合の関係

---

**決定問題において決定的方策は十分（$\Pi^{h, u}$と$\Pi^{h}$は等価）**

$MDP$，$\alpha \in [0, 1], V$について，もし

$$
\operatorname{Pr}\left(X_{\pi_u} \geq V\right) \geq \alpha,
$$

を満たす方策$\pi_u \in \Pi^{h, u}\left(\right.$ respectively $\Pi^{t, s, x, u}$ and $\left.\Pi^{t, s, u}\right)$が存在するならば，

$$
\operatorname{Pr}\left(X_\pi \geq V\right) \geq \alpha .
$$

を満たす決定的な方策$\pi \in \Pi^h$ (respectively $\Pi^{t, s, x}$ and $\left.\Pi^{t, s}\right)$も存在する．

**証明**：若干テクニカル．
確率的方策を「履歴＋確率変数$U$から行動を写像する関数」とみなします．
そして，$\pi_u \sim \pi$を，確率的方策の行動が決定的な方策の行動と一致するイベントとします．つまり，$\pi_u\left(H_t, U_{0: t}\right)=\pi\left(H_t\right)$．
このとき，タワールールから，
$$
\begin{aligned}
\operatorname{Pr}\left(X_{\pi_u} \geq V\right) & =\sum_{\pi \in \Pi^h} \operatorname{Pr}\left(X_{\pi_u} \geq V \mid \pi_u \sim \pi\right) \operatorname{Pr}\left(\pi_u \sim \pi\right) \\
& =\sum_{\pi \in \Pi^h} \operatorname{Pr}\left(X_\pi \geq V\right) \operatorname{Pr}\left(\pi_u \sim \pi\right) .
\end{aligned}
$$
です．そして，$\sum_{\pi \in \Pi^h} \operatorname{Pr}\left(\pi_u \sim \pi\right)=1$なので，
$$
\max _{\pi \in \Pi^h} \operatorname{Pr}\left(X_\pi \geq V\right) \geq \operatorname{Pr}\left(X_{\pi_u} \geq V\right)
$$
が成り立ちます．

---

**決定問題における報酬の履歴の重要性（$\Pi^{t, s}$は$\Pi^{t, s, x}$に劣る）**

次のMDPを考えましょう：

![](figs/inferior-MDP-chance.png)

行動$a, b$があり，$a$は上に進む経路，$b$は下に進む経路とします．
このMDPでは，固定された行動$a, b$について，$\operatorname{Pr}(X \geq 0)=0.5$です．

一方で，$s_1$時点での報酬が$+1$ならば$a$を取り，そうでないならば$b$を取る行動を考えると，$\operatorname{Pr}\left(X_\pi \geq 0\right)=0.75$になります．

後で見ますが，累積報酬以上の情報を付与しても，方策の性能は上がりません．
よって，$\Pi^{t, s, x}$ と $\Pi^h$ は等価です．

---


## NP困難性

実は，Probabilistic Goalを解くのは一般にNP困難になります．

---

**Theorem 2** 
$\Pi^h, \Pi^{h, u}, \Pi^{t, s}, \Pi^{t, s, u}, \Pi^{t, s, x}$ or $\Pi^{t, s, x, u}$の場合について，$D(\Pi)$問題はNP-困難です．

**証明**

$\Pi^{t, s}$がナップサック問題を含むことを示すことでNP困難性を示します．
ナップサック問題は次の問題です：
* $n$個のアイテム
    * アイテム$i$には価値$v_i$と重さ$w_i$が割り当てられています．それぞれ非負の整数
* ナップサック問題は次と同じです：正の整数$W$と$V$について，次を満たす$I \subseteq[1: n]$が存在するか判定する問題

$$
\sum_{i \in I} w_i \leq W ; \quad \sum_{i \in I} v_i \geq V
$$

さて，Probabilistic Goalが解けるとナップサック問題が解けちゃうことを示しましょう．
次のMDPを作ります：
![](figs/NP-hard-chance.png)

* $T=n+2$
* 状態集合：$\mathcal{S}=\left\{s_1, \cdots, s_n, s^{b a d}, t\right\}$
  * $t$は終端状態です．
* 行動集合：
  * $a$を取ると，報酬$0$が発生して$s_{i+1}$に遷移します
  * $b$を取ると，報酬$v_i$が発生して，確率$1/2^{w_i}$で$s_{i+1}$に遷移します．それ以外の確率で$s^{bad}$に行きます．
* $s^{bad}$では報酬$-L \triangleq-2 \sum_{i=1}^n v_i$が発生し，終端状態に移行します．

さて，決定問題$D\left(\Pi^{t, s}\right)$を考えましょう．$\alpha = 1/2^W$とします．

**$D\left(\Pi^{t, s}\right)$がpositiveのとき:**
このとき，$\operatorname{Pr}\left(X_\pi \geq V\right) \geq \alpha$を満たす方策が存在します．
$I'$を，$\pi$が$s_i$で$b$を取る$i \in [1:n]$の集合とします．
$b$以外の行動は報酬0なので，このとき，$\sum_{i \in I^{\prime}} v_i \geq V$です．

また，$s^{bad}$では大きな負の報酬が発生するので，
$$
\begin{aligned}
\operatorname{Pr}\left(X_\pi \geq V\right) & \leq \operatorname{Pr}\left(s^{b a d} \text { is never reached. }\right) \\
& =\Pi_{i \in I^{\prime}} \frac{1}{2^{w_i}}=\frac{1}{2^{\sum_{i \in I^{\prime}} w_i}}
\end{aligned}
$$
です．よって，
$$
\frac{1}{2^{\sum_{i \in I^{\prime}} w_i}} \geq 1 / 2^W \quad \Rightarrow \quad \sum_{i \in I^{\prime}} w_i \leq W
$$
が成り立ちます．故に，Probabilistic GoalがPositiveなら，ナップサック問題もPositiveです．

**ナップサック問題がPositiveのとき:** つまり，次を満たす$I \subset [1 : n]$が存在します：
$$\sum_{i \in I} w_i \leq W ; \quad \sum_{i \in I} v_i \geq V$$

次の方策$\pi'$を考えましょう．$i \in I$では$b$を取り，それ以外では$a$を取ります．このとき，
$$
\begin{aligned}
& \operatorname{Pr}\left(s^{b a d} \text { is never reached. }\right) \\
& =\prod_{i \in I} \frac{1}{2^{w_i}}=\frac{1}{2^{\sum_{i \in I} w_i}} \geq 1 / 2^W=o
\end{aligned}
$$
です．このとき，$s^{bad}$が到達されないので，$\sum_{i \in I} v_i \geq V$です．よって，$\operatorname{Pr}\left(X_{\pi^{\prime}} \geq V\right) \geq \alpha$であり，$D(\Pi^{t, s})$はpositiveです．

$D\left(\Pi^{h, u}\right), D\left(\Pi^{t, s, u}\right), D\left(\Pi^{t, s, x, u}\right)$がNP困難であることは等価性を示せばいけます．