# 制約付きMDPの双対ギャップはゼロ

参考：
* [Constrained Reinforcement Learning Has Zero Duality Gap](https://arxiv.org/abs/1910.13393)：この論文は行動空間と状態空間が無限の場合についても双対ギャップがゼロであることを証明してることに注意
* [Safe Policies for Reinforcement Learning via Primal-Dual Methods](https://arxiv.org/abs/1911.09101)：有限な場合の証明はこっちのほうが良いかも

[RL_CMDP_dual.ipynb](RL_CMDP_dual.ipynb)では，双対形式のCMDPを実装しました．
実は，CMDPにおける双対ギャップはゼロになります．証明しましょう．

次のCMDPを考えます．以降，これを（PI）と呼びます．

$$
\begin{aligned}
& P^{\star} \triangleq \max _{\pi \in \mathcal{P}(\mathcal{S})} \quad V_0(\pi) \triangleq \mathbb{E}_{s, \pi}\left[\sum_{t=0}^{\infty} \gamma^t r_0\left(s_t, \pi\left(s_t\right)\right)\right] \\
& \quad \text { subject to } \quad V_i(\pi) \triangleq \mathbb{E}_{s, \pi}\left[\sum_{t=0}^{\infty} \gamma^t r_i\left(s_t, \pi\left(s_t\right)\right)\right] \geq c_i, i=1, \ldots, m,
\end{aligned}
$$

これをラグランジアンで変形すると次のような形になります．

$$
\mathcal{L}(\pi, \lambda) \triangleq V_0(\pi)+\sum_{i=1}^m \lambda_i\left(V_i(\pi)-c_i\right)
$$

この問題は，$\bar{r}\left(s_t, \pi\left(s_t\right)\right)=r_0\left(s_t, \pi\left(s_t\right)\right)+\sum_{i=1}^m \lambda_i r_i\left(s_t, \pi\left(s_t\right)\right)$という報酬関数を考えたMDPを解くのと同じです．

双対関数は次で定義されます．

$$
d(\lambda) \triangleq \max _{\pi \in \mathcal{P}(\mathcal{S})} \mathcal{L}(\pi, \lambda)
$$

---

この双対関数は（PI）の上界になります．
例えばPIについて実行可能な$\tilde{\pi}$を考えてみましょう．このとき制約条件から，

$$
\sum_i \lambda_i (V_i(\tilde{\pi}) - c_i) \geq 0
$$

が成り立ちます．よって，

$$
\mathcal{L}(\tilde{\pi}, \lambda) \triangleq V_0(\tilde{\pi})+\sum_{i=1}^m \lambda_i\left(V_i(\tilde{\pi})-c_i\right)
\geq V_0(\tilde{\pi})
$$

なので，任意の実行可能な$\tilde{\pi}$について$L\geq V_0$です．よって，$d(\lambda) \geq P^*$が成立します．

---

主問題に対して，双対問題は次で定義されます．以降これを（DI）と呼びます．

$$
D^{\star} \triangleq \min _{\lambda \in \mathbb{R}_{+}^m} d(\lambda)
$$

こいつはかなり解きやすい形になってます．実際，$d(\lambda)$は$\lambda$についての線形関数を，$\pi$についてpoint-wiseなMaximumを取っているので，$d(\lambda)$は凸関数です．

しかし，PIとDIが解く問題は必ずしも一致しません．つまり，双対ギャップがあるかもしれません．
特にPIは$\pi$について凸ではないので，双対ギャップがありそうな気がします．
実は，PIとDIには双対ギャップがありません．これを見ていきましょう．


## 双対ギャップがゼロである証明

双対ギャップがゼロになることを証明するために，次のPerturbation関数を定義します．

$$
\begin{aligned}
P(\xi) \triangleq & \max _{\pi \in \mathcal{P}(\mathcal{S})} V_0(\pi) \\
& \text { subject to } V_i(\pi) \geq c_i+\xi_i, i=1 \ldots m .
\end{aligned}
$$

以降これを（PI'）とします．実は，

1. PIにSlater条件が仮定されている（つまり，安全な方策が存在する）
2. $P(\xi)$が凹最適化問題

であるとき，PIについて強双対性が成り立ちます．（これの証明は[Convex Analysis](https://convexoptimization.com/TOOLS/AnalyRock.pdf)のCorollary3.2.2が該当するらしいですが，よく分かってないです．TODO: 追記）

(1)については仮定すれば簡単に成立します．CMDPについて２を確認してみましょう．
つまり，$\xi^1, xi^2 \in \mathbb{R}^m$と$\mu\in (0, 1)$について，

$$
P\left[\mu \xi^1+(1-\mu) \xi^2\right] \geq \mu P\left(\xi^1\right)+(1-\mu) P\left(\xi^2\right)
$$

を証明します．


### $\xi^1$か$\xi^2$が実行不可能なとき

このとき

$$
P\left[\mu \xi^1+(1-\mu) \xi^2\right] \geq -\infty
$$

であるから，これは自明に成り立ちます．

### $\xi^1$と$\xi^2$が実行可能なとき

$P(\xi^1)$と$P(\xi^2)$を達成する方策がそれぞれ$\pi_1$，$\pi_2$であるとします．
このとき，
$$
P\left(\xi^1\right)=V_0\left(\pi_1\right) \text { with } V_i\left(\pi_1\right)-c_i \geq \xi_i^1 \text { for } i=1, \ldots, m \text {. }
$$
かつ
$$
P\left(\xi^2\right)=V_0\left(\pi_2\right) \text { with } V_i\left(\pi_2\right)-c_i \geq \xi_i^2 \text { for } i=1, \ldots, m \text {. }
$$
です．

証明したい不等式に当てはめると，
$$
P\left[\mu \xi^1+(1-\mu) \xi^2\right] 
\geq \mu P\left(\xi^1\right)+(1-\mu) P\left(\xi^2\right) = \mu V_0\left(\pi_1\right) + (1 - \mu) V_0\left(\pi_2\right)
$$
です．

左側を確認すると，これは

$$
\begin{aligned}
P[\mu \xi^1 + (1 - \mu) \xi^2] = & \max _{\pi \in \mathcal{P}(\mathcal{S})} V_0(\pi) \\
& \text { subject to } V_i(\pi) \geq c_i+\mu \xi_i^1 + (1 - \mu) \xi_i^2, i=1 \ldots m .
\end{aligned}
$$
なので，$P[\mu \xi^1 + (1 - \mu) \xi^2]$はスラック変数$c_i+\mu \xi_i^1 + (1 - \mu) \xi_i^2$について実行可能な方策の中で最も価値が高いものです．


よって，証明を達成するためには，任意の$\mu\in (0, 1)$に対して
$$
V_0\left(\pi_\mu\right)=\mu V_0\left(\pi_1\right)+(1-\mu) V_0\left(\pi_2\right)
$$
および
$$
V_i\left(\pi_\mu\right)-c_i \geq \mu \xi_i^1+(1-\mu) \xi_i^2
$$

を達成する$\pi_\mu$が存在すれば良いわけですね．
ちなみにこのような$\pi_\mu$はスラック変数$c_i+\mu \xi_i^1+(1-\mu) \xi_i^2$について実行可能です．　


## $\pi_\mu$の証明

まず，

$$
V_i(\pi)=\int_{(\mathcal{S} \times \mathcal{A})^{\infty}}\left(\sum_{t=0}^{\infty} \gamma^t r_i\left(s_t, a_t\right)\right) p_\pi\left(s_0, a_0, \ldots\right) d s_0 \ldots d a_0 \ldots
$$

です．報酬関数が有界なので，Dominated Convergence Theoremが成り立ち，また，マルコフ性を利用すれば，

$$
V_i(\pi)=\sum_{t=0}^{\infty} \gamma^t \int_{(\mathcal{S} \times \mathcal{A}) \infty} r_i\left(s_t, a_t\right) \prod_{u=1}^{\infty} p\left(s_u \mid s_{u-1}, a_{u-1}\right) \pi\left(a_u \mid s_u\right) p\left(s_0\right) \pi\left(a_0 \mid s_0\right) d s_0 \ldots d a_0 \ldots
$$

が成り立ちます．$u>t$については$a_u$と$s_u$についての積分は１になるので，

$$
V_i(\pi)=\sum_{t=0}^{\infty} \gamma^t \int_{(\mathcal{S} \times \mathcal{A})^t} r_i\left(s_t, a_t\right) \prod_{u=1}^t p\left(s_u \mid s_{u-1}, a_{u-1}\right) \pi\left(a_u \mid s_u\right) p\left(s_0\right) \pi\left(a_0 \mid s_0\right) d s_0 \ldots d s_t d a_0 \ldots d a_t
$$

が成り立ちます．ここで，時刻$t$で状態$s$にいて，かつ行動$a$を実行する確率は
$$
p_\pi^t\left(s_t, a_t\right)=\int_{(\mathcal{S} \times \mathcal{A})^{t-1}} \prod_{u=1}^t p\left(s_u \mid s_{u-1}, a_{u-1}\right) \pi\left(a_u \mid s_u\right) p\left(s_0\right) \pi\left(a_0 \mid s_0\right) d s_0 \ldots d s_{t-1} d a_0 \ldots d a_{t-1}
$$
で表せます．
これを使うと，

$$
V_i(\pi)=\int_{\mathcal{S} \times \mathcal{A}} r_i(s, a) \sum_{t=0}^{\infty} \gamma^t p_\pi^t(s, a) d s d a
$$

として書けます．占有率の定義$\rho(s, a)=(1-\gamma) \sum_{t=0}^{\infty} \gamma^t p_\pi^t(s, a)$から，

$$
(1-\gamma) V_i(\pi)=\int_{\mathcal{S} \times \mathcal{A}} r_i(s, a) \rho(s, a) d s d a
$$

が成り立ちます．

ここで，$\mathcal{M}(\mathcal{S}, \mathcal{A})$を$\mathcal{S}\times \mathcal{A}$上の測度とし，$\mathcal{R}$を全ての方策$\pi \in \Pi$によって生成される占有率の集合とします．

$$
\mathcal{R}:=\left\{\rho \in \mathcal{M}(\mathcal{S}, \mathcal{A}) \mid \rho(s, a)=(1-\gamma)\left(\sum_{t=0}^{\infty} \gamma^t p_\pi\left(s_t=s, a_t=a\right)\right)\right\}
$$

これは[A Convex Analytic Approach to Markov Decision Processes](https://link.springer.com/content/pdf/10.1007/BF00353877.pdf)のTheorem 3.1より，Convexかつコンパクトです．（TODO: と思ったんですが，これは非定常方策についてしか成り立た無いんじゃないか？[RL_occupancy_measure.ipynb](RL_occupancy_measure.ipynb)で非定常方策については証明を記載しました．）
よって，（PI'）は

$$
\begin{aligned}
& P(\xi) \triangleq \max _{\rho \in \mathcal{R}} \frac{1}{1-\gamma} \int_{\mathcal{S} \times \mathcal{A}} r_0(s, a) \rho(s, a) d s d a \\
& \quad \text { subject to } \frac{1}{1-\gamma} \int_{\mathcal{S} \times \mathcal{A}} r_i(s, a) \rho(s, a) d s d a \geq c_i+\xi_i, i=1, \ldots, m
\end{aligned}
$$

として書けます．ここで，$\rho_1, \rho_2 \in \mathcal{R}$を$\pi_1$と$\pi_2$についての占有率とします．
$\mathcal{R}$が凸集合なので，$\rho_\mu=\mu \rho_1+(1-\mu) \rho_2 \in \mathcal{R}$を満たす$\pi_\mu\in \Pi$が存在します．

ここで，

$$
\frac{1}{1-\gamma} \int_{\mathcal{S} \times \mathcal{A}} r_i(s, a) \rho_1(s, a) d s d a \geq c_i+\xi_i, i=1, \ldots, m
$$

および

$$
\frac{1}{1-\gamma} \int_{\mathcal{S} \times \mathcal{A}} r_i(s, a) \rho_2(s, a) d s d a \geq c_i+\xi_i, i=1, \ldots, m
$$

なので，

$$
\frac{1}{1-\gamma} \int_{\mathcal{S} \times \mathcal{A}} r_i(s, a) \mu\rho_1 + (1-\mu)\rho_2(s, a) d s d a \geq c_i+\xi_i, i=1, \ldots, m
$$

が線形性から成り立ちます．よって，
$$
\frac{1}{1-\gamma} \int_{\mathcal{S} \times \mathcal{A}} r_i(s, a) \rho_\mu(s, a) d s d a \geq c_i+\xi_i, i=1, \ldots, m
$$

が成り立ちます．また，目的関数についても

$$
P\left(\mu \xi^1+(1-\mu) \xi^2\right) \geq \frac{1}{1-\gamma} \int_{\mathcal{S} \times \mathcal{A}} r_0(s, a) \rho_\mu(s, a) d s d a=\mu V_0\left(\pi_1\right)+(1-\mu) V_0\left(\pi_2\right)
$$

が成り立ちます．これで証明終わりです．


## パラメータ化された方策を使うときの双対ギャップ

パラメータ化された方策のように，方策空間が全ての方策空間の部分集合である時を考えましょう．特に，次のような状況を考えます．

---

ある$\epsilon > 0$について，任意の方策について次を満たすパラメータ$\theta$があるとき，$\pi_\theta$は$\epsilon$-universal parameterizationであると定義します．

$$
\max _{s \in \mathcal{S}} \int_{\mathcal{A}}\left|\pi(a \mid s)-\pi_\theta(a \mid s)\right| d a \leq \epsilon
$$

---

このような定義に対して，次が成立します．

---

$\rho$と$\rho_\theta$を方策$\pi$と$\pi_\theta$によって誘導される占有率とします．
$\pi_\theta$が$\epsilon$-parameterizationであるとき，

$$
\int_{\mathcal{S} \times \mathcal{A}}\left|\rho(s, a)-\rho_\theta(s, a)\right| d s d a \leq \frac{\epsilon}{1-\gamma}
$$

が成り立ちます．

証明しましょう．まず，簡単な変形より

$$
\int_{\mathcal{S} \times \mathcal{A}}\left|\rho(s, a)-\rho_\theta(s, a)\right| d s d a=(1-\gamma) \int_{\mathcal{S} \times \mathcal{A}}\left|\sum_{t=0}^{\infty} \gamma^t\left(p_\pi^t(s, a)-p_\theta^t(s, a)\right)\right| d s d a
\leq(1-\gamma) \sum_{t=0}^{\infty} \gamma^t \int_{\mathcal{S} \times \mathcal{A}}\left|p_\pi^t(s, a)-p_\theta^t(s, a)\right| d s d a
$$
です．

さらに三角不等式より，
$$
\left|p_\pi^t(s, a)-p_\theta^t(s, a)\right| \leq p_\pi^t(s)\left|\pi(a \mid s)-\pi_\theta(a \mid s)\right|+\pi_\theta(a \mid s)\left|p_\pi^t(s)-p_\theta^t(s)\right|
$$
が成り立ちます．$\pi$は
$\max _{s \in \mathcal{S}} \int_{\mathcal{A}}\left|\pi(a \mid s)-\pi_\theta(a \mid s)\right| d a \leq \epsilon$
なので，
$$
\int_{\mathcal{S} \times \mathcal{A}} p_\pi^t(s)\left|\pi(a \mid s)-\pi_\theta(a \mid s)\right| d s d a \leq \epsilon \int_{\mathcal{S}} p_\pi^t(s) d s=\epsilon
$$
が成り立ちます．

また，　
$$
\begin{aligned}
\int_{\mathcal{S} \times \mathcal{A}} \pi_\theta(a \mid s)\left|p_\pi^t(s)-p_\theta^t(s)\right| d s d a=\int_{\mathcal{S}}\left|p_\pi^t(s)-p_\theta^t(s)\right| d s
&\leq \int_{\mathcal{S}} \int_{\mathcal{S} \times \mathcal{A}} p\left(s \mid s^{\prime}, a^{\prime}\right)\left|p_\pi^{t-1}\left(s^{\prime}, a^{\prime}\right)-p_\theta^{t-1}\left(s^{\prime}, a^{\prime}\right)\right| d s d s^{\prime} d a^{\prime}\\
&=\int_{\mathcal{S} \times \mathcal{A}}\left|p_\pi^{t-1}\left(s^{\prime}, a^{\prime}\right)-p_\theta^{t-1}\left(s^{\prime}, a^{\prime}\right)\right| d s^{\prime} d a^{\prime}
\end{aligned}
$$

です．よって，
$$
\begin{aligned}
& (1-\gamma) \sum_{t=0}^{\infty} \gamma^t \int_{\mathcal{S} \times \mathcal{A}}\left|\left(p_\pi^t(s, a)-p_\theta^t(s, a)\right)\right| d s d a \leq \\
& (1-\gamma) \sum_{t=0}^{\infty} \gamma^t \epsilon+(1-\gamma) \sum_{t=1}^{\infty} \gamma^t \int_{\mathcal{S} \times \mathcal{A}}\left|\left(p_\pi^{t-1}(s, a)-p_\theta^{t-1}(s, a)\right)\right| d s d a
\end{aligned}
$$
であり，これを繰り返すと

$$
(1-\gamma) \sum_{t=0}^{\infty} \gamma^t \int_{\mathcal{S} \times \mathcal{A}}\left|\left(p_\pi^t(s, a)-p_\theta^t(s, a)\right)\right| d s d a \leq \frac{\epsilon}{1-\gamma}
$$
が成り立ちます．

---



さて，次のようにパラメータ化された方策空間でCMDPを解いてみましょう．

$$
\begin{array}{ll}
P_\theta^{\star} \triangleq \max _\theta & V_0(\theta) \triangleq \mathbb{E}_{s, \pi_\theta}\left[\sum_{t=0}^{\infty} \gamma^t r_0\left(s_t, \pi_\theta\left(s_t\right)\right)\right] \\
\text { subject to } & V_i(\theta) \triangleq \mathbb{E}_{s, \pi_\theta}\left[\sum_{t=0}^{\infty} \gamma^t r_i\left(s_t, \pi_\theta\left(s_t\right)\right)\right] \geq c_i, i=1 \ldots m
\end{array}
$$

前と同様にして，双対問題も定義します．

$$
d_\theta(\lambda) \triangleq \min _{\theta \in \mathbb{R}^p} \mathcal{L}_\theta(\theta, \lambda) \triangleq \min _{\theta \in \mathbb{R}^p} V_0(\theta)+\sum_{i=1}^m \lambda_i\left(V_i(\theta)-c_i\right)
$$

$$
D_\theta^{\star} \triangleq \underset{\lambda \in \mathbb{R}_{+}^m}{\operatorname{minimize}} \quad d_\theta(\lambda)
$$

このように定義された双対問題に対して，次が成立します．

---

$r_i$は$B_{r_i} > 0$でバウンドされているとします．また，$B_r=\max _{i=1 \ldots m} B_{r_i}$とします．
$\lambda_\epsilon^{\star}$を双対問題を$\xi_i=B_r \epsilon /(1-\gamma)$によって摂動させたときの双対問題の解とします．

このとき，

$$
P^{\star} \geq D_\theta^{\star} \geq P^{\star}-\left(B_{r_0}+\left\|\lambda_\epsilon^{\star}\right\|_1 B_r\right) \frac{\epsilon}{1-\gamma}
$$

が成り立ちます．

証明しましょう．まず，双対関数の定義は$d(\lambda) \triangleq \max _{\pi \in \mathcal{P}(\mathcal{S})} \mathcal{L}(\pi, \lambda)$だったことを思い出すと，任意の$\lambda$について$d_\theta(\lambda) \leq d(\lambda)$は明らかに成立します．
よって，

$$
D^{\star}=d\left(\lambda^{\star}\right) \geq d_\theta\left(\lambda^{\star}\right) \geq D_\theta^{\star}
$$

が成り立ちます．ここで，双対関数を少し書き直してみます．

$$
d_\theta(\lambda)=d(\lambda)-\left(\max _{\pi \in \mathcal{P}(\mathcal{S})} \mathcal{L}(\pi, \lambda)-\max _{\theta \in \mathbb{R}^p} \mathcal{L}_\theta(\theta, \lambda)\right)
$$

ここで，$\pi^{\star} \triangleq \operatorname{argmax}_{\pi \in \mathcal{P}(\mathcal{S})} \mathcal{L}(\pi, \lambda)$としましょう．また，$\theta^\star$を$\pi$の$\epsilon$-approximationとします．すると，maximumの定義から，

$$d_\theta(\lambda) \geq d(\lambda)-\left(\mathcal{L}\left(\pi^{\star}, \lambda\right)-\mathcal{L}_\theta\left(\theta^{\star}, \lambda\right)\right)$$

が成立します．続いて，$\mathcal{L}\left(\pi^{\star}, \lambda\right)-\mathcal{L}_\theta\left(\theta^{\star}, \lambda\right)$をバウンドしましょう．

まず，次が成立します．

$$
\mathcal{L}\left(\pi^{\star}, \lambda\right)-\mathcal{L}_\theta\left(\theta^{\star}, \lambda\right)=\int_{\mathcal{S} \times \mathcal{A}}\left(r_0+\lambda^{\top} r\right)\left(d \rho^{\star}(\lambda)-d \rho_\theta^{\star}(\lambda)\right)
$$

また，上で証明したように，

$$
\int_{\mathcal{S} \times \mathcal{A}}\left|d \rho^{\star}(\lambda)-d \rho_\theta^{\star}(\lambda)\right| \leq \frac{\epsilon}{1-\gamma}
$$

が成立します．よって，報酬関数の上界と合わせて，

$$
\mathcal{L}\left(\pi^{\star}, \lambda\right)-\mathcal{L}_\theta\left(\theta^{\star}, \lambda\right) \leq\left(B_{r_0}+\|\lambda\|_1 B_r\right) \frac{\epsilon}{1-\gamma}
$$

が成り立ちます．合体して，

$$
d_\theta(\lambda) \geq d(\lambda)-\left(B_{r_0}+\|\lambda\|_1 B_r\right) \frac{\epsilon}{1-\gamma}
$$

が成り立ちます．続いて，$d_\epsilon(\lambda)=d(\lambda)-B_r \epsilon /(1-\gamma)\|\lambda\|_1$を定義しておきます．これは$\xi_i=B_r \epsilon /(1-\gamma)$としたときの双対関数です．これを使うと，
$$
d_\theta(\lambda) \geq d_\epsilon(\lambda)-B_{r_0} \frac{\epsilon}{1-\gamma}
$$
です．後はなし崩し的に変形すれば成立するので省略します．


---

## 連続CMDPの研究いろいろ

状態行動空間が連続な場合のCMDPの研究をいくつかリストアップします：

* [Constrained Reinforcement Learning Has Zero Duality Gap](https://arxiv.org/abs/1910.13393)：この論文は行動空間と状態空間が無限の場合についても双対ギャップがゼロであることを証明してることに注意
* [Natural policy gradient primal-dual method for constrained markov decision processes](https://proceedings.neurips.cc/paper/2020/hash/5f7695debd8cde8db5abcb9f161b49ea-Abstract.html)：連続な場合に使える．探索はしない．無限ホライゾン割引MDP
* [Provably efficient safe exploration via primal-dual policy optimization](https://proceedings.mlr.press/v130/ding21d.html)：Linear Kernel MDP＋制約の話．Violationはあり．
* [A Simple Reward-free Approach to Constrained Reinforcement Learning](https://proceedings.mlr.press/v162/miryoosefi22a.html)：Reward Free＋CMDPの理論．テーブルとLinear MDPの両方でやってる．
* [Provably Efficient Model-Free Constrained RL with Linear Function Approximation](https://proceedings.neurips.cc/paper_files/paper/2022/file/56b8f22d895c45f60eaac9580152afd9-Paper-Conference.pdf)
* [Safe Reinforcement Learning with Linear Function Approximation](https://proceedings.mlr.press/v139/amani21a.html)：Linear MDPにおけるCMDP