# ロバストMDPの双対性の証明

参考：
* [Robust Control of Markov Decision Processes with Uncertain Transition Matrices](https://people.eecs.berkeley.edu/~elghaoui/Pubs/RobMDP_OR2005.pdf)
* [Robust Entropy-regularized Markov Decision Processes](https://arxiv.org/abs/2112.15364)：Dualityの証明はこっちのTheorem 3.1のほうがわかりやすいかも．TODO．

ロバストMDPのMinimax双対性を証明しましょう．


表記：

* ホライゾン：$T=\{0,1,2, \ldots, N-1\}$
* 状態：$i \in \mathscr{X}$, where $n=|\mathscr{X}|$
* 行動：$\mathscr{A} = \left\{a_1, \ldots, a_m\right\}$
* $\sigma_{\mathscr{P}}(v):=\sup \left\{p^T v: p \in \mathscr{P}\right\}$
* $\tau:=\left(P_t^a\right)_{a \in \mathcal{I}, t \in T}$,ここで，$P_t^a$は時刻$t$で行動$a$を取るときの遷移確率．
* $\pi=\left(\mathbf{a}_0, \ldots, \mathbf{a}_{N-1}\right)$
* $\mathbf{a}_t(i)$は時刻$t$で状態$i$での行動．
* $c_t(i, a)$はコスト

一般的なMDP&有限ホライゾンでは次を目標にします．与えられた遷移確率行列$\tau$に対して，

$$
\phi_N(\Pi, \tau):=\min _{\pi \in \Pi} C_N(\pi, \tau)
$$

ここで，
$$
C_N(\pi, \tau):=\mathbf{E}\left(\sum_{t=0}^{N-1} c_t\left(i_t, \mathbf{a}_t(i)\right)+c_N\left(i_N\right)\right)
$$
です．これを自然に割引累積コスト和の形式に変形した場合に$C_\infty$と書くことにします．

時間定常な遷移確率の集合を

$$
\begin{aligned}
\mathscr{T}_s=\{\tau= & \left(P_t^a\right)_{a \in \mathscr{S}, t \in T} \in \mathscr{T}: \\
& \left.P_t^a=P_s^a \text { for every } t, s \in T, a \in \mathscr{A}\right\}
\end{aligned}
$$

とします．このとき，ロバストMDPの主問題は

$$
\phi_N\left(\Pi, \mathscr{T}_s\right):=\min _{\pi \in \Pi} \max _{\tau \in \mathscr{T}_s} C_N(\pi, \tau)
$$

で表せます．

また，時間定常な方策の集合を$\Pi_s$として，

$$
\phi_N\left(\Pi_s, \mathscr{T}_s\right):=\min _{\pi \in \Pi_s} \max _{\tau \in \mathscr{T}_s} C_N(\pi, \tau)
$$

とします．

**証明のコツ**

1. ベルマン作用素のMinとMaxがひっくり返せることを証明する．
2. Min Maxの作用素とMax Minの作用素のどちらも同じ$V^*$に収束することを確認する．
3. $V^*$が$Max MinとMin Maxのどちらの形でも書けることを確認する．

# 無限ホライゾンの場合

表記が面倒なので無限ホライゾンについてまず示します．
次を証明します：

$$
\phi_{\infty}\left(\Pi_s, \mathscr{T}_s\right)=\max _{\tau \in \mathscr{T}_s} \min _{\pi \in \Pi_s} C_{\infty}(\pi, \tau):=\psi_{\infty}\left(\Pi_s, \mathscr{T}_s\right)
$$


証明には次のContraction Lemmaを利用します（[RL_Convex_as_LP.ipynb](RL_Convex_as_LP.ipynb)を参照してください）．

---

**Contraction Lemma**

$F: \mathbb{R}^S \to \mathbb{R}^S$を単調な縮小作用素（Contraction operator）とし，
$g: \mathbb{R}^S \to \mathbb{R}$を非減少な関数とします．
また，$v^\star$を$F$の不動点とします．
このとき，

$$
g\left(\boldsymbol{v}^{\star}\right)=\min \{g(\boldsymbol{v}) \mid \boldsymbol{v} \geq F(\boldsymbol{v})\}=\max \{g(\boldsymbol{v}) \mid \boldsymbol{v} \leq F(\boldsymbol{v})\}
$$

が成り立ちます．
また，$g$が単調増加であれば，$v^\star$は唯一存在します．

---

まず，通常のMDPにおける線形計画法の表現を使えば，

$$
\begin{aligned}
\phi_N(\pi, \tau):= & \max _{v_0, \ldots, v_{N-1}} q^T v_0: v_t(i) \leqslant c_t\left(i, \mathbf{a}_t(i)\right) \\
& +\sum_j P_t^{\mathbf{a}_t(i)}(i, j) v_{t+1}(j), \quad i \in \mathscr{X}, t \in T .
\end{aligned}
$$

であることに注意しましょう．
また，最適方策については　
$$
\begin{aligned}
& \phi_N(\Pi, \tau) \\
& \quad:=\max _{v_0, \ldots, v_{N-1}} q^T v_0: v_t(i) \leqslant c_t(i, a)+\sum_j P_t^a(i, j) v_{t+1}(j), \\
& a \in \mathscr{A}, i \in \mathscr{X}, t \in T,
\end{aligned}
$$
と書けます．

弱双対性より，

$$\phi_{\infty}\left(\Pi_s, \mathscr{T}_s\right) \geqslant \psi_{\infty}\left(\Pi_s, \mathscr{T}_s\right)$$

が成立します．

---

ここで，Contraction Lemmaを使うと次が成立することに注意しましょう．

$$
\psi_{\infty}\left(\Pi_s, \mathscr{T}_s\right)=\max _{\tau \in \mathscr{J}_s, v} q^T v: v(i) \leqslant c(i, a)+\nu \sum_j P^a(i, j) v(j)
$$

先に与えられた遷移確率での最適方策を計算し，その後で遷移の最悪ケースを取っています．

---

---

また，$\phi_{\infty}\left(\pi, \mathscr{T}_s\right):=\max _{\tau \in \mathscr{T}_s} C_{\infty}(\pi, \tau)$を与えられた方策での最悪ケースの累積コストとします．すると，

$$
\begin{aligned}
\phi_{\infty}\left(\pi, \mathscr{T}_s\right):=\max _{\tau \in \mathscr{T}_s, v} q^T v: v(i) \leqslant & c(i, \mathbf{a}(i)) \\
& +\nu \sum_j P^{\mathbf{a}(i)}(i, j) v(j),
\end{aligned}
$$

が成立します．つまり，先に与えられた方策の最悪ケースでの価値を計算しているわけですね．

---

さて，Contraction Lemmaに基づくと，$\psi$は

$$
v_t(i)=\min _{a \in \mathscr{I} l}\left(c_t(i, a)+\sigma_{\mathscr{P}_i^a}\left(v_{t+1}\right)\right), \quad i \in \mathscr{X}, t \in T
$$

を繰り返すことで得られ，また，$\phi$は

$$
v_t^\pi(i)=c_t\left(i, \mathbf{a}_t(i)\right)+\sigma_{\mathscr{P}_i^{\mathbf{a}_t(i)}}\left(v_{t+1}^\pi\right), \quad i \in \mathscr{X}
$$

で得られることがわかります．また，$\psi$を与える反復は$\pi^*$を与えることに注意しましょう．よって，

$$
\psi_N(\Pi, \mathscr{T})=\phi_N\left(\pi^*, \mathscr{T}\right)
$$

が成り立ちます．
