# Generative modelsを用いたロバスト強化学習のサンプル複雑度
[RMDPにおけるサンプル複雑度](https://arxiv.org/pdf/2112.01506)の勉強のためにこのページを作りました．主に，サンプル複雑度の証明とそれに付随する補題や命題などを取り上げます．

# 証明のための準備
## 割引無限マルコフ決定過程
*  $\mathcal{S}$：状態空間（有限集合）
*  $\mathcal{A}$：行動空間（有限集合）
*  $s \in \mathcal{S}$：状態
*  $a \in \mathcal{A}$：行動
*  $P$：遷移確率関数 (Transition Probability Function) / モデル (Model)
    *  $P_{s,a}(s') = P(s'|s, a)$
    *  $P_{s,a}$：確率分布ベクトル (要素が$P(s'|s, a)$)
*  $r(s, a)$：報酬関数
*  $\gamma$：割引率，$0 \le \gamma < 1$

### 方策と価値関数
*  $\pi：\mathcal{S} \rightarrow \mathcal{A}$：(決定論的) 方策
*  $V_{\pi, P}(s)$：状態価値関数
$$
V_{\pi, P}(s) = \mathbb{E}_{\pi, P} \left[ \sum_{t=0}^{\infty} \gamma^t r(s_t, a_t) \mid s_0 = s \right]
$$
*  $V_P^*(s)$：最適価値関数，$V_P^* = \max_{\pi} V_{\pi, P}(s)$
*  $\pi_P^*$：最適方策， $\pi_P^* = \arg \max_{\pi} V_{\pi, P}$

## ロバストマルコフ決定過程
*  $M = (\mathcal{S}, \mathcal{A}, r, \mathcal{P}, \gamma)$
*  $\mathcal{P}$：不確実性集合 ($\mathcal{P} = \otimes_{(s,a)} \mathcal{P}_{s,a}$)
*  $\mathcal{P}_{s,a}$：状態行動ペア$(s, a)$における遷移確率分布の不確実性集合
*  $P$：Nominal Model
*  $c_r$：Radius of Robustness
*  $D(\cdot, \cdot)$：確率分布間の距離またはダイバージェンス
*  $\mathcal{P}^{tv}$：Total Variation (TV) 距離不確実性集合
    *  $D_{tv}(P_{s,a}, P^o_{s,a}) = \frac{1}{2} \| P_{s,a} - P^o_{s,a} \|_1$
*  $\mathcal{P}^{c}$：$\chi^2$ ダイバージェンス不確実性集合
    *  $D_{c}(P_{s,a}, P^o_{s,a}) = \sum_{s' \in \mathcal{S}} \frac{(P_{s,a}(s') - P^o_{s,a}(s'))^2}{P^o_{s,a}(s')}$
*  $\mathcal{P}^{kl}$：KLダイバージェンス不確実性集合
    *  $D_{kl}(P_{s,a} || P^o_{s,a}) = \sum_{s' \in \mathcal{S}} P_{s,a}(s') \log \frac{P_{s,a}(s')}{P^o_{s,a}(s')}$

### ロバスト価値関数と作用素
*  $V^{\pi}$：ロバスト価値関数$V^{\pi} = \inf_{P \in \mathcal{P}} V_{\pi, P}$
*  $V^*$：最適ロバスト価値関数 $V^* = \sup_{\pi} V^{\pi}$
*  $\pi^*$：最適ロバスト方策 $V^{\pi^*} = V^*$
*  $\sigma_{\mathcal{B}}(v)$：ベクトル$v$に対する，集合$\mathcal{B}$内の分布での期待値の下界を取る演算子
$$
\sigma_{\mathcal{B}}(v) = \inf_{u \in \mathcal{B}} u^T v
$$
*  $T(V)$：ロバストベルマン作用素
$$
T(V)(s) = \max_{a \in \mathcal{A}} \left( r(s, a) + \gamma \sigma_{\mathcal{P}_{s,a}}(V) \right)
$$
*  $Q^*(s, a)$：最適ロバスト行動価値関数
$$
Q^*(s, a) = r(s, a) + \gamma \sigma_{\mathcal{P}_{s,a}}(V^*)
$$

# 命題と証明(後日latex化したい)
## 定理1(TV距離を用いた場合のサンプル複雑度)編
定理1を証明するにはいくつかの補題や命題を示す必要があります．ですのでそれらを先に示します．補題1,2,3,5,命題1が必要なんですが，付録の定理1証明の節から読んでしまったので順番が前後します．

### 補題1
任意の状態行動ペア $(s, a) \in \mathcal{S} \times \mathcal{A}$ と，任意の価値関数ベクトル $V_1, V_2 \in \mathbb{R}^{|\mathcal{S}|}$ に対して，以下が成り立つ．

$$ |\sigma_{\mathcal{P}_{s, a}}(V_1) - \sigma_{\mathcal{P}_{s, a}}(V_2)| \le \|V_1 - V_2\|_{\infty} $$

および

$$ |\sigma_{\widehat{\mathcal{P}}_{s, a}}(V_1) - \sigma_{\widehat{\mathcal{P}}_{s, a}}(V_2)| \le \|V_1 - V_2\|_{\infty} $$

### 補題1の証明
![](https://cdn.mathpix.com/snip/images/hEsWzybpQRTHem5FnQm-btFSoXzSUEd2i2i2jVNGTGs.original.fullsize.png)

### 補題2
価値関数の集合 $\mathcal{V} = \{V \in \mathbb{R}^{|\mathcal{S}|} : \|V\|_{\infty} \le 1/(1-\gamma)\}$ を考える．任意の状態行動ペア $(s, a) \in \mathcal{S} \times \mathcal{A}$ と，任意の $V \in \mathcal{V}$ に対して，以下が成り立つ．

$$ |\sigma_{\widehat{\mathcal{P}}_{s, a}^{tv}}(V) - \sigma_{\mathcal{P}_{s, a}^{tv}}(V)| \le 2 \max_{\mu \in \mathcal{V}} |\widehat{P}_{s, a} \mu - P^{nominal}_{s, a} \mu| $$

ここで，$\widehat{P}_{s, a} \mu = \sum_{s'} \widehat{P}_{s,a}(s') \mu(s')$ であり，$P_{s, a} \mu = \sum_{s'} P_{s,a}(s') \mu(s')$ である．

### 補題2の証明
![](https://cdn.mathpix.com/snip/images/k9TRDv-b6luvyFEyeJRxIinD_FdV7Ycpsg2l-S0ZK5E.original.fullsize.png)

### 命題1
価値関数の集合 $\mathcal{V} = \{V \in \mathbb{R}^{|\mathcal{S}|} : \|V\|_{\infty} \le 1/(1-\gamma)\}$ を考える．任意の $\eta \in (0, 1)$ と $\delta \in (0, 1)$ に対して，確率 $1-\delta$ 以上で以下が成り立つ．

$$ \max_{V \in \mathcal{V}} \max_{(s, a)} |\sigma_{\widehat{\mathcal{P}}_{s, a}^{tv}}(V) - \sigma_{\mathcal{P}_{s, a}^{tv}}(V)| \le C_u^{tv}(N, \eta, \delta) $$

ただし，

$$ C_u^{tv}(N, \eta, \delta) = 4 \eta + \frac{2}{1-\gamma} \sqrt{ \frac{|\mathcal{S}| \log(6|\mathcal{S}||\mathcal{A}| / (\delta \eta (1-\gamma)))}{2N} } $$

であり，$N$ は各状態行動ペアにおけるサンプル数である．

### 命題1の証明
![](https://cdn.mathpix.com/snip/images/hXyITETXB-5SUw7v3trhwFhM_TnuuqSlIeAyKtPYK0o.original.fullsize.png)