# 強化学習におけるPACとリグレットについて

参考：
* [Unifying PAC and Regret: Uniform PAC Bounds for Episodic Reinforcement Learning](https://arxiv.org/abs/1703.07710)
* [Is Q-learning Provably Efficient?](https://arxiv.org/abs/1807.03765)

今回はPACとリグレットについて深堀していきます．

表記：
* MDP：$M=\left(\mathcal{S}, \mathcal{A}, p_R, P, p_0, H\right)$
    * $p_R(s_t, a_t, t)$は報酬の分布．その期待値を$r(s_t, a_t, t)$とする．
* エピソード$k$でのoptimality gap：$\Delta_k:=\rho^{\star}-\rho^{\pi_k}$
* $\varepsilon$-errorを起こした回数：$N_{\varepsilon}:=\sum_{k=1}^{\infty} \mathbb{I}\left\{\Delta_k>\varepsilon\right\}$
* リグレット：$R(T):=\sum_{k=1}^T \Delta_k$
* 訪問分布：$w_{tk}(s, a)$は$\pi_k$に従って真のMDPを動き，$s_t=s, a_t=a$になる確率

## PACとリグレットの復習

---

**$(\epsilon, \delta)$-PAC**

次を満たす多項式関数$F_{\mathrm{PAC}}(S, A, H, 1 / \varepsilon, \log (1 / \delta))$が存在するRLのこと

$$
\mathbb{P}\left(N_{\varepsilon}>F_{\mathrm{PAC}}(S, A, H, 1 / \varepsilon, \log (1 / \delta))\right) \leq \delta
$$

---

**期待リグレット**

次を満たす多項式関数$F_{\mathrm{ER}}(S, A, H, T)$が存在するRLのこと

$$
\mathbb{E}[R(T)] \leq
F_{\mathrm{ER}}(S, A, H, T)
$$

---

**高確率リグレット**

次を満たす多項式関数$F_{\mathrm{HPR}}(S, A, H, T, \log (1 / \delta))$が存在するRLのこと

$$
\mathbb{P}\left(R(T)>F_{\mathrm{HPR}}(S, A, H, T, \log (1 / \delta))\right) \leq \delta
$$

---

**一様高確率リグレット**

次を満たす多項式関数$F_{\mathrm{UHPR}}(S, A, H, T, \log (1 / \delta))$が存在するRLのこと

$$
\mathbb{P}\left(\text { exists } T: R(T)>F_{\mathrm{UHPR}}(S, A, H, T, \log (1 / \delta))\right) \leq \delta
$$

つまり，高確率リグレットがどの$T$についても成立する場合のこと．

---

**一様PAC**

次を満たす多項式関数 $F_{\mathrm{UPAC}}(S, A, H, 1 / \varepsilon, \log (1 / \delta))$が$\delta > 0$について存在するRLのこと

$$
\mathbb{P}\left(\text { exists } \varepsilon>0: N_{\varepsilon}>F_{U P A C}(S, A, H, 1 / \varepsilon, \log (1 / \delta))\right) \leq \delta
$$

つまり，PACがどの$\varepsilon > 0$についても成立する場合のことです．

---

### リグレットの欠点

リグレットは$\Delta_k$を$k$について積分した指標なので，
「少ないミスをたくさん起こす」 場合と 「大きなミスを一回起こす」場合が区別できません．
実際，リグレットはエピソード$T$が増えると単調に増えていくので，最適なリグレットを達成するアルゴリズムですら，無限回のミスを生じる可能性があります．
例えば薬剤の投与のような問題設定では，かなり大きなミスを起こしてしまうのは致命的です．

### PACの欠点

PACでは$\varepsilon$以上の欠点を生じる回数が抑えられますが，それ以上のことは何も言えません．
例えばすべてのエピソードで$\Delta_k > \varepsilon / 2$であるようなアルゴリズムも$(\varepsilon, \delta)$-PACになりえます．
また，ほとんどのアルゴリズムは$\varepsilon$最適な方策が見つかった時点で学習をやめてしまうので，このような現象が生じ得ます．

### 一様PACの利点

一様PACは以上の欠点を克服できます．

## リグレットとPACの関係

---

**定理**

次が成立するアルゴリズムは存在しません．

* 任意の$T$について期待リグレットが劣線形である．
* $(\varepsilon, \delta)$-PACが十分小さい$\varepsilon$で成立する．

をベルヌーイ二腕バンディットで達成する．

---

**定理**

次がエピソディックなMDPで成立します．

1. $(\varepsilon, \delta)$-PAC バウンドを$F_{P A C}=\Theta\left(1 / \varepsilon^2\right)$を達成するアルゴリズムは，
$T=\Theta\left(\varepsilon^{-3}\right)$について$F_{H P R}=\Omega\left(T^{2 / 3}\right)$なる高確率リグレットまでしか達成できません．
（最適リグレットは$\sqrt{T}$なので，これは劣最適です）
2. 任意の$\varepsilon, \delta > 0$と$F_{P A C}$について，$(\varepsilon, \delta)$-PACが$F_{PAC}$について成立するが，$R(T)=\Omega(T)$なMDPとアルゴリズムが存在する．
3. $T\to \infty$について$F_{U H P R}(T, \delta) \rightarrow \infty$であるような関数$F_{U H P R}(T, \delta)$について，特定のMDPで一様高確率リグレットを達成するが，十分小さい$\varepsilon> 0$について無限回のミスを生じるようなアルゴリズムが存在する．
4. 一様高確率リグレットを達成するが，期待リグレットが線形になるアルゴリズムが存在する．

---

以上から，次が言えます：
1. PACからリグレットの変形をすると，劣最適になります
2. PACだとしても，劣線形な一様高確率リグレットになるとは限りません
3. （一様）高確率リグレットはPACに変換できません．
4. 一様高確率リグレットでも期待リグレットが劣線形になるとは限りません．

![uniform-pac](figs/uniform-pac.png)


## 高確率リグレットを保証するアルゴリズムからPACアルゴリズムへの変形

参考：
* [Is Q-learning Provably Efficient?](https://arxiv.org/abs/1807.03765)の3.1章

**コメント**：上の話とこっちのPACの定義はちょっと違うかも．一応出せるが，そんなに良いバウンドはでないみたい．

---

**高確率リグレットからPACへの変形**

劣線形なリグレットのアルゴリズムを考えましょう．つまり，$\alpha \in (0, 1)$について
$$
R(T) \leq C \cdot T^{1-\alpha}
$$
が$1-\delta$以上で成立します．

ここで，ランダムに$\pi = \pi_k$を$k=1, \dots, T$から選択します．すると，
$$
\rho^\star - \rho^{\pi} \leq 3 C \cdot T^{-\alpha}
$$
が確率$2/3$以上で成立します．

**注：** これは上のUniform PACの定義と照らし合わせると，結局無限回ミスするのでダメそう．

---

**PACからリグレットへの変形**

$\varepsilon$-最適な方策を$T_1=C\cdot \varepsilon^{-\beta}$イテレーションで見つけられたとします．ここで，$\beta \geq 1$は定数です．

このとき，この方策$\pi$を他の$T-T_1$ステップで実行すれば，全体で$T_1 + \varepsilon(T - T_1)$のリグレットになります．
$T$と$T_1$をうまいこと調整すれば，リグレットは

$$
\tilde{\mathcal{O}}\left(C^{1+\beta} \cdot(T / H)^{\beta /(1+\beta)}\right)
$$

になり，劣線形になります．

**注：** 上でやったように，これは最適になれなさそう．

## 一様PACについて

一様PACは良い性質を持ちます．

---

**定理**

$C_1, C_2 > 0$とします．
アルゴリズムが
$F_{U P A C}=\tilde{O}\left(C_1 / \varepsilon+C_2 / \varepsilon^2\right)$について一様PACとすると，

1. アルゴリズムは高確率で最適方策に収束します：$\mathbb{P}\left(\lim _{k \rightarrow \infty} \Delta_k=0\right) \geq 1-\delta$
2. 任意の$\varepsilon$について$(\varepsilon, \delta)$-PACです．
3. $F_{U H P R}=\tilde{O}\left(\sqrt{C_2 T}+\max \left\{C_1, C_2\right\}\right)$について高確率リグレットが成立します．


## 一様PACを達成するアルゴリズム（UBEV アルゴリズム）

面倒なので報酬は既知にします．

表記：

$$
\begin{aligned}
& V_t^{\prime}(s)=r\left(s, \pi^{\prime}(s, t), t\right)+P^{\prime}\left(s, \pi^{\prime}(s, t), t\right)^{\top} V_{t+1}^{\prime} \\
& V_{H+1}^{\prime}=0, \quad P^{\prime}(s, a, t) \in \Delta_S, \quad r^{\prime}(s, a, t) \in[0,1] \\
& \left|\left[\left(P^{\prime}-\hat{P}_k\right)(s, a, t)\right]^{\top} V_{t+1}^{\prime}\right| \leq \phi(s, a, t)(H-t) \\
\end{aligned}
$$

ここで，

$$
\phi(s, a, t)=\sqrt{\frac{2 \ln \ln \max \{e, n(s, a, t)\}+\ln (18 S A H / \delta)}{n(s, a, t)}}=O\left(\sqrt{\frac{\ln (S A H \ln (n(s, a, t)) / \delta)}{n(s, a, t)}}\right)
$$

は信頼区間の半径です．

UBEVは次を解くことで方策を求めます（Lemma D.1）：

$$
\begin{aligned}
\max _{P^{\prime}, V^{\prime}, \pi^{\prime}, r^{\prime}} & \mathbb{E}_{s \sim p_0}\left[V_1^{\prime}(s)\right] \\
\forall s & \in \mathcal{S}, a \in \mathcal{A}, t \in[H]: \\
V_{H+1}^{\prime} & =0, \quad P^{\prime}(s, a, t) \in \Delta_S, \quad r^{\prime}(s, a, t) \in[0,1] \\
V_t^{\prime}(s) & =r^{\prime}\left(s, \pi^{\prime}(s, t), t\right)+\mathbb{E}_{s^{\prime} \sim P^{\prime}\left(s, \pi^{\prime}(s, t), t\right)}\left[V_{t+1}^{\prime}\right] \\
& \left|\left(P^{\prime}(s, a, t)-\hat{P}_k(s, a, t)\right)^{\top} V_{t+1}^{\prime}\right| \leq \phi(s, a, t)(H-t)
\end{aligned}
$$
ここで，$\phi(s, a, t)=\sqrt{\frac{2 \ln \mathrm{p}(n(s, a, t))+\ln (18 S A H / \delta)}{n(s, a, t)}}$は信頼区間の半径です．

この更新について，次を示します：

---

$\pi_k$をUBEVの$k$エピソード目の方策とします．このとき，確率$1-\delta$以上で，任意の$\varepsilon > 0$について，$\Delta_k > \varepsilon$ となるエピソードの回数は

$$
O\left(\frac{S A H^4}{\varepsilon^2} \min \left\{1+\varepsilon S^2 A, S\right\} \text { polylog }\left(A, S, H, \frac{1}{\varepsilon}, \frac{1}{\delta}\right)\right)
$$

でバウンドできます．

**コメント**：今回は$k\to \infty$でも成立するようなバウンドを出さなければならないので，特殊な集中不等式が必要になります．

## 解析

表記：

$$
\begin{aligned}
w_{\min } & =w_{\min }^{\prime}=\frac{\varepsilon c_{\varepsilon}}{H^2 S} \\
c_{\varepsilon} & =\frac{1}{3} \\
L_{t k} & =\left\{(s, a) \in \mathcal{S} \times \mathcal{A}: w_{t k}(s, a) \geq w_{\min }\right\} \\
\operatorname{lnp}(x) & =\ln (\ln (\max \{x, e\})) \\
\operatorname{rng}(x) & =\max (x)-\min (x) \\
\delta^{\prime} & =\frac{\delta}{9}
\end{aligned}
$$


次の集中不等式を使います．

---

**集中不等式（無限のエピソードについてのUnion boundを取るときに便利です）**

$X_1, X_2, \dots$をフィルトレーション$\{\mathcal{F}_t\}_{t=1}^\infty$についての
$\sigma^2$-subgaussianなマルチンゲール差分列とします．つまり，

$$
\mathbb{E}\left[\exp \left(\lambda\left(X_t-\mu\right)\right) \mid \mathcal{F}_{t-1}\right] \leq \exp \left(\lambda^2 \sigma^2 / 2\right)
$$

が全ての$\lambda$についてa.s.で成立するとします．このとき，$\hat{\mu}_t=\frac{1}{t} \sum_{i=1}^t X_i$について，
$$
\mathbb{P}\left(\exists t:\left|\hat{\mu}_t-\mu\right| \geq \sqrt{\frac{4 \sigma^2}{t}\left(2 \ln p(t)+\ln \frac{3}{\delta}\right)}\right) \leq 2 \delta
$$
が成り立ちます．

証明は面倒なので省略（補題：F.1参照）．

---

**集中不等式**

$X_1, X_2, \dots$を$\mu$についてのベルヌーイ確率変数であるとします．このとき，任意の$\delta \in [0, 1]$について，

$$
\mathbb{P}\left(\exists t:\left|\hat{\mu}_t-\mu\right| \geq \sqrt{\frac{2 \mu}{t}\left(2 \operatorname{lnp}(t)+\ln \frac{3}{\delta}\right)}+\frac{1}{t}\left(2 \ln \mathrm{p}(t)+\ln \frac{3}{\delta}\right)\right) \leq 2 \delta
$$

が成立する．

証明は面倒なので省略（補題F.2参照）．

---


### $PV^\star$についてのバウンド

$$
F_k^V=\left\{\exists s, a, t:\left|\left(\hat{P}_k(s, a, t)-P(s, a, t)\right)^{\top} V_{t+1}^{\star}\right| \geq \sqrt{\frac{\operatorname{rng}\left(V_{t+1}^{\star}\right)^2}{n_{t k}(s, a)}\left(2 \operatorname{lnp}\left(n_{t k}(s, a)\right)+\ln \frac{3 S A H}{\delta^{\prime}}\right)}\right\}
$$
とします．
このとき，$\mathbb{P}\left(\bigcup_{k=1}^{\infty} F_k^V\right) \leq 2 \delta^{\prime}$が成立します．

**証明**

上の集中不等式を使うと，

$$
\mathbb{P}\left(\exists k:\left|\left(\hat{P}_k(s, a, t)-P(s, a, t)\right)^{\top} V_{t+1}^{\star}\right| \geq \sqrt{\frac{\operatorname{rng}\left(V_{t+1}^{\star}\right)^2}{n_{t k}(s, a)}\left(2 \operatorname{lnp}\left(n_{t k}(s, a)\right)+\ln \frac{3}{\delta^{\prime}}\right)}\right) \leq 2 \delta^{\prime}
$$

がわかります．
後は$(s, a, h)$についてUnionバウンドを取れば成立します．


### $P$についてのバウンド

$$
\begin{gathered}
F_k^P=\left\{\exists s, s^{\prime}, a, t:\left|\hat{P}_k\left(s^{\prime} \mid s, a, t\right)-P\left(s^{\prime} \mid s, a, t\right)\right| \geq \sqrt{\frac{2 P\left(s^{\prime} \mid s, a, t\right)}{n_{t k}(s, a)}\left(2 \operatorname{lnp}\left(n_{t k}(s, a)\right)+\ln \frac{3 S^2 A H}{\delta^{\prime}}\right)}\right. \\
\left.+\frac{1}{n_{t k}(s, a)}\left(2 \operatorname{lnp}\left(n_{t k}(s, a)\right)+\ln \frac{3 S^2 A H}{\delta^{\prime}}\right)\right\}
\end{gathered}
$$

とすれば，任意の$\delta'$について$\mathbb{P}\left(\bigcup_{k=1}^{\infty} F_k^P\right) \leq 2 \delta^{\prime}$が成立します．

**証明**

$s', s, t, a$を固定します．
$K$を$s, a, t$がアルゴリズム中で遭遇した総数とします．

$i \leq K$について，$X_i$を$s, a, t$を$i$回目に遭遇し，その次に$s'$に至るindicatorであるとします．
また，$X_i \sim \operatorname{Bernoulli}\left(P\left(s^{\prime} \mid s, a, t\right)\right)$をi.i.d.にサンプルされるとします．

ここで，次のイベント

$$
\begin{aligned}
\bigcup_k\left\{\left|\hat{P}_k\left(s^{\prime} \mid s, a, t\right)-P\left(s^{\prime} \mid s, a, t\right)\right| \geq\right. & \sqrt{\frac{2 P\left(s^{\prime} \mid s, a, t\right)}{n_{t k}(s, a)}\left(2 \operatorname{lnp}(n(s, a, t))+\ln \frac{3 S^2 A H}{\delta^{\prime}}\right)} \\
& \left.+\frac{1}{n_{t k}(s, a)}\left(2 \operatorname{lnp}\left(n_{t k}(s, a)\right)+\ln \frac{3 S^2 A H}{\delta^{\prime}}\right)\right\}
\end{aligned}
$$

は

$$
\bigcup_i\left\{\left|\hat{\mu}_i-\mu\right| \geq \sqrt{\frac{2 \mu}{i}\left(2 \ln p(i)+\ln \frac{3}{\delta^{\prime}}\right)}+\frac{1}{i}\left(2 \ln p(i)+\ln \frac{3 S^2 A H}{\delta^{\prime}}\right)\right\}
$$

なるイベントに含まれていることがわかります．
上の不等式を使えば，このイベントは$2 \delta^{\prime} / S^2 / A / H$でバウンドされていることがわかります．

---

また，少し変形した集中不等式を使えば，

$$
\begin{aligned}
F_k^{L 1} & =\left\{\exists s, a, t:\left\|\hat{P}_k(s, a, t)-P(s, a, t)\right\|_1 \geq \sqrt{\frac{4}{n_{t k}(s, a)}\left(2 \operatorname{lnp}\left(n_{t k}(s, a)\right)+\ln \frac{3 S A H\left(2^S-2\right)}{\delta^{\prime}}\right)}\right\} \\
\end{aligned}
$$

について，$\mathbb{P}\left(\bigcup_{k=1}^{\infty} F_k^{L 1}\right) \leq \delta^{\prime}$であることも示せます．

### Nice エピソードについてのバウンド

これは後で使います：

$$
F_k^N =\left\{\exists s, a, t: n_{t k}(s, a)<\frac{1}{2} \sum_{i<k} w_{t i}(s, a)-\ln \frac{S A H}{\delta^{\prime}}\right\}
$$
このとき，任意の$\delta'>0$について，
$$
\mathbb{P}\left(\bigcup_k F_k^N\right) \leq \delta^{\prime}
$$

が成立します．

**証明**

* $s, a, t$を固定し，$\mathcal{F}_k$をσ代数とします．
* $X_k$を$s, a, t$が$k$エピソード目で観測されるindicatorとします．

これをバウンドするために次を使います．

---

**補題：集中不等式３**

$\mathcal{F}_i$をフィルトレーションとし，$X_1, \dots, X_n$をベルヌーイ確率変数とします．
$\mathbb{P}\left(X_i=1 \mid \mathcal{F}_{i-1}\right)=P_i$として，$P_i$は$\mathcal{F}_{i-1}$-measurable，$X_i$は$\mathcal{F}_i$-measurableとします．
このとき，

$$
\mathbb{P}\left(\exists n: \sum_{t=1}^n X_t<\sum_{t=1}^n P_t / 2-W\right) \leq e^{-W}
$$

が成立します．

---

これに$W=\ln \frac{SAH}{\delta'}$を代入すれば証明できます．


### Good Event

Good Event を次で定義します．
$$
F=\bigcup_k\left[F_k^N \cup F_k^P \cup F_k^V \cup F_k^{L 1}\right]
$$

## Nice Episodes

これは[RL_useful_lemma.ipynb](RL_useful_lemma.ipynb)のGood setと同じノリです．
Friendly episodesってやつを使うともっとタイトなバウンドになるんですが，今回は簡単なNice episodesだけやります．

まず，次のNice episodesを定義します：

---

**定義：Nice episodes**

エピソード$k$は次を満たす時にNice episodeといいます．
全ての$s, a, t\in [H]$について，
$$
w_{t k}(s, a) \leq w_{\min } \quad \vee \quad \frac{1}{4} \sum_{i<k} w_{t i}(s, a) \geq \ln \frac{S A H}{\delta^{\prime}}
$$
が成立する．

---

Niceなエピソードの集合を$N \subseteq \mathbb{N}$とします．
このNice episodeには次の性質があります．

---

**補題：Nice episodeの性質**

エピソード$k$がniceであり（つまり$k \in N$のとき），さらにgood event $F^c$のとき，全ての$s, a, t$について，次が成立します：

$$
w_{t k}(s, a) \leq w_{\min } \quad \vee \quad n_{t k}(s, a) \geq \frac{1}{4} \sum_{i<k} w_{t i}(s, a)
$$

**証明**

$F_k^{N^c}$を考えるので，任意の$s, a, t$について，

* $w_{t k}(s, a)>w_{\min }=\frac{\varepsilon c_{\varepsilon}}{H^2 S}$
* $n_{t k}(s, a) \geq \frac{1}{2} \sum_{i<k} w_{t i}(s, a)-\ln \frac{S A H}{\delta^{\prime}}$

が成立します．また，エピソードがNiceなので，$n_{t k}(s, a) \geq \frac{1}{2} \sum_{i<k} w_{t i}(s, a)-\ln \frac{S A H}{\delta^{\prime}} \geq \frac{1}{4} \sum_{i<k} w_{t i}(s, a)$が成り立ちます．

---

**補題：Not Niceエピソードの回数**

Good event $F^c$が成り立っている時，Niceではないエピソードの数は最大で

$$\frac{6 S^2 A H^3}{\varepsilon} \ln \frac{S A H}{\delta^{\prime}}$$

である．

**証明**

あるエピソード$K$がniceではない場合，定義から，
* $w_{t k}(s, a)>w_{\min }$ 
* $\sum_{i<k} w_{t i}(s, a)<4 \ln \frac{S A H}{\delta^{\prime}}$

のどちらも満たす$s, a, t$が存在します．

Niceではないエピソードが生じると，$\sum_{i < k}w_{t i}$が$w_{\min}$だけ増加しますが，右辺より，$\frac{S A H}{\delta^{\prime}}$以上にはなりません．
よって，Niceではないエピソードの数は

$$
\frac{4 S A H}{w_{\min }} \ln \frac{S A H}{\delta^{\prime}}=\frac{24 S^2 A H^3}{\varepsilon} \ln \frac{S A H}{\delta^{\prime}}
$$

で抑えられます．

---


### Niceエピソードを使った$\frac{1}{n}$のバウンド

$r \geq 1$と$C > 0$を固定します．
$\varepsilon' > 0$と$D \geq 1$とします．

このとき，

$$
\sum_t \sum_{s, a \in L_{t k}} w_{t k}(s, a)\left(\frac{C\left(\ln \mathrm{p}\left(n_{t k}(s, a)\right)+D\right)}{n_{t k}(s, a)}\right)^{1 / r} \leq \varepsilon^{\prime}
$$

が全ての回で成立し，その例外は最大で

$$
\frac{8 C A S H^r}{\varepsilon^{\prime r}} \operatorname{polylog}\left(S, A, H, \delta^{-1}, \varepsilon^{\prime-1}\right)
$$

回のNice episodesである．

**証明**

まず，

$$
\begin{aligned}
\Delta_k & =\sum_t \sum_{s, a \in L_{t k}} w_{t k}(s, a)\left(\frac{C\left(\operatorname{llnp}\left(n_{t k}(s, a)\right)+D\right)}{n_{t k}(s, a)}\right)^{1 / r} \\
& =\sum_t \sum_{s, a \in L_{t k}} w_{t k}(s, a)^{1-\frac{1}{r}}\left(w_{t k}(s, a) \frac{C\left(\ln \mathrm{ln}\left(n_{t k}(s, a)\right)+D\right)}{n_{t k}(s, a)}\right)^{1 / r}
\end{aligned}
$$

とします．Holderの不等式から，

$$
\Delta_k \leq\left(\sum_t \sum_{s, a \in L_{t k}} \frac{C H^{r-1} w_{t k}(s, a)\left(\ln \mathrm{p}\left(n_{t k}(s, a)\right)+D\right)}{n_{t k}(s, a)}\right)^{\frac{1}{r}}
$$

であることがわかります．また，
* Niceエピソードの定義から，$\sum_{i<k} w_{t i}(s, a) \geq 4 \ln \frac{S A H}{\delta^{\prime}} \geq 4 \ln (2) \geq 2$
* Niceエピソードの性質から，$n_{t k}(s, a) \geq \frac{1}{4} \sum_{i<k} w_{t i}(s, a) \geq \frac{1}{8} \sum_{i \leq k} w_{t i}(s, a)$

がすぐにわかります．

ここで，$\frac{\ln p(x)+D}{x}$は$x$について単調減少であることに気をつけましょう．（論文のLemma E.6）

これを使うと，

$$
\begin{aligned}
\Delta_k^r & \leq \sum_t \sum_{s, a \in L_{t k}} \frac{C H^{r-1} w_{t k}(s, a)\left(\operatorname{llnp}\left(n_{t k}(s, a)\right)+D\right)}{n_{t k}(s, a)} \\
& \leq 8 C H^{r-1} \sum_t \sum_{s, a \in L_{t k}} \frac{w_{t k}(s, a)\left(\operatorname{llnp}\left(\frac{1}{8} \sum_{i \leq k} w_{t i}(s, a)\right)+D\right)}{\sum_{i \leq k} w_{t i}(s, a)} \\
& \leq 8 C H^{r-1} \sum_t \sum_{s, a \in L_{t k}} \frac{w_{t k}(s, a)\left(\operatorname{llnp}\left(\sum_{i \leq k} w_{t i}(s, a)\right)+D\right)}{\sum_{i \leq k} w_{t i}(s, a)} .
\end{aligned}
$$

であることがわかります．

さて，ここから$\Delta_k > \varepsilon'$として，この$k$の回数をバウンドしていきます．
$\Delta_k > \varepsilon'$であると，

* 上の不等式の右辺も$\varepsilon'^r$より大きいです．
* $\varepsilon' \geq 0$なので，$L_{tk}$は空ではなく，そのため，$w_{tk}(s, a) > w_{\min}$となる$(s, a, t)$が少なくとも一つ存在します．

よって，

$$
\begin{aligned}
\varepsilon^{\prime r}
&<
\Delta_k^r\\
&\leq 8 C H^{r-1} \sum_{t=1}^H \sum_{s, a \in L_{t k}} \frac{w_{t k}(s, a)\left(\operatorname{llnp}\left(\sum_{i \leq k} w_{t i}(s, a)\right)+D\right)}{\sum_{i \leq k} w_{t i}(s, a)}\\
&\leq
\frac{8 \operatorname{CSAH}^r\left(\operatorname{llnp}\left(\sum_{i \leq k} w_{t i}(s, a)\right)+D\right)}{\sum_{i \leq k} w_{t i}(s, a)}
\end{aligned}
$$
$$
\Leftrightarrow \frac{\operatorname{llnp}\left(\sum_{i \leq k} w_{t i}(s, a)\right)+D}{\sum_{i \leq k} w_{t i}(s, a)}>\frac{\varepsilon^{\prime r}}{8 C S A H^r} .
$$

が成立します．

ここで，$C^{\prime}=\frac{8 C A S H^r}{\varepsilon^{\prime r}}$としましょう．
$\frac{\ln \mathrm{p}(x)+D}{x}$は単調減少なので，
$x=C^{\prime 2}+3 C^{\prime} D$
とすると，

$$
\frac{\operatorname{llnp}(x)+D}{x} \leq \frac{\sqrt{x}+D}{x} \leq \frac{1}{C^{\prime}}
$$

が成り立ちます．よって，$\sum_{i \leq k} w_{t i}(s, a) \geq C^{\prime 2}+3 C^{\prime} D$であれば，

$$
\frac{\operatorname{llnp}\left(\sum_{i \leq k} w_{t i}(s, a)\right)+D}{\sum_{i \leq k} w_{t i}(s, a)}\leq\frac{\varepsilon^{\prime r}}{8 C S A H^r}
$$
になり，上の話（$\Delta_k > \varepsilon'$）と矛盾します．
よって，$\Delta_k > \varepsilon'$であるためには，
$\sum_{i \leq k} w_{t i}(s, a) < C^{\prime 2}+3 C^{\prime} D$である必要があります．

一方で，上で説明したように$\Delta_k > \varepsilon'$のときには$w_{t k}(s, a)>w_{\min }$なる$(s, a, t)$が存在するので，$\sum_{i \leq k} w_{t i}(s, a)$は少なくとも$w_{\min}$だけ増加します．よって，
$\Delta_k > \varepsilon'$が生じる回数は最大で

$$m \leq \frac{A S H\left(C^2+3 C^{\prime} D\right)}{w_{\min }}$$

です．

$K=\left\{k: \Delta_k>\varepsilon^{\prime}\right\} \cap N$としましょう．
このとき，$|K|\leq m$です．これを使って，

$$
\begin{aligned}
\sum_{k \in K} \Delta_k^r & \leq \sum_{k \in K} 8 C H^{r-1} \sum_t \sum_{s, a \in L_{t k}} \frac{w_{t k}(s, a)\left(\operatorname{llnp}\left(\sum_{i \leq k} w_{t i}(s, a)\right)+D\right)}{\sum_{i \leq k} w_{t i}(s, a)} \\
& \leq 8 C H^{r-1}\left(\operatorname{llnp}\left(C^{\prime 2}+3 C^{\prime} D\right)+D\right) \sum_t \sum_{s, a \in L_{t k}} \sum_{k \in K} \frac{w_{t k}(s, a)}{\sum_{i \leq k} w_{t i}(s, a) \mathbb{I}\left\{w_{t i}(s, a) \geq w_{\min }\right\}}
\end{aligned}
$$

を考えます．

TODO: 続き


## Optimality gapをバウンド

$$
\begin{aligned}
& V_1^{\star}\left(s_0\right)-V_1^{\pi_k}\left(s_0\right) \\
\leq & \left|\tilde{V}_1^{\pi_k}\left(s_0\right)-V_1^{\pi_k}\left(s_0\right)\right| \\
\leq & \sum_{t=1}^H \sum_{s, a} w_{t k}(s, a)\left|\left(\tilde{P}_k(s, a, t)-P(s, a, t)\right)^{\top} \tilde{V}_{t+1}^{\pi_k}\right|\\
\leq &\sum_{t=1}^H \sum_{s, a \in L_{t k}} w_{t k}(s, a)\left|\left(\tilde{P}_k(s, a, t)-P(s, a, t)\right)^{\top} \tilde{V}_{t+1}^{\pi_k}\right|
+\sum_{t=1}^H \sum_{s, a \notin L_{t k}} w_{t k}(s, a)\left|\left(\tilde{P}_k(s, a, t)-P(s, a, t)\right)^{\top} \tilde{V}_{t+1}^{\pi_k}\right|\\
&\leq \sum_{t=1}^H \sum_{s, a \notin L_{t k}} H w_{\min }
+\sum_{t=1}^H \sum_{s, a \in L_{t k}} w_{t k}(s, a)
\left[\left|\left(\tilde{P}_k(s, a, t)-\hat{P}_k(s, a, t)\right)^{\top} \tilde{V}_{t+1}^{\pi_k}\right|
+\left|\left(\hat{P}_k(s, a, t)-P(s, a, t)\right)^{\top} \tilde{V}_{t+1}^{\pi_k}\right|\right]
\end{aligned}
$$

最初の項は$\varepsilon / 3$で抑えられます．その他の項は

$$
\sum_{t=1}^H \sum_{s, a \in L_{t k}} w_{t k}(s, a) \sqrt{\frac{8(H+H \sqrt{S}+2)^2}{n_{t k}(s, a)}\left(\ln p\left(n_{t k}(s, a)\right)+\frac{1}{2} \ln \frac{6 S A H^{\prime}}{\delta}\right)} .
$$

で抑えられるので，Nice episodeのやつで抑えます．　