# 強化学習におけるPACとリグレットについて

参考：
* [Unifying PAC and Regret: Uniform PAC Bounds for Episodic Reinforcement Learning](https://arxiv.org/abs/1703.07710)
* [Is Q-learning Provably Efficient?](https://arxiv.org/abs/1807.03765)

今回はPACとリグレットについて深堀していきます．

表記：
* MDP：$M=\left(\mathcal{S}, \mathcal{A}, p_R, P, p_0, H\right)$
    * $p_R(s_t, a_t, t)$は報酬の分布．その期待値を$r(s_t, a_t, t)$とする．
* エピソード$k$でのoptimality gap：$\Delta_k:=\rho^{\star}-\rho^{\pi_k}$
* $\varepsilon$-errorを起こした回数：$N_{\varepsilon}:=\sum_{k=1}^{\infty} \mathbb{I}\left\{\Delta_k>\varepsilon\right\}$
* リグレット：$R(T):=\sum_{k=1}^T \Delta_k$

## PACとリグレットの復習

---

**$(\epsilon, \delta)$-PAC**

次を満たす多項式関数$F_{\mathrm{PAC}}(S, A, H, 1 / \varepsilon, \log (1 / \delta))$が存在するRLのこと

$$
\mathbb{P}\left(N_{\varepsilon}>F_{\mathrm{PAC}}(S, A, H, 1 / \varepsilon, \log (1 / \delta))\right) \leq \delta
$$

---

**期待リグレット**

次を満たす多項式関数$F_{\mathrm{ER}}(S, A, H, T)$が存在するRLのこと

$$
\mathbb{E}[R(T)] \leq
F_{\mathrm{ER}}(S, A, H, T)
$$

---

**高確率リグレット**

次を満たす多項式関数$F_{\mathrm{HPR}}(S, A, H, T, \log (1 / \delta))$が存在するRLのこと

$$
\mathbb{P}\left(R(T)>F_{\mathrm{HPR}}(S, A, H, T, \log (1 / \delta))\right) \leq \delta
$$

---

**一様高確率リグレット**

次を満たす多項式関数$F_{\mathrm{UHPR}}(S, A, H, T, \log (1 / \delta))$が存在するRLのこと

$$
\mathbb{P}\left(\text { exists } T: R(T)>F_{\mathrm{UHPR}}(S, A, H, T, \log (1 / \delta))\right) \leq \delta
$$

つまり，高確率リグレットがどの$T$についても成立する場合のこと．

---

**一様PAC**

次を満たす多項式関数 $F_{\mathrm{UPAC}}(S, A, H, 1 / \varepsilon, \log (1 / \delta))$が$\delta > 0$について存在するRLのこと

$$
\mathbb{P}\left(\text { exists } \varepsilon>0: N_{\varepsilon}>F_{U P A C}(S, A, H, 1 / \varepsilon, \log (1 / \delta))\right) \leq \delta
$$

つまり，PACがどの$\varepsilon > 0$についても成立する場合のことです．

---

### リグレットの欠点

リグレットは$\Delta_k$を$k$について積分した指標なので，
「少ないミスをたくさん起こす」 場合と 「大きなミスを一回起こす」場合が区別できません．
実際，リグレットはエピソード$T$が増えると単調に増えていくので，最適なリグレットを達成するアルゴリズムですら，無限回のミスを生じる可能性があります．
例えば薬剤の投与のような問題設定では，かなり大きなミスを起こしてしまうのは致命的です．

### PACの欠点

PACでは$\varepsilon$以上の欠点を生じる回数が抑えられますが，それ以上のことは何も言えません．
例えばすべてのエピソードで$\Delta_k > \varepsilon / 2$であるようなアルゴリズムも$(\varepsilon, \delta)$-PACになりえます．
また，ほとんどのアルゴリズムは$\varepsilon$最適な方策が見つかった時点で学習をやめてしまうので，このような現象が生じ得ます．

### 一様PACの利点

一様PACは以上の欠点を克服できます．

## リグレットとPACの関係

---

**定理**

次が成立するアルゴリズムは存在しません．

* 任意の$T$について期待リグレットが劣線形である．
* $(\varepsilon, \delta)$-PACが十分小さい$\varepsilon$で成立する．

をベルヌーイ二腕バンディットで達成する．

---

**定理**

次がエピソディックなMDPで成立します．

1. $(\varepsilon, \delta)$-PAC バウンドを$F_{P A C}=\Theta\left(1 / \varepsilon^2\right)$を達成するアルゴリズムは，
$T=\Theta\left(\varepsilon^{-3}\right)$について$F_{H P R}=\Omega\left(T^{2 / 3}\right)$なる高確率リグレットまでしか達成できません．
（最適リグレットは$\sqrt{T}$なので，これは劣最適です）
2. 任意の$\varepsilon, \delta > 0$と$F_{P A C}$について，$(\varepsilon, \delta)$-PACが$F_{PAC}$について成立するが，$R(T)=\Omega(T)$なMDPとアルゴリズムが存在する．
3. $T\to \infty$について$F_{U H P R}(T, \delta) \rightarrow \infty$であるような関数$F_{U H P R}(T, \delta)$について，特定のMDPで一様高確率リグレットを達成するが，十分小さい$\varepsilon> 0$について無限回のミスを生じるようなアルゴリズムが存在する．
4. 一様高確率リグレットを達成するが，期待リグレットが線形になるアルゴリズムが存在する．

---

以上から，次が言えます：
1. PACからリグレットの変形をすると，劣最適になります
2. PACだとしても，劣線形な一様高確率リグレットになるとは限りません
3. （一様）高確率リグレットはPACに変換できません．
4. 一様高確率リグレットでも期待リグレットが劣線形になるとは限りません．

![uniform-pac](figs/uniform-pac.png)


## 高確率リグレットを保証するアルゴリズムからPACアルゴリズムへの変形

参考：
* [Is Q-learning Provably Efficient?](https://arxiv.org/abs/1807.03765)の3.1章

**コメント**：上の話とこっちのPACの定義はちょっと違うかも．一応出せるが，そんなに良いバウンドはでないみたい．

---

**高確率リグレットからPACへの変形**

劣線形なリグレットのアルゴリズムを考えましょう．つまり，$\alpha \in (0, 1)$について
$$
R(T) \leq C \cdot T^{1-\alpha}
$$
が$1-\delta$以上で成立します．

ここで，ランダムに$\pi = \pi_k$を$k=1, \dots, T$から選択します．すると，
$$
\rho^\star - \rho^{\pi} \leq 3 C \cdot T^{-\alpha}
$$
が確率$2/3$以上で成立します．

**注：** これは上のUniform PACの定義と照らし合わせると，結局無限回ミスするのでダメそう．

---

**PACからリグレットへの変形**

$\varepsilon$-最適な方策を$T_1=C\cdot \varepsilon^{-\beta}$イテレーションで見つけられたとします．ここで，$\beta \geq 1$は定数です．

このとき，この方策$\pi$を他の$T-T_1$ステップで実行すれば，全体で$T_1 + \varepsilon(T - T_1)$のリグレットになります．
$T$と$T_1$をうまいこと調整すれば，リグレットは

$$
\tilde{\mathcal{O}}\left(C^{1+\beta} \cdot(T / H)^{\beta /(1+\beta)}\right)
$$

になり，劣線形になります．

**注：** 上でやったように，これは最適になれなさそう．

## 一様PACについて

一様PACは良い性質を持ちます．

---

**定理**

$C_1, C_2 > 0$とします．
アルゴリズムが
$F_{U P A C}=\tilde{O}\left(C_1 / \varepsilon+C_2 / \varepsilon^2\right)$について一様PACとすると，

1. アルゴリズムは高確率で最適方策に収束します：$\mathbb{P}\left(\lim _{k \rightarrow \infty} \Delta_k=0\right) \geq 1-\delta$
2. 任意の$\varepsilon$について$(\varepsilon, \delta)$-PACです．
3. $F_{U H P R}=\tilde{O}\left(\sqrt{C_2 T}+\max \left\{C_1, C_2\right\}\right)$について高確率リグレットが成立します．

既存のアルゴリズムは一様PACを達成できません（TODO: アルゴリズムの説明）
