# バンディットや強化学習の証明に出てくる集中不等式の扱い

バンディットや強化学習の証明にはほぼ必ず何かしらの集中不等式が出てきます。
しかし、どれも気をつけて適用しないと、何か間違った結果を導きかねません。
このノートブックでは、他の理論系ノートブックに出てきた集中不等式の使い方をまとめてみます。(表記は各ノートブックに従い、少し簡素化した結果を載せます)

**ノートブックと結果の一覧**

* [UCBアルゴリズムのリグレットの証明](UCB_regret_proof.ipynb)：$\left|\widehat{\mu}_a^t-\mu_a\right|$をバウンドしたい
    * 時刻$t$時点のアーム$a$を引いた回数：$N_a^t=\sum_{i=1}^{t-1} \mathbf{1}\left\{A_i=a\right\}$
    * 報酬の推定誤差：$\widehat{\mu}_a^t - \mu_a = \frac{1}{N_a^t}\left(\sum_{i=1}^{t-1} \mathbf{1}\left\{A_i=a\right\} (r_i - \mu_a) \right)$
    * $i$を含まない$i$までの履歴：$\mathcal{H}_{<i}$
    * マルチンゲール差分列：$X^i_a = \mathbf{1}\left\{A_{i}=a\right\} (r_{i} - \mu_a)$
        * 決定的なアルゴリズムでは$\mathcal{H}_{<i}$で条件付けられたとき、$i$番目のアームはいつも同じです。よって$\mathbb{E}[X^i_a|\mathcal{H}_{<i}]=0$なので、$X_a^i$はマルチンゲール差分列です。
    * Hoeffding：固定された$a$と$t$について、$1-\delta$以上で $
\left|\widehat{\mu}_a^t-\mu_a\right|=\frac{1}{N_a^t}\left|\sum_{i=0}^{t-1} X_a^i\right|\leq \square \sqrt{\frac{\ln (1 / \delta)}{N_a^t}}
$

* [UCB-VIアルゴリズムのリグレットの証明（弱）](UCB_VI_regret_proof.ipynb)：$\left|\left(\widehat{P}_h^k\left(\cdot \mid s_h, a_h\right)-P^{\star}\left(\cdot \mid s_h, a_h\right)\right) \cdot \widehat{V}_{h+1}^{\pi^k}\right|$をバウンドしたい
    * ここで、$\widehat{P}_h^k$と$\widehat{V}_{h+1}^{\pi^k}$のどちらも確率変数。
        * しかし、$\widehat{V}_{h+1}^{\pi^k}$の計算に使うサンプルは$\widehat{P}_{h+1}^k$に依存しています。
        * そして$\widehat{P}_{h+1}^k$の計算の際に使ったサンプルは$x_{h, k}$に依存しています。
        * つまり、$\widehat{P}_h^k$と$\widehat{V}_{h+1}^{\pi^k}$は独立ではありません。
    * 変わりに $\left|\left(\widehat{P}_h^k\left(\cdot \mid s_h, a_h\right)-P^{\star}\left(\cdot \mid s_h, a_h\right)\right) \cdot \widehat{V}_{h+1}^{\pi^k}\right| \leq\left\|\hat{P}_h^k\left(\cdot \mid s_h, a_h\right)-P^{\star}\left(\cdot \mid s_h, a_h\right)\right\|_1\left\|\widehat{V}_{h+1}^{\pi^k}\right\|_{\infty}$を考えます。
        * $\left\|\hat{P}_h^k\left(\cdot \mid s_h, a_h\right)-P^{\star}\left(\cdot \mid s_h, a_h\right)\right\|_1$のバウンドは[Near-optimal Regret Bounds for Reinforcement Learning](https://www.jmlr.org/papers/volume11/jaksch10a/jaksch10a.pdf)の式（４４）あたりが参考になります。

* [UCB-VIアルゴリズムのリグレットの証明（強）](UCB_VI_regret_proof.ipynb)：$\left|\left(\widehat{P}_h^k\left(\cdot \mid s_h, a_h\right)-P^{\star}\left(\cdot \mid s_h, a_h\right)\right) \cdot \left(\widehat{V}_{h+1}^k-V_{h+1}^{\star}\right)\right|$をバウンドしたい
    * $\left\|\hat{P}_h^k\left(\cdot \mid s_h, a_h\right)-P^{\star}\left(\cdot \mid s_h, a_h\right)\right\|_1$の信頼区間は$S$次元で効率が悪いです。
        * 変わりに$\left|\left(\widehat{P}_h^k\left(\cdot \mid s_h, a_h\right)-P^{\star}\left(\cdot \mid s_h, a_h\right)\right) \cdot \left(\widehat{V}_{h+1}^k-V_{h+1}^{\star}\right)\right|$の信頼区間を直接出します。
        * Bernsteinの不等式より、
        $
        \left|\widehat{P}_h^k\left(s^{\prime} \mid s, a\right)-P_h^{\star}\left(s^{\prime} \mid s, a\right)\right| \leq \sqrt{\frac{2 P_h^{\star}\left(s^{\prime} \mid s, a\right) L}{N_h^k(s, a)}}+\frac{2 L}{N_h^k(s, a)},
        $
        が得られます。これは１次元の信頼区間になります。
        * 任意の$f$を考えるときは $\left|\left(\widehat{P}_h^k(\cdot \mid s, a)-P_h^{\star}(\cdot \mid s, a)\right)^{\top} f\right|\leq \sum_{s^{\prime} \in \mathcal{S}}\left|\widehat{P}_h^k\left(s^{\prime} \mid s, a\right)-P_h^{\star}(\cdot \mid s, a)\right| f\left(s^{\prime}\right)$とします。



* [UCB-Hアルゴリズムのリグレットの証明](UCB_H_regret_proof.ipynb)： $\left|\sum_{h=1}^H \sum_{k=1}^K\left[\left(\mathbb{P}_h-\hat{\mathbb{P}}_h^k\right)\left(V_{h+1}^{\star}-V_{h+1}^k\right)\right]\left(x_h^k, a_h^k\right)\right|$をバウンドしたい
    * $\hat{\mathbb{P}}_h^k$と$V_{h+1}^k$のどちらも確率変数です
        * $V_{h+1}^k$の計算には${k-1}$までのデータしか使ってません。
        * しかし、$\hat{\mathbb{P}}_{h}^k$の計算の際には$k$のデータしか使ってません。（モデルベースの場合は$k-1$までのデータも入ってたことに注意しましょう。）
        * よって二つは独立になります。


