# 強化学習とEluder dimension

参考
* モデルベース：遷移と報酬関数のクラスの複雑度がEluder dimensionで抑えられてます．
    * [Model-based Reinforcement Learning and the Eluder Dimension](https://arxiv.org/abs/1406.1853)
    * [Model-Based Reinforcement Learning with Value-Targeted Regression](https://arxiv.org/abs/2006.01107)
* モデルフリー：ベルマンバックアップのクラスの複雑度がEluder dimensionで抑えられてます．
    * [Reinforcement Learning with General Value Function Approximation: Provably Efficient Approach via Bounded Eluder Dimension](https://arxiv.org/abs/2005.10804)
* Bellman Eluder dimension：[Bellman rank](RL_General_Bellman_rank.ipynb)とモデルフリーのEluder dimensionの両方を含みます．
    * [Bellman Eluder Dimension: New Rich Classes of RL Problems, and Sample-Efficient Algorithms](https://arxiv.org/abs/2102.00815)

[前回](BANDIT_General_Eluder_dimension.ipynb)，報酬関数のクラスの複雑度がEluder dimensionで抑えられる場合について扱いました．
今回は強化学習版です．

## モデルベースのEluder dimension

参考：
* [Model-based Reinforcement Learning and the Eluder Dimension](https://arxiv.org/abs/1406.1853)
* [Model-Based Reinforcement Learning with Value-Targeted Regression](https://arxiv.org/abs/2006.01107)

上の論文では，遷移カーネル$P$の関数クラス$\mathcal{P}$に対してEluder dimensionを考えています．
１つ目の論文について説明します．

表記：
* MDP $M$と方策$\pi$について，価値関数を$V_{\pi, h}^M(s):=\mathbb{E}_{M, \pi}\left[\sum_{j=h}^H r^M\left(s_j, a_j\right) \mid s_h=s\right]$
* $\pi^M$をMでの最適方策とします．
* 状態空間は$\|\cdot\|_2$ノルムによって誘導される$\mathbb{R}^d$の部分空間とします．
* $V_h^M(\Phi):=\mathbb{E}_{M, \pi^M}\left[V_{\pi^M, h+1}^M(s) \mid s \sim \Phi\right]$を，$i$ステップ目について，$\Phi$によって出てくる次ステップの最適価値とします．
* $\mathcal{E}(\Phi):=\mathbb{E}[s \mid s \sim \Phi] \in \mathcal{S}$を分布$\Phi$の平均とします
    * そして，$\left|V_h^M(\Phi)-V_h^M(\tilde{\Phi})\right| \leq K_h^M(\mathcal{D})\|\mathcal{E}(\Phi)-\mathcal{E}(\tilde{\Phi})\|_2$ for all $\Phi, \tilde{\Phi} \in \mathcal{D}$が成り立っているとします．つまり，次状態についての最適価値は$\|\cdot\|_2$ノルムについてリプシッツ連続とします．ここで，$K^M(\mathcal{D}):=\max _h K_h^M(\mathcal{D})$はglobalなリプシッツ定数とします．
* $\mathcal{D}(M):=\left\{P^M(\cdot \mid s, a) \mid s \in \mathcal{S}, a \in \mathcal{A}\right\}$とします．つまり，全状態行動についての次状態の分布の集合です．
* $\mathcal{H}_\cdot$をそれまでの履歴とします
* $\mathcal{X}$ and $\mathcal{Y} \subseteq \mathbb{R}^d$について，$\mathcal{P}_{\mathcal{X}, \mathcal{Y}}^{C, \sigma}$を$\mathcal{X}$から$\mathcal{Y}$への$\sigma$-sub-Gaussianな分布とし，その期待値は$[0, C]$内だとします．
* $N(\mathcal{F}, \alpha, \|\cdot \|_2)$を$\mathcal{F}$の$\|\cdot\|_2$についての$\alpha$-covering numberとします．

また，次を定義します．

---

**Kolmogorov dimension**

関数クラス$\mathcal{F}$のKolmogorov dimensionは次で定義されます：
$$
\operatorname{dim}_K(\mathcal{F}):=\limsup _{\alpha \downarrow 0} \frac{\log \left(N\left(\mathcal{F}, \alpha,\|\cdot\|_2\right)\right)}{\log (1 / \alpha)}
$$

これはBox counting dimensionとしても知られます（[wiki](https://en.wikipedia.org/wiki/Minkowski%E2%80%93Bouligand_dimension)参照）

---

* $\mathcal{G} \subseteq \mathcal{P}_{\mathcal{X}, \mathcal{Y}}^{C, \sigma}$について，$\mathcal{F}=\mathbb{E}[\mathcal{G}]:=\{f \mid f=\mathbb{E}[G]$ for $G \in \mathcal{G}\}$を期待値の集合とします．
* $\operatorname{dim}_E(\mathcal{G}, \epsilon):=\operatorname{dim}_E(\mathbb{E}[\mathcal{G}], \epsilon)$をEluder dimensionとします．
    * Eluder dimensionはTabular, linear，quadratic，generalized linearなどの関数クラスについてlow dimensionalになります．（論文中のProposition 1~4参照）

### 信頼区間についての便利な定理

* $L_{2, t}(f):=\sum_{i=1}^{t-1}\left\|f\left(x_t\right)-y_t\right\|_2^2$を経験二乗損失とします．
* $\hat{f}_t^{L S} \in \arg \min _{f \in \mathcal{F}} L_{2, t}(f)$を推定値とします．
* 信頼集合を$\mathcal{F}_t=\mathcal{F}_t\left(\beta_t\right):=\left\{f \in \mathcal{F} \mid\left\|f-\hat{f}_t^{L S}\right\|_{2, E_t} \leq \sqrt{\beta_t}\right\}$とします．
  * ここで，$\|g\|_{2, E_t}^2:=\sum_{i=1}^{t-1}\left\|g\left(x_i\right)\right\|_2^2$としました

このとき，$\mathcal{F} \subseteq \mathcal{P}_{\mathcal{X}, \mathcal{Y}}^{C, \sigma}$について，
$$
\left.\beta_t^*(\mathcal{F}, \delta, \alpha):=8 \sigma^2 \log \left(N\left(\mathcal{F}, \alpha,\|\cdot\|_2\right) / \delta\right)+2 \alpha t\left(8 C+\sqrt{8 \sigma^2 \log \left(4 t^2 / \delta\right)}\right)\right)
$$
を定義します．すると，次が成立します．

任意の$\delta > 0$，$\alpha > 0$，そして$\mathcal{F}_t=\mathcal{F}_t\left(\beta_t^*(\mathcal{F}, \delta, \alpha)\right)$について，任意の$t \in \mathbb{N}$について，

$$
\mathbb{P}\left(f^* \in \bigcap_{t=1}^{\infty} \mathcal{F}_t\right) \geq 1-2 \delta
$$

これの証明は多分そんなに難しくありません．covering numberとtについてのUnion boundを考えればすぐ出てきそうです．

---

続いて，$w_{\mathcal{F}}(x):=\sup _{\bar{f}, \underline{f} \in \mathcal{F}}\|\bar{f}(x)-\underline{f}(x)\|_2$を集合内の最大の幅とします．
このとき，次が成立します：

---

$\left\{\beta_t>0 \mid t \in \mathbb{N}\right\}$が$\mathcal{F}_t=\mathcal{F}_t\left(\beta_t\right)$なる単調減少な系列とすると，

$$
\sum_{k=1}^m \sum_{i=1}^\tau \mathbb{1}\left\{w_{\mathcal{F}_{t_k}}\left(x_{t_k+i}\right)>\epsilon\right\} \leq\left(\frac{4 \beta_T}{\epsilon^2}+\tau\right) \operatorname{dim}_E(\mathcal{F}, \epsilon)
$$

が成立します．つまり，$\beta_t$によって作った集合$\mathcal{F}_t$について，その幅が$\epsilon$より大きくなるような回数が一定以下に抑えられることを言っています．
すなわち，$\beta_t$で作る信頼区間はそれなりに良い性質を持ちます．

---

また，次も成立します．

---

$\|f\|_2 \leq C$が任意の$f \in \mathcal{F}$で成立すると，

$$
\sum_{k=1}^m \sum_{i=1}^\tau w_{\mathcal{F}_{t_k}}\left(x_{t_k+i}\right) \leq 1+\tau C \operatorname{dim}_E\left(\mathcal{F}, T^{-1}\right)+4 \sqrt{\beta_T \operatorname{dim}_E\left(\mathcal{F}, T^{-1}\right) T}
$$

が成り立ちます．これはTabular MDPでよくある$\frac{1}{\sqrt{n}}$をバウンドするやつと同じノリだと思われます（実際，Tabularでは$\sqrt{SAHT}$が出てきます．今回はEluder dimensionで抑えてます．）．


### アルゴリズムとバウンド

１つ目の論文で提案されているPSRLアルゴリズムを見てみましょう．次を繰り返します．

1. 入力：$\phi$をMDPの事前分布とします．
2. $M_k \sim \phi(\cdot \mid \mathcal{H}_t)$
3. $\pi_k := \pi^{M_k}$
4. for $h$ in $1, \dots, H$
    1. $a_t \sim \pi_k(\cdot \mid s_h, h)$
    2. $t += 1$

これについて，次が成立します：

---

報酬の分布のクラス$\mathcal{R} \subseteq \mathcal{P}_{\mathcal{S} \times \mathcal{A}, \mathbb{R}}^{C_{\mathcal{R}}, \sigma_{\mathcal{R}}}$ と $\mathcal{P} \subseteq \mathcal{P}_{\mathcal{S} \times \mathcal{A}, \mathcal{S}}^{C_{\mathcal{P}}, \sigma_{\mathcal{P}}}$を考えます．
このとき，（論文中の式(4)）のリグレットが成立します（面倒なので省略）．

---


## モデルフリーのEluder dimension

参考：
* [Reinforcement Learning with General Value Function Approximation: Provably Efficient Approach via Bounded Eluder Dimension](https://arxiv.org/abs/2005.10804)

関数クラス
$$
\mathcal{F} \subseteq\{f: \mathcal{S} \times \mathcal{A} \rightarrow
[0, H+1]\}
$$
を考え，また，次のようにベルマンバックアップが$\mathcal{F}$について閉じていることを仮定します：
任意の$V: \mathcal{S}\to [0, H]$に対して，次を満たす$f_V\in \mathcal{F}$が存在する：
$$
f_V(s, a)=r(s, a)+\sum_{s^{\prime} \in \mathcal{S}} P\left(s^{\prime} \mid s, a\right) V\left(s^{\prime}\right) \quad \forall(s, a) \in \mathcal{S} \times \mathcal{A}
$$

この仮定はよくあるMDPでは満足されます．
例えば
* テーブルMDPでは$\mathcal{F}$は$\mathcal{S}\times \mathcal{A}\to [0, H+1]$の全関数クラスであり，ベルマンバックアップは閉じています
* Linear MDPでは報酬と遷移が線形であり，線形関数のクラス$\mathcal{F}$はベルマンバックアップについて閉じています．

上の論文では，このようなQ関数についての関数クラス$\mathcal{F}$に対してEluder dimensionを考えています．


## Bellman Eluder Dimension

参考：
* [Bellman Eluder Dimension: New Rich Classes of RL Problems, and Sample-Efficient Algorithms](https://arxiv.org/abs/2102.00815)

Bellman Eluder dimensionはBellman rankとLow Eluder dimensionの両方を含むフレームワークです．

![bellman-eluder-dimension](figs/Bellman-eluder-dimension.png)