# 強化学習とEluder dimension

参考
* モデルベース：遷移と報酬関数のクラスの複雑度がEluder dimensionで抑えられてます．
    * [Model-based Reinforcement Learning and the Eluder Dimension](https://arxiv.org/abs/1406.1853)
    * [Model-Based Reinforcement Learning with Value-Targeted Regression](https://arxiv.org/abs/2006.01107)
* モデルフリー：ベルマンバックアップのクラスの複雑度がEluder dimensionで抑えられてます．
    * [Reinforcement Learning with General Value Function Approximation: Provably Efficient Approach via Bounded Eluder Dimension](https://arxiv.org/abs/2005.10804)
* Bellman Eluder dimension：[Bellman rank](RL_General_Bellman_rank.ipynb)とモデルフリーのEluder dimensionの両方を含みます．
    * [Bellman Eluder Dimension: New Rich Classes of RL Problems, and Sample-Efficient Algorithms](https://arxiv.org/abs/2102.00815)

[前回](BANDIT_General_Eluder_dimension.ipynb)，報酬関数のクラスの複雑度がEluder dimensionで抑えられる場合について扱いました．
今回は強化学習版です．

## モデルベースのEluder dimension

参考：
* [Model-based Reinforcement Learning and the Eluder Dimension](https://arxiv.org/abs/1406.1853)
* [Model-Based Reinforcement Learning with Value-Targeted Regression](https://arxiv.org/abs/2006.01107)

上の論文では，遷移カーネル$P$の関数クラス$\mathcal{P}$に対してEluder dimensionを考えています．
１つ目の論文について説明します．

表記：
* MDP $M$と方策$\pi$について，価値関数を$V_{\pi, h}^M(s):=\mathbb{E}_{M, \pi}\left[\sum_{j=h}^H r^M\left(s_j, a_j\right) \mid s_h=s\right]$
* $\pi^M$をMでの最適方策とします．
* 状態空間は$\|\cdot\|_2$ノルムによって誘導される$\mathbb{R}^d$の部分空間とします．
* $V_h^M(\Phi):=\mathbb{E}_{M, \pi^M}\left[V_{\pi^M, h+1}^M(s) \mid s \sim \Phi\right]$を，$i$ステップ目について，$\Phi$によって出てくる次ステップの最適価値とします．
* $\mathcal{E}(\Phi):=\mathbb{E}[s \mid s \sim \Phi] \in \mathcal{S}$を分布$\Phi$の平均とします
    * そして，$\left|V_h^M(\Phi)-V_h^M(\tilde{\Phi})\right| \leq K_h^M(\mathcal{D})\|\mathcal{E}(\Phi)-\mathcal{E}(\tilde{\Phi})\|_2$ for all $\Phi, \tilde{\Phi} \in \mathcal{D}$が成り立っているとします．つまり，次状態についての最適価値は$\|\cdot\|_2$ノルムについてリプシッツ連続とします．ここで，$K^M(\mathcal{D}):=\max _h K_h^M(\mathcal{D})$はglobalなリプシッツ定数とします．
* $\mathcal{D}(M):=\left\{P^M(\cdot \mid s, a) \mid s \in \mathcal{S}, a \in \mathcal{A}\right\}$とします．つまり，全状態行動についての次状態の分布の集合です．
* $\mathcal{H}_\cdot$をそれまでの履歴とします
* $\mathcal{X}$ and $\mathcal{Y} \subseteq \mathbb{R}^d$について，$\mathcal{P}_{\mathcal{X}, \mathcal{Y}}^{C, \sigma}$を$\mathcal{X}$から$\mathcal{Y}$への$\sigma$-sub-Gaussianな分布とし，その期待値は$[0, C]$内だとします．
* $N(\mathcal{F}, \alpha, \|\cdot \|_2)$を$\mathcal{F}$の$\|\cdot\|_2$についての$\alpha$-covering numberとします．

また，次を定義します．

---

**Kolmogorov dimension**

関数クラス$\mathcal{F}$のKolmogorov dimensionは次で定義されます：
$$
\operatorname{dim}_K(\mathcal{F}):=\limsup _{\alpha \downarrow 0} \frac{\log \left(N\left(\mathcal{F}, \alpha,\|\cdot\|_2\right)\right)}{\log (1 / \alpha)}
$$

これはBox counting dimensionとしても知られます（[wiki](https://en.wikipedia.org/wiki/Minkowski%E2%80%93Bouligand_dimension)参照）

---

* $\mathcal{G} \subseteq \mathcal{P}_{\mathcal{X}, \mathcal{Y}}^{C, \sigma}$について，$\mathcal{F}=\mathbb{E}[\mathcal{G}]:=\{f \mid f=\mathbb{E}[G]$ for $G \in \mathcal{G}\}$を期待値の集合とします．
* $\operatorname{dim}_E(\mathcal{G}, \epsilon):=\operatorname{dim}_E(\mathbb{E}[\mathcal{G}], \epsilon)$をEluder dimensionとします．
    * Eluder dimensionはTabular, linear，quadratic，generalized linearなどの関数クラスについてlow dimensionalになります．（論文中のProposition 1~4参照）

### 信頼区間についての便利な定理

* $L_{2, t}(f):=\sum_{i=1}^{t-1}\left\|f\left(x_t\right)-y_t\right\|_2^2$を経験二乗損失とします．
* $\hat{f}_t^{L S} \in \arg \min _{f \in \mathcal{F}} L_{2, t}(f)$を推定値とします．
* 信頼集合を$\mathcal{F}_t=\mathcal{F}_t\left(\beta_t\right):=\left\{f \in \mathcal{F} \mid\left\|f-\hat{f}_t^{L S}\right\|_{2, E_t} \leq \sqrt{\beta_t}\right\}$とします．
  * ここで，$\|g\|_{2, E_t}^2:=\sum_{i=1}^{t-1}\left\|g\left(x_i\right)\right\|_2^2$としました

このとき，$\mathcal{F} \subseteq \mathcal{P}_{\mathcal{X}, \mathcal{Y}}^{C, \sigma}$について，
$$
\left.\beta_t^*(\mathcal{F}, \delta, \alpha):=8 \sigma^2 \log \left(N\left(\mathcal{F}, \alpha,\|\cdot\|_2\right) / \delta\right)+2 \alpha t\left(8 C+\sqrt{8 \sigma^2 \log \left(4 t^2 / \delta\right)}\right)\right)
$$
を定義します．すると，次が成立します．

任意の$\delta > 0$，$\alpha > 0$，そして$\mathcal{F}_t=\mathcal{F}_t\left(\beta_t^*(\mathcal{F}, \delta, \alpha)\right)$について，任意の$t \in \mathbb{N}$について，

$$
\mathbb{P}\left(f^* \in \bigcap_{t=1}^{\infty} \mathcal{F}_t\right) \geq 1-2 \delta
$$

これの証明は多分そんなに難しくありません．covering numberとtについてのUnion boundを考えればすぐ出てきそうです．

---

続いて，$w_{\mathcal{F}}(x):=\sup _{\bar{f}, \underline{f} \in \mathcal{F}}\|\bar{f}(x)-\underline{f}(x)\|_2$を集合内の最大の幅とします．
このとき，次が成立します：

---

$\left\{\beta_t>0 \mid t \in \mathbb{N}\right\}$が$\mathcal{F}_t=\mathcal{F}_t\left(\beta_t\right)$なる単調減少な系列とすると，

$$
\sum_{k=1}^m \sum_{i=1}^\tau \mathbb{1}\left\{w_{\mathcal{F}_{t_k}}\left(x_{t_k+i}\right)>\epsilon\right\} \leq\left(\frac{4 \beta_T}{\epsilon^2}+\tau\right) \operatorname{dim}_E(\mathcal{F}, \epsilon)
$$

が成立します．つまり，$\beta_t$によって作った集合$\mathcal{F}_t$について，その幅が$\epsilon$より大きくなるような回数が一定以下に抑えられることを言っています．
すなわち，$\beta_t$で作る信頼区間はそれなりに良い性質を持ちます．

---

また，次も成立します．

---

$\|f\|_2 \leq C$が任意の$f \in \mathcal{F}$で成立すると，

$$
\sum_{k=1}^m \sum_{i=1}^\tau w_{\mathcal{F}_{t_k}}\left(x_{t_k+i}\right) \leq 1+\tau C \operatorname{dim}_E\left(\mathcal{F}, T^{-1}\right)+4 \sqrt{\beta_T \operatorname{dim}_E\left(\mathcal{F}, T^{-1}\right) T}
$$

が成り立ちます．これはTabular MDPでよくある$\frac{1}{\sqrt{n}}$をバウンドするやつと同じノリだと思われます（実際，Tabularでは$\sqrt{SAHT}$が出てきます．今回はEluder dimensionで抑えてます．）．


### アルゴリズムとバウンド

１つ目の論文で提案されているPSRLアルゴリズムを見てみましょう．次を繰り返します．

1. 入力：$\phi$をMDPの事前分布とします．
2. $M_k \sim \phi(\cdot \mid \mathcal{H}_t)$
3. $\pi_k := \pi^{M_k}$
4. for $h$ in $1, \dots, H$
    1. $a_t \sim \pi_k(\cdot \mid s_h, h)$
    2. $t += 1$

これについて，次が成立します：

---

報酬の分布のクラス$\mathcal{R} \subseteq \mathcal{P}_{\mathcal{S} \times \mathcal{A}, \mathbb{R}}^{C_{\mathcal{R}}, \sigma_{\mathcal{R}}}$ と $\mathcal{P} \subseteq \mathcal{P}_{\mathcal{S} \times \mathcal{A}, \mathcal{S}}^{C_{\mathcal{P}}, \sigma_{\mathcal{P}}}$を考えます．
このとき，（論文中の式(4)）のリグレットが成立します（面倒なので省略）．

---


## モデルフリーのEluder dimension

参考：
* [Reinforcement Learning with General Value Function Approximation: Provably Efficient Approach via Bounded Eluder Dimension](https://arxiv.org/abs/2005.10804)

関数クラス
$$
\mathcal{F} \subseteq\{f: \mathcal{S} \times \mathcal{A} \rightarrow
[0, H+1]\}
$$
を考え，また，次のようにベルマンバックアップが$\mathcal{F}$について閉じていることを仮定します：
任意の$V: \mathcal{S}\to [0, H]$に対して，次を満たす$f_V\in \mathcal{F}$が存在する：
$$
f_V(s, a)=r(s, a)+\sum_{s^{\prime} \in \mathcal{S}} P\left(s^{\prime} \mid s, a\right) V\left(s^{\prime}\right) \quad \forall(s, a) \in \mathcal{S} \times \mathcal{A}
$$

この仮定はよくあるMDPでは満足されます．
例えば
* テーブルMDPでは$\mathcal{F}$は$\mathcal{S}\times \mathcal{A}\to [0, H+1]$の全関数クラスであり，ベルマンバックアップは閉じています
* Linear MDPでは報酬と遷移が線形であり，線形関数のクラス$\mathcal{F}$はベルマンバックアップについて閉じています．

上の論文では，このようなQ関数についての関数クラス$\mathcal{F}$に対してEluder dimensionを考えています．

**TODO: この論文は計算効率がいいっぽい（Importance samplingを使ってデータ数を減らしてる）．むずいので後回し．**

## Bellman Eluder Dimension

参考：
* [Bellman Eluder Dimension: New Rich Classes of RL Problems, and Sample-Efficient Algorithms](https://arxiv.org/abs/2102.00815)

Bellman Eluder dimensionはBellman rankとLow Eluder dimensionの両方を含むフレームワークです．

![bellman-eluder-dimension](figs/Bellman-eluder-dimension.png)

表記：
* ベルマン作用素：$Q_h^{\star}(s, a)=\left(\mathcal{T}_h Q_{h+1}^{\star}\right)(s, a):=r_h(s, a)+\mathbb{E}_{s^{\prime} \sim \mathbb{P}_h(\cdot \mid s, a)} \max _{a^{\prime} \in \mathcal{A}} Q_{h+1}^{\star}\left(s^{\prime}, a^{\prime}\right)$
* 測度$\rho$についての集合$\mathcal{V}$の$\epsilon$-covering number：$\mathcal{N}(\mathcal{V}, \epsilon, \rho)$．
    * $\mathcal{V}_o \subset \mathcal{V}$ with $\left|\mathcal{V}_o\right|=n$
    * つまり，任意の$x \in \mathcal{V}$について，$\rho(x, y) \leq \epsilon$である$y \in \mathcal{V}_o$が存在するような$\mathcal{V}_o \subset \mathcal{V}$ with $\left|\mathcal{V}_o\right|=n$であるような整数$n$が存在します． 
    * $\mathcal{N}_{\mathcal{F}}(\epsilon)$で略記する．
* 測度は$\rho(f, g)=\max _h\left\|f_h-g_h\right\|_\alpha$とする．

仮定：
* 関数クラス：$\mathcal{F}=\mathcal{F}_1 \times \cdots \times \mathcal{F}_H$, where $\mathcal{F}_h \subseteq(\mathcal{S} \times \mathcal{A} \rightarrow[0,1])$
* 実現可能性：$Q_h^\star \in \mathcal{F}_h$
* ベルマン作用素に対して閉じている：$\mathcal{T}_h \mathcal{F}_{h+1} \subseteq \mathcal{F}_h$ for all $h \in[H]$

今回は分布型のEluder dimensionを定義してEluder dimensionを一般化します．

---

**$\epsilon$-独立**

$\mathcal{G}$を$\mathcal{X}$上の関数空間とします．また，$\nu, \mu_1, \dots, \mu_n$を$\mathcal{X}$上の確率測度とします．
次を満たすとき，$\nu$は$\left\{\mu_1, \mu_2, \ldots, \mu_n\right\}$と$\mathcal{G}$について$\epsilon$-独立であるといいます：
「$\sqrt{\sum_{i=1}^n\left(\mathbb{E}_{\mu_i}[g]\right)^2} \leq \epsilon$, but $\left|\mathbb{E}_\nu[g]\right|>\epsilon$であるような$g\in \mathcal{G}$が存在する」

---

**分布型のEluder dimension**

$\mathcal{G}$を$\mathcal{X}$上の関数空間とします．また，$\Pi$を$\mathcal{X}$上の確率測度の族とします．
分布型のEluder dimension $\operatorname{dim}_{\mathrm{DE}}(\mathcal{G}, \Pi, \epsilon)$は，次を満たす$\left\{\rho_1, \ldots, \rho_n\right\} \subset \Pi$の最大の長さのことです：
「$\left\{\rho_1, \ldots, \rho_{i-1}\right\}$ for all $i \in[n]$について，$\rho_i$が$\epsilon'$-独立であるような$\epsilon' \geq \epsilon$が存在する」

---

この分布型のEluder dimensionは明らかに普通のEluder dimensionを一般化してます．
この分布型のEluder dimensionを使って，次のBellman Eluder dimensionを定義します：

---

**Q-type Bellman Eluder dimension**

$$
\left(I-\mathcal{T}_h\right) \mathcal{F}:=\left\{f_h-\mathcal{T}_h f_{h+1}: f \in \mathcal{F}\right\}
$$
を，$\mathcal{F}$によって誘導される$h$ステップ目のBellman残差の集合とします．
$\Pi=\left\{\Pi_h\right\}_{h=1}^H$を$\mathcal{S}\times \mathcal{A}$上の確率測度の集合とします（つまりoccupancy measureの部分集合です）．
このとき，Q-typeのBE dimensionは

$$
\operatorname{dim}_{\mathrm{BE}}(\mathcal{F}, \Pi, \epsilon):=\max _{h \in[H]} \operatorname{dim}_{\mathrm{DE}}\left(\left(I-\mathcal{T}_h\right) \mathcal{F}, \Pi_h, \epsilon\right)
$$

---

すなわち，Bellman Eluder dimensionはベルマン残差についての関数クラスについての分布型のEluder dimensionの最大値です．
ちなみにこれは$\mathcal{S}\times \mathcal{A}$上のベルマン残差について考えているので，Q-typeのBellman Eluder dimensionといいます．
次のV-type Bellman Eluder dimensionも考えられます．

---

**V-type Bellman Eluder dimension**

$$
\left(I-\mathcal{T}_h\right) V_{\mathcal{F}}:=\left\{s \mapsto\left(f_h-\mathcal{T}_h f_{h+1}\right)\left(s, \pi_{f_h}(s)\right): f \in \mathcal{F}\right\}
$$
を，$\mathcal{F}$によって誘導される$h$ステップ目のBellman残差の集合とします．
$\Pi=\left\{\Pi_h\right\}_{h=1}^H$を$\mathcal{S}\times \mathcal{A}$上の確率測度の集合とします（つまりoccupancy measureの部分集合です）．
このとき，V-typeのBE dimensionは

$$\operatorname{dim}_{\mathrm{VBE}}(\mathcal{F}, \Pi, \epsilon):=\max _{h \in[H]} \operatorname{dim}_{\mathrm{DE}}\left(\left(I-\mathcal{T}_h\right) V_{\mathcal{F}}, \Pi_h, \epsilon\right)$$

で定義されます．

---

Bellman Eluder dimensionは$\Pi$の選び方に依存することに注意しましょう．
次の２種類の$\Pi$を考えてみます．

1. $\pi_f$を$f \in \mathcal{F}$についての貪欲方策とします．そのOccupancy measureの集合を$\Pi$とします．$\mathcal{D}_{\mathcal{F}}:=\left\{\mathcal{D}_{\mathcal{F}, h}\right\}_{h \in[H]}$と表記します．
2. 一つの$s, a$に確率１を割り当て，あとの$s, a$をすべて０とします．$\mathcal{D}_{\Delta}:=\left\{\mathcal{D}_{\Delta, h}\right\}_{h \in[H]}$と表記します．

次を満たすとき，強化学習問題はLow BE dimensionを持つ，と呼ぶことにします：

$$
\min _{\Pi \in\left\{\mathcal{D}_{\mathcal{F}}, \mathcal{D}_{\Delta}\right\}} \operatorname{dim}_{\mathrm{BE}}(\mathcal{F}, \Pi, \epsilon)
$$

が小さい．
実はLow BE dimensionである場合，Low Bellman rankです（Proposition 11参照）．つまり，Low BE dimensionはLow Bellman rankを一般化しています．
また，Low BE dimensionであればLow Eluder dimensionでもあります．


### アルゴリズム

Low Bellman Eluder dimensionのMDPを解けるのが，次のGOLFアルゴリズムです．

![GOLF](figs/GOLF.png)

**解説**

* $\mathcal{B}^k$がConfidence ballです．この中に$Q^*$が含まれていることを$\beta$が保証します
* ３行目で方策をOptimisticに選択します．４と５行目はデータを集めるだけですね．
* ６行目で，Confidence ballを更新します．これはFQIに似ている処理をしています．
  
実際，
$$\mathcal{L}_{\mathcal{D}_h}\left(\xi_h, \zeta_{h+1}\right)=\sum_{\left(s, a, r, s^{\prime}\right) \in \mathcal{D}_h}\left[\xi_h(s, a)-r-\max _{a^{\prime} \in \mathcal{A}} \zeta_{h+1}\left(s^{\prime}, a^{\prime}\right)\right]^2$$

はベルマン誤差を計算しているわけです．
このとき，FQIは
$$f_h \leftarrow \operatorname{argmin}_{\phi \in \mathcal{F}_h} \mathcal{L}_{\mathcal{D}_h}\left(\phi, f_{h+1}\right)$$
の処理と同じです．
一方でGOLFはMinimizerを一つ選択するのではなく，$\beta$だけ最小値より大きい値を実現する仮説全てをConfidence ballに保持しておきます．
$$
f \in \mathcal{F}: \mathcal{L}_{\mathcal{D}_h}\left(f_h, f_{h+1}\right) \leq \inf _{g \in \mathcal{G}_h} \mathcal{L}_{\mathcal{D}_h}\left(g, f_{h+1}\right)+\beta
$$


このアルゴリズムの理論保証を成立させるためには，次の仮定が必要です．

---

**Generalized Completeness**

$\mathcal{G}=\mathcal{G}_1 \times \cdots \times \mathcal{G}_H$を，学習者に与えられた適当な関数クラスとします．ここで，$\mathcal{G}_h \subseteq(\mathcal{S} \times \mathcal{A} \rightarrow[0,1])$とします．
このとき，

$$
\mathcal{T}_h \mathcal{F}_{h+1} \subseteq \mathcal{G}_h \text { for all } h \in[H] \text {. }
$$

を仮定します．
これは特に$\mathcal{G}=\mathcal{F}$のとき，一般的なcompletenessの仮定と同じです．

---

GOLFには次の保証が成立します．

$\beta=c \log \left[\mathcal{N}_{\mathcal{F} \cup \mathcal{G}}(1 / K) \cdot K H / \delta\right]$
のとき，確率$1-\delta$以上で，

$$
\operatorname{Reg}(k)=\sum_{t=1}^k\left[V_1^{\star}\left(s_1\right)-V_1^{\pi^t}\left(s_1\right)\right] \leq \mathcal{O}(H \sqrt{d k \beta})
$$

であり，ここで，$d=\min _{\Pi \in\left\{\mathcal{D}_{\Delta}, \mathcal{D}_{\mathcal{F}}\right\}} \operatorname{dim}_{\mathrm{BE}}(\mathcal{F}, \Pi, 1 / \sqrt{K})$はBE dimensionです．

---


**証明**

### ステップ１

まず最初にOptimismを証明します．つまり，確率$1-\delta$以上で，$Q^* \in \mathcal{B}^k$が全ての$k$で成立することを示します．

これは次の証明のちょっと変化バージョンで簡単に示すことができるので，次の定理だけ示します．

---

$\rho > 0$を任意の固定された定数とします．$\beta=c\left(\log \left[K H \mathcal{N}_{\mathcal{F} \cup \mathcal{G}}(\rho) / \delta\right]+K \rho\right)$とすると，

$$
\begin{aligned}
& \sum_{i=1}^{k-1} \mathbb{E}\left[\left(f_h^k\left(s_h, a_h\right)-\left(\mathcal{T} f_{h+1}^k\right)\left(s_h, a_h\right)\right)^2 \mid s_h, a_h \sim \pi^i\right] \leq \mathcal{O}(\beta) . \\
& \sum_{i=1}^{k-1}\left(f_h^k\left(s_h^i, a_h^i\right)-\left(\mathcal{T} f_{h+1}^k\right)\left(s_h^i, a_h^i\right)\right)^2 \leq \mathcal{O}(\beta),
\end{aligned}
$$

の両方が確率$1-\delta$以上で成立します．ここで，$\left(s_1^i, a_1^i, \ldots, s_H^i, a_H^i, s_{H+1}^i\right)$は$\pi^i$によって$i$エピソード目に回収されたサンプルです．

**証明**

まず，固定された$k, h, f$を考えます．

$$
X_t(h, f):=\left(f_h\left(s_h^t, a_h^t\right)-r_h^t-f_{h+1}\left(s_{h+1}^t, \pi_f\left(s_{h+1}^t\right)\right)\right)^2-\left(\left(\mathcal{T} f_{h+1}\right)\left(s_h^t, a_h^t\right)-r_h^t-f_{h+1}\left(s_{h+1}^t, \pi_f\left(s_{h+1}^t\right)\right)\right)^2
$$

という確率変数を導入します．また，$\mathfrak{F}_{t, h}$を，$\left\{s_1^i, a_1^i, r_1^i, \ldots, s_H^i\right\}_{i=1}^{t-1} \bigcup\left\{s_1^t, a_1^t, r_1^t, \ldots, s_h^t, a_h^t\right\}$によって誘導されるfiltrationとしましょう．このとき，

$$
\begin{aligned}
&\mathbb{E}\left[X_t(h, f) \mid \mathfrak{F}_{t, h}\right]\\
=& \mathbb{E}\left[\left(f_h\left(s_h^t, a_h^t\right)-r_h^t-f_{h+1}\left(s_{h+1}^t, \pi_f\left(s_{h+1}^t\right)\right)\right)^2-\left(\left(\mathcal{T} f_{h+1}\right)\left(s_h^t, a_h^t\right)-r_h^t-f_{h+1}\left(s_{h+1}^t, \pi_f\left(s_{h+1}^t\right)\right)\right)^2\right] \\
=& \mathbb{E}\left[\left(f_h\left(s_h^t, a_h^t\right) - \left(\mathcal{T} f_{h+1}\right)\left(s_h^t, a_h^t\right)\right)\left(f_h\left(s_h^t, a_h^t\right) + \left(\mathcal{T} f_{h+1}\right)\left(s_h^t, a_h^t\right)-2r_h^t-2f_{h+1}\left(s_{h+1}^t, \pi_f\left(s_{h+1}^t\right)\right)\right)\right] \\
=& \left(f_h\left(s_h^t, a_h^t\right) - \left(\mathcal{T} f_{h+1}\right)\left(s_h^t, a_h^t\right)\right)\mathbb{E}\left[\left(f_h\left(s_h^t, a_h^t\right) + \left(\mathcal{T} f_{h+1}\right)\left(s_h^t, a_h^t\right)-2r_h^t-2f_{h+1}\left(s_{h+1}^t, \pi_f\left(s_{h+1}^t\right)\right)\right)\right] \\
=& \left(f_h\left(s_h^t, a_h^t\right) - \left(\mathcal{T} f_{h+1}\right)\left(s_h^t, a_h^t\right)\right)^2\\
=&\left[\left(f_h-\mathcal{T} f_{h+1}\right)\left(s_h^t, a_h^t\right)\right]^2
\end{aligned}
$$

が成り立ちます．また，

$$
\begin{aligned}
&\operatorname{Var}\left[X_t(h, f) \mid \mathfrak{F}_{t, h}\right] 
\leq \mathbb{E}\left[\left(X_t(h, f)\right)^2 \mid \mathfrak{F}_{t, h}\right] \\
= &\left(f_h\left(s_h^t, a_h^t\right) - \left(\mathcal{T} f_{h+1}\right)\left(s_h^t, a_h^t\right)\right)^2\mathbb{E}\left[\left(f_h\left(s_h^t, a_h^t\right) + \left(\mathcal{T} f_{h+1}\right)\left(s_h^t, a_h^t\right)-2r_h^t-2f_{h+1}\left(s_{h+1}^t, \pi_f\left(s_{h+1}^t\right)\right)\right)^2\right] \\
\leq &36\left[\left(f_h-\mathcal{T} f_{h+1}\right)\left(s_h^t, a_h^t\right)\right]^2=36 \mathbb{E}\left[X_t(h, f) \mid \mathfrak{F}_{t, h}\right]
\end{aligned}
$$

ここの36は$\sum_{h=1}^H r_h\left(s_h, a_h\right) \leq 1$の仮定のせいですね．

さて，上で導入したGeneralized Completenessの仮定を使うと，

$$
\begin{aligned}
\sum_{t=1}^{k-1} X_t\left(h, f^k\right)= & \sum_{t=1}^{k-1}\left[f_h^k\left(s_h^t, a_h^t\right)-r_h^t-f_{h+1}^k\left(s_{h+1}^t, \pi_{f^k}\left(s_{h+1}^t\right)\right)\right]^2 \\
& -\sum_{t=1}^{k-1}\left[\left(\mathcal{T} f_{h+1}^k\right)\left(s_h^t, a_h^t\right)-r_h^t-f_{h+1}^k\left(s_{h+1}^t, \pi_{f^k}\left(s_{h+1}^t\right)\right)\right]^2 \\
\leq & \sum_{t=1}^{k-1}\left[f_h^k\left(s_h^t, a_h^t\right)-r_h^t-f_{h+1}^k\left(s_{h+1}^t, \pi_{f^k}\left(s_{h+1}^t\right)\right)\right]^2 \\
& -\inf _{g \in \mathcal{G}} \sum_{t=1}^{k-1}\left[g_h\left(s_h^t, a_h^t\right)-r_h^t-f_{h+1}^k\left(s_{h+1}^t, \pi_{f^k}\left(s_{h+1}^t\right)\right)\right]^2 \leq \beta .
\end{aligned}
$$

最後の不等式はアルゴリズムの設計のおかげです．
ここで，$\phi^k=\operatorname{argmin}_{\phi \in \mathcal{Z}_\rho} \max _{h \in[H]}\left\|f_h^k-\phi_h^k\right\|_{\infty}$とします．$\mathcal{Z}_\rho$の定義から，

$$
\left|\sum_{t=1}^{k-1} X_t\left(h, f^k\right)-\sum_{t=1}^{k-1} X_t\left(h, \phi^k\right)\right| \leq \mathcal{O}(k \rho) .
$$

であり，よって，

$$
\sum_{t=1}^{k-1} X_t\left(h, \phi^k\right) 
\leq \sum_{t=1}^{k-1} X_t\left(h, f^k\right) +
\left|\sum_{t=1}^{k-1} X_t\left(h, f^k\right)-\sum_{t=1}^{k-1} X_t\left(h, \phi^k\right)\right| 
\leq \mathcal{O}(k \rho)+\beta
$$

も成り立ちます．

ここで，次のFreedmanの不等式を導入します．

---

**Freedmanの不等式**

$X_1, X_2, \dots, X_T$を実数の確率変数の列とします．
任意の$t\in \{1, 2, \dots, T\}$において，$X_t \leq R$および$\mathbb{E}\left[X_t \mid X_1, \ldots, X_{t-1}\right]=0$とします．
このとき，任意の$\delta \in (0, 1)$ と$\eta \in [0, 1/R]$について，確率$1-\delta$以上で，

$$
\sum_{t=1}^T X_t 
\leq(e-2) \eta \sum_{t=1}^T \mathbb{E}\left[X_t^2 \mid X_1, \dots, X_{t-1} \right]+\frac{\log \left(\delta^{-1}\right)}{\eta}
$$

証明は[Taming the Monster: A Fast and Simple Algorithm for Contextual Bandits](https://arxiv.org/abs/1402.0555)を参考にしてください．

---


Freedmanの不等式を使うと，確率$1-\delta$以上で，

$$
\left|\sum_{t=1}^k X_t(h, f)-\sum_{t=1}^k \mathbb{E}\left[X_t(h, f) \mid \mathfrak{F}_{t, h}\right]\right| \leq \mathcal{O}\left(\sqrt{\log(1/\delta) \sum_{t=1}^k \mathbb{E}\left[X_t \mid \mathfrak{F}_{t, h}\right]}+\log (1 / \delta)\right)
$$

が成立します．続いて，固定されていた$f$を外すために，$\mathcal{F}$についてのcovering numberを考えましょう．$\mathcal{Z}_\rho$を$\mathcal{F}$の$\rho$-coverとします．
$(k, h, \phi) \in[K] \times[H] \times \mathcal{Z}_\rho$についてUnion boundを取れば，

$$
\left|\sum_{t=1}^k X_t(h, \phi)-\sum_{t=1}^k\left[\left(\phi_h-\mathcal{T} \phi_{h+1}\right)\left(s_h^t, a_h^t\right)\right]^2\right| \leq \mathcal{O}\left(\sqrt{\iota\sum_{t=1}^k\left[\left(\phi_h-\mathcal{T} \phi_{h+1}\right)\left(s_h^t, a_h^t\right)\right]^2}+\iota\right),
$$

が，任意の$(k, h, \phi) \in[K] \times[H] \times \mathcal{Z}_\rho$について成立します．ここで，$\iota=\log \left(H K\left|\mathcal{Z}_\rho\right| / \delta\right)$です．

この結果を上でやった変形と合体させると，

$$
\begin{aligned}
&\sum_{t=1}^{k-1}\left[\left(\phi_h^k-\mathcal{T} \phi_{h+1}^k\right)\left(s_h^t, a_h^t\right)\right]^2 \\
=& \sum_{t=1}^{k-1}\left[\left(\phi_h-\mathcal{T} \phi_{h+1}\right)\left(s_h^t, a_h^t\right)\right]^2 - \sum_{t=1}^{k-1} X_t(h, \phi) + \sum_{t=1}^{k-1} X_t(h, \phi) \\
\leq &\mathcal{O}\left(\sqrt{\iota\sum_{t=1}^{k-1}\left[\left(\phi_h-\mathcal{T} \phi_{h+1}\right)\left(s_h^t, a_h^t\right)\right]^2}+\iota\right)+\mathcal{O}(k \rho+\beta) \\
\end{aligned}
$$

よって，
$\sum_{t=1}^{k-1}\left[\left(\phi_h^k-\mathcal{T} \phi_{h+1}^k\right)\left(s_h^t, a_h^t\right)\right]^2 = z$とおくと，

$$
z 
\leq \mathcal{O}\left(\sqrt{z}\right)+\mathcal{O}(\iota + k \rho+\beta) 
$$

が成立します．やや面倒ですが，$z$についての2次方程式を考えると，結局

$$
z 
\leq \mathcal{O}(\iota + k \rho+\beta) 
$$

が言えます．（多分丁寧にやったほうがいいけど，ちょっと考えれば自明．）

これで証明終わりです．
Optimismもこんな感じのノリでいけます．


### ステップ２

次の平均ベルマン誤差を使います．
$$
\mathcal{E}\left(f, \pi_{f^{\prime}}, h\right):=\mathbb{E}_{\pi_{f^{\prime}}}\left[\left(f_h-\mathcal{T}_h f_{h+1}\right)\left(s_h, a_h\right)\right]
$$

ステップ１のOptimismと合わせると，次の不等式が成立します．

$$
\sum_{k=1}^K\left(V_1^{\star}\left(s_1\right)-V_1^{\pi^k}\left(s_1\right)\right) \leq \sum_{k=1}^K\left(\max _a f_1^k\left(s_1, a\right)-V_1^{\pi^k}\left(s_1\right)\right) \stackrel{(i)}{=} \sum_{k=1}^K \sum_{h=1}^H \mathcal{E}\left(f^k, \pi^k, h\right)
$$

あとは平均ベルマン誤差を上から抑えるだけですね．

### ステップ３

平均ベルマン誤差を上から抑えるために，次を使います．

---

$|\phi(x)| \leq C$ for all $(\phi, x) \in \Phi \times \mathcal{X}$であるような$\mathcal{X}$上の関数クラス$\Phi$と，
$\mathcal{X}$上の確率測度のクラス$\Pi$を考えます．
ここで，$\left\{\phi_k\right\}_{k=1}^K \subset \Phi$ and $\left\{\mu_k\right\}_{k=1}^K \subset \Pi$が，全ての$k \in [K]$について，$\sum_{t=1}^{k-1}\left(\mathbb{E}_{\mu_t}\left[\phi_k\right]\right)^2 \leq \beta$を成立させているとします．
このとき，

$$
\sum_{t=1}^k\left|\mathbb{E}_{\mu_t}\left[\phi_t\right]\right| \leq \mathcal{O}\left(\sqrt{\operatorname{dim}_{\mathrm{DE}}(\Phi, \Pi, \omega) \beta k}+\min \left\{k, \operatorname{dim}_{\mathrm{DE}}(\Phi, \Pi, \omega)\right\} C+k \omega\right)
$$

が成立します．

**証明**

まず，左辺に出てくる$\left|\mathbb{E}_{\mu_t}\left[\phi_t\right]\right|$が一定値を超える回数がバウンドされることを示します．

---

**回数の補題**

$\mathcal{X}$上の関数クラス$\Phi$と確率測度の族$\Pi$を考えます．
ここで，$\left\{\phi_k\right\}_{k=1}^K \subset \Phi$ and $\left\{\mu_k\right\}_{k=1}^K \subset \Pi$なる系列が次を満たすとします．
任意の$k \in [K]$で，

$$
\sum_{t=1}^{k-1}\left(\mathbb{E}_{\mu_t}\left[\phi_k\right]\right)^2 \leq \beta
$$

このとき，任意の$k \in [K]$で，

$$
\sum_{t=1}^k \mathbf{1}\left\{\left|\mathbb{E}_{\mu_t}\left[\phi_t\right]\right|>\epsilon\right\} \leq\left(\frac{\beta}{\epsilon^2}+1\right) \operatorname{dim}_{\mathrm{DE}}(\Phi, \Pi, \epsilon)
$$

が成り立ちます．

**証明**

---

**便利な補題１**

まず，$k$について$\left|\mathbb{E}_{\mu_k}\left[\phi_k\right]\right|>\epsilon$であれば，$\mu_k$は最大でも$\beta / \epsilon^2$個の「$\left\{\mu_1, \ldots, \mu_{k-1}\right\}$についてのdisjointな部分系列」に対して$\epsilon$-依存であることを示します．

DE次元の定義から，$\mu_k$が
$\left|\mathbb{E}_{\mu_k}\left[\phi_k\right]\right|>\epsilon$かつ
$\left\{\nu_1, \ldots, \nu_{\ell}\right\}$ （$\left\{\mu_1, \ldots, \mu_{k-1}\right\}$の部分系列）について$\epsilon$-依存であれば，
$$\sum_{t=1}^{\ell}\left(\mathbb{E}_{\nu_t}\left[\phi_k\right]\right)^2 \geq \epsilon^2 $$
が成立します．

よって，もし$\mu_k$が
$L$個の「$\left\{\mu_1, \ldots, \mu_{k-1}\right\}$についてのdisjointな部分系列」に対して$\epsilon$-依存であれば

$$
\beta \geq \sum_{t=1}^{k-1}\left(\mathbb{E}_{\mu_t}\left[\phi_k\right]\right)^2 \geq L \epsilon^2
$$

が成立します．以上から，$L \leq \beta / \epsilon^2$です．

---

続いて，任意の系列$ \left\{\nu_1, \ldots, \nu_\kappa\right\} \subseteq \Pi $について，次を満たす$j \in [\kappa]$が存在することを示しましょう．

---

**便利な補題２**

$\left\{\nu_1, \ldots, \nu_{j-1}\right\}$のうち少なくとも$L=\left\lceil(\kappa-1) / \operatorname{dim}_{\mathrm{DE}}(\Phi, \Pi, \epsilon)\right\rceil$個のdisjointな部分系列に対して$\epsilon$-依存になるような$\nu_j$が存在する．

**証明**

次を繰り返します．

1. 初期化：$B_1=\left\{\nu_1\right\}, \ldots, B_L=\left\{\nu_L\right\}$および$j=L+1$
2. $\nu_j$が$B_1, \dots, B_L$に対して$\epsilon$-依存性か確認
3. もし全ての$B_1, \dots, B_L$に対して$\epsilon$-依存なら，命題は真なので終了
4. そうでなければ，$B_i$に対して$\epsilon$-独立な$i \in [L]$が存在する．そしたら$B_i = B_i \cup \{\nu_j\}$とする．また，$j = j+1$とする．
5. 2に戻る．

これを繰り返すと，DE次元の定義から，$B_1, \dots, B_L$のどれも$\operatorname{dim}_{\mathrm{DE}}(\Phi, \Pi, \epsilon)$以上のサイズにはならない（DE次元は$\epsilon$独立な系列の最大長なので）．
よって，上の処理は
$j=L \operatorname{dim}_{\mathrm{DE}}(\Phi, \Pi, \epsilon)+1 \leq \kappa$回以内に終了します．

---

$k \in [K]$に対して，
$\left\{\nu_1, \ldots, \nu_\kappa\right\}$を$\left\{\mu_1, \ldots, \mu_k\right\}$の部分系列とします．
また，その部分系列の要素は$\left|\mathbb{E}_{\nu_t}\left[\phi_t\right]\right|>\epsilon$を満たしているとします．

便利な補題１から，最初の部分系列について，それぞれの$\nu_j$は最大でも$\beta / \epsilon^2$個の
「$\left\{\nu_1, \ldots, \nu_{j-1}\right\}$についてのdisjointな部分系列」に対して$\epsilon$-依存です．

また，便利な補題２から，
$\left\{\nu_1, \ldots, \nu_{j-1}\right\}$のうち少なくとも$L=\left\lceil(\kappa-1) / \operatorname{dim}_{\mathrm{DE}}(\Phi, \Pi, \epsilon)\right\rceil$個のdisjointな部分系列に対して$\epsilon$-依存になるような$j \in [\kappa]$が存在します．

よって，２つを比較すると，
$
\kappa / \operatorname{dim}_{\mathrm{DE}}(\Phi, \Pi, \epsilon)-1 \leq \beta / \epsilon^2
$
が言えるので，
$$
\kappa \leq\left(\frac{\beta}{\epsilon^2}+1\right) \operatorname{dim}_{\mathrm{DE}}(\Phi, \Pi, \epsilon)
$$

が成立します．
これで**回数の補題**の証明が終わりです．

---

これを使って目的の補題を証明しましょう．
$k \in [K]$を固定し，$d=\operatorname{dim}_{\mathrm{DE}}(\Phi, \Pi, \omega)$とします．また，$\left\{\left|\mathbb{E}_{\phi_1}\left[\phi_1\right]\right|, \ldots\left|\mathbb{E}_{\mu_k}\left[\phi_k\right]\right|\right\}$,
を降順で並べ替え，それを$\left\{e_1, \ldots, e_k\right\}\left(e_1 \geq e_2 \geq \cdots \geq e_k\right)$とします．

このとき，

$$
\sum_{t=1}^k\left|\mathbb{E}_{\mu_t}\left[\phi_t\right]\right|=\sum_{t=1}^k e_t=\sum_{t=1}^k e_t \mathbf{1}\left\{e_t \leq \omega\right\}+\sum_{t=1}^k e_t \mathbf{1}\left\{e_t>\omega\right\} \leq k \omega+\sum_{t=1}^k e_t \mathbf{1}\left\{e_t>\omega\right\}
$$

が成立します．さて，もし$e_t > \omega$ならば，$e_t \leq \min \left\{\sqrt{\frac{d \beta}{t-d}}, C\right\}$であることを示しましょう．
そのような$t$では，
$e_t>\alpha \geq \omega$なる$\alpha$が存在します．
上で示した回数の補題から，
$$
t \leq \sum_{i=1}^k \mathbf{1}\left\{e_i>\alpha\right\} \leq\left(\frac{\beta}{\alpha^2}+1\right) \operatorname{dim}_{\mathrm{DE}}(\Phi, \Pi, \alpha) \leq\left(\frac{\beta}{\alpha^2}+1\right) \operatorname{dim}_{\mathrm{DE}}(\Phi, \Pi, \omega)
$$
が成り立ちます．よって，$\alpha \leq \sqrt{\frac{d \beta}{t-d}}$です．これより，$e_t \leq \min \left\{\sqrt{\frac{d \beta}{t-d}}, C\right\}$がわかります．以上から，

$$
\begin{aligned}
\sum_{t=1}^k e_t \mathbf{1}\left\{e_t>\omega\right\} \leq \min \{d, k\} C+\sum_{t=d+1}^k \sqrt{\frac{d \beta}{t-d}} & \leq \min \{d, k\} C+\sqrt{d \beta} \int_0^k \frac{1}{\sqrt{t}} d t \\
& \leq \min \{d, k\} C+2 \sqrt{d \beta k},
\end{aligned}
$$

が成立します．



あとは
$$
\left\{\begin{array}{l}
\rho=\frac{1}{K}, \omega=\sqrt{\frac{1}{K}}, C=1, \\
\mathcal{X}=\mathcal{S} \times \mathcal{A}, \Phi=\left(I-\mathcal{T}_h\right) \mathcal{F}, \Pi=\mathcal{D}_{\mathcal{F}, h}, \\
\phi_k=f_h^k-\mathcal{T}_h f_{h+1}^k \text { and } \mu_k=\mathbb{P}^{\pi^k}\left(s_h=\cdot, a_h=\cdot\right),
\end{array}\right.
$$
を考えて，かつステップ１で証明した不等式と合わせれば，

$$
\sum_{t=1}^k \mathcal{E}\left(f^t, \pi^t, h\right) \leq \mathcal{O}\left(\sqrt{k \cdot \operatorname{dim}_{\mathrm{BE}}\left(\mathcal{F}, \mathcal{D}_{\mathcal{F}}, \sqrt{1 / K}\right) \log \left[K H \mathcal{N}_{\mathcal{F} \cup \mathcal{G}}(1 / K) / \delta\right]}\right)
$$

が成立します．

## Low Bellman Eluder dimensionのMDP

---

**Low Eluder dimension**

$\mathcal{F}$がcompletenessを満たしているとします．このとき，任意の$\epsilon > 0$について，

$$
\operatorname{dim}_{\mathrm{BE}}\left(\mathcal{F}, \mathcal{D}_{\Delta}, \epsilon\right) \leq \max _{h \in[H]} \operatorname{dim}_{\mathrm{E}}\left(\mathcal{F}_h, \epsilon\right)
$$

が成立します．

**証明**

$\delta_{z_1}, \ldots, \delta_{z_m}$を，$\left(I-\mathcal{T}_h\right) \mathcal{F}$についての$\epsilon$-独立な分布の列とします．ここで，$\delta_{z_i} \in \mathcal{D}_{\Delta}$です．

$\epsilon$-独立の定義から，任意の$i \in [m]$について次を満たすような$f^1, \ldots, f^m \in \mathcal{F}$が存在します：

$$\mid\left(f_h^i-\mathcal{T}_h f_{h+1}^i\right)\left(z_i\right) \mid>\epsilon$$
かつ
$$
\sqrt{\sum_{t=1}^{i-1}\left|\left(f_h^i-\mathcal{T}_h f_{h+1}^i\right)\left(z_t\right)\right|^2} \leq \epsilon
$$

ここで，$g_h^i=\mathcal{T}_h f_{h+1}^i$とします．Completenessより，$g_h^i \in \mathcal{F}_h$であることに注意しましょう．よって，

$$
i \in[m],\left|\left(f_h^i-g_h^i\right)\left(z_i\right)\right|>\epsilon \text { and } \sqrt{\sum_{t=1}^{i-1}\left|\left(f_h^i-g_h^i\right)\left(z_t\right)\right|^2} \leq \epsilon
$$
が成り立ちます．よって，Eluder dimensionの定義から，$\operatorname{dim}_E\left(\mathcal{F}_h, \epsilon\right) \geq m$が成り立ちます．

---

**Generalized Linear Completeness**

Low Bellman Eluder dimensionには次のGeneralized Linear Completenessが含まれます（よって，Linear MDPもLinear Completenessのどちらも含まれます）

次を満たす特徴マッピング$\phi_h: \mathcal{S} \times \mathcal{A} \to \mathbb{R}^d$とリンク関数$\sigma$が存在するとき，そのMDPをGeneralized Linear Completenessといいます．

* 一般化線形関数のクラス：$\mathcal{F}_h=\left\{\sigma\left(\phi_h(\cdot)^{\top} \theta\right) \mid \theta \in \mathbb{R}^d\right\}$
* realizability: $Q^\star_h \in \mathcal{F}_h$
* completeness: $\mathcal{T}_h \mathcal{F}_{h+1} \subseteq \mathcal{F}_{h}$
* リンク関数はstrictly monotone: $\sigma^{\prime}(x) \in\left[c_1, c_2\right]$ for all $x$であるような$0<c_1<c_2<\infty$が存在

Generalized Linear completenessはLow Eluder dimensionに含まれるので，BE dimensionにも含まれます．



---

**Linear kernel function + Low effective dimension**

次で見るlow effective dimensionはlow eluder dimensionを持ちます．
Low effective dimensionについて見てみましょう．

集合$\mathcal{X}$に対して，次を満たす最小の整数$d_{\mathrm{eff}}(\mathcal{X}, \epsilon)=n$のことを$\epsilon$-effective dimensionといいます．

$$
\sup _{x_1, \ldots, x_n \in \mathcal{X}} \frac{1}{n} \log \operatorname{det}\left(\mathrm{I}+\frac{1}{\epsilon^2} \sum_{i=1}^n x_i x_i^{\top}\right) \leq e^{-1}
$$

これはcritical information gainとも呼ばれます．

**直感**
正直良くわかってないのでTODO．
$\log \det$の部分$\mathrm{I}+\frac{1}{\epsilon^2} \sum_{i=1}^n x_i x_i^{\top}$の体積を表すので，
「何個の要素を集めると，体積がしきい値を超えるか？」みたいな量を表しているはず．
non-parametricな解析のときに出てくる量らしい．


続いて，$\mathcal{X}$上の関数クラス$\mathcal{F}$に対して，その$\epsilon$-effective dimension $d_{\mathrm{eff}}(\mathcal{F}, \epsilon)=n$は次を満たす最小の整数のことです．

次を満たすseparable Hilbert space $\mathcal{H}$と写像$\phi : \mathcal{X} \to \mathcal{H}$が存在する：
1. 任意の$f \in \mathcal{F}$について，次を満たす$\theta_f \in B_{\mathcal{H}}(1)$が存在する． $f(x)=\left\langle\theta_f, \phi(x)\right\rangle_{\mathcal{H}}$ が任意の$x \in \mathcal{X}$で成立．
2. $d_{\text {eff }}(\phi(\mathcal{X}), \epsilon)=n$ where $\phi(\mathcal{X})=\{\phi(x): x \in \mathcal{X}\}$

このlow effective dimensionに対して，次が成立します．

$$
\operatorname{dim}_{\mathrm{E}}(\mathcal{F}, \epsilon) \leq \operatorname{dim}_{\mathrm{eff}}(\mathcal{F}, \epsilon / 2)
$$

また，effective dimensionはなんらかのHilbert空間における線形な構造を持っていないといけません．一方でEluder dimensionはそれを要求しないので，Eluder dimensionのほうが一般的な構造を持ちます．

このEffective dimensionを使って，次のKernel MDPを定義できます．

**Kernel MDP**

次のMDPのことをeffective dimension $d(\epsilon)$のkernel MDPといいます．

$$\mathbb{P}_h\left(s^{\prime} \mid s, a\right)=\left\langle\phi_h(s, a), \psi_h\left(s^{\prime}\right)\right\rangle_{\mathcal{H}}$$

を満たす$\phi$と$\psi$が存在する（$\phi$は既知）．また，次を満たす：
1. $\operatorname{dim}_{\mathrm{eff}}\left(\mathcal{X}_h, \epsilon\right) \leq d(\epsilon)$ for all $h$ and $\epsilon$, where $\mathcal{X}_h=\left\{\phi_h(s, a):(s, a) \in \mathcal{S} \times \mathcal{A}\right\}$
2. 追加で適切なノルムのバウンド

