# Low Inherent Bellman Errorと強化学習

参考
* [Learning Near Optimal Policies with Low Inherent Bellman Error](https://arxiv.org/abs/2003.00153)

テーブル形式MDPでは様々な良い強化学習の結果が得られていますが，実用上はなんらかの関数近似を入れる必要が出てきます．
一番便利なのは線形関数近似ですが，最適価値が線形に表されるとしても，Fitted Q iterationは発散することがあります（[RL_General_fitted_Q_iteration.ipynb](RL_General_fitted_Q_iteration.ipynb)でやりましたね）．

どのようなケースならば収束や有限サンプルでの性能が保証されるでしょうか？
すべての$Q^\pi$が線形に表現できる場合については結果が出ています（[Least-Squares Policy Iteration](https://www.jmlr.org/papers/v4/lagoudakis03a.html)など）．
この線形に近似できる条件を**LSPI条件**，と呼ぶことにします．

一方で，近似誤差が$\left\|\widehat{Q}^\pi-Q^\pi\right\| \leqslant \epsilon$であり，$\epsilon \gtrsim 1 / \sqrt{d}$のとき，サンプル効率は$d$について指数的になることが知られています（[Is a Good Representation Sufficient for Sample Efficient Reinforcement Learning?](https://arxiv.org/abs/1910.03016)）．

上で紹介したものは方策反復ベースのアルゴリズムについてですが，価値反復についても結果が得られています．
それを紹介するために，inherent Bellman errorを導入しましょう．

---

準備

* ベルマン最適作用素：$\mathcal{T}_t\left(Q_{t+1}\right)(s, a)=r_t(s, a)+\mathbb{E}_{s^{\prime} \sim p_t(s, a)} \max _{a^{\prime}} Q_{t+1}\left(s^{\prime}, a^{\prime}\right)$
* ベクトルの集合：$\mathcal{B}_t \stackrel{\text { def }}{=}\left\{\theta_t \in \mathbb{R}^{d_t}|| \phi_t(s, a)^{\top} \theta_t \mid \leqslant D, \forall(s, a)\right\}$
* 価値関数：$Q_t\left(\theta_t\right)(s, a)=\phi_t(s, a)^{\top} \theta_t, \quad V_t\left(\theta_t\right)=\max _a \phi_t(s, a)^{\top} \theta_t$
* $\mathcal{Q}_t \stackrel{\text { def }}{=}\left\{Q_t\left(\theta_t\right) \mid \theta_t \in \mathcal{B}_t\right\}, \mathcal{V}_t \stackrel{\text { def }}{=}\left\{V_t\left(\theta_t\right) \mid \theta_t \in \mathcal{B}_t\right\}$

このとき，（線形な特徴ベクトル$\phi$についての）Inherent Bellman errorは次で定義されます．

次を最大にする$t \in [H]$における値であり，$\mathcal{I}$で表記されます．

$$
\sup _{\theta_{t+1} \in \mathcal{B}_{t+1}} \inf _{\theta_t \in \mathcal{B}_t} \sup _{(s, a) \in \mathcal{S} \times \mathcal{A}} \left| \phi_t(s, a)^{\top} \theta_t - \left(\mathcal{T}_t Q_{t+1}\left(\theta_{t+1}\right)\right)(s, a) \right|.
$$

ちなみにボーナスの追加などを考慮して，クリップした値について考える場合もあります（[Optimism in Reinforcement Learning with Generalized Linear Function Approximation](https://arxiv.org/abs/1912.04136)など．）
クリップしたほうが強い仮定になります．

$\mathcal{I}=0$の条件をLSVI条件と呼ぶことにします（多分Linear Bellman Completenessとも呼ばれる？）．
LSVI条件が成立しているとき，次のように報酬が線形になり，また，次状態の価値も線形に表現することができます．

$$
\inf _{\theta_t^R \in \mathcal{B}_t} \sup _{(s, a) \in \mathcal{S} \times \mathcal{A}}\left|r_t(s, a)-\phi_t(s, a)^{\top} \theta_t^R\right|=0
$$

$$
\sup _{\theta_{t+1} \in \mathcal{B}_{t+1}} \inf _{\theta_t^P \in \mathcal{B}_t} \sup _{(s, a) \in \mathcal{S} \times \mathcal{A}} | \mathbb{E}_{s^{\prime} \sim p_t(s, a)} V_{t+1}\left(\theta_{t+1}\right)\left(s^{\prime}\right) 
-\phi_t(s, a)^{\top} \theta_t^P | =0 .
$$

---

**LSPIとLSVI条件の違い**

* [Linear MDP](RL_General_linearMDP.ipynb.ipynb)は$\mathcal{I}=0$満たしますが，$\mathcal{I}=0$はlinear MDPとは限りません．その意味で，Linear MDPを一般化しています．
* また，同様の意味で，LSPI条件はLinear MDPを一般化しています．
* LSVI条件が満たされているとき，Bellman rankは特徴ベクトルの次元と一致します．つまり，Bellman rankはLSVI条件を一般化しています．
* LSVI条件とLSPI条件は別物です．実際，次が成立します．

$\mathcal{I}=0$だが，
$$
\exists \pi, \exists t \in[H], \nexists \theta_t^\pi \in \mathbb{R}^{d_t} \quad \text { s.t. } \quad Q_t^\pi=\phi_t(s, a)^{\top} \theta_t .
$$
のMDPが存在する．また，
$$
\forall \pi, \forall t \in[H], \exists \theta_t^\pi \quad \text { that satisfies } \quad Q_t^\pi(s, a)=\phi_t(s, a)^{\top} \theta_t^\pi
$$
だが，$\mathcal{I} > 0$のMDPが存在する．

**$\Rightarrow$の証明**

まず最初のStatementについて証明しましょう．

次のMDPを考えます．
* 状態空間が２つのnon-communicatingな集合$A=s_1^A, \ldots, s_H^A$と$B=s_1^B, \ldots, s_H^B$からなる．
* 初期状態は$s_1^A$もしくは$s_1^B$とする．
* $s^A_H$と$s^B_H$以外の状態では行動は１つしかない．
* $i \in [H-1]$について，$s^A_i$から$s^A_{i+1}$への遷移は決定的．$B$も同様．
* $s^A_H$と$s^B_H$の両方では，２つの行動が存在する．$(s^A_H, 0)$および$(s^B_H, 0)$は報酬$0$，$(s^A_H, 1)$および$(s^B_H, 1)$は報酬$1$を出す．また，どちらもその時点でエピソード終了．
* パラメータについて
  * 任意の$<H$な状態について，$\phi_t(\cdot, \cdot)=1$
  * $H$では，$\phi_H\left(s_H^A, 0\right)=\phi_H\left(s_H^B, 0\right)=0$ and $\phi_H\left(s_H^A, 1\right)=\phi_H\left(s_H^B, 1\right)=1$とする


このとき，$\mathcal{I}=0$になります．
任意の$t\in [H-2]$について，$\theta_t=\theta_{t+1}$とすれば，
$$
\bar{Q}_t\left(s_t^A, \cdot\right)=\bar{Q}_t\left(s_t^B, \cdot\right)=\bar{V}_{t+1}\left(s_{t+1}^B\right)=\bar{V}_{t+1}\left(s_{t+1}^A\right)
$$
が成り立ちます（行動が一つしかないので）．$t=H-1$では$\theta_t=\max\{0, \theta_H\}$とすれば良いです．

つまり，任意の$\theta_{t+1}$に対して$Q_{t+1}$を考えると，$Q_t(\cdot, \cdot)=\mathcal{T}_t Q_{t+1}(\cdot, \cdot)$であるような$\theta_t$が存在します（$\theta_t=\theta_{t+1}$にするだけ．）
また，$t=H$はLinear banditと同じなので，$\mathcal{I}=0$です．

ここで，AとBの最後のステップで異なる行動をとる方策を考えましょう．つまり，
$$
\pi_H^x\left(s_H^A\right)=1 \neq 0=\pi_H^x\left(s_H^B\right)
$$
とします．
すると，この方策はAとBで収益が異なるので，
$$
Q_t^{\pi^x}\left(s_t^A, \cdot\right) \neq Q_t^{\pi^x}\left(s_t^B,, \cdot\right)
$$
です．しかし，どんな$\theta_t$を持ってきても，
$$
Q_t^{\pi^x}(s_t^A, 0) = \theta_t =\theta_t \phi_t(s_t^A, 0) = 
\theta_t \phi_t(s_t^B, 0) = \theta_t
= Q_t^{\pi^x}(s_t^B, 0)
$$
が成立するので，これは上と矛盾します．よって，このMDPでは任意の$\pi$について$Q^\pi$が線形に実現可能であるわけではないです．


**$\Leftarrow$の証明**

次のChain MDPを考えます．
* 状態空間：$s_1, \dots, s_H$．ここで$s_1$は初期状態．
* 任意の行動は次の状態に遷移する：$s_i\to s_{i+1}$．また，報酬は発生しない．
* それぞれの状態では特徴ベクトル$\phi_t(\cdot,-1)=-1$ and $\phi_t(\cdot,+1)=+1$が割り当てられている．

<!-- どの報酬もゼロなので，このMDPでは
$$
Q_t^\pi(s, a)=\phi_t(s, a)^{\top} \theta_t^\pi \text { with } \theta_t^\pi=0
$$
が成立することに注意しましょう． -->

ここで，例えば$\theta_{t+1}=1$について考えてみましょう．このとき，
$$
V_{t+1}\left(\theta_{t+1}\right)\left(s_{t+1}\right)=\max _a \phi_{t+1}\left(s_{t+1}, a\right)^{\top} \theta_{t+1}=1
$$
が成立します．報酬ゼロなので，
$$
\left(\mathcal{T}_t V_{t+1}\left(\theta_{t+1}\right)\right)\left(s_t, \cdot\right)=V_{t+1}\left(\theta_{t+1}\right)\left(s_{t+1}\right)=1
$$
も成立します．

一方で，線形な関数近似器の場合，$Q_t(\theta_t)(s_t, +1)=-Q_t(\theta_t)(s_t, -1)$が必ず成立することに注意しましょう．
どちらの行動を選んでも同じ状態に遷移するので，$\mathcal{I}=0$であるためには，
$$
Q_t(\theta_t)(s_t, +1)=Q_t(\theta_t)(s_t, -1)
=
\left(\mathcal{T}_t V_{t+1}\left(\theta_{t+1}\right)\right)\left(s_t, \cdot\right)=V_{t+1}\left(\theta_{t+1}\right)\left(s_{t+1}\right)=1
$$
でなければなりませんが，これは$Q_t(\theta_t)(s_t, +1)=-Q_t(\theta_t)(s_t, -1)$であることに矛盾します．

---

**コメント**：ベルマン最適方程式についてのCompletenessが成り立つならベルマン期待方程式についても成り立つ気がしたけど，それは間違いぽい．もしそれが言えてしまうと，$\mathcal{I}=0$なら$Q^\pi$-realizableになってしまうはず．これは$\Rightarrow$の証明と矛盾する．



このLSVI条件について，
* G-optimal design で学習するアプローチ：[LSVIアルゴリズム](https://rltheorybook.github.io/)
* オンラインの設定：[ELEANORアルゴリズム](https://arxiv.org/abs/2003.00153)

などが存在しています．ELEANORアルゴリズムはMinimax最適です．
