# 強化学習はどんなときに汎化できるのか？

参考：
* [When Is Generalizable Reinforcement Learning Tractable?](https://arxiv.org/abs/2101.00300)

表記はだいたいわかるので，詳しくは論文を参照してください．初期状態$s_0$は固定とします．

マルチタスク強化学習などでよくある設定として，次の２つの問題を考えます．

## 問題設定

---

**Average performance setting**

MDPの分布$\mathcal{D}$上の平均的な性能を最大化させることを考えます．

$$
\max _\pi \mathbb{E}_{M \sim \mathcal{D}}\left[V_M^{s_0}(\pi)\right]
$$

**Meta RL setting**

Average settingとは異なり，テスト時のMDP $\mathrm{M}_{\text {test }}$が$\mathcal{D}$からサンプルされます．この$\mathrm{M}_{\text {test }}$を効率よく解くことを考えます．

$$
\max _\pi V_{\mathrm{M}_{\text {test }}}^{s_0}(\pi)
$$

---

## サンプリングの仮定

問題の情報を得るためにデータをサンプルする際について，次の２つの場合を考えます．

---

**Strong Query Model (SQM)**

* $\mathcal{D}$からのサンプリングにコストがかかりません
* 各MDP$M$ではgenerative modelを仮定し，generative modelからのサンプルでコスト１がかかります．
* $|\mathcal{A}|, H, d$に多項式的なアルゴリズムを獲得するのが目標です

**Weak Query Model (WQM)**

* $\mathcal{D}$からのサンプリングにはコスト$q_\mathcal{D}\geq 1$がかかります．
* 各MDP$M$はエピソディック有限ホライゾンを仮定し，インタラクションによってサンプルを回収します．
* $q_\mathcal{D}, |\mathcal{A}|, H, d$に多項式的なアルゴリズムを獲得するのが目標です

---

## $\mathcal{D}$についての仮定

実は上の仮定だけではAverage RLもMeta RLも解けません．$\mathcal{D}$についての仮定が必要です．

---

**報酬と遷移の類似**

$\mathcal{D}$が$\xi_{\mathrm{r}}, \xi_{\mathrm{tr}} \geq 0$について次の条件を満たしているとき，この仮定が満たされていることにします．

1. $\mathcal{D}$内のMDPが同じ状態行動空間を共有している
2. $\mathcal{D}$内の全ての$M_i$, $M_j$について，$\left|R_{M_i}(s, a)-R_{M_j}(s, a)\right| \leq \xi_{\mathrm{r}}$が$\forall (s, a)$で成立
3. $\mathcal{D}$内の全ての$M_i$, $M_j$について，$\mathbb{T} \mathbb{V}\left(\mathcal{T}_{M_i}(s, a), \mathcal{T}_{M_j}(s, a)\right) \leq \xi_{\operatorname{tr}}$が$\forall (s, a)$で成立


**弱類似性**

$\mathcal{D}$が$\alpha, \xi_{\mathrm{r}}, \xi_{\mathrm{tr}} \geq 0$について次の条件を満たしているとき，この仮定が満たされていることにします．

1. 報酬と遷移の類似条件を満たしている
2. 全てのMDP$M$で，$V_M^{s_0}\left(\pi^{\star}\right) \geq \max _{\pi^{\prime}} V_M^{s_0}\left(\pi^{\prime}\right)-\alpha$を満たす方策$\pi^\star$が存在


**強類似性**

$\mathcal{D}$が$\alpha, \xi_{\mathrm{r}}, \xi_{\mathrm{tr}} \geq 0$について次の条件を満たしているとき，この仮定が満たされていることにします．

1. 報酬と遷移の類似条件を満たしている
2. 全てのMDP$M$で，$\forall s$で$V_M^{s}\left(\pi^{\star}\right) \geq \max _{\pi^{\prime}} V_M^{s}\left(\pi^{\prime}\right)-\alpha$を満たす方策$\pi^\star$が存在．

---

さらに，$\mathcal{D}$上のMDPについて，独立したMDPであれば簡単に解けるような仮定を導入します．

---

$\bar{\theta}=\left\{\theta_h\right\}_{h=0}^{H-1}$, where $\theta_h \in \mathbb{R}^d$
とします．方策$\pi$は$\pi(s) \in \operatorname{argmax}_{a \in \mathcal{A}}(s, a)^T \theta_h$を満たすときに，線形である，と呼びます．

**Strong Individual Optimization (SIO)**

クエリのモデルを$QM$とします．$\mathcal{D}$は$k>0$ and $0 \leq \beta<1 / 4$について次を満たすとき，SIOであると言います．

1. 任意の$M\in \operatorname{Supp}(\mathcal{D})$について，$\pi_M^{\star}(s) \in \underset{a \in \mathcal{A}}{\operatorname{argmax}}(s, a)^T \theta_h^{\star}$となるような$\theta^\star$が存在する．
2. 任意の$M$について，クエリコスト$\mathcal{O}\left(|\mathcal{A}| H^k\right)$で$
\max _{\pi^{\prime}} V_M^s\left(\pi^{\prime}\right) \geq V_M^s(\bar{\theta}) \geq \max _{\pi^{\prime}} V_M^s\left(\pi^{\prime}\right)-\beta
$を満たすようなパラメータ$\bar{\theta}$を見つけられるような既知のアルゴリズムが存在する．


**Weak Individual Optimization (WIO)**

クエリのモデルを$QM$とします．$\mathcal{D}$は$k>0$ and $0 \leq \beta<1 / 4$について次を満たすとき，WIOであると言います．

1. つぎを満たすようなオラクルが存在する：$\max _{\pi^{\prime}} V_M^s\left(\pi^{\prime}\right) \geq \widehat{V}_M^s \geq \max _{\pi^{\prime}} V_M^s\left(\pi^{\prime}\right)-\beta$であるような$\widehat{V}_M^s$を$|\mathcal{A}|, H, d$についての多項式クエリで返す．

## 汎化の難しさについての下界

以上のような問題設定と仮定について，次の下界が成立します：

---

**Average Performance**

クエリモデルはSQMであるとします．このとき，次の３つを満たす$\mathcal{D}$が存在します
* $k \geq 3$について，$\xi_{\mathrm{r}}=\Theta\left(\frac{1}{H}\right), \quad \xi_{\mathrm{tr}}=0 \& \alpha=0$についての弱類似性が成立
* $M \in \operatorname{Supp}(\mathcal{D})$が決定的
* 次が成立する

任意のアルゴリズムについて，
$$
\mathbb{E}_{M \sim \mathcal{D}}\left[V_M^{s_0}(\pi)\right] \geq \max _{\text {linear policy } \pi^{\prime}} \mathbb{E}_{M \sim \mathcal{D}}\left[V_M^{s_0}\left(\pi^{\prime}\right)\right]-1 / 4
$$
であるような方策を確率$1/2$以上で見つけるためのクエリコストが$\Omega\left(\min \left\{|\mathcal{A}|^H, 2^d\right\}\right)$でかかる．

---

**Meta RL**

クエリモデルはSQMであるとします．このとき，次の３つを満たす$\mathcal{D}$が存在します
* $k \geq 3$について，$\xi_{\mathrm{r}}=\Theta\left(\frac{1}{H}\right), \quad \xi_{\mathrm{tr}}=0 \& \alpha=0$についての弱類似性が成立
* $M \in \operatorname{Supp}(\mathcal{D})$が決定的
* 次が成立する

もしテスト時に確率1/2以上で次を満たす方策をクエリ$o\left(|\mathcal{A}| H^k\right)$で見つけられる場合，
学習時には$\Omega\left(\min \left\{|\mathcal{A}|^H, 2^d\right\}\right)$のクエリコストが必ずかかる．

$$
V_{\mathrm{M}_{\text {test }}}^{s_0}(\pi) \geq \max _{\text {linear policy } \pi^{\prime}} V_{\mathrm{M}_{\text {test }}}^{s_0}\left(\pi^{\prime}\right)-1 / 4
$$

---


以上の２つは報酬関数が若干異なる場合についての結果ですが，「報酬が全く一緒 but 遷移が若干異なる」場合でも似たようなことが言えます．（論文Corollary 2, 3を参照）



## 汎化の難しさについての上界

上の下界では，「弱類似性」「SQM」「SIO」は多項式的なサンプル効率を達成するのに不十分であることを見ました．
一方で，「強類似性」「WQM」「WIO」で多項式的なサンプル効率を達成可能なアルゴリズムが存在します（論文のTheorem 2参照）．

このことから，「弱類似性」と「強類似性」の間あたりに問題が簡単になる条件の切り替えが存在すると考えられます．