# モデルベース，方策ベース，価値ベースの違いについて

参考
* [Rethinking Model-based, Policy-based, and Value-based Reinforcement Learning via the Lens of Representation Complexity](https://arxiv.org/abs/2312.17248)
* [Model-based RL in Contextual Decision Processes: PAC bounds and Exponential Improvements over Model-free Approaches](https://arxiv.org/abs/1811.08540)

強化学習は価値ベース，方策ベース，モデルベースのアルゴリズムに大別される，とよく言いますが，厳密な違いはなんでしょうか？まとめておきます．


## モデルフリーとモデルベースの違い

* [Model-based RL in Contextual Decision Processes: PAC bounds and Exponential Improvements over Model-free Approaches](https://arxiv.org/abs/1811.08540)
* [Reinforcement Learning an Introduction](http://incompleteideas.net/book/RLbook2020.pdf)：似たような定義が11.6章で使用されています．

よく使われるモデルフリーの定義は，「メモリのスペースが$o\left(|\mathcal{X}|^2|\mathcal{A}|\right)$であるアルゴリズム」ですが，
これは関数近似がある場合にスケールしません．

そこで，次の情報理論的な定義を考えましょう．

---

* （有限な）関数集合$\mathcal{G}: (\mathcal{X} \times \mathcal{A}) \to \mathbb{R}$を考えます．これは例えばQ関数や方策のクラスに相当します．
* 状態$x$を受け取ると，$|\mathcal{G}|$と$a$上のベクトルを返すような，$\Phi_{\mathcal{G}}(x):=[g(x, a)]_{g \in \mathcal{G}, a \in \mathcal{A}}$なるマッピングを考えます．この返ってきたベクトルを$\mathcal{G}$-profileと呼ぶことにします．

次を満たす時，「アルゴリズムは$\mathcal{G}$を使ったモデルフリーアルゴリズムである」といいます．

**全ての$x\in \mathcal{X}$に，$\Phi_{\mathcal{G}}(x)$を使ってアクセスする．**

---

つまり，モデルフリーでは$x$と$x'$の違いを，$\Phi_{\mathcal{G}}(x)$と$\Phi_{\mathcal{G}}(x')$を使ってのみ認識できます．
（例えば$x$と$x'$の違いを$Q(x, \cdot)$と$Q(x', \cdot)$を使って判別する，など）
そのため，一般には何らかの情報理論的な損失が発生します．


## モデルベース，方策ベース，価値ベースと実現可能性

[Rethinking Model-based, Policy-based, and Value-based Reinforcement Learning via the Lens of Representation Complexity](https://arxiv.org/abs/2312.17248)
では，「何が学習できたらゴールか？」を踏まえて，仮説集合の違いとしてそれぞれを定義しています．
強化学習では，学習者は何らかの関数クラス$\mathcal{F}$にアクセスできます．
モデルベース，方策ベース，価値ベースアルゴリズムではそれぞれ，$\mathcal{F}$の形が異なります．

---

**モデルベース強化学習**

学習者は報酬関数と遷移カーネルの近似を目標にします．つまり，
$$
\mathcal{F}=\{(r: \mathcal{S} \times \mathcal{A} \mapsto[0,1], \mathcal{P}: \mathcal{S} \times \mathcal{A} \mapsto \Delta(\mathcal{S}))\}
$$
を考えます（ここでは時間定常なケースを書いてます）

---

**方策ベース強化学習**

学習者は最適方策の近似を目標にします．
つまり，
$$\mathcal{F}_h \subset\left\{\pi_h: \mathcal{S} \mapsto \Delta(\mathcal{A})\right\}$$
について，$\mathcal{F}=\mathcal{F}_1 \times \cdots \times \mathcal{F}_h$
を考えます．

---

**価値ベース強化学習**

学習者は最適価値関数の近似を目標にします．つまり，
$$
\mathcal{F}_h \subset\left\{Q_h: \mathcal{S} \times \mathcal{A} \mapsto[0, H]\right\}
$$
について，$\mathcal{F}=\mathcal{F}_1 \times \cdots \times \mathcal{F}_h$
を考えます．

---



関数近似がある場合の強化学習についての研究はたくさんあります（Bellman rank，Witness rank，Bilinear Classとか）．
そのほとんどではrealizabilityを当たり前のように仮定して理論解析を行いました．
しかし，Realizabilityの仮定ってほんとに実現できるものなんでしょうか？

よくある解析（Bellman rankなど）では関数クラスの複雑度についてフォーカスし，サンプル効率と複雑度の関係について導出していました．
今回はサンプル効率ではなく，「どのくらい関数クラスは複雑であるべきか？」の問いに対する答えを，真のモデル・最適方策・最適価値関数のそれぞれについての**表現複雑度**を通じて調べていきます．

## 計算複雑度と回路複雑度について

準備として，[計算複雑度](https://ja.wikipedia.org/wiki/%E8%A8%88%E7%AE%97%E8%A4%87%E9%9B%91%E6%80%A7%E7%90%86%E8%AB%96)と[回路複雑度](https://ja.wikipedia.org/wiki/%E5%9B%9E%E8%B7%AF%E8%A8%88%E7%AE%97%E9%87%8F)について簡単に復習します．

まずチューリングマシンについて抑えておく必要がありますが，面倒なので省略します．

参考：
* [決定性チューリング機械から量子チューリング機械へ](https://zenn.dev/airev/articles/airev-quantum-03)
* [チューリングマシンの定義とそれに関連する話](https://manabitimes.jp/math/2128)


### 計算複雑度

計算複雑度には大きく次の３つのクラスが存在します：

---

**P**

Pは次を満たす意思決定問題のクラスとする：
「決定性チューリングマシンによって，多項式時間で認識できる」

---

**NP**

Pは次を満たす意思決定問題のクラスとする：
「非決定性チューリングマシンによって，多項式時間で認識できる」

---

**L**

Lは次を満たす意思決定問題のクラスとする：
「決定性チューリングマシンによって，対数メモリ？で認識できる」

---

### 回路複雑度

回路複雑度は，関数を論理回路としてモデル化したとき，そのリソース（ゲートの数など）を評価する試みです．
定義は面倒なので[回路複雑度](https://ja.wikipedia.org/wiki/%E5%9B%9E%E8%B7%AF%E8%A8%88%E7%AE%97%E9%87%8F)を参考にしてください（論文中で導入されてるブール回路の定義もほぼ同じ）．

ブール回路に対して，大きく次の２つの回路複雑度が導入されます：

---

**$\text{AC}^0$**

$\text{AC}^0$は次を満たすブール回路のクラスとする：
「深さが定数，ファンイン数が有界ではない，ANDとORゲートの数が多項式的」

---

**$\text{TC}^0$**

$\text{TC}^0$は$\text{AC}^0$を次のように拡張したクラスとする：
「ファンイン数が有界ではない多数決ゲート MAJ が導入されている．」

---

回路複雑度と計算複雑度には次の関係が成立します：

$$
\mathrm{AC}^0 \subsetneq \mathrm{TC}^0 \subset \mathrm{L} \subset \mathrm{P} \subset \mathrm{NP} .
$$


## モデルベースとモデルフリーの違いについて

ここではモデルベースとモデルフリー（方策ベースと価値ベースをまとめて）の違いについて見てみます．

TODO: 続き