# モデルベース，方策ベース，価値ベースの違いを表現複雑度から見てみよう．

参考
* [Rethinking Model-based, Policy-based, and Value-based Reinforcement Learning via the Lens of Representation Complexity](https://arxiv.org/abs/2312.17248)

関数近似がある場合の強化学習についての研究はたくさんあります（Bellman rank，Witness rank，Bilinear Classとか）．
そのほとんどではrealizabilityを当たり前のように仮定して理論解析を行いました．
しかし，Realizabilityの仮定ってほんとに実現できるものなんでしょうか？

強化学習アルゴリズムはモデルベース，方策ベース，価値ベースの３つに大別できます．
それぞれについて，このRealizabilityを確認してみましょう．

## モデルベース，方策ベース，価値ベースの定義

まずはそれぞれのクラスの定義を明らかにしましょう．
強化学習では，学習者は何らかの関数クラス$\mathcal{F}$にアクセスできます．
モデルベース，方策ベース，価値ベースアルゴリズムではそれぞれ，$\mathcal{F}$の形が異なります．

---

**モデルベース強化学習**

学習者は報酬関数と遷移カーネルの近似を目標にします．つまり，
$$
\mathcal{F}=\{(r: \mathcal{S} \times \mathcal{A} \mapsto[0,1], \mathcal{P}: \mathcal{S} \times \mathcal{A} \mapsto \Delta(\mathcal{S}))\}
$$
を考えます．また，モデルベースでは時間定常なケースについて考えます．

---

**方策ベース強化学習**

学習者は最適方策の近似を目標にします．
つまり，
$$\mathcal{F}_h \subset\left\{\pi_h: \mathcal{S} \mapsto \Delta(\mathcal{A})\right\}$$
について，$\mathcal{F}=\mathcal{F}_1 \times \cdots \times \mathcal{F}_h$
を考えます．

---

**価値ベース強化学習**

学習者は最適価値関数の近似を目標にします．つまり，
$$
\mathcal{F}_h \subset\left\{Q_h: \mathcal{S} \times \mathcal{A} \mapsto[0, H]\right\}
$$
について，$\mathcal{F}=\mathcal{F}_1 \times \cdots \times \mathcal{F}_h$
を考えます．

---

よくある解析（Bellman rankなど）では関数クラスの複雑度についてフォーカスし，サンプル効率と複雑度の関係について導出していました．
今回はサンプル効率ではなく，「どのくらい関数クラスは複雑であるべきか？」の問いに対する答えを，真のモデル・最適方策・最適価値関数のそれぞれについての**表現複雑度**を通じて調べていきます．


## 計算複雑度と回路複雑度について

準備として，[計算複雑度](https://ja.wikipedia.org/wiki/%E8%A8%88%E7%AE%97%E8%A4%87%E9%9B%91%E6%80%A7%E7%90%86%E8%AB%96)と[回路複雑度](https://ja.wikipedia.org/wiki/%E5%9B%9E%E8%B7%AF%E8%A8%88%E7%AE%97%E9%87%8F)について簡単に復習します．

まずチューリングマシンについて抑えておく必要がありますが，面倒なので省略します．

参考：
* [決定性チューリング機械から量子チューリング機械へ](https://zenn.dev/airev/articles/airev-quantum-03)
* [チューリングマシンの定義とそれに関連する話](https://manabitimes.jp/math/2128)


### 計算複雑度

計算複雑度には大きく次の３つのクラスが存在します：

---

**P**

Pは次を満たす意思決定問題のクラスとする：
「決定性チューリングマシンによって，多項式時間で認識できる」

---

**NP**

Pは次を満たす意思決定問題のクラスとする：
「非決定性チューリングマシンによって，多項式時間で認識できる」

---

**L**

Lは次を満たす意思決定問題のクラスとする：
「決定性チューリングマシンによって，対数メモリ？で認識できる」

---

### 回路複雑度

回路複雑度は，関数を論理回路としてモデル化したとき，そのリソース（ゲートの数など）を評価する試みです．
定義は面倒なので[回路複雑度](https://ja.wikipedia.org/wiki/%E5%9B%9E%E8%B7%AF%E8%A8%88%E7%AE%97%E9%87%8F)を参考にしてください（論文中で導入されてるブール回路の定義もほぼ同じ）．

ブール回路に対して，大きく次の２つの回路複雑度が導入されます：

---

**$\text{AC}^0$**

$\text{AC}^0$は次を満たすブール回路のクラスとする：
「深さが定数，ファンイン数が有界ではない，ANDとORゲートの数が多項式的」

---

**$\text{TC}^0$**

$\text{TC}^0$は$\text{AC}^0$を次のように拡張したクラスとする：
「ファンイン数が有界ではない多数決ゲート MAJ が導入されている．」

---

回路複雑度と計算複雑度には次の関係が成立します：

$$
\mathrm{AC}^0 \subsetneq \mathrm{TC}^0 \subset \mathrm{L} \subset \mathrm{P} \subset \mathrm{NP} .
$$


## モデルベースとモデルフリーの違いについて

ここではモデルベースとモデルフリー（方策ベースと価値ベースをまとめて）の違いについて見てみます．

TODO: 続き