# 強化学習チートシート 

【原題】RL CHEAT SHEET

【元URL】https://colab.research.google.com/drive/1eN33dPVtdPViiS1njTW_-r-IYCDTFU7N

【翻訳】電通国際情報サービスISID AIトランスフォーメーションセンター　御手洗 拓真

【日付】2020年12月28日

【チュトーリアル概要】

強化学習の各種概念、専門用語について、解説します。

## 基本的な考え方 


![pic](https://drive.google.com/uc?id=1S7fdgKYw-1R1zwyUVOAC6qdlFA9_an2M)



### Action
$$
a \in {\rm I\!R}^{d_a}
$$

強化学習の枠組みでは、**行動（Action）**は、エージェントがコントロールできる唯一の要素です。

エージェントは、環境から返される「報酬」や「状態」を無視してランダムに行動するか、もしくは、次のステップからの報酬を最大化するように≒貪欲（greedy）に行動を選択することができます。

すなわち行動とは、「エージェントが環境に対しどのような働きかけをするか」ということを表しています。

行動は、実数もしくはベクトルで表現されます。

また、エージェントが取り得る全ての行動の集合を**行動空間**と呼びます。

### 状態（State）
$$
s \in {\rm I\!R}^{d_s}
$$
**状態（State）**とは、現在の環境を表す情報です。

エージェントは状態を直接コントールすることはできません（行動を介して状態を変化させることになります）。

行動と同様に、状態は実数値かベクトルで表され、環境がなり得る全ての状態の集合を**状態空間と**呼びます。



### 報酬（Reward）
$$
r \in {\rm I\!R}
$$
**報酬（Reward）**は、環境からエージェントに対するフィードバックです。

この報酬によってエージェントは学習し、行動選択の考え方を変えていきます。

報酬をイメージする際には、「教師あり学習における学習データ」に相当するものとして考えると分かりやすいかもしれません。

また、行動や状態とは異なり、報酬は常に単一の実数値で表現されます。


基本的な関係 
------------

$$a_{t} \sim \pi(s_{t})$$

さて、それではエージェントの行動は何によって決まるのでしょうか？

エージェントは、環境を観測した結果（＝状態）に基づいて行動を決めています。

報酬は将来の行動を変えはしますが、現在の行動には影響しません。






また、上記の数式における関数$\pi$は**方策（Policy）**と呼ばれます。

*方策*は、エージェントが環境に対して取る行動を決めるための戦術です。

<br>

上記の数式では$=$ではなく$\sim$を利用していますが、これは*方策*が（行動そのものではなく）確率分布を返すためです。

例えば、$\epsilon$-greedy法に基づいた方策では、エージェントは$\epsilon$という確率でランダムに行動を選択することになります。

RLの枠組みにおける各プロセス（行動の選択など）は決定論的ではなく、動的なものとなっているのです。



-----

$$s_{t + 1} \sim f(s_{t},a_{t})$$

ここでは添字$t$によってタイムステップ（時間ステップ）を表しています。

環境の次の時間ステップでの状態$s_{t + 1}$は、現在の状態$s_{t}$と、エージェントの環境に対する行動$a_{t}$によって決まります。

環境の時間変化もまた決定論的ではなく、ある程度ランダムに（≒確率的に）に変化するため、 $f(s_{t},a_{t})$は確率分布となります。

-----

$$r_{t + 1} = R(s_{t},a_{t})$$

報酬$R(s_{t},a_{t})$は、（エージェントが取った行動による）変化によって、環境がどの程度 良い or 悪い 状況となったかを示しています。

このような変化を、後で活用可能な経験として捉えるためには、前の状態$s_{t}$、現在の状態 $s_{t + 1}$、エージェントによる前の動作$a_{t}$という要素全てが必要となります。

現在の状態は$s_{t + 1} \sim f(s_{t},a_{t})$でモデル化できるため、報酬自体は単に $s_{t}$と$s_{t + 1}$から決まる関数の値と捉えることが可能です。


## 利得 （Return）



### 行動軌跡 （Trajectory）

$$\tau = (s_{0},a_{0},s_{1},a_{1},...,s_{T})$$

（日本語訳注：原文では省略されていますが、後の記述で登場するため、日本語版では左辺に$\tau$を追記しています。）

<br>

**行動軌跡 （Trajectory）**とは状態と行動の系列で、強化学習において発生した全てのプロセスを表します。

なお、最後の状態である$s_{T}$が存在するのは、エピソード的な性質があるプロセスにおいてのみです。

（日本語訳注：「エピソード的なプロセス」とは環境に開始と終わりがあるようなプロセスです。）




また、報酬は行動軌跡 に含まれていない点には注意してください。

報酬は、「エージェントが行動選択の方法を変更するために返される信号」として捉えることができますが、報酬自体には行動軌跡に関する情報には含まれません。


### 利得（Return）

$$R(\tau) = \sum_{t = 0}^{T}r_{t}\gamma^{t}$$

**利得（Return）**は、割引率$\gamma$が適用された行動軌跡全体にわたる報酬の累積であり、$\sum_{t = 0}^{T}r_{t}\gamma^{t}$という式で表現されます。

割引率$\gamma$（時間割引率とも呼ぶ）が無い場合、利得はエージェントが得る報酬の単なる総和となります。

割引率$\gamma$によって、未来の報酬よりも、より直近の報酬の獲得に重きを置くことが可能になります。

また同時に、割引率$\gamma$は利得が発散して無限になることを防いでおり、数学的な面でも役立っています。

### 状態価値関数（Value function）

$$V^{\pi}(s) = \mathbf{E}_{\tau \sim \pi}\lbrack R(\tau)|s_{0} = s\rbrack$$

強化学習のタスクでは、ある状態$s$における利得$R(\tau)$を推定したい、というケースがよくあります。

このような利得の期待値を求めるための関数を、**状態価値関数（Value function）**と呼びます。

<br>

この状態価値関数は状態$s$から始まる行動軌跡$\tau$全体に関係するため、必然的に、方策に依存する形で決まることになります。

（日本語訳注：行動軌跡$\tau$を構成する要素である行動$a$が方策によって決まるためです。）

このように方策によって行動軌跡が決まることを示すために、期待値の計算の中では$\tau \sim \pi$を用いています。

### 行動価値関数（Action value function）
$$
Q^{\pi}(s, a) = \mathbf{E}_{\tau \sim \pi}[R(\tau) | s_0 = s, a_0 = a]
$$

状態価値関数と似た概念である**行動価値関数（Action value function）**は、エージェントがとある状態$s$からスタートして特定の行動を取った場合の、利得の期待値をモデル化したものです。

（一つ前に紹介した）状態価値関数は、ある開始状態$s$において、エージェントが方策$a \sim \pi(s)$に従って最初の行動を取る時の利得をモデリングしたものです。

これに対し、行動価値関数は、ある開始状態$s$において、エージェントが具体的に行動$a$を採用した場合の利得をモデリングしたものです。

（日本語訳注：状態価値関数はまだ行動を<u>取っていない</u>状態の利得を算出するモデルで、行動価値関数は行動を<u>既に取った</u>状態の利得を算出するモデル、と捉えるとイメージがしやすいと思います。）




![pic](https://drive.google.com/uc?id=1Dfijscr2WLJMrypF-ACD_ZwiXLrl8vsw)


上図の$s$から$s′$への状態遷移を例にとって考えてみましょう。

エージェントは$a_{1},a_{2},a_{3}$のいずれかの行動を選択することができます。

行動価値関数は、いずれか一つの選択された行動を条件として、利得の期待値をモデリングしています。

一方、状態価値関数は、（行動が方策からサンプリングされている）全ての行動に対する行動価値関数の期待値をモデリングしたものとなっています。

<br>

（日本語訳注：以下の数式は、状態価値関数と行動価値関数の関係を示したものです）

$$
V^{\pi}(s) = \mathbf{E}_{a \sim \pi(s)}[Q^{\pi}(s, a)]
$$


最適な利得 
------------

報酬/利得は、エージェントの学習を促します。

言い換えると、エージェントは、得られる全体の利得を最大化するように行動しようとします。

強化学習の枠組みでは、ある開始状態と最初のタイムステップでの行動が与えられた場合における最大の利得を知りたい、というモチベーションがあります。




### 最適状態価値関数 （Optimal value function）
$$
V^*(s) = \max_{\pi} \mathbf{E}_{\tau \sim \pi}[R(\tau) | s_0 = s]
$$

**最適状態価値関数（Optimal value function）**とは、最良の方策*を用いた場合における状態価値関数のことです。

ここでの「最良」とは、最も高い状態価値を実現する、ということを意味しています。

（実際の方策ではなく）このような「最適≒最良の方策」を仮定していることを示すために、$\pi$の代わりに$*$を用いています。




### 最適行動価値関数 （Optimal action value function）
$$
Q^*(s, a) = \max_{\pi} \mathbf{E}_{\tau \sim \pi}[R(\tau) | s_0 = s, a_0 = a]
$$

（最適状態価値関数と）同様に、**最適行動価値関数（Optimal action value function）**は、最適な方策を用いた場合の行動価値関数のことです。

なお最初に取られる行動は $a$ として与えられているので、最適な方策が使用されるのは 2 番目以降の行動となります。


-----

状態価値関数や行動価値関数の定義とは異なり、上記の２つの最適化された関数は、実際の方策とは関係が無いという点には注意してください。

これらの最適化された関数は、実際に使用されている方策とは無関係に、ある開始状態（と行動）のもとで得られる最大の利得を返すような方策です。

<br>

（日本語訳注：最適化された関数である$Q^{*}(s,a)$や$V^{*}(s)$は理想の関数であり、ほとんどの場合実際には分からないものです。
もし仮に真の$Q^{*}(s,a)$や$V^{*}(s)$が分かっている場合には、その結果から直接「理想的な行動」を求めることができるようになります。）



Qラーニング・アルゴリズムにおけるQは、最適行動価値関数を指します。

最適なQ関数（最適行動価値関数）のモデルを用いることで、とある状態における最適な行動を簡単に得ることができるようになります。

<br>

（日本語訳注：Qラーニングについては、本チュートリアルの最後に紹介します）

## 最適行動（Optimal Action）

$$
a^*(s) = argmax_a Q^*(s, a)
$$

状態$s$における最適行動価値関数$Q^{∗}$ がある場合には、最適な行動$a^{*}$は「$Q^{*}$の出力値が最も高い行動」となります。

この最適行動$a^{*}$は、単に次の状態における報酬を最大化するだけではな く、将来の全タイムステップを考慮に入れ、行動軌跡全体から決まる、利得を最大化します。

上記のような最適行動$a^{*}$という関数は、エージェントが取りうる方策関数の一つでもあります。

## ベルマン方程式 

![pic](https://drive.google.com/uc?id=1Dfijscr2WLJMrypF-ACD_ZwiXLrl8vsw)




### 状態価値関数のベルマン方程式
$$
V^{\pi}(s) = \mathbf{E}_{a \sim \pi(s), s' \sim f(s,a)}[r(s, a) + \gamma V^{\pi}(s')]
$$

$\gamma$は割引率、$\pi$は方策、$f(s, a)$は環境のモデル、$s'$は次の時間ステップの状態を表します。

また、上記式を見ると、現在の状態の利得の期待値である $V^{\pi}(s)$ を計算するためには、以下の二つの和を取る必要があることが分かります。

- 現在の時間ステップにおける報酬$r(s,a)$
- 次の時間ステップの状態に対する、割引きされた利得の期待値$\gamma V^{\pi}(s\prime)$

現在の時間ステップにおける報酬$r(s,a)$は取られた行動$a$に依存しており、行動行動$a$は、$a \sim \pi(s)$という形でモデル化されています。

また、次の状態における利得の期待値は単に$V^{\pi}(s')$と表され、カッコ内の$s'$は次の時間ステップでの状態を表しています。

そしてこの$s'$を実際に求めるには、次の状態を得るためのモデル$s'$ $\sim f(s,a)$を使うことができます。






### 行動価値関数のベルマン方程式

$$
Q^{\pi}(s, a) = r(s, a) + \gamma \mathbf{E}_{a' \sim \pi(s'), s' \sim f(s,a)}[Q^{\pi}(s', a')]
$$

$a'$は、方策$\pi(s')$からサンプリングされた次の時間ステップでの行動です。

<br>


現在の状態・行動における$Q^{\pi}(s, a)$の利得の期待値は、「状態価値関数のベルマン方程式」と同様に、以下の二つの和として計算されます。

- 現在の時間ステップにおける報酬$r(s, a)$
- 次の時間ステップの状態・行動における行動価値関数$Q^{\pi}(s', a')$

<br>

現在の行動$a$は予め与えられているので、方策$\pi$に基づいて選択する必要はありません。

しかし、今回は次の時間ステップにおける状態と行動を両方とも使うことになります。

そこで、まず次のステップの状態を$s'\sim f(s,a) $としてモデル化し、次の行動を$a'\sim\pi(s')$としてサンプリングする必要があります。




-----
ベルマン方程式は、現在の状態における価値関数と、次の状態における価値関数の関係を表しています。

<br>

（日本語訳注：ここにおける「価値関数」は、状態価値関数もしくは行動価値関数、という意味です）

<br>

ベルマン方程式を使うことで、連続した各状態の価値関数を連鎖させることができます。

ベルマン方程式によって、各状態の利得の期待値を、次の状態の利得の期待値に基づいて算出するようにモデル化することができ、最終的には最後の状態$s_{T}$で連鎖を止めることが可能となっています。


## 最適ベルマン方程式 

最適ベルマン方程式とは、最適な行動を採用する場合のベルマン方程式です。

言い換えると、最適ベルマン方程式を実現するためには、シンプルに、与えられた状態に対して最適な行動を選択すればよい、ということです。




### 状態価値関数の最適ベルマン方程式
$$
V^*(s) = \max_a\mathbf{E}_{s' \sim f(s,a)}[r(s, a) + \gamma V^*(s')]
$$
最適ベルマン方程式では、方策$\pi(s)$から行動$a$をサンプリングするのではなく、現在の状態$s$における最適な行動を選択する、という点に注意してください。

最適ベルマン方程式を達成するような行動は、すなわち最適な行動でもあります。



### 行動価値関数の最適ベルマン方程式
$$
Q^*(s, a) = r(s, a) + \gamma \max_{a'}\mathbf{E}_{s' \sim f(s,a)}[Q^*(s', a')]
$$

ここでは、次の状態$s'$における最適な行動$a'$が必要となります。

<br>

ある方策に基づく行動価値関数 $Q^{\pi}(s, a)$よりも、最適な行動価値関数 $Q^*(s, a)$を知りたいのと同様に、ベルマン方程式においても、より知りたいことは最適行動価値関数が得られるベルマン方程式です。

最適ベルマン方程式は、任意の与えられた状態・行動において、可能な限り最大の利得を表します。

<br>

上記の式において最も重要なことは、エージェントが現在の状態での利得を最大化する行動（最適状態価値関数から決まる）と、次の時間ステップでの状態（最適行動値関数から決まる）での利得を最大化する行動を選択すると、エージェントは最適行動価値関数$Q^*$を用いて、全体を通じた最大の利得が得られる、という点です。


## TD（Temporal Difference）学習

TD（Temporal Differenc）学習は、未来の状態の推定値を用いて、現在の状態における推定値を改善していく手法です。

<br>

この手法の背景にある仮説は、次の状態への遷移について（≒現在の状態から次の状態に移る際の報酬 $r$ について）知っていることが増えると、現在の状態における利得をより良く推定できる、というものです

$$
V^{\pi}(s) \leftarrow V^{\pi}(s)+\alpha (r+\gamma V^{\pi}(s') -V^{\pi}(s))
$$

上記数式の $s$は現在の状態 、$s'$は次の時間ステップでの状態を表しています。





### TD推定値（TD Estimate）

$V^{\pi}(s)$は、**TD推定値（TD Estimate）**と呼ばれます。

これは、現在の状態における状態価値関数を推定したものです。




### TDターゲット （TD Target）

$r+ \gamma V^{\pi}(s')$を**TDターゲット（TD Target）**と呼びます。

TDターゲットはお手本となる関数であり、このTD ターゲットにTD 推定値を近似させたい、というモチベーションがあります。

<br>

TDターゲットは、現在の報酬$r$と、次の状態の利得の推定値$\gamma V^{\pi}(s')$に基づいて算出されます。

TD 推定値に比べ、TDターゲットには $r$ が追加されているため、推論結果がより正確な値となります。

これを教師あり学習に例えると、$r+\gamma V^{\pi}(s')$が「教師ラベル」で、$V^{\pi}(s)$が「推論結果」となるイメージです。

-----
TD学習は、状態価値関数$V^{\pi}(s)$と行動価値関数$Q^{\pi}(s, a)$の両方に適用することが可能です。

行動価値関数$Q^{\pi}(s, a)$に適用した場合、TD学習は次のような数式で表現されます。

$$Q^{\pi}(s,a) \leftarrow Q^{\pi}(s,a) + \alpha(r + \gamma Q^{\pi}(s\prime,a\prime) - Q^{\pi}(s,a))$$

## Ｑラーニング 

Qラーニングは、TD学習と最適ベルマン方程式を組み合わせた手法です。

<br>

QラーニングはTD学習の考え方に基づき、報酬$r$と、次の時間ステップでの状態・行動における最適な推定値$\gamma\text{max}Q^{*}(s\prime,a\prime)$を用いて、現在の状態・行動におけるより良い推定値を算出します。

$$Q^{*}(s,a) \leftarrow Q^{*}(s,a) + \alpha(r + \gamma\underset{a\prime}{\text{max}}Q^{*}(s\prime,a\prime) - Q^{*}(s,a))$$

$r+\gamma \underset{a\prime}{\text{max}}Q^{*}(s\prime,a\prime)$という式は、一つ前のセクションで「TD ターゲット」として定義したものと同じである点に注意してください。

この**TDターゲット**の方が、TD推定値よりも、現在の状態・行動に対する推定が優れているため、これに近づくようにTD推定値である$Q^*(s, a)$を更新したい、というのがTD学習におけるコンセプトです。

<br>

これはつまり、TD推定値である $Q^*(s, a)$と、TDターゲットである$r+\gamma \underset{a\prime}{\text{max}}Q^{*}(s\prime,a\prime)$の差を最小にしたい、ということを意味します。


$$L(\theta) = (r + \gamma\underset{a\prime}{\text{max}}Q_{\theta}^{*}(s\prime,a\prime) - Q_{\theta}^{*}(s,a))^{2}$$

最適行動価値関数 $Q^*(s', a')$ にはニューラル・ネットワークを使うことが多いため、ここでは$\theta$はニューラルネットワークのパラメータを表します。

ここでの目標は、$\theta$に関する損失$L(\theta) $を最小化するために、$Q_{\theta}^*(s, a)$を$r+\gamma \underset{a\prime}{\text{max}}Q^{*}(s\prime,a\prime)$に近づけることとなります。

以上。