# ReinforcementLearning.jl

https://juliareinforcementlearning.org/docs/tutorial/

## 1次元ランダムウォーク

```
-1     <- @ ->    +1
 1  2  3  4  5  6  7
```

- エージェント:
    - 初期位置: 4
    - 左か右に一つ動く
- ゲームの終了条件:
    - エージェントが 1 か 7 に到達すること
- 報酬:
    - -1: エージェントが 1 に到達
    - +1: エージェントが 7 に到達
    - 0: 上記以外 (ゲームが終了しないためあり得ない)

In [10]:
using Pkg
Pkg.add(["ReinforcementLearning", "Flux"])

[32m[1m   Resolving[22m[39m package versions...
[32m[1m    Updating[22m[39m `C:\Users\user\.julia\environments\v1.7\Project.toml`
 [90m [587475ba] [39m[92m+ Flux v0.12.10[39m
[32m[1m  No Changes[22m[39m to `C:\Users\user\.julia\environments\v1.7\Manifest.toml`


In [2]:
using ReinforcementLearning

env = RandomWalk1D()

# RandomWalk1D

## Traits

| Trait Type        |                Value |
|:----------------- | --------------------:|
| NumAgentStyle     |        SingleAgent() |
| DynamicStyle      |         Sequential() |
| InformationStyle  | PerfectInformation() |
| ChanceStyle       |      Deterministic() |
| RewardStyle       |     TerminalReward() |
| UtilityStyle      |         GeneralSum() |
| ActionStyle       |   MinimalActionSet() |
| StateStyle        | Observation{Int64}() |
| DefaultStateStyle | Observation{Int64}() |

## Is Environment Terminated?

No

## State Space

`Base.OneTo(7)`

## Action Space

`Base.OneTo(2)`

## Current State

```
4
```


In [3]:
# 状態空間: 1..7 まであるため 7
S = state_space(env)

Base.OneTo(7)

In [4]:
# 初期位置: 4
s = state(env)

4

In [5]:
# 行動空間: エージェントは左か右に動くため 2
A = action_space(env)

Base.OneTo(2)

In [6]:
# ゲーム実行
while !is_terminated(env)
    # エージェントをランダムに動かす
    env(rand(A))
end

In [7]:
(
    state = state(env),   # 最終位置
    reward = reward(env), # 報酬
)

(state = 1, reward = -1.0)

### 強化学習
このゲームでは、エージェントがエピソードで最大の累積報酬を獲得するための最適なポリシーを見つけることを目的とする

まずは、まったくのランダムに行動を選択する `RandomPolicy` を使って、10回のエピソードを実行してみる

In [8]:
run(
    RandomPolicy(),
    RandomWalk1D(),
    StopAfterEpisode(10),
    TotalRewardPerEpisode()
)

            ⠀⠀⠀⠀⠀⠀⠀⠀⠀[97;1mTotal reward per episode[0m⠀⠀⠀⠀⠀⠀⠀⠀⠀ 
            [38;5;8m┌────────────────────────────────────────┐[0m 
          [38;5;8m1[0m [38;5;8m│[0m⠀⠀⠀⠀[38;5;2m⡏[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⢇[0m⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀[38;5;2m⣾[0m⠀⠀⠀⠀[38;5;8m│[0m [38;5;8m[0m
           [38;5;8m[0m [38;5;8m│[0m⠀⠀⠀[38;5;2m⢠[0m[38;5;2m⠃[0m⠀⠀⠀⠀⠀⠀⠀⠀[38;5;2m⢸[0m⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀[38;5;2m⡟[0m[38;5;2m⡄[0m⠀⠀⠀[38;5;8m│[0m [38;5;8m[0m
           [38;5;8m[0m [38;5;8m│[0m⠀⠀⠀[38;5;2m⢸[0m⠀⠀⠀⠀⠀⠀⠀⠀⠀[38;5;2m⠈[0m[38;5;2m⡆[0m⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀[38;5;2m⢸[0m⠀[38;5;2m⡇[0m⠀⠀⠀[38;5;8m│[0m [38;5;8m[0m
           [38;5;8m[0m [38;5;8m│[0m⠀⠀⠀[38;5;2m⡎[0m⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀[38;5;2m⡇[0m⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀[38;5;2m⡸[0m⠀[38;5;2m⢱[0m⠀⠀⠀[38;5;8m│[0m [38;5;8m[0m
           [38;5;8m[0m [38;5;8m│[0m⠀⠀⠀[38;5;2m⡇[0m⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀[38;5;2m⢸[0m⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀[38;5;2

TotalRewardPerEpisode([-1.0, 1.0, 1.0, 1.0, -1.0, -1.0, -1.0, -1.0, 1.0, -1.0], 0.0, true)

上記の例では、エージェントはランダムに行動するため、報酬結果もランダムとなる

一方 `TabularPolicy` を使うと、事前にエージェントの行動を設定しておくことができる

以下の例では、エージェントに毎回「右に移動する」という行動ポリシーを与えているため、報酬結果は常に +1 となる

In [9]:
# 事前設定行動ポリシー: table = Dict(状態 => 行動)
## <RandomWalk1D>
## - 状態空間 = エージェントの位置: 1, 2, 3, 4, 5, 6, 7
## - 行動空間: 1 => 左に移動, 2 => 右に移動
policy = TabularPolicy(; table = Dict(
    1 => 2, # エージェント位置が 1 のとき、右に移動
    2 => 2, # エージェント位置が 2 のとき、右に移動
    3 => 2, # エージェント位置が 3 のとき、右に移動
    4 => 2, # エージェント位置が 4 のとき、右に移動
    5 => 2, # エージェント位置が 5 のとき、右に移動
    6 => 2, # エージェント位置が 6 のとき、右に移動
    7 => 2, # エージェント位置が 7 のとき、右に移動
))

run(
    policy,
    RandomWalk1D(),
    StopAfterEpisode(10),
    TotalRewardPerEpisode()
)

           ⠀⠀⠀⠀⠀⠀⠀⠀⠀[97;1mTotal reward per episode[0m⠀⠀⠀⠀⠀⠀⠀⠀⠀ 
           [38;5;8m┌────────────────────────────────────────┐[0m 
         [38;5;8m2[0m [38;5;8m│[0m⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀[38;5;8m│[0m [38;5;8m[0m
          [38;5;8m[0m [38;5;8m│[0m⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀[38;5;8m│[0m [38;5;8m[0m
          [38;5;8m[0m [38;5;8m│[0m⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀[38;5;8m│[0m [38;5;8m[0m
          [38;5;8m[0m [38;5;8m│[0m⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀[38;5;8m│[0m [38;5;8m[0m
          [38;5;8m[0m [38;5;8m│[0m⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀[38;5;8m│[0m [38;5;8m[0m
          [38;5;8m[0m [38;5;8m│[0m⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀[38;5;8m│[0m [38;5;8m[0m
          [38;5;8m[0m [38;5;8m│[0m⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀[38;5;8m│[0m [38;5;8m[0m
   Score  [38;5;8m[0m [38;5;8m│[0m[38;5;2m⠤[0m[38;5;2m⠤[0m[38;5;2m⠤[0m[38;5;2m⠤[0m[38;5;2m⠤[0m[38;5;2m

TotalRewardPerEpisode([1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0], 0.0, true)

ここまでのポリシーは、エージェントにランダム行動をとらせるか、事前設定した行動をとらせていた

しかしこのゲームの目的は、自動的にエージェントが最適な行動をとるように学習させることである

このような学習を **強化学習** と呼ぶ

原始的な強化学習として最も有名なのは **Q学習** であり、ReinforcementLearning.jl では `QBasedPolicy` として提供されている

このポリシーには「各状態における行動の価値を推定する状態アクション値関数 (`learner`)」と「推定した状態アクション値の結果に基づいて実行する行動を選択するエクスプローラ (`explorer`)」の2つの処理系が含まれている

以下の例では、learner に `MonteCarloLearner`, explorer に `EpsilonGreedyExplorer` を使って、Q学習ポリシーを構成している

In [12]:
using Flux: InvDecay

policy = QBasedPolicy(;
    learner = MonteCarloLearner(;
        approximator = TabularQApproximator(;
            n_state = length(S),
            n_action = length(A),
            opt = InvDecay(1.0)
        )
    ),
    explorer = EpsilonGreedyExplorer(0.1)
)

typename(QBasedPolicy)
├─ learner => typename(MonteCarloLearner)
│  ├─ approximator => typename(TabularApproximator)
│  │  ├─ table => 2×7 Matrix{Float64}
│  │  └─ optimizer => typename(InvDecay)
│  │     ├─ gamma => 1.0
│  │     └─ state => typename(IdDict)
│  ├─ γ => 1.0
│  ├─ kind => typename(ReinforcementLearningZoo.FirstVisit)
│  └─ sampling => typename(ReinforcementLearningZoo.NoSampling)
└─ explorer => typename(EpsilonGreedyExplorer)
   ├─ ϵ_stable => 0.1
   ├─ ϵ_init => 1.0
   ├─ warmup_steps => 0
   ├─ decay_steps => 0
   ├─ step => 1
   ├─ rng => typename(Random._GLOBAL_RNG)
   └─ is_training => true


上記で構成したポリシーは最適化されていないため、そのまま実行しても良い報酬を得ることはできない

ポリシーを最適化するためには、ラッパーポリシー `Agent` を用いて、学習モードでゲームを実行する必要がある

In [13]:
# policy を学習モードで実行するための Agent ポリシー
agent = Agent(
    policy = policy,

    # VectorSARTTrajectory: アクション, 報酬, 状態を保存する
    ## => 上記のデータを元に学習を行う
    trajectory = VectorSARTTrajectory()
)

run(
    agent,
    RandomWalk1D(),
    StopAfterEpisode(10),
    TotalRewardPerEpisode()
)

            ⠀⠀⠀⠀⠀⠀⠀⠀⠀[97;1mTotal reward per episode[0m⠀⠀⠀⠀⠀⠀⠀⠀⠀ 
            [38;5;8m┌────────────────────────────────────────┐[0m 
          [38;5;8m1[0m [38;5;8m│[0m⠀⠀⠀⠀[38;5;2m⡏[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;2m⠉[0m[38;5;8m│[0m [38;5;8m[0m
           [38;5;8m[0m [38;5;8m│[0m⠀⠀⠀[38;5;2m⢠[0m[38;5;2m⠃[0m⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀[38;5;8m│[0m [38;5;8m[0m
           [38;5;8m[0m [38;5;8m│[0m⠀⠀⠀[38;5;2m⢸[0m⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀⠀[38;5;8m│[0m [38;5;8m[0m
           [38;5;8m[0m [38;5;8

TotalRewardPerEpisode([-1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0], 0.0, true)

今回は単純な問題であるため、少々わかりにくいが、おそらく最初の1～2回はランダムに行動している

それ以降で学習が上手く進み、報酬が +1 で安定するようになっていると思われる