# つくりながら学ぶ！深層強化学習 PyTorchによる実践プログラミング

## 迷路問題

前回は、価値反復法のアルゴリズムの1つである Sarsa を実装した

今回は、価値反復法の別のアルゴリズムである **Q学習** を実装する

### Q学習
Sarsa の場合、行動価値関数 $Q$ の更新式は以下で表された

$$
    Q(s_t, a_t) = Q(s_t, a_t) + \eta * (R_{t+1} + \gamma Q(s_{t+1}, a_{t+1}) - Q(s_t, a_t))
$$

Q学習においては、以下の式で $Q$ は更新される

$$
    Q(s_t, a_t) = Q(s_t, a_t) + \eta * (R_{t+1} + \gamma \max_a Q(s_{t+1}, a) - Q(s_t, a_t))
$$

Sarsa の場合は更新時に次の行動 $a_{t+1}$ を求めて更新式に利用していたが、Q学習では状態 $s_{t+1}$ の行動価値関数の値の内最も大きいものを利用する

Sarsa のように $Q$ の更新が $a_{t+1}$ を求める方策に依存する特性を **方策オン型** と呼び、Q学習のように $Q$ の更新が方策に依存しない特性を **方策オフ型** と呼ぶ

方策オフ型の学習は、ε-greedy法から生成されるランダム性が更新式に入らない分、方策オン型の学習よりも行動価値関数の収束が早くなる

In [2]:
include("01_03-maze_module.jl")

theta_0 = Maze.theta_0

8×4 Matrix{Float64}:
 NaN      1.0    1.0  NaN
 NaN      1.0  NaN      1.0
 NaN      1.0    1.0    1.0
   1.0    1.0    1.0  NaN
 NaN    NaN      1.0    1.0
   1.0  NaN    NaN    NaN
   1.0  NaN    NaN    NaN
   1.0    1.0  NaN    NaN

In [None]:
using NaNStatistics

"""
    Q_learning!(Q::Matrix, state::Int, action::Int, reward::Number, state_next::Int; eta = 0.1, gamma = 0.9)
        = Q::Matrix

Q学習による行動価値関数 Q の更新関数

- `Q::Matrix{Number}`: 行動価値関数
- `state::Int`: 現在の状態
- `action::Int`: 採用する行動
- `reward::Number`: 報酬
- `state_next::Int`: 行動後の状態
- `eta::Number`: 学習率
- `gamma::Number`: 時間割引率
"""
Q_learning!(Q::Matrix, state::Int, action::Int, state_next::Int; eta = 0.1, gamma = 0.9) = begin
    if state_next === 9
        # ゴールした場合
        Q[state, action] = Q[state, action] + eta * (reward - Q[state, action])
    else
        Q[state, action] = Q[state, action] + eta * (reward + gamma * nanmaximum(Q[state_next, :]) - Q[state, action])
    end
    Q
end

maze!(Q::Matrix, pi_n::Matrix, )