# つくりながら学ぶ！深層強化学習 PyTorchによる実践プログラミング

## 迷路問題

In [2]:
using Revise, Pkg
using NaNStatistics, Distributions

Pkg.activate("./SimpleRL")

[32m[1m  Activating[22m[39m project at `c:\Users\user\github\julia_ml-tuto\04_reinforcement-learning\pytorch\SimpleRL`


In [None]:
using SimpleRL

include("./inc/retype.jl")

# 勾配降下法モデル
@restruct struct PolicyGradient{Env}
    env::Env
end

"""
    update_theta(theta_n::Matrix, pi_n::Matrix, state_action_history::Vector{Tuple}) = theta_next::Matrix

方策勾配法による方策パラメータの更新関数
"""
update_theta(env::SimpleRL.RLEnv, policy::SimpleRL.RLPolicy, recorder::SimpleRL.RLRecorder) = begin
    # 学習率 η: とりあえず 0.1 で試す
    eta = 0.1
    
    # ゴールまでの総ステップ数: ゴール地点のステップは除外
    T = length(state_action_history) - 1

    # Δθ の計算
    delta_theta = [
        isnan(theta_n[i, j]) ? NaN : (
            begin
                # 状態 = s_i である記録を取得
                SA_i = filter(SA -> SA[1] === i, state_action_history)

                # 状態 = s_i で 行動 = a_j をとった記録を取得
                SA_ij = filter(SA -> SA[1] === i && SA[2] === j, state_action_history)

                # N(s_i, a), N(s_i, a_j)
                N_i = length(SA_i)
                N_ij = length(SA_ij)

                # Δθ
                (N_ij + pi_n[i, j] * N_i) / T
            end
        )
        for i = 1:size(theta_n, 1), j = 1:size(theta_n, 2)
    ]

    # 更新されたθ
    theta_next = theta_n .+ eta .* delta_theta
    theta_next
end