# 深層強化学習

強化学習 セクションの学習ステップ 12/12。
深層強化学習では、価値更新を紙ではなくコードで追い、再帰の意味を体感します。

このステップの到達目標: ベルマン方程式の見方を、価値更新のコードとセットで理解し、手法差を説明できる状態にします。
前提: 期待値、再帰的な定義、逐次意思決定の基本が前提です。

今回の中心語: 「状態」、「行動」、「報酬」、「価値関数」、「方策」、「深層強化学習」
前ステップ「後方観測TD(λ)とEligibility Trace」では Eligibility Traceの初期系列 → ベルマン更新を1回行う を確認しました。
ここまでに登場した語: 「状態」、「行動」、「報酬」、「価値関数」、「方策」、「強化学習の考え方」、「ベルマン方程式」、「期待方程式」、「最適方程式」、「方策反復法」
セクション全体のゴール: ベルマン方程式の見方を、価値更新のコードとセットで理解し、手法差を説明できる状態にします。

## 手を動かす 1: 深層強化学習の基準系列

関数近似を導入する前に、報酬系列から基準となる割引和を作ります。

In [None]:
rewards = [0.5, 0.2, 0.9, 1.4]
gamma = 0.94
g = 0.0
for r in reversed(rewards):
    g = r + gamma * g
print('task = deep-rl', 'reference=', round(g, 6))

この基準をベースに近似誤差の影響を見ます。

この節では、状態 が入出力のどこを決めるかを中心に読める状態になれば十分です。

## 手を動かす 2: ベルマン更新を1回行う

次に、価値更新を1ステップだけ計算します。1回更新でも、再帰構造の意味は十分に見えてきます。

In [None]:
v_next = {'s0': 0.4, 's1': 0.8}
reward = {'left': 0.2, 'right': 1.0}
trans = {'left': 's0', 'right': 's1'}
v_s = max(reward[a] + gamma * v_next[trans[a]] for a in ['left', 'right'])
print('updated V(s)=', round(v_s, 6))

ベルマン更新は『今の価値』を『次状態の価値』で再定義する操作です。この再帰が強化学習の中心です。

この節では、状態 が入出力のどこを決めるかを中心に読める状態になれば十分です。

## 数式メモ

1. $G_t = sum_{k\ge 0} gamma^k R_{t+k+1}$
2. $Q \leftarrow  Q + alpha * TD_error$

## 手を動かす 3: Q値更新を比較する

ここで Q学習の更新式をコードに写し、数値の動きを確認します。式を読むだけでは掴みにくい感覚を得る段階です。

In [None]:
Q = {('s0','left'): 0.3, ('s0','right'): 0.1, ('s1','left'): 0.5, ('s1','right'): 0.7}
alpha = 0.2
r, s, a, s_next = 1.0, 's0', 'right', 's1'
td_target = r + gamma * max(Q[(s_next,'left')], Q[(s_next,'right')])
Q[(s,a)] += alpha * (td_target - Q[(s,a)])
print('Q(s0,right)=', round(Q[(s,a)], 6))

更新後の値が過去の値とどれだけ違うかは、学習率と TD 誤差で決まります。ここが調整ポイントです。

この節では、状態 が入出力のどこを決めるかを中心に読める状態になれば十分です。

## 手を動かす 4: 探索と活用の切り替え

次に、探索率を変えたときの行動選択を見ます。探索不足は局所最適に閉じる典型的な原因です。

In [None]:
def choose_action(q_left, q_right, epsilon):
    if epsilon > 0.3:
        return 'explore'
    return 'left' if q_left >= q_right else 'right'
print(choose_action(0.4, 0.7, 0.5), choose_action(0.4, 0.7, 0.1))

探索率は固定せず、学習段階に応じて減衰させるのが一般的です。初期は広く探索し、後半で活用へ寄せます。

この節では、状態 が入出力のどこを決めるかを中心に読める状態になれば十分です。

## 手を動かす 5: 方策評価の簡易チェック

最後に、方策の平均報酬を簡易的に比較します。アルゴリズムの評価は、更新式だけでなく結果の検証が不可欠です。

In [None]:
episode_rewards = [1.2, 0.8, 1.5, 1.1, 1.4]
avg_reward = sum(episode_rewards) / len(episode_rewards)
variance = sum((r - avg_reward) ** 2 for r in episode_rewards) / len(episode_rewards)
print('avg =', round(avg_reward, 4))
print('var =', round(variance, 4))

平均だけでなく分散を見ると、方策の安定性も評価できます。実運用ではこの二軸が重要です。

この節では、状態 が入出力のどこを決めるかを中心に読める状態になれば十分です。

## この節の要点

今回のノートで押さえておくべき誤解しやすい点を整理します。

1. 探索率が低すぎて行動が固定化する
2. 報酬設計が目的とずれている
3. 長期ロールアウトの不安定性を検証しない

深層強化学習 はこのセクションの最終ステップです。先頭ノートから順に再実行し、流れ全体を確認してください。

数式メモ

1. $G_t = sum_{k\ge 0} gamma^k R_{t+k+1}$
2. $Q \leftarrow  Q + alpha * TD_error$

不足していた式を追記しました。各式がどのコード行に対応するかをメモして確認してください。

数式メモ

1. $G_t = sum_{k\ge 0} gamma^k R_{t+k+1}$
2. $Q \leftarrow  Q + alpha * TD_error$

不足していた式を追記しました。各式がどのコード行に対応するかをメモして確認してください。

数式メモ

1. $G_t = sum_{k\ge 0} gamma^k R_{t+k+1}$
2. $Q \leftarrow  Q + alpha * TD_error$

不足していた式を追記しました。各式がどのコード行に対応するかをメモして確認してください。

数式メモ

1. $G_t = sum_{k\ge 0} gamma^k R_{t+k+1}$
2. $Q \leftarrow  Q + alpha * TD_error$

不足していた式を追記しました。各式がどのコード行に対応するかをメモして確認してください。

数式メモ

1. $G_t = sum_{k\ge 0} gamma^k R_{t+k+1}$
2. $Q \leftarrow  Q + alpha * TD_error$

不足していた式を追記しました。各式がどのコード行に対応するかをメモして確認してください。

数式メモ

1. $G_t = sum_{k\ge 0} gamma^k R_{t+k+1}$
2. $Q \leftarrow  Q + alpha * TD_error$

不足していた式を追記しました。各式がどのコード行に対応するかをメモして確認してください。