# 第9课：策略梯度方法（Policy Gradient Methods）

---

## Part 1：该方法的基本思路

传统强化学习多通过**值函数间接优化策略**（如Q-learning、SARSA），而**策略梯度方法**则：

> **直接对策略参数 $\theta$ 优化，最大化长期期望回报**

---

### 为什么用策略梯度？

* 能处理**连续动作空间**
* 适合**随机策略**，有利于探索
* 理论上能避免值函数估计误差引入的偏差
* 易于与函数逼近（神经网络）结合

---

### 策略参数化：

$$
\pi_\theta(a|s) = \text{策略函数，依赖参数 } \theta
$$

目标是求：

$$
\theta^* = \arg\max_\theta J(\theta)
$$

---

## Part 2：该方法的目标函数 1 — Average Value（起点状态）

---

定义：

$$
J(\theta) = V^{\pi_\theta}(s_0) = \mathbb{E}_{\pi_\theta}[ G_0 | s_0 ]
$$

即从固定起点 $s_0$ 出发，策略 $\pi_\theta$ 下的期望累计回报。

---

## Part 3：该方法的目标函数 2 — Average Reward（稳态分布）

---

当任务为无终止马尔可夫过程，定义稳态分布 $d^{\pi_\theta}(s)$：

$$
J(\theta) = \sum_s d^{\pi_\theta}(s) \sum_a \pi_\theta(a|s) r(s,a)
$$

即长期平均奖励。

---

## Part 4：目标函数的梯度计算

关键在于推导 $\nabla_\theta J(\theta)$，经典\*\*策略梯度定理（Policy Gradient Theorem）\*\*给出：

$$
\nabla_\theta J(\theta) = \mathbb{E}_{\pi_\theta} \left[ Q^{\pi_\theta}(s,a) \nabla_\theta \log \pi_\theta(a|s) \right]
$$

---

### 解释：

* 利用对数梯度技巧 $\nabla_\theta \pi_\theta(a|s) = \pi_\theta(a|s) \nabla_\theta \log \pi_\theta(a|s)$
* 期望是对策略下的状态-动作对采样

---

### 常用变体：

* 用优势函数替代 $Q^{\pi_\theta}(s,a)$ 来减小方差
* 使用蒙特卡洛采样或时序差分估计 $Q$ 值

---

## Part 5：梯度上升算法和REINFORCE

### REINFORCE 算法（Williams, 1992）

基于蒙特卡洛采样，利用完整轨迹回报估计 $Q$：

$$
G_t = \sum_{k=t}^T \gamma^{k-t} r_k
$$

更新参数：

$$
\theta \leftarrow \theta + \alpha \sum_{t=0}^T \nabla_\theta \log \pi_\theta(a_t|s_t) G_t
$$

---

### 算法步骤：

1. 采样完整 episode $(s_0,a_0,r_1,s_1,a_1,r_2,\dots)$
2. 对每个时间步 $t$ 计算回报 $G_t$
3. 计算梯度 $\nabla_\theta \log \pi_\theta(a_t|s_t)$
4. 累积梯度更新 $\theta$

---

### 优点：

* 简单，易于实现
* 理论保证收敛

### 缺点：

* 方差较大，收敛较慢
* 需要完整 episode，不能在线更新

---

## 本课总结

* 策略梯度方法通过参数化策略直接优化目标函数
* 策略梯度定理提供了梯度表达式，方便计算
* REINFORCE 算法用蒙特卡洛方法估计梯度
* 方差控制和样本效率是进一步研究方向


