# 值函数近似 Sarsa 算法原理
## 一、算法概述
值函数近似 Sarsa 是同策略（on-policy）时序差分（TD）算法与参数化函数近似结合的强化学习方法。与表格型 Sarsa 相比，它通过参数化函数替代传统表格存储动作值，解决了表格方法在大规模或连续状态 / 动作空间中的存储瓶颈和泛化能力不足问题
其核心特性在于：
行为策略（生成经验的策略）与目标策略（待优化的策略）保持一致（通常为 ε- 贪婪策略）
每步交互后立即更新参数，无需等待回合结束
通过函数近似实现对未访问状态 - 动作对的价值估计
## 二、核心原理
1. 动作值函数的近似表示
值函数近似 Sarsa 使用参数化函数表示动作值函数：
q
^
​
 (s,a,w)≈q 
π
​
 (s,a)
其中：
s
为当前状态，
a
为当前动作
w
为可学习的参数向量
q
^
​
 
为近似动作值函数，可选择线性函数（如
q
^
​
 (s,a,w)=ϕ(s,a) 
T
 w
，
ϕ
为特征向量）或神经网络等非线性函数
2. 参数更新公式
算法通过时序差分误差更新参数
w
，核心公式为：
w 
t+1
​
 =w 
t
​
 +α 
t
​
 [r 
t+1
​
 +γ 
q
^
​
 (s 
t+1
​
 ,a 
t+1
​
 ,w 
t
​
 )− 
q
^
​
 (s 
t
​
 ,a 
t
​
 ,w 
t
​
 )]∇ 
w
​
  
q
^
​
 (s 
t
​
 ,a 
t
​
 ,w 
t
​
 )
各参数含义：
α 
t
​
 
：学习率，控制更新幅度
γ
：折扣因子，平衡即时奖励与未来奖励
r 
t+1
​
 
：即时奖励，
s 
t+1
​
 
：下一状态，
a 
t+1
​
 
：下一动作（体现同策略特性）
∇ 
w
​
  
q
^
​
 (s 
t
​
 ,a 
t
​
 ,w 
t
​
 )
：近似函数关于参数
w
的梯度
括号内部分为TD 误差，衡量当前估计与目标的差距
3. 策略评估与改进
策略评估：通过上述更新公式优化参数
w
，使
q
^
​
 (s,a,w)
逼近当前策略
π
的动作值函数
策略改进：基于当前
q
^
​
 (s,a,w)
采用 ε- 贪婪策略更新行为策略：
π(a∣s)={ 
1−ε+ε/∣A(s)∣
ε/∣A(s)∣
​
  
if a=argmax 
a 
′
 
​
  
q
^
​
 (s,a 
′
 ,w)
otherwise
​
 

确保行为策略与目标策略一致
## 三、算法步骤
初始化参数向量
w
（线性模型或神经网络参数），设置行为策略
π
为 ε- 贪婪策略（基于当前
q
^
​
 (s,a,w)
）
对于每个回合（episode）：
初始化状态
s
根据策略
π
选择初始动作
a
当
s
不是终止状态时：
执行动作
a
，获得奖励
r
和下一状态
s 
′
 
根据策略
π
选择下一动作
a 
′
 
（同策略关键步骤）
计算 TD 误差：
δ=r+γ⋅ 
q
^
​
 (s 
′
 ,a 
′
 ,w)− 
q
^
​
 (s,a,w)
计算梯度：
∇ 
w
​
 =∇ 
w
​
  
q
^
​
 (s,a,w)
更新参数：
w=w+α⋅δ⋅∇ 
w
​
 
转移到下一状态和动作：
s=s 
′
 
，
a=a 
′
 

## 四、关键特性分析
1. 与表格型 Sarsa 的区别
存储效率：值函数近似通过参数化函数（如线性模型、神经网络）替代表格，大幅减少存储需求，尤其适用于高维状态空间
泛化能力：通过函数拟合，未访问过的状态 - 动作对可通过相似状态的信息进行估计，解决表格方法的稀疏性问题
更新方式：表格方法直接更新单个状态 - 动作对的值，而值函数近似通过更新参数影响所有相关状态 - 动作对的估计
2. 函数近似器的选择
线性函数：结构简单，理论性质清晰，表格型 Sarsa 可视为其特殊情况（使用 one-hot 特征）
神经网络：可拟合复杂非线性关系，但训练难度更高，需注意梯度稳定性
3. 同策略特性的影响
优势：学习过程与实际执行的策略紧密结合，更适合需要在线学习的场景
挑战：探索与利用的平衡更复杂，过度探索可能导致策略不稳定，需谨慎设置 ε- 贪婪参数
五、总结
值函数近似 Sarsa 通过参数化函数扩展了传统 Sarsa 的适用范围，使其能处理大规模甚至连续的状态 / 动作空间。其核心是通过时序差分误差更新函数参数，同时保持同策略特性，确保学习到的策略与实际执行策略一致。该算法为复杂强化学习问题提供了有效的解决方案，是连接传统强化学习与深度强化学习的重要桥梁