# 贝尔曼公式（Bellman Equation）笔记
## 1. 核心概念概述
贝尔曼公式是强化学习中的核心工具，用于描述状态价值（state value） 之间的关系，通过数学形式连接即时奖励与未来奖励的期望值，为策略评估和优化提供理论基础。
核心作用：将复杂的决策问题分解为递归的子问题，建立当前状态价值与未来状态价值的关联。
关键关联：通过回报（return）的期望值定义状态价值，进而推导状态价值之间的递归关系。
## 2. 状态价值（State Value）
### 2.1 定义
状态价值函数用 
v 
π
​
 (s)
 表示，定义为：在策略 
π
 下，从状态 
s
 出发所能获得的期望折扣回报（discounted return）。
v 
π
​
 (s)≐E[G 
t
​
 ∣S 
t
​
 =s]
其中，
G 
t
​
 
 为折扣回报（随机变量），计算公式为：
G 
t
​
 ≐R 
t+1
​
 +γR 
t+2
​
 +γ 
2
 R 
t+3
​
 +…
γ∈(0,1)
：折扣因子，用于衡量未来奖励的当前价值（越接近 1，未来奖励影响越大）。
R 
t+n
​
 
：第 
t+n
 步获得的即时奖励。
### 2.2 关键性质
依赖于策略 
π
：不同策略会产生不同的状态价值。
与时间无关：仅由当前状态和策略决定，与时间步 
t
 无关。
随机性来源：回报 
G 
t
​
 
 的随机性源于奖励 
R
 和状态转移的概率分布。
## 3. 贝尔曼公式的推导
### 3.1 核心思路
将折扣回报 
G 
t
​
 
 分解为即时奖励和未来奖励的折扣值，进而推导状态价值的递归关系。
### 3.2 推导步骤
回报的分解：
折扣回报可拆分为即时奖励与未来回报的折扣项：
G 
t
​
 =R 
t+1
​
 +γG 
t+1
​
 
其中，
G 
t+1
​
 =R 
t+2
​
 +γR 
t+3
​
 +…
。
状态价值的递归关系：
对 
G 
t
​
 
 求期望，结合状态价值定义：
v 
π
​
 (s)=E[R 
t+1
​
 ∣S 
t
​
 =s]+γE[G 
t+1
​
 ∣S 
t
​
 =s]
展开期望项：
即时奖励期望：考虑策略 
π
 下的动作选择概率和奖励分布：
E[R 
t+1
​
 ∣S 
t
​
 =s]=∑ 
a∈A
​
 π(a∣s)∑ 
r∈R
​
 p(r∣s,a)r
未来奖励期望：利用马尔可夫性质，仅依赖下一状态 
s 
′
 
 的价值：
E[G 
t+1
​
 ∣S 
t
​
 =s]=∑ 
s 
′
 ∈S
​
 v 
π
​
 (s 
′
 )∑ 
a∈A
​
 p(s 
′
 ∣s,a)π(a∣s)
最终形式：
合并上述两项，得到贝尔曼公式：
v 
π
​
 (s)=∑ 
a∈A
​
 π(a∣s)[∑ 
r∈R
​
 p(r∣s,a)r+γ∑ 
s 
′
 ∈S
​
 p(s 
′
 ∣s,a)v 
π
​
 (s 
′
 )]
## 4. 矩阵形式与求解
### 4.1 矩阵表示
将所有状态的贝尔曼方程整合为矩阵形式，简化计算：
v 
π
​
 =r 
π
​
 +γP 
π
​
 v 
π
​
 
v 
π
​
 
：状态价值向量（维度为状态数 
n
）。
r 
π
​
 
：策略 
π
 下的即时奖励向量。
P 
π
​
 
：状态转移概率矩阵（
P 
π
​
 [i][j]
 表示从状态 
i
 转移到 
j
 的概率）。
γ
：折扣因子。
### 4.2 求解方法
解析解（Closed-form Solution）：
直接通过矩阵求逆求解：
v 
π
​
 =(I−γP 
π
​
 ) 
−1
 r 
π
​
 
其中 
I
 为单位矩阵。缺点是计算量随状态数指数增长，仅适用于小规模问题。
迭代解法：
通过迭代更新逼近真实价值，适用于大规模问题：
v 
k+1
​
 =r 
π
​
 +γP 
π
​
 v 
k
​
 
初始值 
v 
0
​
 
 可任意设定（如全 0）。
收敛性：当 
k→∞
 时，
v 
k
​
 →v 
π
​
 
，误差以指数速度衰减。
## 5. 动作价值（Action Value）
### 5.1 定义
动作价值函数 
q 
π
​
 (s,a)
 表示：在策略 
π
 下，从状态 
s
 出发选择动作 
a
 后，所能获得的期望折扣回报。
q 
π
​
 (s,a)≐E[G 
t
​
 ∣S 
t
​
 =s,A 
t
​
 =a]
### 5.2 与状态价值的关系
状态价值是动作价值的加权平均（权重为策略 
π
 的动作选择概率）：
v 
π
​
 (s)=∑ 
a∈A
​
 π(a∣s)q 
π
​
 (s,a)
动作价值可通过下一状态的状态价值计算：
q 
π
​
 (s,a)=∑ 
r∈R
​
 p(r∣s,a)r+γ∑ 
s 
′
 ∈S
​
 p(s 
′
 ∣s,a)v 
π
​
 (s 
′
 )
## 6. 关键概念：Bootstrapping
定义：状态价值的计算依赖于其他状态的价值（递归性），通过迭代更新不断优化估计值。
意义：体现了强化学习中 “利用已有估计改进估计” 的核心思想，是迭代解法的理论基础。
