# Robbins-Monro（RM）算法原理笔记
## 一、算法背景
Robbins-Monro（RM）算法是随机近似理论（Stochastic Approximation, SA） 中的经典算法，用于求解未知函数方程的根。其核心价值在于：当目标函数的表达式未知（视为 “黑盒”）时，仅通过含噪声的观测数据即可迭代逼近方程的解。
在强化学习中，RM 算法是理解时序差分（Temporal-Difference, TD）学习的重要基础，同时也是随机梯度下降（SGD）的理论原型。
## 二、核心问题
RM 算法旨在求解如下方程的根：
g(w)=0
其中：
w∈R
 是待求解的变量（可为标量或向量）；
g:R→R
 是目标函数，但其表达式未知，仅能通过观测获得含噪声的输出。
问题转化
许多实际问题可转化为上述根求解问题，例如：
优化问题：最小化目标函数 
J(w)
 等价于求解 
∇ 
w
​
 J(w)=0
（梯度为 0）；
方程求解：将 
g(w)=c
 转化为 
g(w)−c=0
。
## 三、算法原理
核心思想
当无法直接获取 
g(w)
 的表达式时，通过含噪声的观测值迭代更新对根的估计。观测值记为：
g
~
​
 (w 
k
​
 ,η 
k
​
 )=g(w 
k
​
 )+η 
k
​
 
其中：
w 
k
​
 
 是第 
k
 次迭代对根的估计；
η 
k
​
 
 是观测噪声（均值为 0 的随机变量）。
RM 算法通过以下迭代公式更新估计值：
w 
k+1
​
 =w 
k
​
 −a 
k
​
 ⋅ 
g
~
​
 (w 
k
​
 ,η 
k
​
 )
其中：
a 
k
​
 >0
 是步长系数，控制迭代更新的幅度；
负号表示沿观测值的反方向调整，逐步逼近根 
w 
∗
 
。
直观解释
当 
w 
k
​
 >w 
∗
 
 时，若 
g(w)
 单调递增，则 
g(w 
k
​
 )>0
，观测值 
g
~
​
 (w 
k
​
 ,η 
k
​
 )≈g(w 
k
​
 )>0
，迭代后 
w 
k+1
​
 <w 
k
​
 
，更接近 
w 
∗
 
；
当 
w 
k
​
 <w 
∗
 
 时，同理 
g(w 
k
​
 )<0
，迭代后 
w 
k+1
​
 >w 
k
​
 
，也更接近 
w 
∗
 
。
通过持续迭代，
w 
k
​
 
 逐步收敛到真实根 
w 
∗
 
。
## 四、收敛性条件
RM 算法收敛的严格条件由Robbins-Monro 定理给出，需满足以下 3 点：
函数单调性与有界性
g(w)
 的梯度（导数）满足 
0<c 
1
​
 ≤∇ 
w
​
 g(w)≤c 
2
​
 
，即：
g(w)
 单调递增（确保根唯一存在）；
梯度有界（避免迭代发散）。
步长系数条件
步长 
a 
k
​
 
 需满足：
∑ 
k=1
∞
​
 a 
k
​
 =∞且∑ 
k=1
∞
​
 a 
k
2
​
 <∞
第一个条件确保步长不会收敛到 0 太快，保证迭代能 “到达” 根；
第二个条件确保步长最终趋于 0，避免迭代震荡。
典型的步长选择为 
a 
k
​
= 
k
1
​
 
（满足上述条件）。
噪声条件
观测噪声 
η 
k
​
 
 满足：
E[η 
k
​
 ∣H 
k
​
 ]=0且E[η 
k
2
​
 ∣H 
k
​
 ]<∞
其中 
H 
k
​
 
是第 
k
次迭代的历史信息。即噪声均值为 0 且方差有界，避免噪声主导迭代。
## 五、应用场景
均值估计
估计随机变量 
X
 的期望 
E[X]
 可转化为求解 
g(w)=w−E[X]=0
，此时 RM 算法退化为迭代均值估计：
w 
k+1
​
 =w 
k
​
 −a 
k
​
 (w 
k
​
 −x 
k
​
 )
其中 
x 
k
​
 
是 
X
的采样。
强化学习中的价值估计
时序差分（TD）学习的更新公式本质上是 RM 算法的特例，用于在无模型场景下估计状态 / 动作价值。
黑盒优化
当目标函数无法显式表达（如神经网络）时，通过 RM 算法可求解其极值点（梯度为 0 的点）。
## 六、关键结论
RM 算法是处理未知函数方程求解的强大工具，仅需含噪声的观测数据；
步长系数的选择是收敛的关键，需平衡迭代速度与稳定性；
作为随机梯度下降（SGD）和时序差分（TD）学习的理论基础，RM 算法为理解更复杂的迭代优化方法提供了框架。