Skip to content

Latest commit

 

History

History
79 lines (76 loc) · 3.09 KB

notation.rst

File metadata and controls

79 lines (76 loc) · 3.09 KB

主要符号对照表

符号 说明
RL 强化学习 (Reinforcement Learning)
MFRL 免模型强化学习 (Model-free Reinforcement Learning)
MBRL 基于模型的强化学习 (Model-based Reinforcement Learning)
MARL 多智能体强化学习 (Multi-agent Reinforcement Learning)
MetaRL 元强化学习 (Meta Reinforcement Learning)
IL 模仿学习 (Imitation Learning)
On-policy 同策略
Off-policy 异策略
MDP 马尔科夫决策过程 (Markov Decision Process)
POMDP 部分可观测马尔科夫决策过程 (Partially Observable Markov Decision Process)
Agent 智能体
π,Policy 策略
Actor 动作(网络),又称作策略(网络)
Critic 评价(网络)
s ∈ 𝒮,State 状态
o ∈ 𝒪,Observation 观测值,为状态的一部分,o ⊆ s
a ∈ 𝒜,Action 动作
r ∈ ℛ,Reward 奖励
d ∈ {0, 1},Done 结束符,0表示未结束,1表示结束
st, ot, at, rt, dt 在一个轨迹中时刻 t 的状态、观测值、动作、奖励和结束符
Pssa ∈ 𝒫 在当前状态 s 采取动作 a 之后,转移到状态 s 的概率;Pssa = ℙ{st + 1 = s|st = s, at = a}
Rsa 在当前状态 s 采取动作 a 之后所能获得的期望奖励;Rsa = 𝔼[rt|st = s, at = a]
γ 折扣因子,作为对未来回报不确定性的一个约束项,γ ∈ [0, 1]
Gt,Return 累计折扣回报,$G_t=\sum_{i=t}^\infty \gamma^{i-t} r_{i}$
π(a|s) 随机性策略,表示获取状态 s 之后采取的动作 a 的概率
π(s) 确定性策略,表示获取状态 s 之后采取的动作
V(s) 状态值函数(State-Value Function),表示状态 s 对应的期望累计折扣回报
Vπ(s) 使用策略 π 所对应的状态值函数,Vπ(s) = 𝔼π[Gt|st = s]
Q(s, a) 动作值函数(Action-Value Function),表示状态 s 下采取动作 a 所对应的期望累计折扣回报
Qπ(s, a) 使用策略 π 所对应的动作值函数,Qπ(s, a) = 𝔼a ∼ π[Gt|st = s, at = a]
A(s, a) 优势函数,A(s, a) = Q(s, a) − V(s)
Batch 数据组
Buffer 数据缓冲区
Replay Buffer 重放缓冲区
RNN 循环神经网络(Recurrent Neural Network)