主要符号对照表

符号	说明
RL	强化学习 (Reinforcement Learning)
MFRL	免模型强化学习 (Model-free Reinforcement Learning)
MBRL	基于模型的强化学习 (Model-based Reinforcement Learning)
MARL	多智能体强化学习 (Multi-agent Reinforcement Learning)
MetaRL	元强化学习（Meta Reinforcement Learning）
IL	模仿学习 (Imitation Learning)
On-policy	同策略
Off-policy	异策略
MDP	马尔科夫决策过程 (Markov Decision Process)
POMDP	部分可观测马尔科夫决策过程 (Partially Observable Markov Decision Process)
Agent	智能体
π，Policy	策略
Actor	动作（网络），又称作策略（网络）
Critic	评价（网络）
s ∈ 𝒮，State	状态
o ∈ 𝒪，Observation	观测值，为状态的一部分，o ⊆ s
a ∈ 𝒜，Action	动作
r ∈ ℛ，Reward	奖励
d ∈ {0, 1}，Done	结束符，0表示未结束，1表示结束
s_t, o_t, a_t, r_t, d_t	在一个轨迹中时刻 t 的状态、观测值、动作、奖励和结束符
P_ss^′^a ∈ 𝒫	在当前状态 s 采取动作 a 之后，转移到状态 s′ 的概率；P_ss^′^a = ℙ{s_t + 1 = s^′\|s_t = s, a_t = a}
R_s^a	在当前状态 s 采取动作 a 之后所能获得的期望奖励；R_s^a = 𝔼[r_t\|s_t = s, a_t = a]
γ	折扣因子，作为对未来回报不确定性的一个约束项，γ ∈ [0, 1]
G_t，Return	累计折扣回报，$G_t=\sum_{i=t}^\infty \gamma^{i-t} r_{i}$
π(a\|s)	随机性策略，表示获取状态 s 之后采取的动作 a 的概率
π(s)	确定性策略，表示获取状态 s 之后采取的动作
V(s)	状态值函数（State-Value Function），表示状态 s 对应的期望累计折扣回报
V^π(s)	使用策略 π 所对应的状态值函数，V^π(s) = 𝔼_π[G_t\|s_t = s]
Q(s, a)	动作值函数（Action-Value Function），表示状态 s 下采取动作 a 所对应的期望累计折扣回报
Q^π(s, a)	使用策略 π 所对应的动作值函数，Q^π(s, a) = 𝔼_a ∼ π[G_t\|s_t = s, a_t = a]
A(s, a)	优势函数，A(s, a) = Q(s, a) − V(s)
Batch	数据组
Buffer	数据缓冲区
Replay Buffer	重放缓冲区
RNN	循环神经网络（Recurrent Neural Network）

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

notation.rst

notation.rst

主要符号对照表

Files

notation.rst

Latest commit

History

notation.rst

File metadata and controls

主要符号对照表