符号 | 说明 |
---|---|
RL | 强化学习 (Reinforcement Learning) |
MFRL | 免模型强化学习 (Model-free Reinforcement Learning) |
MBRL | 基于模型的强化学习 (Model-based Reinforcement Learning) |
MARL | 多智能体强化学习 (Multi-agent Reinforcement Learning) |
MetaRL | 元强化学习 (Meta Reinforcement Learning) |
IL | 模仿学习 (Imitation Learning) |
On-policy | 同策略 |
Off-policy | 异策略 |
MDP | 马尔科夫决策过程 (Markov Decision Process) |
POMDP | 部分可观测马尔科夫决策过程 (Partially Observable Markov Decision Process) |
Agent | 智能体 |
π,Policy | 策略 |
Actor | 动作(网络),又称作策略(网络) |
Critic | 评价(网络) |
s ∈ 𝒮,State | 状态 |
o ∈ 𝒪,Observation | 观测值,为状态的一部分,o ⊆ s |
a ∈ 𝒜,Action | 动作 |
r ∈ ℛ,Reward | 奖励 |
d ∈ {0, 1},Done | 结束符,0表示未结束,1表示结束 |
st, ot, at, rt, dt | 在一个轨迹中时刻 t 的状态、观测值、动作、奖励和结束符 |
Pss′a ∈ 𝒫 | 在当前状态 s 采取动作 a 之后,转移到状态 s′ 的概率;Pss′a = ℙ{st + 1 = s′|st = s, at = a} |
Rsa | 在当前状态 s 采取动作 a 之后所能获得的期望奖励;Rsa = 𝔼[rt|st = s, at = a] |
γ | 折扣因子,作为对未来回报不确定性的一个约束项,γ ∈ [0, 1] |
Gt,Return | 累计折扣回报, |
π(a|s) | 随机性策略,表示获取状态 s 之后采取的动作 a 的概率 |
π(s) | 确定性策略,表示获取状态 s 之后采取的动作 |
V(s) | 状态值函数(State-Value Function),表示状态 s 对应的期望累计折扣回报 |
Vπ(s) | 使用策略 π 所对应的状态值函数,Vπ(s) = 𝔼π[Gt|st = s] |
Q(s, a) | 动作值函数(Action-Value Function),表示状态 s 下采取动作 a 所对应的期望累计折扣回报 |
Qπ(s, a) | 使用策略 π 所对应的动作值函数,Qπ(s, a) = 𝔼a ∼ π[Gt|st = s, at = a] |
A(s, a) | 优势函数,A(s, a) = Q(s, a) − V(s) |
Batch | 数据组 |
Buffer | 数据缓冲区 |
Replay Buffer | 重放缓冲区 |
RNN | 循环神经网络(Recurrent Neural Network) |