amusi · Malena-yy · Nov 2, 2021
diff --git a/docs/强化学习.md b/docs/强化学习.md
@@ -62,7 +62,8 @@
 
 ### DQN的两个关键trick分别是什么？
 
-- [ ] TODO
+- Replay buffer: 经验回放，训练过程中从经验池中随机采样更新网络参数，一方面打破样本相关性，另一方面提高样本效率（一个样本可能多次参与网络参数更新） 
+- Fixed Q-targets: 在更新Q网络参数时，用以计算$q_{target}$的网络参数是上一次迭代前的网络参数$\theta_{i-1}$，当前q值是根据网络参数为$\theta_{i}$的Q网络得出，这也是一种打乱相关性的机理。
 
 ### DQN 都有哪些变种？DQN有哪些改进方向？