From b6a8474b5f19e565c3d757a6987ee2a0dbb82e0b Mon Sep 17 00:00:00 2001
From: Greta <yuyu9601@outlook.com>
Date: Tue, 2 Nov 2021 17:20:31 +0800
Subject: [PATCH] =?UTF-8?q?Update=20=E5=BC=BA=E5=8C=96=E5=AD=A6=E4=B9=A0.m?=
 =?UTF-8?q?d?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

add answer to the question:DQN的两个关键trick分别是什么？
---
 "docs/\345\274\272\345\214\226\345\255\246\344\271\240.md" | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git "a/docs/\345\274\272\345\214\226\345\255\246\344\271\240.md" "b/docs/\345\274\272\345\214\226\345\255\246\344\271\240.md"
index 3f36124..e773456 100755
--- "a/docs/\345\274\272\345\214\226\345\255\246\344\271\240.md"
+++ "b/docs/\345\274\272\345\214\226\345\255\246\344\271\240.md"
@@ -62,7 +62,8 @@
 
 ### DQN的两个关键trick分别是什么？
 
-- [ ] TODO
+- Replay buffer: 经验回放，训练过程中从经验池中随机采样更新网络参数，一方面打破样本相关性，另一方面提高样本效率（一个样本可能多次参与网络参数更新） 
+- Fixed Q-targets: 在更新Q网络参数时，用以计算$q_{target}$的网络参数是上一次迭代前的网络参数$\theta_{i-1}$，当前q值是根据网络参数为$\theta_{i}$的Q网络得出，这也是一种打乱相关性的机理。
 
 ### DQN 都有哪些变种？DQN有哪些改进方向？