From b6a8474b5f19e565c3d757a6987ee2a0dbb82e0b Mon Sep 17 00:00:00 2001 From: Greta Date: Tue, 2 Nov 2021 17:20:31 +0800 Subject: [PATCH] =?UTF-8?q?Update=20=E5=BC=BA=E5=8C=96=E5=AD=A6=E4=B9=A0.m?= =?UTF-8?q?d?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit add answer to the question:DQN的两个关键trick分别是什么? --- "docs/\345\274\272\345\214\226\345\255\246\344\271\240.md" | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git "a/docs/\345\274\272\345\214\226\345\255\246\344\271\240.md" "b/docs/\345\274\272\345\214\226\345\255\246\344\271\240.md" index 3f36124..e773456 100755 --- "a/docs/\345\274\272\345\214\226\345\255\246\344\271\240.md" +++ "b/docs/\345\274\272\345\214\226\345\255\246\344\271\240.md" @@ -62,7 +62,8 @@ ### DQN的两个关键trick分别是什么? -- [ ] TODO +- Replay buffer: 经验回放,训练过程中从经验池中随机采样更新网络参数,一方面打破样本相关性,另一方面提高样本效率(一个样本可能多次参与网络参数更新) +- Fixed Q-targets: 在更新Q网络参数时,用以计算$q_{target}$的网络参数是上一次迭代前的网络参数$\theta_{i-1}$,当前q值是根据网络参数为$\theta_{i}$的Q网络得出,这也是一种打乱相关性的机理。 ### DQN 都有哪些变种?DQN有哪些改进方向?