diff --git "a/docs/\345\274\272\345\214\226\345\255\246\344\271\240.md" "b/docs/\345\274\272\345\214\226\345\255\246\344\271\240.md" index 3f36124..e773456 100755 --- "a/docs/\345\274\272\345\214\226\345\255\246\344\271\240.md" +++ "b/docs/\345\274\272\345\214\226\345\255\246\344\271\240.md" @@ -62,7 +62,8 @@ ### DQN的两个关键trick分别是什么? -- [ ] TODO +- Replay buffer: 经验回放,训练过程中从经验池中随机采样更新网络参数,一方面打破样本相关性,另一方面提高样本效率(一个样本可能多次参与网络参数更新) +- Fixed Q-targets: 在更新Q网络参数时,用以计算$q_{target}$的网络参数是上一次迭代前的网络参数$\theta_{i-1}$,当前q值是根据网络参数为$\theta_{i}$的Q网络得出,这也是一种打乱相关性的机理。 ### DQN 都有哪些变种?DQN有哪些改进方向?