-
Notifications
You must be signed in to change notification settings - Fork 1.7k
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
/chapter12/chapter12 #45
Comments
请问DDPG跟Chapter9里的Pathwise Derivative Policy Gradient有什么区别呢? |
您好,DDPG 是 Pathwise Derivative Policy Gradient 方法的一种实现,具体可参考: |
您好,该句后半段 “它的目标是要让每一场表演都获得观众尽可能多的欢呼声跟掌声,也就是要最大化未来的总收益。”,感觉描述的不太恰当。因为从网络结构上来看,就像后文说的,Critic更多的是去准确评价Actor每个动作的长期收益,并不直接最大化长期收益,实际上最大化长期收益是由Actor根据Critic的评价结果来完成的。 不知道我的理解是否正确,编者请参考一下。 |
感谢您的反馈,这句话确实不妥,已改成 Critic 的最终目标是让 Actor 的表演获得观众尽可能多的欢呼声和掌声,从而最大化未来的总收益 。 |
作者大大你好,DDPG代码中的OU噪声部分,里面控制布朗运动的self.sigma参数,按照初始化给的值,始终是个常数0.3,这个与注释中写的self.sigma应该是随训练步长逐步衰减是相悖的 |
感谢提醒,其实这个参数可衰减可不衰减,根据调参需求来,跟dqn中e-greedy策略的e一样,注释可能没写清楚 |
作者你好,我有一个不成熟的理解,关于图12.4下面第一句话感觉不够严谨,这是我自己推敲出来问gpt确认的。 |
https://datawhalechina.github.io/easy-rl/#/chapter12/chapter12
Description
The text was updated successfully, but these errors were encountered: