Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

/chapter12/chapter12 #45

Open
qiwang067 opened this issue May 15, 2021 · 7 comments
Open

/chapter12/chapter12 #45

qiwang067 opened this issue May 15, 2021 · 7 comments

Comments

@qiwang067
Copy link
Contributor

https://datawhalechina.github.io/easy-rl/#/chapter12/chapter12

Description

@JimmyYoungggg
Copy link

请问DDPG跟Chapter9里的Pathwise Derivative Policy Gradient有什么区别呢?

@qiwang067
Copy link
Contributor Author

请问DDPG跟Chapter9里的Pathwise Derivative Policy Gradient有什么区别呢?

您好,DDPG 是 Pathwise Derivative Policy Gradient 方法的一种实现,具体可参考:
http://rail.eecs.berkeley.edu/deeprlcoursesp17/docs/lec7.pdf

@Huaisheng-Ye
Copy link

Critic 则是要根据观众的反馈,也就是环境的反馈 reward 来调整自己的打分策略,也就是要更新 critic 的神经网络的参数 ww ,它的目标是要让每一场表演都获得观众尽可能多的欢呼声跟掌声,也就是要最大化未来的总收益。

您好,该句后半段 “它的目标是要让每一场表演都获得观众尽可能多的欢呼声跟掌声,也就是要最大化未来的总收益。”,感觉描述的不太恰当。因为从网络结构上来看,就像后文说的,Critic更多的是去准确评价Actor每个动作的长期收益,并不直接最大化长期收益,实际上最大化长期收益是由Actor根据Critic的评价结果来完成的。

不知道我的理解是否正确,编者请参考一下。

@qiwang067
Copy link
Contributor Author

Critic 则是要根据观众的反馈,也就是环境的反馈 reward 来调整自己的打分策略,也就是要更新 critic 的神经网络的参数 ww ,它的目标是要让每一场表演都获得观众尽可能多的欢呼声跟掌声,也就是要最大化未来的总收益。

您好,该句后半段 “它的目标是要让每一场表演都获得观众尽可能多的欢呼声跟掌声,也就是要最大化未来的总收益。”,感觉描述的不太恰当。因为从网络结构上来看,就像后文说的,Critic更多的是去准确评价Actor每个动作的长期收益,并不直接最大化长期收益,实际上最大化长期收益是由Actor根据Critic的评价结果来完成的。

不知道我的理解是否正确,编者请参考一下。

感谢您的反馈,这句话确实不妥,已改成 Critic 的最终目标是让 Actor 的表演获得观众尽可能多的欢呼声和掌声,从而最大化未来的总收益

@cugerQDHJ
Copy link

作者大大你好,DDPG代码中的OU噪声部分,里面控制布朗运动的self.sigma参数,按照初始化给的值,始终是个常数0.3,这个与注释中写的self.sigma应该是随训练步长逐步衰减是相悖的

@johnjim0816
Copy link
Contributor

作者大大你好,DDPG代码中的OU噪声部分,里面控制布朗运动的self.sigma参数,按照初始化给的值,始终是个常数0.3,这个与注释中写的self.sigma应该是随训练步长逐步衰减是相悖的

感谢提醒,其实这个参数可衰减可不衰减,根据调参需求来,跟dqn中e-greedy策略的e一样,注释可能没写清楚

@violaBook
Copy link

作者你好,我有一个不成熟的理解,关于图12.4下面第一句话感觉不够严谨,这是我自己推敲出来问gpt确认的。
问题:DDPG 是 深度Q网络的一个扩展版本,可以扩展到连续动作空间。感觉这句话不是很对,因为ddpg是从pg和ac这边推倒出来的,而不是dqn这边的原理。只不过借鉴了dqn的部分思想来帮助训练。所以更像是ac的一个扩展而不是dqn的一个扩展?
GPT的回答:你说得没错。DDPG是从Actor-Critic算法中推导而来,主要针对连续动作空间的问题。虽然在实现过程中借鉴了DQN中的一些思想,但是DDPG的核心是Actor-Critic算法,而不是DQN。所以可以说,DDPG是Actor-Critic算法的一种扩展,而不是DQN的扩展。
你们可以看看是不是这个道理,我一直对这句话有困惑,因为他们的推倒根基不同,所以这样说更好一点:ddpg是ac的一个扩展版本,通过DQN的部分训练方法帮助训练。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

6 participants