/chapter12/chapter12 #45

qiwang067 · 2021-05-15T05:46:56Z

https://datawhalechina.github.io/easy-rl/#/chapter12/chapter12

Description

JimmyYoungggg · 2022-01-12T22:32:38Z

请问DDPG跟Chapter9里的Pathwise Derivative Policy Gradient有什么区别呢？

qiwang067 · 2022-01-13T07:08:32Z

请问DDPG跟Chapter9里的Pathwise Derivative Policy Gradient有什么区别呢？

您好，DDPG 是 Pathwise Derivative Policy Gradient 方法的一种实现，具体可参考：
http://rail.eecs.berkeley.edu/deeprlcoursesp17/docs/lec7.pdf

Huaisheng-Ye · 2022-03-08T01:03:31Z

Critic 则是要根据观众的反馈，也就是环境的反馈 reward 来调整自己的打分策略，也就是要更新 critic 的神经网络的参数 ww ，它的目标是要让每一场表演都获得观众尽可能多的欢呼声跟掌声，也就是要最大化未来的总收益。

您好，该句后半段 “它的目标是要让每一场表演都获得观众尽可能多的欢呼声跟掌声，也就是要最大化未来的总收益。”，感觉描述的不太恰当。因为从网络结构上来看，就像后文说的，Critic更多的是去准确评价Actor每个动作的长期收益，并不直接最大化长期收益，实际上最大化长期收益是由Actor根据Critic的评价结果来完成的。

不知道我的理解是否正确，编者请参考一下。

qiwang067 · 2022-04-01T12:44:35Z

Critic 则是要根据观众的反馈，也就是环境的反馈 reward 来调整自己的打分策略，也就是要更新 critic 的神经网络的参数 ww ，它的目标是要让每一场表演都获得观众尽可能多的欢呼声跟掌声，也就是要最大化未来的总收益。
您好，该句后半段 “它的目标是要让每一场表演都获得观众尽可能多的欢呼声跟掌声，也就是要最大化未来的总收益。”，感觉描述的不太恰当。因为从网络结构上来看，就像后文说的，Critic更多的是去准确评价Actor每个动作的长期收益，并不直接最大化长期收益，实际上最大化长期收益是由Actor根据Critic的评价结果来完成的。

不知道我的理解是否正确，编者请参考一下。

感谢您的反馈，这句话确实不妥，已改成 Critic 的最终目标是让 Actor 的表演获得观众尽可能多的欢呼声和掌声，从而最大化未来的总收益 。

cugerQDHJ · 2022-12-23T10:51:33Z

作者大大你好，DDPG代码中的OU噪声部分，里面控制布朗运动的self.sigma参数，按照初始化给的值，始终是个常数0.3，这个与注释中写的self.sigma应该是随训练步长逐步衰减是相悖的

johnjim0816 · 2022-12-24T11:33:10Z

作者大大你好，DDPG代码中的OU噪声部分，里面控制布朗运动的self.sigma参数，按照初始化给的值，始终是个常数0.3，这个与注释中写的self.sigma应该是随训练步长逐步衰减是相悖的

感谢提醒，其实这个参数可衰减可不衰减，根据调参需求来，跟dqn中e-greedy策略的e一样，注释可能没写清楚

violaBook · 2023-04-22T02:03:00Z

作者你好，我有一个不成熟的理解，关于图12.4下面第一句话感觉不够严谨，这是我自己推敲出来问gpt确认的。
问题：DDPG 是深度Q网络的一个扩展版本，可以扩展到连续动作空间。感觉这句话不是很对，因为ddpg是从pg和ac这边推倒出来的，而不是dqn这边的原理。只不过借鉴了dqn的部分思想来帮助训练。所以更像是ac的一个扩展而不是dqn的一个扩展？
ＧＰＴ的回答：你说得没错。DDPG是从Actor-Critic算法中推导而来，主要针对连续动作空间的问题。虽然在实现过程中借鉴了DQN中的一些思想，但是DDPG的核心是Actor-Critic算法，而不是DQN。所以可以说，DDPG是Actor-Critic算法的一种扩展，而不是DQN的扩展。
你们可以看看是不是这个道理，我一直对这句话有困惑，因为他们的推倒根基不同，所以这样说更好一点：ｄｄｐｇ是ａｃ的一个扩展版本，通过ＤＱＮ的部分训练方法帮助训练。

qiwang067 added Gitalk /chapter12/chapter12 labels May 15, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

/chapter12/chapter12 #45

/chapter12/chapter12 #45

qiwang067 commented May 15, 2021

JimmyYoungggg commented Jan 12, 2022

qiwang067 commented Jan 13, 2022

Huaisheng-Ye commented Mar 8, 2022

qiwang067 commented Apr 1, 2022

cugerQDHJ commented Dec 23, 2022

johnjim0816 commented Dec 24, 2022

violaBook commented Apr 22, 2023

/chapter12/chapter12 #45

/chapter12/chapter12 #45

Comments

qiwang067 commented May 15, 2021

JimmyYoungggg commented Jan 12, 2022

qiwang067 commented Jan 13, 2022

Huaisheng-Ye commented Mar 8, 2022

qiwang067 commented Apr 1, 2022

cugerQDHJ commented Dec 23, 2022

johnjim0816 commented Dec 24, 2022

violaBook commented Apr 22, 2023