Skip to content

Latest commit

 

History

History
142 lines (75 loc) · 3.34 KB

强化学习.md

File metadata and controls

142 lines (75 loc) · 3.34 KB

[TOC]

强化学习

001 强化学习解决的是什么样的问题?

  • TODO

002 举出强化学习与有监督学习的异同点。有监督学习靠样本标签训练模型,强化学习靠的是什么?

  • TODO

003 强化学习的损失函数(loss function)是什么?

  • TODO

004 写贝尔曼方程(Bellman Equation)

  • TODO

参考资料

005 最优值函数和最优策略为什么等价?

  • TODO

006 求解马尔科夫决策过程都有哪些方法?

  • TODO

007 简述蒙特卡罗估计值函数的算法。

  • TODO

008 简述时间差分算法

  • TODO

009 介绍Q-Learning

  • TODO

参考资料

010 介绍DQN算法

  • TODO

参考资料

011 DQN的两个关键trick分别是什么?

  • TODO

012 DQN都有哪些变种?

  • TODO

013 引入状态奖励的是哪种DQN?

  • TODO

014 介绍OpenAI用的PPO算法

  • TODO

015 介绍TRPO算法

  • TODO

016 为什么TRPO能保证新策略的回报函数单调不减?

  • TODO

017 介绍DDPG算法

018 画出DDPG框架

019 DDPG中的第二个D 为什么要确定?

  • TODO

020 介绍A3C算法

  • TODO

参考资料

021 A3C中优势函数意义

  • TODO

022 强化学习如何用在推荐系统中?

  • TODO

参考资料

023 介绍Sarsa算法

  • TODO

参考资料

024 Sarsa和Q-Learning区别

  • TODO

参考资料

参考资料