[TOC]

强化学习

001 强化学习解决的是什么样的问题？

TODO

002 举出强化学习与有监督学习的异同点。有监督学习靠样本标签训练模型，强化学习靠的是什么？

TODO

003 强化学习的损失函数（loss function）是什么？

TODO

004 写贝尔曼方程（Bellman Equation）

TODO

参考资料

贝尔曼方程

005 最优值函数和最优策略为什么等价？

TODO

006 求解马尔科夫决策过程都有哪些方法？

TODO

007 简述蒙特卡罗估计值函数的算法。

TODO

008 简述时间差分算法

TODO

009 介绍Q-Learning

TODO

参考资料

Q-Learning
Q-learning算法
【强化学习】Q-Learning算法详解
通过 Q-learning 深入理解强化学习

010 介绍DQN算法

TODO

参考资料

【强化学习】Deep Q Network(DQN)算法详解
强化学习—DQN算法原理详解

011 DQN的两个关键trick分别是什么？

TODO

012 DQN都有哪些变种？

TODO

013 引入状态奖励的是哪种DQN？

TODO

014 介绍OpenAI用的PPO算法

TODO

015 介绍TRPO算法

TODO

016 为什么TRPO能保证新策略的回报函数单调不减？

TODO

017 介绍DDPG算法

018 画出DDPG框架

019 DDPG中的第二个D 为什么要确定？

TODO

020 介绍A3C算法

TODO

参考资料

一文读懂深度强化学习算法 A3C （Actor-Critic Algorithm）
深度强化学习——A3C

021 A3C中优势函数意义

TODO

022 强化学习如何用在推荐系统中？

TODO

参考资料

用强化学习研究推荐系统的前景和难度怎么样？
深度强化学习如何和推荐系统结合起来？
ICML 2019 | 强化学习用于推荐系统，蚂蚁金服提出生成对抗用户模型
最新！五大顶会2019必读的深度推荐系统与CTR预估相关的论文

023 介绍Sarsa算法

TODO

参考资料

AI学习笔记——Sarsa算法

024 Sarsa和Q-Learning区别

TODO

参考资料

强化学习(五)：Sarsa算法与Q-Learning算法
强化学习中的Q-learning算法和Sarsa算法的区别
Bourne强化学习笔记2：彻底搞清楚什么是Q-learning与Sarsa

参考资料

再励学习面试真题
强化学习面经

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

强化学习.md

强化学习.md

强化学习

001 强化学习解决的是什么样的问题？

002 举出强化学习与有监督学习的异同点。有监督学习靠样本标签训练模型，强化学习靠的是什么？

003 强化学习的损失函数（loss function）是什么？

004 写贝尔曼方程（Bellman Equation）

005 最优值函数和最优策略为什么等价？

006 求解马尔科夫决策过程都有哪些方法？

007 简述蒙特卡罗估计值函数的算法。

008 简述时间差分算法

009 介绍Q-Learning

010 介绍DQN算法

011 DQN的两个关键trick分别是什么？

012 DQN都有哪些变种？

013 引入状态奖励的是哪种DQN？

014 介绍OpenAI用的PPO算法

015 介绍TRPO算法

016 为什么TRPO能保证新策略的回报函数单调不减？

017 介绍DDPG算法

018 画出DDPG框架

019 DDPG中的第二个D 为什么要确定？

020 介绍A3C算法

021 A3C中优势函数意义

022 强化学习如何用在推荐系统中？

023 介绍Sarsa算法

024 Sarsa和Q-Learning区别

参考资料

Files

强化学习.md

Latest commit

History

强化学习.md

File metadata and controls

强化学习

001 强化学习解决的是什么样的问题？

002 举出强化学习与有监督学习的异同点。有监督学习靠样本标签训练模型，强化学习靠的是什么？

003 强化学习的损失函数（loss function）是什么？

004 写贝尔曼方程（Bellman Equation）

005 最优值函数和最优策略为什么等价？

006 求解马尔科夫决策过程都有哪些方法？

007 简述蒙特卡罗估计值函数的算法。

008 简述时间差分算法

009 介绍Q-Learning

010 介绍DQN算法

011 DQN的两个关键trick分别是什么？

012 DQN都有哪些变种？

013 引入状态奖励的是哪种DQN？

014 介绍OpenAI用的PPO算法

015 介绍TRPO算法

016 为什么TRPO能保证新策略的回报函数单调不减？

017 介绍DDPG算法

018 画出DDPG框架

019 DDPG中的第二个D 为什么要确定？

020 介绍A3C算法

021 A3C中优势函数意义

022 强化学习如何用在推荐系统中？

023 介绍Sarsa算法

024 Sarsa和Q-Learning区别

参考资料