Reinforcenment_Learning

强化学习（英语：Reinforcement learning，简称RL）是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。这个方法具有普适性，因此在其他许多领域都有研究，例如博弈论、控制论、运筹学、信息论、仿真优化、多主体系统学习、群体智能、统计学以及遗传算法。在运筹学和控制理论研究的语境下，强化学习被称作“近似动态规划”（approximate dynamic programming，ADP）。在最优控制理论中也有研究这个问题，虽然大部分的研究是关于最优解的存在和特性，并非是学习或者近似方面。在经济学和博弈论中，强化学习被用来解释在有限理性的条件下如何出现平衡。

在机器学习问题中，环境通常被规范为马可夫决策过程（MDP），所以许多强化学习算法在这种情况下使用动态规划技巧。传统的技术和强化学习算法的主要区别是，后者不需要关于MDP的知识，而且针对无法找到确切方法的大规模MDP。

强化学习和标准的监督式学习之间的区别在于，它并不需要出现正确的输入/输出对，也不需要精确校正次优化的行为。强化学习更加专注于在线规划，需要在探索（在未知的领域）和遵从（现有知识）之间找到平衡。强化学习中的“探索-遵从”的交换，在多臂老虎机问题和有限MDP中研究得最多。

https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/
https://medium.freecodecamp.org/an-introduction-to-reinforcement-learning-4339519de419
https://en.wikipedia.org/wiki/Reinforcement_learning
Deep Reinforcement Learning Doesn't Work Yet
- https://www.alexirpan.com/2018/02/14/rl-hard.html

Name		Name	Last commit message	Last commit date
Latest commit History 22 Commits
Deep Q-learning with Doom.ipynb		Deep Q-learning with Doom.ipynb
Dynamic_Programming-zh.ipynb		Dynamic_Programming-zh.ipynb
Monte_Carlo-zh.ipynb		Monte_Carlo-zh.ipynb
Q-learning-cart-zh.ipynb		Q-learning-cart-zh.ipynb
README.md		README.md
Temporal_Difference-zh.ipynb		Temporal_Difference-zh.ipynb
chap-深度强化学习.pdf		chap-深度强化学习.pdf
cheatsheet.pdf		cheatsheet.pdf
summary.png		summary.png
动态规划.png		动态规划.png
时间差分方法.png		时间差分方法.png
蒙特卡洛方法.png		蒙特卡洛方法.png
贝尔曼方程.png		贝尔曼方程.png
贝尔曼方程（第 2 部分）.png		贝尔曼方程（第 2 部分）.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Reinforcenment_Learning

About

Releases

Packages

Languages

Zhengqi-Li/Reinforcenment_Learning

Folders and files

Latest commit

History

Repository files navigation

Reinforcenment_Learning

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages