# 强化学习
* 强化学习就是程序或智能体（agent）通过与环境不断地进行交互学习一个从环境到动作的映射，学习的目标就是使累计回报最大化。
* 强化学习是一种试错学习，因其在各种状态（环境）下需要尽量尝试所有可以选择的动作，通过环境给出的反馈（即奖励）来判断动作的优劣，最终获得环境和最优动作的映射关系（即策略）。
## 马尔可夫决策过程
* 马尔可夫决策过程（Markov DecisionProcess）通常用来描述一个强化学习问题
* 智能体agent根据当前对环境的观察采取动作获得环境的反馈，并使环境发生改变的循环过程。
### MDP 基本元素
* $s∈S$:有限状态state集合，s表示某个特定状态；
* $a∈A$:有限动作action集合，a表示某个特定动作；
* $T(S, a, S’)$~$Pr(s’|s,a)$: 状态转移模型, 根据当前状态s和动作a预测下一个状态s，这里的Pr表示从s采取行动a转移到s’的概率；
* $R(s,a)$:表示agent采取某个动作后的即时奖励，它还有 $R(s,a,s’)$,
* $R(s)$ 等表现形式；
* $Policy π(s)→a$: 根据当前state来产生action，可表现为$a=π(s)$或
* $π(a|s) = P（a|s）$，后者表示某种状态下执行某个动作的概率。
### 值函数
* **状态值函数V** 表示执行策略π能得到的累计折扣奖励：<br/>
$𝑽^{𝝅}(𝒔) = 𝑹 (𝒔, 𝒂) + γ\sum_{𝐬′∈𝐒}𝒑(𝒔′|𝒔, 𝝅(𝒔)) 𝑽^{𝝅} (𝒔′)$
* **状态动作值函数Q(s,a)** 表示在状态s下执行动作a能得到的累计折扣奖励：<br/>
$𝑸^{𝝅}(𝒔, 𝒂) = 𝑹(𝒔, 𝒂 )+ γ\sum_{𝐬′∈𝐒}𝒑(𝒔′|𝒔, 𝝅(𝒔)) 𝑸^{𝝅} (𝒔′,𝝅(𝒔′))$
### 最优值函数
* $𝑽^{*}(𝒔) = 𝒎𝒂𝒙_{𝒂∈𝑨}[𝑹 (𝒔, 𝒂) + γ\sum_{𝐬′∈𝐒}𝒑(𝒔′|𝒔, 𝒂) 𝑽^{*} (𝒔′)]$
* $𝑸^{*}(𝒔, 𝒂) = 𝑹(𝒔, 𝒂 )+ γ\sum_{𝐬′∈𝐒}𝒑(𝒔′|𝒔, 𝒂) 𝒎𝒂𝒙_{𝒃∈𝑨}𝑸^{*} (𝒔′,𝒃)$
### 最优控制
* $ 𝝅(𝒔) = 𝒂𝒓𝒈𝒎𝒂𝒙_{𝒂∈𝑨}[𝑹 (𝒔, 𝒂) + γ\sum_{𝐬′∈𝐒}𝒑(𝒔′|𝒔, 𝒂) 𝑽^{*} (𝒔′)]$
* $𝝅 (𝒔) = 𝒂𝒓𝒈𝒎𝒂𝒙_{𝒂∈𝑨 }𝑸∗( 𝒔, 𝒂)$
* $𝑽^{∗}( 𝒔) = 𝒎𝒂𝒙_{𝒂∈𝑨 }𝑸∗ (𝒔, 𝒂)$
## 蒙特卡洛强化学习
* 在现实的强化学习任务中，环境的转移概率、奖励函数往往很难得知，甚至很难得知环境中有多少状态。若学习算法不再依赖于环境建模，则称为免模型学习，蒙特卡洛强化学习就是其中的一种。
* 蒙特卡洛强化学习使用多次采样，然后求取平均累计奖赏作为期望累计奖赏的近似。<br/>
$<s0,a0,r1,s1,a1,r2,…,sT-1,aT-1,rT,sT>$<br/>
* 蒙特卡洛强化学习直接对状态动作值函数Q(s,a)进行估计，每采样一条轨迹，就根据轨迹中的所有“状态-动作”利用下面的公式对来对值函数进行更新。</br>
$𝑸(𝒔, 𝒂) = \frac{𝐐 (𝐬, 𝐚) ∗ 𝐜𝐨𝐮𝐧𝐭 (𝐬, 𝐚) + 𝐑}{𝐜𝐨𝐮𝐧𝐭 (𝐬, 𝐚) +1}$<br/>
* 每次采样更新完所有的“状态-动作”对所对应的Q(s,a)，就需要更新采样策略π。但由于策略可能是确定性的，即一个状态对应一个动作，多次采样可能获得相同的采样轨迹，因此需要借助ε贪心策略：</br>
$ 𝝅( 𝒔, 𝒂 )=\left \{  \frac{𝒂𝒓𝒈𝒎𝒂𝒙_{𝒂}𝑸(𝒔, 𝒂)    以概率𝜺}{随机从𝑨中选取动作    以概率𝟏 − 𝜺} \right \} $<br/>
* 蒙特卡洛强化学习算法需要采样一个完整的轨迹来更新值函数，效率较低，此外该算法没有充分利用强化学习任务的序贯决策结构。
* Q-learning算法结合了动态规划与蒙特卡洛方法的思想，使得学习更加高效。
## Q-learning算法

# 深度强化学习
## 深度强化学习（DRL）
* 传统强化学习：真实环境中的状态数目过多，求解困难。
* 深度强化学习：将深度学习和强化学习结合在一起，通过深度神经网络直接学习环境（或观察）与状态动作值函数Q(s,a)之间的映射关系，简化问题的求解。
## Deep Q Network（DQN）
* Deep Q Network（DQN）：是将神经网络(neural network) 和Q-learning结合，利用神经网络近似模拟函数Q(s,a)，输入是问题的状态（e.g.,图形），输出是每个动作a对应的Q值，然后依据Q值大小选择对应状态执行的动作，以完成控制。
* 神经网络的参数：应用监督学习完成
* 学习流程：
    1. 状态s输入，获得所有动作对应的Q值Q(s,a)；
    2. 选择对应Q值最大的动作 a′ 并执行；
    3. 执行后环境发生改变，并能够获得环境的奖励r；
    4. 利用奖励r更新Q(s, a′ )--强化学习利用新的Q(s, a′ )更新网络参数—监督学习

# Flappy Bird自主学习程序基本框架
## 程序基本框架
### 程序与模拟器交互
训练过程也就是神经网络（agent）不断与游戏模拟器（Environment）进行交互，通过模拟器获得状态，给出动作，改变模拟器中的状态，获得反馈，依据反馈更新策略的过程。
### 训练过程
训练过程过程主要分为以下三个阶段：
1. 观察期（OBSERVE）：程序与模拟器进行交互，随机给出动作，获取模拟器中的状态，将状态转移过程存放在D（Replay Memory）中；
2. 探索期（EXPLORE）：程序与模拟器交互的过程中，依据ReplayMemory中存储的历史信息更新网络参数，并随训练过程降低随机探索率ε;
3. 训练期（TRAIN）：ε已经很小，不再发生改变，网络参数随着训练过程不断趋于稳定。
### 整体框架—观察期
1. 打开游戏模拟器，不执行跳跃动作，获取游戏的初始状态
2. 根据ε贪心策略获得一个动作（由于神经网络参数也是随机初始化的，在本阶段参数也不会进行更新，所以统称为随机动作），并根据迭代次数减小ε的大小
3. 由模拟器执行选择的动作，能够返回新的状态和反馈奖励
4. 将上一状态s，动作a，新状态s‘，反馈r组装成（s，a，s’，r）放进Replay Memory中用作以后的参数更新
5. 根据新的状态s‘，根据ε贪心策略选择下一步执行的动作，周而复始，直至迭代次数到达探索期
### 整体框架—探索期
探索期与观察期的唯一区别在于会根据抽样对网络参数进行更新。
1. 迭代次数达到一定数目，进入探索期，根据当前状态s，使用ε贪心策略选择一个动作（可以是随机动作或者由神经网络选择动作），并根据迭代次数减小ε的值
2. 由模拟器执行选择的动作，能够返回新的状态和反馈奖励
3. 将上一状态s，动作a，新状态s‘，反馈r组装成（s，a，s’，r）放进Replay Memory中用作参数更新
4. 从Replay Memory中抽取一定量的样本，对神经网络的参数进行更新
5. 根据新的状态s‘，根据ε贪心策略选择下一步执行的动作，周而复始，直至迭代次数到达训练期
### 整体框架—训练期
* 迭代次数达到一定数目，进入训练期，本阶段跟探索期的过程相同，只是在迭代过程中不再修改ε的值
### 模拟器
游戏模拟器：使用Python的Pygame模块完成的FlappyBird游戏程序，为了配合训练过程，在原有的游戏程序基础上进行了修改。
链接：https://github.com/sourabhv/FlapPyBird
### 动作选择模块
为ε贪心策略的简单应用，以概率ε随机从动作空间A中选择动作，以1-ε概率依靠神经网络的输出选择动作
## 深度神经网络-CNN
* DQN：用卷积神经网络对游戏画面进行特征提取，这个步骤可以理解为对状态的提取。
* CNN-卷积核：这里的卷积核指的就是移动中 $3*3$ 大小的矩阵。
* 卷积操作：使用卷积核与数据进行对应位置的乘积并加和，不断移动卷积核生成卷积后的特征。
* 池化操作：对卷积的结果进行操作。最常用的是最大池化操作，即从卷积结果中挑出最大值，如选择一个 $2*2$ 大小的池化窗口。
* 卷积神经网络：把Image矩阵中的每个元素当做一个神经元，那么卷积核就相当于输入神经元和输出神经元之间的链接权重，由此构建而成的网络被称作卷积神经网络。
## 实现
1. 对采集的4张原始图像进行预处理，得到 $80*80*4$ 大小的矩阵；
2. 使用32个 $8*8*4$ 大小步长4的卷积核对以上矩阵进行卷积，得到 $20*20*32$ 大小的矩阵；<br/>
注：在tensorflow中使用4维向量表示卷积核 $[输入通道数，高度，宽度，输出通道数]$ ，对应于上面的 $[4,8,8,32]$ ，可以理解为32个 $8*8*4$ 大小的卷积核；
3. 对以上矩阵进行不重叠的池化操作，池化窗口为 $2*2$ 大小，步长为2，得到 $10*10*32$ 大小的矩阵；
4. 使用64个 $4*4*32$ 大小步长为2的卷积核对以上矩阵进行卷积，得到 $5*5*64$ 的矩阵；
5. 使用64个 $3*3*64$ 大小步长为1的卷积核对以上矩阵进行卷积，
得到$5*5*64$的矩阵；
6. 将输出的 $5*5*64$ 大小的数组进行reshape，得到 $1*1600$ 大小的矩阵；
7. 在之后添加一个全连接层，神经元个数为512；
8. 最后一层也是一个全连接层，神经元个数为2，对应的是就是两个动作的动作值函数；
* 通过获得输入s，神经网络就能够：
1. 输出 $Q(s,a1)$ 和 $Q(s,a2)$ 比较两个值的大小，就能够评判采用动作a1和a2的优劣，从而选择要采取的动作
2. 在选择并执行完采用的动作后，模拟器会更新状态并返回回报值，然后将这个状态转移过程存储进D，进行采样更新网络参数。
* 网络参数更新
1. D中抽取更新使用的样本；
2. 利用神经网络计算 $𝒎𝒂𝒙_{𝒂′}𝑸(𝒔𝟐, 𝒂′) $和$𝑸_{𝒐𝒍𝒅} (𝒔𝟏 , 𝒂𝟏)$ ；
3. 计算 $ 𝑸_{𝒏𝒆𝒘}(𝒔_{𝟏}, 𝒂_{𝟏})$，并通过 $𝑸_{𝒏𝒆𝒘} 𝒔_{𝟏}, 𝒂_{𝟏}$和$𝑸_{𝒐𝒍𝒅} (𝒔_{𝟏} , 𝒂_{𝟏})$ 差值更新网络参数。