# 1、RL简介  
## review 两种机器学习类型 ：
### 有监督学习和无监督学习属于预测型；强化学习属于决策型

**预测**
* 根据数据预测所需输出（有监督学习）
* 生成数据实例（无监督学习）  

**决策**  
***会引起环境的改变***     
* 在动态环境中采取行动（强化学习）
转变到新的状态  
获得即时奖励  
随着时间推移**最大化累计奖励**


### 定义  
* 通过从交互中学习来实现目标的计算方法  
* 在动态环境中去优化采取的行动使得随着时间推移最大化累计奖励的机器学习——强化学习
![agent模型](.\pic\agent.png)
* 三个方面：  
1、 感知——环境   
2、 行动——可以采取行动来改变状态、达到目标  
3、 目标——随着时间推移最大化累计奖励  


## RL系统要素
### 历史History(观察、行动、奖励的序列）  
$$ H_t = O_1,R_1,A_1,O_2,R_2,A_2,...,O_{t-1},R_{t-1},A_{t-1},O_t,R_t$$  
### 状态State——**确定下一步发生的事**  
 是关于历史的函数$$ S_t = f(H_t) $$
### 策略Policy Agent在特定状态s下的行为方式  
1、确定性策略$$a=\pi(s)$$  
2、随机策略$$\pi(a|s)=P(A_t = a|S_t = s)$$
### 奖励Reward  
1、一个维度——方便比较好坏（标量）
### 价值函数Value Function  
1、状态价值是一个标量，定义**长期**什么是好的  
2、对未来累计奖励的预测  
    用于评估在给定策略S下，状态的好坏
$$ \nu(s) = E_\pi[R_{t+1}+{\gamma}R_{t+2}+\gamma^2R_{t+3}+...|S_t = s]（\gamma \in (0,1） $$
Expectation over $\pi$ 在给定策略下的期望
### 环境Model
1、预测下一个状态（一个条件概率）  
2、预测下一个（**立即**）奖励  
一个分布期望

## 强化学习智能体分类
### 1、基于模型的强化学习
1、整个环境都清楚，不需要交互  
2、比如：迷宫、围棋  
### 2、模型无关的强化学习（真正意义上的强化学习）
1、没有环境模型，与环境交互  
2、实时采样
### 3、基于价值函数
* 没有策略（隐含） 
* 确定价值函数  
### 4、基于策略
* 有一个策略$\pi(s)$
* 没有价值函数
### 5、Actor-Critic
* 策略
* 价值函数


# 2、探索与利用
由于当前决策和最优策略不等，所以需要**探索**——可能发现更好的策略  
EX：选择一家晚餐吃完饭——常去喜欢的餐厅还是去一家没去的餐厅（探索）
## 策略探索的一些原则、算法（没懂）
* 朴素方法Naive Exploration——添加策略噪声
* 积极初始化——随着探索feedback会下降，所以会导向没有探索过的，积极尝试新的？
* 基于不确定性的度量——尝试具有不确定性收益的策略，可能带来更高的收益  
* 概率匹配——基于概率选择最佳策略
* 状态搜索——探索后续状态可能带来更高收益的策略

## 多臂老虎机
* **问题描述：**  
1、动作集合：$$ a^i \in A, i = 1,...,k$$  
2、收益几何：$$ R(r|a^i) = P(r|a^i)$$
K个老虎机，$a^i$表示选择第i个老虎机，收益$\in(0,1)$  
**目标：找到一个策略$\pi$**  
$$max\sum_{t=1}^T{r_t},r_t\sim{R(·|a)}$$
**注意$r_t$是不确定的**  
* 期望收益和采样次数的关系
$$Q_n(a^i)=\frac{r_1+r_2+...+r_{n-1}}{n-1}$$
**缺点：每次更新的空间复杂度是O（n）**
* 增量实现:
$$Q_{n+1}(a^i)=\frac 1n\sum_{i=1}^n{r_i}=Q_n+\frac 1n(r_n-Q_n)$$
误差项$\Delta_n^i=r_n-Q_n$  
**空间复杂度为O（1）**  

### General算法
* I. 初始化：$Q(a^i):=c^i,\quad N(a^i)=0,i=1,...,n$  
* II. 主循环$t=1:T$  
    1、利用策略$\pi$选取某个动作a
    2、获取收益：$r_t=Bandit(a)$  
    3、更新计数: $N(a):=N(a)+1$  
    4、更新估值：$Q(a):=Q(a)+\frac 1{N(a)}[r_t-Q(a)]$
### e_greedy、UCB、Thompson Sampling算法
![](.\pic\RLexplore-alo.jpg)

# 马尔科夫决策过程(Markov Decison Process, MDP)
* 提供一套在**结果部分随机**、**部分在决策者控制下的决策过程建模**的数学框架  
* 1、环境完全可观测  
2、当前状态可以推演出接下来的情况（马尔科夫性质）  
### **$S_{t+1}完全取决于S_t,不需要知道S_1，S_2...$**  
### **含义**
* 状态S从历史H中捕获了所有信息
* 当S已指知时，可以不管H
* 当前状态S是未来的充分统计量
**整个Process由一个五元组表示(S,A,$P_{sa},\gamma,R$)**
* S——状态几何  
* A——动作集合  
* $P_{sa}$——在s,a下，下一个状态在S中的概率分布  
* $\gamma \in [0,1]$——未来奖励的折扣因子
* $R:S\times A$奖励函数

### MDP动态
* ![MDPpro.png](.\pic\MDPpro.png)
* ![MDPpro2.png](.\pic\MDPpro2.png)

# 基于动态规划的RL
* ![基于动态规划的RL](.\pic\基于动态规划的RL.jpg)  
* ![最优价值函数.png](.\pic\最优价值函数.png)  
* 可以对**最优价值函数**和**最优策略**执行迭代更新  
1、价值迭代  
2、策略迭代  
* ![价值迭代.png](.\pic\价值迭代.png)  
* 同步价值迭代——存储两份内存  
* 异步价值迭代——old和new在同一个位置 
* ![策略迭代.png](.\pic\策略迭代.png)  
* ![价值迭代和策略迭代总结.png](.\pic\价值迭代和策略迭代总结.png) 