# 1 多臂老虎机问题（K-armed Bandit Problem）

## 1.1 问题简介

在赌场中，有k个老虎机。在每个时刻下，Agent可以选择一个老虎机进行操作，相应地会得到一个reward，agent的目标就是在有限次操作（或时间步下）获得最大期望收益。

在k-armed老虎机问题中，每个时间步可以有k个选择，我们定义在时间步$t$下选择的action为$A_t$，相应的奖励为$R_t$。定义**任意一个动作$a$的value为$q_*(a)=\mathbb{E}[R_t|A_t=a]$**。

当我们知道每个action的value时，我们可以很容易解决k-armed问题，即我们总是选择那个具有最高value的action。但实际中我们并不知道每个action能得到多少回报，我们需要对回报进行估计，定义在时刻$t$下对动作$a$的估计value为$Q_t(a)$，我们希望$Q_t(a)$越接近$q_*(a)$越好。

## 1.2 Exploitation vs. Exploration

如果在每个时间步下，我们总选择估计value最大的action，我们称这个动作为**Greedy Action**，这时我们称为**Exploiting**；当我们选择其他非贪心动作时，称为**Exploring**。

Exploitation和Exploration对比：
- Exploiting能够在当前时间步获得最大期望收益，但Exploring可能会在长期产生最大收益；
- Exploiting使用的是当前已知的最大收益action，但实际在其他nongreedy的动作中存在未来收益更大的动作，只有通过Exploring，才可能对这些nongreedy动作value进行更新，从而得知更优的动作；
- 如果未来时间步很长，往往都需要去Exploring，更可能带来长期的最大收益。

# 2 动作值方法（Action-value Methods）

## 2.1 动作值估计
Action-value Methods: 通过估计动作的值并且将估计结果用于动作决策过程的方法。

我们定义一个action的true value是**当这个action被选择时，其获得的所有reward的期望**，因此我们可以这样计算：

$$Q_t(a)=\frac{\sum_{i=1}^{t-1}R_i\cdot \mathbb{1}_{A_i=a}}{\sum_{i=1}^{t-1}\mathbb{1}_{A_i=a}}$$

分子是当前$t$时刻之前所有选择动作$a$时产生的回报之和，分母是过去选择动作$a$的次数。如果分母为0，就设置为默认值。随着分母趋近于无穷大，$Q_t(a)$会趋近于$q_*(a)$。这种方法被称为**sample-average**方法。


## 2.2 动作选择

### 2.2.1 Greedy Methods
当我们对Action value估计完成后，需要应用到动作选择中去。最简单的是采用贪心策略：

$$A_t=\arg\max_a Q_t(a)$$

这种方式称为**greedy**方法，它完全是基于过去的知识，并且不需要去评估其它action是否会在未来的值更大。

### 2.2.2 $\epsilon$-Greedy Methods

贪心算法的不足之处在于它永远不会去探索潜在更好的action，属于保守型。另一种方法是以$\epsilon$的概率在所有action中随机选择，以$1-\epsilon$的概率选择值最大的动作：

$$A_t=\begin{cases}\arg\max_a Q_t(a)\ with\ 1-\epsilon+\epsilon/nA \\ a\ with\ \frac{\epsilon}{nA}\end{cases}$$

这种方法的优点是当步数趋近于无穷大时，每个action都会被采样无数次，保证了所有action的$Q_t(a)$收敛于$q_*(a)$，也就意味着所有最优action的收敛概率大于$1-\epsilon$。

> 在$\epsilon-greedy$中，选择greedy action的概率为$1-\epsilon+\epsilon/nA$，其中$nA$为所有动作数量；选择non-greedy action的概率为$\epsilon/nA$