# 線形バンディットにおけるBest-arm identification

表記：
* $\mathcal{X}\subseteq \mathbb{R}^d$：アームの集合（有限）
  * $|\mathcal{X}|=K$
  * $\|x\| \leq L$
* $r(x) = x^\top \theta^* + \varepsilon$
  * $\varepsilon \in [-\sigma, \sigma]$
* 最適腕：$x^* = \arg\max_{x \in \mathcal{X}} x^\top \theta^*$
* $\Pi(\theta)=\arg \max _{x \in \mathcal{X}} x^{\top} \theta$：$\theta$についての貪欲アーム
* $\Delta\left(x, x^{\prime}\right)=\left(x-x^{\prime}\right)^{\top} \theta^*$：２つのアームの報酬の差（$x\neq x'$）
* $\Delta(x)=\Delta\left(x^*, x\right)$：最適アームとの差
* $\Delta_{\min }=\min _{x \in \mathcal{X}} \Delta(x)$：一番小さいアームの差
* $\mathcal{Y}=\left\{y=x-x^{\prime}, \forall x, x^{\prime} \in \mathcal{X}\right\}$ and $\mathcal{Y}^*=\left\{y=x^*-x, \forall x \in \mathcal{X}\right\}$：２つのアーム間のベクトルの集合
  * $\Delta(y)=\Delta\left(x, x^{\prime}\right)$ whenever $y=x-x^{\prime}$：こう書くことも許す


多腕バンディット問題では最適腕の発見の難しさは$H_{\mathrm{MAB}}=\sum_{i=1}^K \frac{1}{\Delta_i^2}$にスケールすることが知られています．つまり，最適腕との差が小さいほど，最適腕を見つけるのにかかる時間は長くなります．

多腕バンディットではすべてのアームを引かなければ最適アームの情報が得られませんが，線形バンディットでは最適アーム以外からも情報が得られます．
ここで，データセット：
* $\mathbf{x}_n=\left(x_1, \ldots, x_n\right) \in \mathcal{X}^n$
* $\left(r_1, \ldots, r_n\right)$
  
を考えましょう．最小二乗回帰より，

$$
\hat{\theta}_n=A_{\mathbf{x}_n}^{-1} b_{\mathbf{x}_n} \text {, where } A_{\mathbf{x}_n}=\sum_{t=1}^n x_t x_t^{\top}\in \mathbb{R}^{d\times d}
\text{ and } b_{\mathbf{x}_n}=\sum_{t=1}^n x_t r_t \in \mathbb{R}^d
$$

は普遍推定を与えます．Azuma-Hoeffdingから，固定された$\mathbf{x}_n$に対しては，高確率で

$$
\mathbb{P}\left(\forall n \in \mathbb{N}, \forall x \in \mathcal{X},\left|x^{\top} \theta^*-x^{\top} \hat{\theta}_n\right| \leq c\|x\|_{A_{x_n^{-1}}^{-1}} \sqrt{\log \left(c^{\prime} n^2 K / \delta\right)}\right) \geq 1-\delta .
$$

が成り立ちます（定数は論文参照）．一方で，固定されてない場合は，次の不等式が高確率で成立します（Yadkoriのやつ）：

---

$\hat{\theta}_n^\eta$を正則化された二乗回帰の解とします．また，$\widetilde{A}_{\mathbf{x}}^\eta=\eta I_d+A_{\mathbf{x}}$とします．
このとき，任意の$x$と，任意のadaptiveな系列$\mathbf{x}_n$について，高確率で

$$
\left|x^{\top} \theta^*-x^{\top} \hat{\theta}_n^\eta\right| \leq\|x\|_{\left(\widetilde{A}_{\mathbf{x}_n}^\eta\right)^{-1}}\left(\sigma \sqrt{d \log \left(\frac{1+n L^2 / \eta}{\delta}\right)}+\eta^{1 / 2}\left\|\theta^*\right\|\right)
$$

が成立します．

---

以降，$\lambda\in \mathcal{D}^k$を$\mathcal{X}$上の分布とします．また，
$$
\Lambda_\lambda=\sum_{x \in \mathcal{X}} \lambda(x) x x^{\top}
$$
をDesign matrixと呼びます．$T_n(x)$を$\mathbf{x}_n$内で$x$で登場する回数とします．
また，そのDesign matrixを$A_{\mathbf{x}_n}=n \Lambda_{\lambda_{\mathbf{x}_n}}$とします．

## 線形バンディットにおける最適腕識別の難しさ

さて，多腕バンディットでは最適アームとの差$\Delta$が最適腕識別の難しさを決めていましたが，この定義を線形バンディットにも拡張しましょう．

* $\mathcal{C}(x)=\left\{\theta \in \mathbb{R}^d, x \in \Pi(\theta)\right\}$を$x$が最適腕となるような$\theta$の集合とします．
つまり，$C(x) = \cap_{x^{\prime} \in \mathcal{X}}\left\{\theta \in\mathbb{R}^d,\left(x-x^{\prime}\right)^{\top} \theta \geq 0\right\}$です．

アイデアを考えるため，$\mathbb{R}^2$上の３つのアーム$x_1, x_2, x_3$を考えましょう．
最適アームを$x_1$とします．また，報酬関数を$x^\top \theta^*$とします．
$\theta^\star$を見つけると，最適アームも見つかります．

![best-arm](figs/linear-best-arm.png)


ここで，Oracleは$C(x^*)$を知っているとしましょう．この$C(x^*)$には$x^*$が最適アームになるようなすべての$x^*$が入っています．

また，任意の$\mathbb{x}_n$について，$\theta^* \in \mathcal{S}^*\left(\mathbf{x}_n\right)$かつ$\mathbb{P}\left(\hat{\theta}_n \in \mathcal{S}^*\left(\mathbf{x}_n\right)\right) \geq 1-\delta$であるような$S^*(\mathbf{x}_n)$も知っているとします（ここで$\hat{\theta}_n$は推定したパラメータです）.

このとき，アルゴリズムが$S^*(\mathbf{x}_n)$を更新し続けることを考えましょう．アルゴリズムとしては，$\mathcal{S}^*\left(\mathbf{x}_n\right) \subseteq \mathcal{C}\left(x^*\right)$になるまで$s^*(\mathbf{x}_n)$を更新し続ければ，$\mathbb{P}\left(\Pi\left(\hat{\theta}_n\right) \neq x^*\right) \leq \delta$であることも言えます（Lemma 1）．

**まとめると，$\mathcal{S}^*\left(\mathbf{x}_n\right) \subseteq \mathcal{C}\left(x^*\right)$であるような$\mathbf{x}_n$を直ちに見つけることができれば，最適腕識別も解けます**

言い換えれば，$S^*\left(\mathbf{x}_n\right)$が$C(x^*)$に入るように腕を引く＆その回数を最小にする のが目標です．


### 具体的な方法

$\mathcal{S}^*\left(\mathbf{x}_n\right) \subseteq \mathcal{C}\left(x^*\right)$を書き換えると，

$$
\begin{aligned}
&\forall x \in \mathcal{X}, \underbrace{\forall \theta \in \mathcal{S}^*\left(\mathbf{x}_n\right),\left(x^*-x\right)^{\top} \theta \geq 0}_{\mathcal{S}^*\left(\mathbf{x}_n\right) \subseteq \mathcal{C}\left(x^*\right)\text{は任意の$\theta$で最適腕が$x^*$であることを意味します}} \\
\Leftrightarrow &\underbrace{\forall y \in \mathcal{Y}^*}_{x^*-xの集合}, \forall \theta \in \mathcal{S}^*\left(\mathbf{x}_n\right), y^{\top}\left(\theta^*-\theta\right) \leq \Delta(y) .
\end{aligned}
$$

と同じです．
最後の不等式は，$y^\top(\theta^* - \theta) = \underbrace{(x^*)^\top \theta^* - x^\top \theta^*}_{=\Delta(y)} + \underbrace{x^\top \theta- (x^*)^\top \theta}_{\leq 0 \text{ 書き換え前}} \leq \Delta(y)$を使ってます．

さて，上でやったYadkoriの不等式をもとに信頼区間$S^*(\mathbf{x}_n)$を作ると，

$$
\mathcal{S}^*\left(\mathbf{x}_n\right)=\left\{\theta \in \mathbb{R}^d, \forall y \in \mathcal{Y}^*, y^{\top}\left(\theta^*-\theta\right) \leq c\|y\|_{A_{\overline{\mathbf{x}}_n^{-1}}} \sqrt{\log _n\left(K^2 / \delta\right)}\right\}
$$

が自然に思いつきます．よって，$\mathcal{S}^*\left(\mathbf{x}_n\right) \subseteq \mathcal{C}\left(x^*\right)$は，次の形に直せます：

$$
c\|y\|_{A_{\boldsymbol{\mathbf { x }}_n^{-1}}} \sqrt{\log _n\left(K^2 / \delta\right)} \leq \Delta(y) \quad y \in \mathcal{Y}^*
$$

よって，$\mathbf{x}_n$の最適な選び方は，

$$
\begin{aligned}
\mathbf{x}_n^*
&=\arg \min _{\mathbf{x}_n} \max _{y \in \mathcal{Y}^*} \frac{c\|y\|_{A_{\mathbf{x}_n}^{-1}} \sqrt{\log _n\left(K^2 / \delta\right)}}{\Delta(y)}\\
&=\arg \min _{\mathbf{x}_n} \max _{y \in \mathcal{Y}^*} \frac{\|y\|_{A_{\mathbf{x}_n}^{-1}}}{\Delta(y)}\\
&=\arg \min _{\mathbf{x}_n} \max _{x \in \mathcal{X}}  \frac{\|x^* - x\|_{A_{\mathbf{x}_n}^{-1}}}{\Delta^*(x)}\\
&\approx\arg \min _{\mathbf{x}_n} \max _{x \in \mathcal{X}}\frac{x^*- xを推定する不確かさ}{xの最適誤差}
\end{aligned}
$$

になります．
つまり，上は$x$の最適誤差が小さいアームほど精度良く推定できるようにアームを引くようになります．

## アルゴリズム

上の具体的な方法は実際のアルゴリズムでは不可能です（$\theta^*$や$x^*$を知らないので）．
一方で，与えられた$x$について，$\mathcal{C}(x)$は事前に計算することができます（多分$x$に対して線形最適化問題を解けばわかるんじゃないかな？）．

また，$\widehat{\mathcal{S}}\left(\mathbf{x}_n\right)$を
* $\hat{\theta}_n \in \widehat{\mathcal{S}}\left(\mathbf{x}_n\right)$ and $\mathbb{P}\left(\theta^* \in \widehat{\mathcal{S}}\left(\mathbf{x}_n\right)\right) \geq 1-\delta$を満たすような集合とします
    * つまり，$\hat{\theta}_n$の推定が良くできており，かつOptimisticな集合ですね

このとき，次が成立します（つまり，Best-armが見つかります）：
* $n$ステップ後に$\widehat{\mathcal{S}}\left(\mathbf{x}_n\right) \subseteq \mathcal{C}(x)$を満たすようなアーム$x$が存在するならば，$\mathbb{P}\left(\Pi\left(\hat{\theta}_n\right) \neq x^*\right) \leq \delta$が成立します．
* これはOptimismのおかげで成立します．

さて，推定したパラメータを使ってアームを選択することを考えましょう．
$\widehat{\Delta}_n\left(x, x^{\prime}\right)=\left(x-x^{\prime}\right)^{\top} \hat{\theta}_n$をします．このとき，Stopping condition $\widehat{\mathcal{S}}\left(\mathbf{x}_n\right) \subseteq \mathcal{C}(x)$ は

$$
\begin{aligned}
\exists x \in \mathcal{X}, \forall x^{\prime} \in \mathcal{X}, \forall \theta & \in \widehat{\mathcal{S}}\left(\mathbf{x}_n\right),\left(x-x^{\prime}\right)^{\top} \theta \geq 0 \\
& \Leftrightarrow \exists x \in \mathcal{X}, \forall x^{\prime} \in \mathcal{X}, \forall \theta \in \widehat{\mathcal{S}}\left(\mathbf{x}_n\right),\left(x-x^{\prime}\right)^{\top}\left(\hat{\theta}_n-\theta\right) \leq \widehat{\Delta}_n\left(x, x^{\prime}\right) .
\end{aligned}
$$

と同じです．また，Yadkoriをベースにして信頼区間を
$$
\widehat{\mathcal{S}}\left(\mathbf{x}_n\right)=\left\{\theta \in \mathbb{R}^d, \forall y \in \mathcal{Y}, y^{\top}\left(\hat{\theta}_n-\theta\right) \leq c\|y\|_{A_{\mathbf{x}_n^{-1}}} \sqrt{\log _n\left(K^2 / \delta\right)}\right\}
$$
としましょう．このとき，最適腕の停止条件は
$$
\exists x \in \mathcal{X}, \forall x^{\prime} \in \mathcal{X}, c\left\|x-x^{\prime}\right\|_{A_{\bar{x}_n^1}^1} \sqrt{\log _n\left(K^2 / \delta\right)} \leq \widehat{\Delta}_n\left(x, x^{\prime}\right)
$$
と同じです．これを実現するアルゴリズムについて考えてみましょう．
上の議論から，左辺の小さくすれば良さそうです．つまり，$\left\|x-x^{\prime}\right\|_{A_{\bar{x}_n^1}^1}$を小さくすればよいわけですね．

### G-Allocation

任意の$x, x'$について，
$$
\left\|x-x^{\prime}\right\|_{A_{\mathbf{x}_n}^{-1}} \leq 2 \max _{x^{\prime \prime} \in \mathcal{X}}\left\|x^{\prime \prime}\right\|_{A_{\mathbf{x}_n}^{-1}}
$$
が成り立つことに注意しましょう．よって，単純な発想として，
$$
\mathbf{x}_n^G=\arg \min _{\mathbf{x}_n} \max _{x \in \mathcal{X}}\|x\|_{A_{\mathbf{x}_n}^{-1}}
$$
が思いつきます．

これはG-optimal designと同じです．実際，[CVX_minimum_volume_ellipsoids](CVX_minimum_volume_ellipsoids.ipynb)でやりましたが，G-最適問題は
$$
\begin{aligned}
&\min_{u\in \mathcal{R}^m}\max_i x_i^T(XUX^T)x_i\\
&e^T u = 1 \\
&u \geq 0
\end{aligned}
$$
を解きます．つまり，すべての$x$に対して，一様に推定分散を小さくすることを目指します．

### XY-Allocation

上のように近似を入れず，$x-x'$の差分を直接小さくすることも考えられます：

$$
\mathbf{x}_n^{\mathcal{X Y}}=\arg \min _{\mathbf{x}_n} \max _{y \in \mathcal{Y}}\|y\|_{A_{\mathbf{x}_n}^{-1}}
$$
