# Kiefer-Wolfowitzの定理

参考：
* [Bandit Algorithms](https://tor-lattimore.com/downloads/book/book.pdf)のChapter 20と21

Kiefer-Wolfowitzの定理は線形バンディットでよく出てきます（統計の分野でもよく出てくるかも）。

表記：

* $\eta_1, \ldots, \eta_n$：独立した$1$-subgaussianな確率変数
* $a_1, \ldots, a_n \in \mathbb{R}^d$：$\mathbb{R}^d$を張る系列
* $\theta_*\in \mathbb{R}^d$：真のパラメータ
* $X_1, \ldots, X_n$：$X_t=\left\langle\theta_*, a_t\right\rangle+\eta_t$
* $\hat{\theta}$：最小二乗法の推定値 $\hat{\theta}=V^{-1} \sum_{t=1}^n a_t X_t$ with $V=\sum_{t=1}^n a_t a_t^{\top}$

ここで、適当な$a\in \mathbb{R}^d$について

$$
\begin{aligned}
\left\langle\hat{\theta}-\theta_*, a\right\rangle & =\left\langle a, V^{-1} \sum_{t=1}^n  a_tX_t-\theta_*\right\rangle=
\left\langle a, V^{-1} \sum_{t=1}^n a_t\left(\left\langle\theta_*, a_t\right\rangle+\eta_t\right)-\theta_*\right\rangle \\
& =\left\langle a, V^{-1} \sum_{t=1}^n a_t \eta_t\right\rangle
=\sum_{t=1}^n\left\langle a, V_t^{-1} a_t\right\rangle \eta_t
\end{aligned}
$$

であり、$\eta$は$1$-subgaussianなので、簡単な集中不等式から

$$
\mathbb{P}\left(\left\langle\hat{\theta}_t-\theta_*, a\right\rangle \geq \sqrt{2\|a\|_{V^{-1}}^2 \log \left(\frac{1}{\delta}\right)}\right) \leq \delta
$$

が成り立ちます。
ここから、$\|a\|_{V^{-1}}^2$が小さいほうが推定値の精度が高くなることがわかります。

$\|a\|_{V^{-1}}^2$が小さくなるようにデータセットの重み付けをする問題はG-optimal design問題と呼ばれます（[CVX_minimum_volume_ellipsoids.ipynb](CVX_minimum_volume_ellipsoids.ipynb)参照）。


# G-optimal design問題

$\pi: \mathcal{A} \rightarrow[0,1]$とし、$\sum_{a \in \mathcal{A}} \pi(a)=1$なるデータセットの重みとします。
また、

$$
V(\pi)=\sum_{a \in \mathcal{A}} \pi(a) a a^{\top}, \quad g(\pi)=\max _{a \in \mathcal{A}}\|a\|_{V(\pi)^{-1}}^2
$$

とすれば、$g(\pi)$を小さくすることで最小二乗法の推定値の精度を上げることができます。

$\varepsilon$以下の精度を達成するために、特に全ての行動$a \in \operatorname{Supp}(\pi)$をそれぞれ

$$
n_a=\left\lceil\frac{2 \pi(a) g(\pi)}{\varepsilon^2} \log \left(\frac{1}{\delta}\right)\right\rceil
$$

回ずつ選択することを考えます。このとき、

$$
V=\sum_{a \in \operatorname{Supp}(\pi)} n_a a a^{\top} \succeq \frac{2 g(\pi)}{\varepsilon^2} \log \left(\frac{1}{\delta}\right) V(\pi)
$$

であり、
$$
\left\langle\hat{\theta}-\theta_*, a\right\rangle \leq \sqrt{2\|a\|_{V^{-1}}^2 \log \left(\frac{1}{\delta}\right)} \leq \varepsilon
$$

が確率$1-\delta$以上で保証できます。
よって、$\varepsilon$以下の精度を達成するには全部で

$$
\begin{aligned}
n=\sum_{a \in \operatorname{Supp}(\pi)} n_a & =\sum_{a \in \operatorname{Supp}(\pi)}\left\lceil\frac{2 \pi(a) g(\pi)}{\varepsilon^2} \log \left(\frac{1}{\delta}\right)\right\rceil \\
& \leq|\operatorname{Supp}(\pi)|+\frac{2 g(\pi)}{\varepsilon^2} \log \left(\frac{1}{\delta}\right) .
\end{aligned}
$$

だけサンプルが必要になります。つまり、$|\operatorname{Supp}(\pi)|$と$g(\pi)$が小さければサンプルの数を減らせるわけですね。この$|\operatorname{Supp}(\pi)|$はCore setと呼ばれ、Kiefer-Wolfowitzの定理はCore setのサイズと$g(\pi)$についてのバウンドを与えてくれます。

## Kiefer-Wolfowitzの定理

$\mathcal{A}\subset \mathbb{R}^d$をコンパクトかつ$\operatorname{span}(\mathcal{A})=\mathbb{R}^d$とする。
このとき、次は同値である：

1. $\pi^*$は$g$のMinimizer
2. $\pi^*$は$f(\pi)=\log\det V(\pi)$のMaximizer
3. $g(\pi^*)=d$

さらに、$\left|\operatorname{Supp}\left(\pi^*\right)\right| \leq d(d+1) / 2$を満たすようなminimizer $\pi^*$が存在する。

１はG-optimal design、２はD-optimal designと呼ばれます。よって、G-optimal designとD-optimal designは同じです。
証明してみましょう。まず有限集合について証明します。



### 有限集合でのKiefer-Wolfowitz

まず、$f$は凹関数かつ
$$
(\nabla f(\pi))_a=\|a\|_{V(\pi)^{-1}}^2
$$
であることに注意しましょう。
また、
$$
\sum_{a \in \mathcal{A}} \pi(a)\|a\|_{V(\pi)^{-1}}^2=\operatorname{trace}\left(\sum_a \pi(a) a a^{\top} V(\pi)^{-1}\right)=\operatorname{trace}(I)=d
$$
も簡単に成り立ちます。

#### $2 \Rightarrow 1$の証明

$\pi^*$は$f$のMaximizerとします。
このとき、凹関数の最適性の性質（[CVX_convex_functions.ipynb](CVX_convex_functions.ipynb)）から、任意の$\pi$について

$$
\begin{aligned}
0 & \geq\left\langle\nabla f\left(\pi^*\right), \pi-\pi^*\right\rangle \\
& =\sum_{a \in \mathcal{A}} \pi(a)\|a\|_{V\left(\pi^*\right)^{-1}}^2-\sum_{a \in \mathcal{A}} \pi^*(a)\|a\|_{V\left(\pi^*\right)^{-1}}^2 \\
& =\sum_{a \in \mathcal{A}} \pi(a)\|a\|_{V\left(\pi^*\right)^{-1}}^2-d .
\end{aligned}
$$

が成り立ちます。
よって、$\pi$を$a$でのDirac関数とすると、$\|a\|_{V\left(\pi^*\right)^{-1}}^2 \leq d$が成り立ちます。
一方で、
$$
\sum_{a \in \mathcal{A}} \pi(a)\|a\|_{V(\pi)^{-1}}^2=\operatorname{trace}\left(\sum_a \pi(a) a a^{\top} V(\pi)^{-1}\right)=\operatorname{trace}(I)=d
$$
なので、$g(\pi)\geq d$です。よって$\pi^*$は$g$のminimizerであり、$\min_\pi g(\pi)=d$です。

#### $2 \Rightarrow 3$の証明

$g(\pi^*)=d$とします。このとき、
$$
\left\langle\nabla f\left(\pi^*\right), \pi-\pi^*\right\rangle=\sum_{a \in \mathcal{A}} \pi(a)\|a\|_{V\left(\pi^*\right)^{-1}}-d \leq 0
$$
です。よって、$f$が凹関数であることを踏まえると$\pi^*$は$f$のmaximizerです。


#### $1 \Rightarrow 3$の証明

ほぼ自明なので省略。


#### Core setのサイズの証明

$S=\operatorname{Supp}\left(\pi^*\right)$として、$|S|>d(d+1) / 2$とします。
ここで、$aa^\top$は$d\times d$の対称行列であることを思い出しましょう。よって、
$$
\sum_{a \in S} v(a) a a^{\top}=\mathbf{0}
$$
を満たすような非ゼロの関数$v: \mathcal{A} \rightarrow \mathbb{R}$が$\operatorname{Supp}(v) \subseteq S$について存在します（$S$のサイズは$d(d+1)/2$よりでかいので、これが成り立ちます。）

また、任意の$a\in S$について$\|a\|_{V\left(\pi^*\right)^{-1}}^2=d$が成り立つことも示せます（$f$が凹関数であることを使って、$2\Rightarrow 1$と似たようなことをすれば示せます）

よって、
$$
d \sum_{a \in S} v(a)=\sum_{a \in S} v(a)\|a\|_{V\left(\pi^*\right)^{-1}}^2=0
$$
が成り立つので、$\sum_{a \in S} v(a)=0$です。

ここで、$\pi(t)=\pi^*+t v$と$\tau=\max \left\{t>0: \pi(t) \in \Delta_{\mathcal{A}}\right\}$を定義します。これは$v\neq 0$かつ$\sum_{a \in S} v(a)=0$かつ$\operatorname{Supp}(v) \subseteq S$なので存在が保証されます。
このとき$V(\pi(t))=V\left(\pi^*\right)$であるから、$f(\pi(\tau))=f\left(\pi^*\right)$も成り立ちます。
よって$\pi(\tau)$も$f$を最大化します。

よって、次に$\pi(\tau)$を$\pi^*$と置いて同じことを繰り返すと、$|S| > d(d+1)/2$である限り、$S$の部分集合が台になっている$v$で$\pi$をどんどん小さくできます。


### コンパクト集合でのKiefer-Wolfowitz

これは[Bandit AlgorithmsのExercise 21.3](https://tor-lattimore.com/downloads/book/solutions.pdf)によって証明できます。
今回は少し変形した話を証明してみます。

まず、Frank-Wolfeアルゴリズムを使うと、有限な$\mathcal{A}$について
* $g(\pi) \leq 2d$
* $\operatorname{Supp}(\pi) \leq 4d \log \log d + 16$

なデザイン$\pi$が獲得できます。これに基づいて、以下を証明してみます。

---

有限集合について$g(\pi)\leq p$かつ$\operatorname{Supp}(\pi) \leq q$なデザイン$\pi$が存在するなら、コンパクト集合についても存在する。

---

証明しましょう。
まず、$\mathcal{A}$を$\mathbb{R}^d$のコンパクトな部分集合とし、$\left(\mathcal{A}_n\right)_n$を次を満たす有限な部分集合とする：

1. $\mathcal{A}_n \subset \mathcal{A}_{n+1}$
2. $\operatorname{span}\left(\mathcal{A}_n\right)=\mathbb{R}^d$
3. $\lim _{n \rightarrow \infty} D\left(\mathcal{A}, \mathcal{A}_n\right)=0$。ここで$D$はハウスドルフ距離

ここで、$\pi_n$を$g(\pi_n)\leq p$かつ$\operatorname{Supp}(\pi_n) \leq q$を満たすデザインとする。また、$V_n=V(\pi_n)=\sum_{a \in \mathcal{A}} \pi_n(a) a a^{\top}$と略記する。

このとき、任意の$a\in \mathcal{A}$について、

$$
\|a\|_{V_n^{-1}} \leq \min _{b \in \mathcal{A}_n}\left(\|a-b\|_{V_n^{-1}}+\|b\|_{V_n^{-1}}\right) \leq \sqrt{p}+\min _{b \in \mathcal{A}_n}\|a-b\|_{V_n^{-1}}
$$

が成り立つ（１つ目は三角不等式、２つ目は仮定）。

ここで、$W \in \mathbb{R}^{d \times d}$を、$\mathbb{R}^d$を張る$A_1$の要素$w_1, \ldots, w_d$を列に配置して作った行列とする。
このとき、

$$
\left\|V_n^{-1 / 2}\right\| =\left\|W^{-1} W V_n^{-1 / 2}\right\| \leq\left\|W^{-1}\right\|\left\|V_n^{-1 / 2} W\right\| 
$$
である（ここで$\|\|$は行列のスペクトルノルム）。また、スペクトルノルムの定義から、

$$
\left\|V_n^{-1 / 2} W\right\| 
=\sup_{\|x\|_2=1} \frac{\left\|V_n^{-1 / 2} W x\right\|}{\|x\|}
=\sup_{\|x\|_2=1} {\left\|V_n^{-1 / 2} W x\right\|}
$$

であり、
$$
\|W x\|_{V_n^{-1}} = V_n^{-1 / 2} (Wx)
$$
なので、

$$
\begin{aligned}
\left\|V_n^{-1 / 2}\right\| &=\left\|W^{-1}\right\| \sup \left\{\|W x\|_{V_n^{-1}}:\|x\|_2=1\right\} \\
& \leq\left\|W^{-1}\right\| \sup \left\{\sum_{i=1}^d\left|x_i\right|\left\|w_i\right\|_{V_n^{-1}}:\|x\|_2=1\right\} \\
& \leq\left\|W^{-1}\right\| \sqrt{d} \sup _{x:\|x\|_2=1} \sum_{i=1}^d x_i \\
& \leq d\left\|W^{-1}\right\| .
\end{aligned}
$$

が成立。
ここで$n$を無限に飛ばすと

$$
\begin{aligned}
\limsup _{n \rightarrow \infty}\|a\|_{V_n^{-1}} & \leq p+\limsup _{n \rightarrow \infty} \min _{b \in \mathcal{A}}\|a-b\|_{V_n^{-1}} \\
& \leq p+d\left\|W^{-1}\right\| \limsup _{n \rightarrow \infty} \min _{b \in \mathcal{A}}\|a-b\|_2 \\
& = p .
\end{aligned}
$$

$\|\cdot\|_{V_n^{-1}}: \mathcal{A} \rightarrow \mathbb{R}$は連続かつ$\mathcal{A}$はコンパクトなので、

$$\limsup _{n \rightarrow \infty} \sup _{a \in \mathcal{A}}\|a\|_{V_n^{-1}}^2 \leq p$$

よって$g(\pi) \leq p$が成立。

一方で、$\operatorname{Supp}(\pi_n) \leq q$より、$\pi_n$は$(a_1, p_1), (a_2, p_2), \dots$のような（ベクトル、確率）のタプルを$q$個合わせたもので表現できる。
このような集合は明らかにコンパクト集合を形成できるので、サポートが$q$個のような$\mathcal{A}$を表現する分布$\pi^*$を持つ。
