# このページについて
被覆数推定に関する勉強のまとめです．作成に当たっては，トン・ジャン先生の[機械学習のための数理解析](https://tongzhang-ml.org/)を大いに参考にさせていただきました．

# ラデマッハ複雑度と集中不等式
## 訓練誤差とテスト誤差
ラデマッハ複雑度を考慮するために，機械学習の問題を考えます．関数クラスおよび訓練データを以下のように定義します．

*  $\mathcal{G}=\{\phi(w, z): w \in \Omega\}$
* $\mathcal{S}_{n}=\left\{Z_{1}, \ldots, Z_{n}\right\} \sim \mathcal{D}^{n}$

ここで，$\phi(w, z)$は関数です．$w \in \Omega$はパラメター空間$\Omega$からサンプルされたパラメターとします．$z$はデータ点です．$Z$はデータ分布$\mathcal{D^n}$からの独立同分布のサンプルです．

訓練データに関する**訓練誤差**を以下のように定義します．

$$
\phi\left(w, \mathcal{S}_{n}\right)=\frac{1}{n} \sum_{i=1}^{n} \phi\left(w, Z_{i}\right)
$$

各データでの損失の平均ですね．

全データに関する**テスト誤差**はテストデータ$D$からサンプルされるすべての訓練データ点に対して平均をとります．

$$
\phi(w, \mathcal{D})=\mathbb{E}_{Z \sim \mathcal{D}} \phi(w, Z)
$$

機械学習問題は汎化が最終的な目標です．つまり，テスト誤差を最小化したいわけです．そのためには，訓練誤差とテスト誤差の差を最小化するという最適化問題を考え，パラメータを調整します．とはいえ，そんな簡単に計算ができるわけではないので，以下のような求めたい誤差(訓練誤差とテスト誤差の差)の上界を以下のように定義します．

$$
\sup _{w \in \Omega}\left[\phi(w, \mathcal{D})-\phi\left(w, \mathcal{S}_{n}\right)\right]
$$
## 一様収束複雑度
最初に経験過程をとらえます．経験過程とは，関数クラス$\mathcal{G}$の各関数$g$に対して訓練誤差とテスト誤差の差(あるいは)を対応させる確率過程のことです．具体的には，関数クラス$\mathcal{G}$があり，訓練データ $\mathcal{S}_n = \{Z_1, \ldots, Z_n\}$ が与えられたとき，経験過程は以下のように定義されるランダムな関数の集まりと考えることができます．

$$
\left\{ \phi(w, \mathcal{D}) - \phi(w, \mathcal{S}_n) \quad \text{for all } w \in \Omega \right\}
$$

または，より一般的には，インデックス集合 $\Omega$（パラメータ $w$ の集合）に対して，各 $w \in \Omega$ にランダムな値 $\phi(w, \mathcal{D}) - \phi(w, \mathcal{S}_n)$ を割り当てる写像（確率過程）と見なせます．

経験過程$\left\{ \phi(w, \mathcal{D}) - \phi(w, \mathcal{S}_n) \quad \text{for all } w \in \Omega \right\}$があったと仮定し，$\mathcal{S}_{n} \sim \mathcal{D}^{n}$ とします．この経験過程の上界を，**一様収束複雑度**とします．後で出てきます．

$$
\epsilon_{n}(\mathcal{G}, \mathcal{D})=\mathbb{E}_{\mathcal{S}_{n}} \sup _{w \in \Omega}\left[\phi(w, \mathcal{D})-\phi\left(w, \mathcal{S}_{n}\right)\right]
$$
## オラクル不等式と一様収束複雑度
近似ERM法を用いた場合の収束性は以下のように示されます．

$$
\phi\left(\hat{w}, \mathcal{S}_{n}\right) -\inf _{w \in \Omega} \phi\left(w, \mathcal{S}_{n}\right) \leq \epsilon^{\prime} . 
$$
### 定理1
$Z \sim \mathcal{D}$ である $\phi(w, Z)$ を考えます．このとき，(1)の近似ERM法は以下を満たします．

$$
\mathbb{E}_{\mathcal{S}_{n}} \phi(\hat{w}, \mathcal{D})-\inf _{w \in \Omega} \phi(w, \mathcal{D}) \leq \epsilon^{\prime}+\epsilon_{n}(\mathcal{G}, \mathcal{D}) .
$$
### 定理1の証明
任意の $w \in \Omega$ に対して，訓練データ $\mathcal{S}_n$ の各インスタンスについて，以下が成り立ちます．

$$
\begin{aligned}
\phi(\hat{w}, \mathcal{D}) & \leq \phi\left(\hat{w}, \mathcal{S}_{n}\right)+\sup _{w \in \Omega}\left[\phi(w, \mathcal{D})-\phi\left(w, \mathcal{S}_{n}\right)\right] \\
& \leq \phi\left(w, \mathcal{S}_{n}\right)+\epsilon^{\prime}+\sup _{w \in \Omega}\left[\phi(w, \mathcal{D})-\phi\left(w, \mathcal{S}_{n}\right)\right] .
\end{aligned}
$$

$\mathcal{S}_n$ に関して期待値を取り，$w$ は $\mathcal{S}_n$ に依存しないことに注意すると，以下のようになります．

$$
\mathbb{E}_{\mathcal{S}_{n}} \phi(\hat{w}, \mathcal{D}) \leq \phi(w, \mathcal{D})+\epsilon^{\prime}+\mathbb{E}_{\mathcal{S}_{n}} \sup _{w \in \Omega}\left[\phi(w, \mathcal{D})-\phi\left(w, \mathcal{S}_{n}\right)\right] .
$$

## 片側経験的ラデマッハ複雑度

$\mathcal{S}_{n}=\left\{Z_{1}, \ldots, Z_{n}\right\}$ が与えられたとき，$\mathcal{G}$ の片側経験的ラデマッハ複雑度は

$$
R\left(\mathcal{G}, \mathcal{S}_{n}\right)=\mathbb{E}_{\sigma} \sup _{w \in \Omega} \frac{1}{n} \sum_{i=1}^{n} \sigma_{i} \phi\left(w, Z_{i}\right)
$$

と定義されます．ここで，$\sigma_{1}, \ldots, \sigma_{n}$ は独立な一様 $\{\pm 1\}$ 値を取るベルヌーイ確率変数です．さらに，期待ラデマッハ複雑度は

$$
R_{n}(\mathcal{G}, \mathcal{D})=\mathbb{E}_{\mathcal{S}_{n} \sim \mathcal{D}^{n}} R\left(\mathcal{G}, \mathcal{S}_{n}\right)
$$

です．

### 定理(ラデマッハ複雑度のバウンド)
ラデマッハ複雑度をつかって近似ERM法の上界を示すことができます．

$$
\epsilon_{n}(\mathcal{G}, \mathcal{D}) \leq 2 R_{n}(\mathcal{G}, \mathcal{D})
$$

結果として，近似ERM法は以下のような不等式を満たします．

$$
\mathbb{E}_{\mathcal{S}_{n}} \phi(\hat{w}, \mathcal{D}) \leq \inf _{w \in \Omega} \phi(w, \mathcal{D})+\epsilon^{\prime}+2 R_{n}(\mathcal{G}, \mathcal{D})
$$
### 定理(ラデマッハ複雑度のバウンド)の証明
$\mathcal{S}_{n}^{\prime}=\left\{Z_{1}^{\prime}, \ldots, Z_{n}^{\prime}\right\} \sim \mathcal{D}^{n}$ を，$\mathcal{S}_n$ とは独立なサンプルとします．そうすると，

$$
\begin{aligned}
\epsilon_{n}(\mathcal{G}, \mathcal{D}) & =\mathbb{E}_{\mathcal{S}_{n} \sim \mathcal{D}^{n}} \sup _{w \in \Omega}\left[\phi(w, \mathcal{D})-\phi\left(w, \mathcal{S}_{n}\right)\right] \\
& =\mathbb{E}_{\mathcal{S}_{n} \sim \mathcal{D}^{n}} \sup _{w \in \Omega}\left[\mathbb{E}_{\mathcal{S}_{n}^{\prime} \sim \mathcal{D}^{n}} \phi\left(w, \mathcal{S}_{n}^{\prime}\right)-\phi\left(w, \mathcal{S}_{n}\right)\right] \\
& \leq \mathbb{E}_{\left(\mathcal{S}_{n}, \mathcal{S}_{n}^{\prime}\right) \sim \mathcal{D}^{2 n}} \sup _{w \in \Omega}\left[\phi\left(w, \mathcal{S}_{n}^{\prime}\right)-\phi\left(w, \mathcal{S}_{n}\right)\right] \\
& =\mathbb{E}_{\left(\mathcal{S}_{n}, \mathcal{S}_{n}^{\prime}\right) \sim \mathcal{D}^{2 n}} \mathbb{E}_{\sigma} \sup _{w \in \Omega} \frac{1}{n} \sum_{i=1}^{n}\left[\sigma_{i} \phi\left(w, Z_{i}^{\prime}\right)-\sigma_{i} \phi\left(w, Z_{i}\right)\right] \\
& \leq \mathbb{E}_{\left(\mathcal{S}_{n}, \mathcal{S}_{n}^{\prime}\right) \sim \mathcal{D}^{2 n}}\left[R\left(\mathcal{G}, \mathcal{S}_{n}\right)+R\left(\mathcal{G}, \mathcal{S}_{n}^{\prime}\right)\right]=2 R_{n}(\mathcal{G}, \mathcal{D})
\end{aligned}
$$

## 集中不等式(McDiarmidの不等式)
$n$ 個の独立な確率変数 $X_1, \ldots, X_n$ と，以下の不等式を満たす実数値関数 $f(X_1, \ldots, X_n)$ を考えます．この場合，すべての $1 \leq i \leq n$ について

$$
\sup _{x_{1}, \ldots, x_{n}, x_{i}^{\prime}}\left|f\left(x_{1}, \ldots, x_{n}\right)-f\left(x_{1}, \ldots, x_{i-1}, x_{i}^{\prime}, x_{i+1}, \ldots, x_{n}\right)\right| \leq c_{i}
$$

関数の入力の一部を変えてもそこまで出力が変わらないということです．


このとき，すべての $\epsilon > 0$ に対して：
$$
\operatorname{Pr}\left[f\left(X_{1}, \ldots, X_{n}\right) \geq \mathbb{E} f\left(X_{1}, \ldots, X_{n}\right)+\epsilon\right] \leq \exp \left(\frac{-2 \epsilon^{2}}{\sum_{i=1}^{n} c_{i}^{2}}\right)
$$
同様に：

$$
\operatorname{Pr}\left[f\left(X_{1}, \ldots, X_{n}\right) \leq \mathbb{E} f\left(X_{1}, \ldots, X_{n}\right)-\epsilon\right] \leq \exp \left(\frac{-2 \epsilon^{2}}{\sum_{i=1}^{n} c_{i}^{2}}\right)
$$

が成り立ちます．これを**McDiarmidの不等式**といいます．

## 集中不等式(McDiarmidの不等式)の証明
$X_k^l = \{X_k, \ldots, X_l\}$ とします．$X_1^n$ を考え，ある $1 \leq k \leq n$ に対して，簡略化した記法 $\tilde{X}_1^n = \{X_1, \ldots, X_{k-1}, \tilde{X}_k, X_{k+1}, \ldots, X_n\}$ を用います．このとき

$$
\left|\mathbb{E}_{X_{k+1}^{n}} f\left(X_{1}^{n}\right)-\mathbb{E}_{X_{k+1}^{n}} f\left(\tilde{X}_{1}^{n}\right)\right| \leq c_{k}
$$

ここで，$X_1^{k-1}$ を条件としたとき，$X_k$ に依存する確率変数として $\mathbb{E}_{X_{k+1}^n} f(X_1^n)$ を考えます．そうすると，

$$
\ln \mathbb{E}_{X_{k}} \exp \left[\lambda \mathbb{E}_{X_{k+1}^{n}} f\left(X_{1}^{n}\right)\right] \leq \lambda \mathbb{E}_{X_{k}^{n}} f\left(X_{1}^{n}\right)+\lambda^{2} c_{k}^{2} / 8
$$
上記の不等式の両辺を指数関数に取り， $X_1^{k-1}$ に関して期待値を取ると

$$
\mathbb{E}_{X_{1}^{k}} \exp \left[\lambda \mathbb{E}_{X_{k+1}^{n}} f\left(X_{1}^{n}\right)\right] \leq \mathbb{E}_{X_{1}^{k-1}} \exp \left[\lambda \mathbb{E}_{X_{k}^{n}} f\left(X_{1}^{n}\right)+\lambda^{2} c_{k}^{2} / 8\right] .
$$

対数を取ると，以下のようになります．

$$
\ln \mathbb{E}_{X_{1}^{k}} \exp \left[\lambda \mathbb{E}_{X_{k+1}^{n}} f\left(X_{1}^{n}\right)\right] \leq \ln \mathbb{E}_{X_{1}^{k-1}} \exp \left[\lambda \mathbb{E}_{X_{k}^{n}} f\left(X_{1}^{n}\right)\right]+\lambda^{2} c_{k}^{2} / 8
$$

$k=1$ から $n$ まで和を取り，冗長な項を相殺すると：

$$
\begin{equation*}
\ln \mathbb{E}_{X_{1}^{n}} \exp \left[\lambda f\left(X_{1}^{n}\right)\right] \leq \lambda \mathbb{E}_{X_{1}^{n}} f\left(X_{1}^{n}\right)+\lambda^{2} \sum_{k=1}^{n} c_{k}^{2} / 8 \tag{2}
\end{equation*}
$$
ここで，

$$
\delta=\operatorname{Pr}\left[f\left(X_{1}^{n}\right) \geq \mathbb{E}_{X_{1}^{n}} f\left(X_{1}^{n}\right)+\epsilon\right]
$$

とします．Markovの不等式を用いると，すべての正の $\lambda$ に対して

$$
\delta \leq e^{-\lambda\left(\mathbb{E}_{X_{1}^{n}} f\left(X_{1}^{n}\right)+\epsilon\right)} \mathbb{E}_{X_{1}^{n}} e^{\lambda f\left(X_{1}^{n}\right)} \leq \exp \left[-\lambda \epsilon+\frac{\lambda^{2}}{8} \sum_{k=1}^{n} c_{k}^{2}\right]
$$

$\lambda > 0$ は任意なので，以下のように結論付けられます．

$$
\ln \delta \leq \inf _{\lambda \geq 0}\left[\frac{\lambda^{2}}{8} \sum_{k=1}^{n} c_{k}^{2}-\lambda \epsilon\right]=-\frac{2 \epsilon^{2}}{\sum_{k=1}^{n} c_{k}^{2}}
$$

となり，定理が成立します．


