# 仮説集合が無限のとき

[MATH_finite_hypothesis_bound.ipynb](MATH_finite_hypothesis_bound.ipynb)の続きです．
ちょっとおさらいしてみましょう．

* 実現可能なとき：$\hat{R}(h)=0$を満たす任意の$h$について，
$$
\mathbb{P}[R(\hat{h})>\epsilon] =\mathbb{P}\left[{h} \in \mathcal{H}_{>\epsilon}\right] 
\leq \sum_{h \in \mathcal{H}_{>\epsilon}} \mathbb{P}\left[\widehat{R}(h)=0\right]
\leq \left|\mathcal{H}\right| \exp (-\epsilon n)
$$
* 実現不可能なとき：
$R(h_S) - R(h_0) \leq {R(h_S) - \hat{R}(h_S)}  + {\hat{R}(h_\mathcal{H}) - R(h_\mathcal{H})} + {R(h_\mathcal{H}) - R(h_0)}$を使い，最初の２項をUnion boundで$|\mathcal{H}|$についてバウンド．

さて，無限のときは$\mathcal{H}$のサイズに対してUnion boundを取ってバウンドするやり方が通用しません．

無限の場合は次の
1. McDiarmidの不等式を使ってtail boundを期待値計算へ変換し，
2. その後ラデマッハ複雑度で無限集合のサイズを抑えます．

## McDiarmidの不等式

関数$f$が，任意の$x_1, \dots, x_n, x_i'$において以下を満たすとします．

$$
\left|f\left(x_1, \ldots, x_i, \ldots, x_n\right)-f\left(x_1, \ldots, x_i^{\prime}, \ldots, x_n\right)\right| \leq c_i
$$

また，$X_1, \dots, X_n$を独立な確率変数とします．このとき，
$$
\begin{aligned}
&\mathbb{P}\left[f\left(X_1, \ldots, X_n\right)-\mathbb{E}\left[f\left(X_1, \ldots, X_n\right)\right]>\epsilon\right] \leq \exp \left(-\frac{2 \epsilon^2}{\sum_{i=1}^n c_i^2}\right)\\
&\mathbb{P}\left[f\left(X_1, \ldots, X_n\right)-\mathbb{E}\left[f\left(X_1, \ldots, X_n\right)\right]\leq-\epsilon\right] \leq \exp \left(-\frac{2 \epsilon^2}{\sum_{i=1}^n c_i^2}\right) .
\end{aligned}
$$
が成立します．

これはつまり$X_1, \dots, X_n$の**関数**についての確率不等式です．
Hoeffdingはこの「関数」が「期待値」だっただけですね．
$f(X_1,\dots, X_n)=\frac{1}{n}\sum_i X_i$としましょう．$|X|\leq A$なら，

$$
\left|f\left(x_1, \ldots, x_i, \ldots, x_n\right)-f\left(x_1, \ldots, x_i^{\prime}, \ldots, x_n\right)\right| 
=\left|\frac{x_i - x_i'}{n}\right| \leq \frac{2A}{n}
$$

が成り立ちます．あとは$c_i$に上の式を代入すると，McDiarmidはHoeffdingを一般化していることがわかります．

また，$f$の取る値を$[a, b]$とすると，少なくとも$1-\delta$の確率で
$$
\left|f\left(X_1, \ldots, X_n\right)-\mathbb{E}\left[f\left(X_1, \ldots, X_n\right)\right]\right| \leq(b-a) \sqrt{\frac{n \log \frac{2}{\delta}}{2}}
$$
が成り立ちます．これは後で使います．

**証明**

McDiarmidの不等式を示すため，先に次のAzumaの不等式を示します．

---

**Azumaの不等式**

確率変数$X_i$, $Z_i$, $V_i$，$i=1, \dots, n$に対して，$V_i$は$X_1, \dots, X_i$の関数として表すことができ，$\mathbb{E}[V_i \mid X_1, \dots, X_{i-1}]=0$が成り立つとします．
また$Z_i$は$X_1, \dots, X_{i-1}$の関数として表すことができ，定数$c_1, \dots, c_n$が存在して$Z_i \leq V_i \leq Z_i + c_i$が成り立つとします．このとき，任意の$\varepsilon > 0$に対して

$$
\begin{aligned}
\operatorname{Pr}\left(S_n \geq \varepsilon\right) &\leq \exp \left\{-\frac{2\varepsilon^2}{\sum^{n}_{i=1}c_i^2}\right\}\\
\operatorname{Pr}\left(S_n \leq -\varepsilon\right) &\leq \exp \left\{-\frac{2\varepsilon^2}{\sum^{n}_{i=1}c_i^2}\right\}\\
\end{aligned}
$$
ここで部分和$\sum^k_{i=1} V_i$を$S_k$とおきました．

**証明**

$t=4\varepsilon / \sum^n_{i=1} c_i^2 > 0$とおくと，

$$
\begin{aligned}
\operatorname{Pr}(S_n \geq \varepsilon)
&\leq e^{-t\varepsilon} \mathbb{E}[e^{tS_n}]\\
&= e^{-t\varepsilon} \mathbb{E}_{X_1, \dots, X_{n-1}}[e^{tS_{n-1}}\mathbb{E}_{X_n}[e^{tV_n}\mid X_{1}, \dots, X_{n-1}]]\\
&\leq e^{-t\varepsilon} \mathbb{E}_{X_1, \dots, X_{n-1}}[e^{tS_{n-1}}]e^{t^2c_n^2/8}\\
&\leq e^{-t\varepsilon} e^{t^2\sum_{i=1}^n c_i^2/8}\\
&= e^{-2\varepsilon^2 / \sum_{i=1}^n c_i^2}\\
\end{aligned}
$$

ここで１行目はマルコフの不等式，２行目はタワールール，３行目は$X_1, \dots, X_{n-1}$で条件づけたおかげでHoeffdingが使えて，４行目はそれを繰り返し適用しています．

---

さて，McDiarmidの不等式を示しましょう．

$f(X_1, \dots, X_n)$を$f(S)$で略記します．また，$V_1, \dots, V_n$を
$$
V_k = 
\mathbb{E}[f(S) \mid X_1, \dots, X_k] - \mathbb{E}[f(S) \mid X_1, \dots, X_{k-1}] 
$$
とします．ここで$V_1$は$\mathbb{E}[f(S) \mid X_1] - \mathbb{E}[f(S)]$とします．
この$V_k$はAzumaの不等式の満たします（TODO:証明書く）．
これより，$\sum^n_{i=1} V_i = f(S) - \mathbb{E}[f(S)]$とすると，Azumaの不等式からMcdirmidの不等式も成り立ちます．

---



## ラデマッハ複雑度

ラデマッハ複雑度は次で定義されます：

---

**経験ラデマッハ複雑度**

実数値関数の集合$\mathcal{F}\subset\{f: \mathcal{X}\to \mathbb{R}\}$を考えます。
入力点の集合$S=\{x_1, x_2, \dots, x_n\}\subset \mathcal{X}$を考えます。
また、$+1$と$-1$を等確率で取る独立な確率変数を$\sigma_1, \dots, \sigma_n$とします。
このとき、$\mathcal{F}$の経験ラデマッハ複雑度は

$$
\widehat{\mathcal{R}}_S(\mathcal{F}) = \mathbb{E}_\sigma \left[\sup_{f\in \mathcal{F}} \frac{1}{n} \sum^n_{i=1}\sigma_i f(x_i)\right]
$$
で定義されます。

経験ラデマッハ複雑度は、$S$上のランダムなラベル付けに対して関数集合$\mathcal{G}$のデータへの適合度を平均的に図っていることになります。
つまり，$\mathcal{F}$が複雑な関数を表現できるほど$\widehat{R}_S(\mathcal{F})$の値は大きくなります．

**ラデマッハ複雑度**

経験ラデマッハ複雑度をデータについて期待値を取ったものをラデマッハ複雑度と呼びます．

$$\mathcal{R}_n(\mathcal{F})=\mathbb{E}_{S\sim \mathcal{D}}[\widehat{\mathcal{R}}_S(\mathcal{F})]$$

---

## ラデマッハ複雑度による汎化誤差バウンド

さて，汎化誤差のバウンドに戻りましょう．
少し一般化した話を考えます．損失関数$\ell((x, y), h)$は$[a, b]$上の値を取る関数とします．また，
$\mathcal{H}$上の関数で計算される$\ell((\cdot, \cdot), h)$の集合を$\mathcal{L}$とします．つまり，$\mathcal{L}=\{((x, y), h) \mapsto \ell((x, y), h) \mid(x, y) \in \mathcal{X} \times \mathcal{Y}, h \in \mathcal{H}\}$とします．

### 1. $\sup_{h \in \mathcal{H}} R(h) - \hat{R}(h)$とゴールの関係を考えよう

データに依存した確率変数：
$$
\begin{aligned}
\hat{G}&=\sup_{h \in \mathcal{H}} R(h) - \hat{R}(h)\\
\hat{G}^-&=\sup_{h \in \mathcal{H}} -(R(h) - \hat{R}(h))\\
\end{aligned}
$$
とします．

次の状況を考えましょう（つまり，経験誤差と期待誤差が最もデカくなる仮説でも，その差は$\epsilon/ 2$で抑えられる状況です）
$$\mathbb{P}\left[\widehat{G}>\frac{\epsilon}{2}\right] \leq \frac{\delta}{2},\; \mathbb{P}\left[\widehat{G}^{-}>\frac{\epsilon}{2}\right] \leq \frac{\delta}{2}$$
ならば次が成立します．

$$\mathbb{P}\left[\sup_{h \in \mathcal{H}}|\hat{R}(h) - R(h)| > \epsilon / 2\right] \leq 
\mathbb{P}\left[\widehat{G}>\frac{\epsilon}{2}\right] + \mathbb{P}\left[\widehat{G}^- >\frac{\epsilon}{2}\right] \leq \delta$$

なので，
$\mathbb{P}\left[\widehat{G}>\frac{\epsilon}{2}\right] \leq \frac{\delta}{2},\; \mathbb{P}\left[\widehat{G}^{-}>\frac{\epsilon}{2}\right] \leq \frac{\delta}{2}$を示していきましょう．


## 2. $\hat{G}$をMcdirmidで使える形にしよう

$\hat{G}'$をデータの一つを変化させたものとします．このとき，
$$
\hat{G}'=\sup_{h \in \mathcal{H}} R(h) - \hat{R}(h) + \frac{1}{n} (\ell - \ell')
$$
なので，$\hat{G} - \hat{G}' \leq \frac{b-a}{n}$が成り立つのはすぐにわかります．
すると，McDiarmidの不等式から，少なくとも$1-\delta / 2$の確率で

$$\widehat{G} \leq \mathbb{E}\left[\widehat{G}\right]+(b-a) \sqrt{\frac{\log \frac{2}{\delta}}{2 n}}$$

が成り立ちます．Hoeffdingでは固定された$h$に対して$R(h) - \hat{R}(h)$をバウンドしていきましたが，今回は$\sup_h R(h) - \hat{R}(h)$を直接バウンドしたいわけですね．$\sup$のせいで平均の形になっていないので，ここではMcdirmidで抑えています．

## 3. $\mathbb{E}[\hat{G}]$をラデマッハ複雑度で上から抑えよう


最後に
$$
\begin{aligned}
\mathbb{E}[\hat{G}]
&=\mathbb{E}_{S \sim \mathcal{D}}\left[\sup_{h\in\mathcal{H}} \mathbb{E}_{S' \sim \mathcal{D}}[\hat{R}'(h)] -\hat{R}(h)\right]\\
&\leq\mathbb{E}_{S \sim \mathcal{D}}\left[ \mathbb{E}_{S' \sim \mathcal{D}}\left[\sup_{h\in\mathcal{H}}\hat{R}'(h) -\hat{R}(h)\right]\right]\\
&=\mathbb{E}_{S \sim \mathcal{D}}\left[ \mathbb{E}_{S' \sim \mathcal{D}}\left[\sup_{h\in\mathcal{H}}\frac{1}{n}\sum_{i}\ell((x_i', y_i'), h) - \ell((x_i, y_i), h)\right]\right]\\
\end{aligned}
$$
が成り立ちます．

ここで，$\ell((x_i', y_i'), h) - \ell((x_i, y_i), h)$は期待値の計算に対称性があるので，その正負の符号は$S\sim \mathcal{D}$と$S'\sim \mathcal{D}$によってランダムに決まります．
よって，
$\ell' - \ell$と$\sigma\left(\ell' - \ell\right)$は同じ分布です．
以上から，上の式はさらに


$$
\begin{aligned}
&=\mathbb{E}_{S \sim \mathcal{D}}\left[ \mathbb{E}_{S' \sim \mathcal{D}}\mathbb{E}_\sigma\left[\sup_{h\in\mathcal{H}}\frac{1}{n}\sum_{i}\sigma_i\cdot\left(\ell((x_i', y_i'), h) - \ell((x_i, y_i), h)\right)\right]\right]\\
&\leq\mathbb{E}_{S \sim \mathcal{D}, \sigma}\left[\sup_{h\in\mathcal{H}}\frac{1}{n}\sum_{i}\sigma_i \cdot \ell((x_i, y_i), h)\right]
+ \mathbb{E}_{S' \sim \mathcal{D}, \sigma}\left[\sup_{h\in\mathcal{H}}\frac{1}{n}\sum_{i}(-\sigma_i) \cdot \ell((x_i', y_i'), h)\right]\\
&=2 \mathcal{R}_n(\mathcal{L})
\end{aligned}
$$

## 4. 汎化誤差バウンドと合体しよう

あとは[MATH_finite_hypothesis_bound.ipynb](MATH_finite_hypothesis_bound.ipynb)でやった
$$
R(h_S) - R(h_\mathcal{H})
\leq 
2 \sup_{h \in \mathcal{H}} |\hat{R}(h) - R(h)|
$$
と合体して終わりです．


## 仮説集合と正則化

トレードオフを調整するためには適切な仮説集合を獲得する必要があります。
適切な仮説集合を学習するための枠組みとして、正則化があります。

正則化では「大きな仮説集合から仮説を選ぶこと」に対してペナルティを課します。
複数の仮説集合$\mathcal{H}_1 \subset \cdots \subset \mathcal{H}_M$を用いて学習を行うとします。
仮説$h$に対するペナルティを$\Phi: \mathcal{H}_M \to \mathbb{R}_{\geq 0}$として、$m_1 < m_2$に対して、

$$h \in \mathcal{H}_{m_2},\; h' \in \mathcal{H}_{m_2} \setminus \mathcal{H}_{m_1} \Rightarrow\Phi(h) \leq \Phi(h')$$

を満たすような関数$\Phi$を考えると、大きな仮説集合に含まれる仮説に大きなペナルティが課されることになります。具体的な例としては、$\mathcal{H}_0$を空集合として、

$$\Phi(h) = \sum^M_{m=1} w_m \cdot {\bf 1} [h\in \mathcal{H}_m \setminus \mathcal{H}_{m-1}]$$

ここでさらに$0 < w_1, < w_2, \cdots$とすれば、大きな仮説集合に入った$h$には大きなペナルティが課されます。
これを使って、次のように仮説を学習することを考えます。


$$
\min_{h\in \mathcal{H}_M} \hat{R}(h) + \lambda \cdot \Phi (h)
$$

こうすると、経験判別誤差が同じ仮説が複数ある場合、最も小さい仮説集合に入る仮説が選択されます。