# 統計的学習理論

参考：
* [統計的学習理論 (機械学習プロフェッショナルシリーズ)](https://amzn.asia/d/5OudVVi)
* [Foundations of Machine Learning](https://cs.nyu.edu/~mohri/mlbook/)

入力空間から出力空間への関数のことを仮説と呼びます．
統計的学習理論はアルゴリズムが吐き出す仮説の**汎化性能**を評価する理論です．
汎化の能力の評価では大きく２つの要素を考えます：
1. どんなモデル（関数集合）を規定するか？
2. どんな問題（損失関数）を期待するか？

つまり，関数集合と損失関数に応じて汎化の理論を構築していくわけですね．

## 用語

汎化の具体的な理論を与える前に，いくつか用語を定義しておきます．

* 仮説$h$の予測損失：$R(h)=\mathbb{E}_{(X, Y)\sim D}[\ell(h(X), Y)]$
    * 他にも「Generalization error」，「risk」，「true error」など様々な呼び方があります．
* 仮説$h$の経験損失：$\hat{R}(h)=\frac{1}{n}\sum_{i=1}^n\ell(h(X_i), Y_i)=\mathbb{E}_{(X, Y)\sim \hat{D}}[\ell(h(X), Y)]$
    * ここで，確率$1/n$で$(X_i, Y_i)$に値を取る確率変数を$(X, Y)$とし，その分布を$\hat{D}$としました．

各データ$(X_i, Y_i)$が同一の分布$D$に従うとき、経験損失の期待値は予測損失に一致します。実際、$n$個の観測データの同時分布を$D^n$とすると、期待値の線型性から

$$\mathbb{E}_{D^n}[\hat{R}(h)]=\frac{1}{n}\sum_{i=1}^n\mathbb{E}_{D^n}\left[\ell(h(X_i), Y_i)\right] = R(h)$$

が成り立ちます。また、観測データが独立に同一の分布$D$に従うなら、大数の弱法則から

$$\lim_{n\to\infty} \operatorname{Pr}_{D^n}(|\hat{R}(h) - R(h)| > \varepsilon) = 0$$

が成り立ちます。

---

**大数の弱法則**

$X_1, \dots, X_n$を期待値$\mu$，有限の分散のi.i.d.な確率変数とします．このとき，

$$
\lim _{n \rightarrow \infty} \operatorname{Pr}\left(\left|\frac{1}{n}\sum_{i=1}^n X_i - \mu\right| \geq \varepsilon\right)=0 \quad \text { for all } \varepsilon>0
$$

が成立します（つまり経験平均が期待値$\mu$に確率収束してます）．

---


**ベイズ規則とベイズ誤差**

損失関数$\ell$を定めたとき、任意の可測関数$h: \mathcal{X} \to \mathcal{Y}$のもとでの予測損失の下限

$$\inf_{h:\text{可測}} R(h)$$

を$\ell$のもとでの**ベイズ誤差**といいます。この下限を達成する仮説が存在する場合、その仮説を **ベイズ規則（ベイズルール）** といいます。
さきほどの予測損失を振り返ると、タワールールより

$$R(h)=\mathbb{E}_{(X, Y)\sim D}[\ell(h(X), Y)]=\mathbb{E}_{X}[\mathbb{E}_Y[\ell(h(X), Y)|X]]$$
が成り立ちます。よって、各入力$X=x$における条件付き期待値

$$\mathbb{E}_Y[\ell(h(x), Y)|x]=\int_\mathcal{Y} \ell(h(x), y)dP(y|x)$$

を最小にする仮説$h$を選ぶと、予測誤差が最小になります。

---

**例（回帰問題）**

例えば損失関数が$\ell(\hat{y}, y)=(\hat{y}-y)^2$であるような回帰問題を考えましょう．
このとき，次が成立することに注意しましょう．
$$
\mathbb{E}_Y[\ell(h, Y)] = (h - \mathbb{E}[Y])^2 + V[Y]
$$
また，上の話から，ベイズ規則は$h(x) = \mathbb{E}[Y|x]$によって与えられます。
よって、ベイズ誤差は

$$
R(h) 
= \mathbb{E}_X\left[\int(y - \mathbb{E}[Y|X])^2dP(y|X)\right]
= \mathbb{E}_X[V[Y|X]] 
$$

で表現されます．

## アルゴリズムの汎化性能

データ$S=\{(X_1, Y_1), \dots, (X_n, Y_n)\}$を使ってアルゴリズムが吐き出す仮説を$h_S$としましょう．
また，ベイズ誤差を$R^*=\inf_h R(h)$と省略します．

アルゴリズムの汎化性能の解析では，主に次のような確率不等式を評価します．
$$\operatorname{Pr}_{S\sim D^n} (R(h_S) - R^* \geq \varepsilon) \leq \delta$$
これを達成するアルゴリズムはテスト時に$\varepsilon$以上の期待ミスをする確率が$\delta$以下になります．
さらにこれはマルコフの不等式から以下のように期待値で抑えることもできます．

$$
\operatorname{Pr}_{S\sim D^n} (R(h_S) - R^* \geq \varepsilon) \leq \frac{\mathbb{E}_{S\sim D^n}[R(h_S)] - R^*}{\varepsilon}
$$
<!-- このとき，観測データ$S$の分布$D^n$に関する期待予測損失は $\mathbb{E}_{S\sim D^n}[R(h_S)]$ となります． -->

ベイズ誤差に近い予測損失を達成する仮説を求められるアルゴリズムは、**統計的一致性**をもつといいます．

---

**統計的一致性**

任意の分布$D$と任意の$\varepsilon > 0$について、

$$
\lim_{n\to \infty} \operatorname{Pr}_{S\sim D^n} (R(h_S) \leq R^* + \varepsilon) = 0
$$

が成り立つとき、学習アルゴリズム$S\mapsto h_S$は統計的一致性を持つといいます。
（つまり，$n$が大きくなると出力の仮説の経験リスクがベイズ誤差に確率収束します．）

---

## 有限な仮説集合と汎化誤差

まずは有限な仮説集合についての汎化誤差の確率不等式を導出してみましょう．

---

**準備**

有限な仮説集合$\mathcal{H}=\{h_1, \cdots, h_T\}$における二値判別問題を考えてみます。
各仮説は入力空間$\mathcal{X}$から二値ラベル$\{+1, -1\}$への関数です。また、データ$S$に対する学習アルゴリズムの出力を，その経験誤差を最小にする仮説として，

$$h_S = \arg \min_{h\in \mathcal{H}} \hat{R}(h)$$

とします。ベイズ規則は$h_0$としましょう．ただし，$h_0$が$\mathcal{H}$に含まれるとは限りません。
さらに、$\mathcal{H}$の中で予測判別誤差を最小にする仮説を$h_\mathcal{H}$とします。

---

さて，上で見たように，次の確率不等式を考えたいわけです．
$$\operatorname{Pr}_{S\sim D^n} (R(h_S) - R^* \geq \varepsilon) \leq \delta$$
しかし，$R(h_S) - R^* \geq \varepsilon$の確率を求めるのは結構難しそうです．
そこで，単純に$R(h_S) - R^*$を評価するのではなく，それを評価しやすい量に分解して考えていきます．

まず、定義から

$$
\begin{aligned}
&R(h_0) \leq R(h_\mathcal{H}) \leq R(h_S)\\
&\hat{R}(h_S) \leq R(h_\mathcal{H})
\end{aligned}
$$

が成り立ちます。これを使って、ベイズ規則との予測判別誤差の差を次のように分解しましょう：

$$
\begin{aligned}
R(h_S) - R(h_0) &= 
R(h_S) - \hat{R}(h_S)  + \hat{R}(h_S) - 
R(h_\mathcal{H}) + R(h_\mathcal{H}) - R(h_0) \\
&\leq 
\underbrace{R(h_S) - \hat{R}(h_S)}_{(a)}  + 
\underbrace{\hat{R}(h_\mathcal{H}) - R(h_\mathcal{H})}_{(b)} 
+ \underbrace{R(h_\mathcal{H}) - R(h_0)}_{(c)} \\
\end{aligned}
$$

* この(b)は$h_\mathcal{H}$が固定なので，簡単に解析できます．実際，大数の弱法則では$\to 0$ですし，中心極限定理を使えば$O(1/\sqrt{n})$のオーダーで収束することがすぐにわかります．
* (c)はベイズ規則と仮説集合限界の性能の差です．この量は **近似誤差(bias)** と呼ばれ，次で定義されます：$\operatorname{bias}_\mathcal{H}=R(h_\mathcal{H}) - R(h_0)$
* (a)はそのままでは評価しづらそうです．実際，$h_S$が訓練データに依存するため，$\hat{R}(h_S)$は独立な$n$個の損失関数の和の評価ではありません．そこで，次のような分解を考えてみましょう．

$$
(a) = R(h_S) - \hat{R}(h_S)
\leq 
\max_{h\in \mathcal{H}} |\hat{R}(h) - R(h)| 
$$

これは(b)とまとめて良さそうです．つまり，

$$
(a) + (b) \leq 
2\max_{h\in \mathcal{H}} |\hat{R}(h) - R(h)| 
$$
として問題ありません．
この量はHoeffdingの不等式（教科書参照）とUnion Boundによって抑えることができます．

$$
\begin{aligned}
\operatorname{Pr}\left(2\max_{h\in \mathcal{H}}|\hat{R}(h) - R(h)| \geq \varepsilon \right)
&\leq \sum_{h\in \mathcal{H}} \operatorname{Pr}\left(2|\hat{R}(h) - R(h)| \geq \varepsilon \right)\\
&\leq \sum_{h\in \mathcal{H}} 2\exp(-2n(\varepsilon / 2)^2)\\
&= 2 |\mathcal{H}|\exp(-2n(\varepsilon / 2)^2)
\end{aligned}
$$
が成り立ちます。
変形すると、確率$1-\delta$以上で

$$
2 |\mathcal{H}|\exp(-2n(\varepsilon / 2)^2) \leq \sqrt{\frac{2}{n}\log{\frac{2|\mathcal{H}|}{\delta}}}
$$

が成り立ちます。
よって、汎化性能は確率$1 - \delta$以上で

$$
R(h_S) - R(h_0) \leq \sqrt{\frac{2}{n}\log{\frac{2|\mathcal{H}|}{\delta}}}+  R(h_\mathcal{H}) - R(h_0) 
$$

で抑えることができます．もう少し踏み込んで，確率オーダーを導入して評価してみましょう．

---

**確率オーダー**

確率変数列$\{Z_n\}_{n\in \mathbb{N}}$の確率オーダーが$\mathcal{O}_P(r_n)$であるとは、

$$
\lim_{z\to \infty} \lim \sup_{n\to \infty} \operatorname{Pr}(|Z_n|/r_n > z) = 0
$$

であることを意味します。

---

これを使うと，特に$h_0 \in \mathcal{H}$なら、

$$
R(h_S) = R(h_0) + \mathcal{O}_P\left(\sqrt{\frac{\log{|\mathcal{H}|}}{n}}\right)
$$

と評価できます．
この２項目は **推定誤差(variance)** と呼ばれ，$\operatorname{var}_\mathcal{H}=\sqrt{\frac{2}{n}\log{\frac{2|\mathcal{H}|}{\delta}}}$で定義されます．
biasとvarianceを使うと，

$$
R(h_S) - R(h_0) \leq \operatorname{bias}_{\mathcal{H}} + \operatorname{var}_{\mathcal{H}}
$$
が成立します．定義からbiasとvarianceにはトレードオフがあります．


## 仮説集合と正則化

トレードオフを調整するためには適切な仮説集合を獲得する必要があります。
適切な仮説集合を学習するための枠組みとして、正則化があります。

正則化では「大きな仮説集合から仮説を選ぶこと」に対してペナルティを課します。
複数の仮説集合$\mathcal{H}_1 \subset \cdots \subset \mathcal{H}_M$を用いて学習を行うとします。
仮説$h$に対するペナルティを$\Phi: \mathcal{H}_M \to \mathbb{R}_{\geq 0}$として、$m_1 < m_2$に対して、

$$h \in \mathcal{H}_{m_2},\; h' \in \mathcal{H}_{m_2} \setminus \mathcal{H}_{m_1} \Rightarrow\Phi(h) \leq \Phi(h')$$

を満たすような関数$\Phi$を考えると、大きな仮説集合に含まれる仮説に大きなペナルティが課されることになります。具体的な例としては、$\mathcal{H}_0$を空集合として、

$$\Phi(h) = \sum^M_{m=1} w_m \cdot {\bf 1} [h\in \mathcal{H}_m \setminus \mathcal{H}_{m-1}]$$

ここでさらに$0 < w_1, < w_2, \cdots$とすれば、大きな仮説集合に入った$h$には大きなペナルティが課されます。
これを使って、次のように仮説を学習することを考えます。


$$
\min_{h\in \mathcal{H}_M} \hat{R}(h) + \lambda \cdot \Phi (h)
$$

こうすると、経験判別誤差が同じ仮説が複数ある場合、最も小さい仮説集合に入る仮説が選択されます。