# 統計的学習理論

参考：
* [統計的学習理論 (機械学習プロフェッショナルシリーズ)](https://amzn.asia/d/5OudVVi)

入力空間から出力空間への関数のことを仮説と呼びます。
統計的学習理論とは、学習アルゴリズムにより得られる仮説の予測精度を評価し、性能を向上させるための指針を与える理論的枠組みです。

## 用語

* 仮説$h$の予測損失：$R(h)=\mathbb{E}_{(X, Y)\sim D}[\ell(h(X), Y)]$
* 仮説$h$の経験損失：$\hat{R}(h)=\frac{1}{n}\sum_{i=1}^n\ell(h(X_i), Y_i)$

経験損失は期待値を使って表すこともできます。データ数が$n$のとき、確率$1/n$で$(X_i, Y_i)$に値を取る確率変数を$(X, Y)$とします。この分布を$\hat{D}$とすれば、

$$\hat{R}(h)=\mathbb{E}_{(X, Y)\sim \hat{D}}[\ell(h(X), Y)]$$

と表すこともできます。

各データ$(X_i, Y_i)$が同一の分布$D$に従うとき、経験損失の期待値は予測損失に一致します。実際、$n$個の観測データの同時分布を$D^n$とすると、

$$\mathbb{E}_{D^n}[\hat{R}(h)]=\mathbb{E}_{D^n}\left[\frac{1}{n}\sum_{i=1}^n\ell(h(X_i), Y_i)\right] = R(h)$$

が成り立ちます。また、観測データが独立に同一の分布$D$に従うなら、大数の法則から

$\lim_{n\to\infty} \operatorname{Pr}_{D^n}(|\hat{R}(h) - R(h)| > \varepsilon) = 0$

が成り立ちます。

## ベイズ規則とベイズ誤差

損失関数$\ell$を定めたとき、任意の可測関数$h: \mathcal{X} \to \mathcal{Y}$のもとでの予測損失の下限

$$\inf_{h:\text{可測}} R(h)$$

を$\ell$のもとでのベイズ誤差といいます。この下限を達成する仮説が存在する場合、その仮説をベイズルールといいます。
さきほどの予測損失を振り返ると、タワールールより

$$R(h)=\mathbb{E}_{X}[\mathbb{E}_Y[\ell(h(X), Y)|X]]$$
が成り立ちます。よって、各入力$X=x$における条件付き期待値

$$\mathbb{E}_Y[\ell(h(x), Y)|x]=\int_\mathcal{Y} \ell(h(x), y)dP(y|x)$$

を最小にする仮説$h$を選ぶと、予測誤差が最小になります。

---

**例（回帰問題）**

例えば$\ell(\hat{y}, y)=(\hat{y}-y)^2$のとき、

$$
\mathbb{E}_Y[\ell(h, Y)] = (h - \mathbb{E}[Y])^2 + V[Y]
$$
このとき、ベイズ規則は$h(x) = \mathbb{E}[Y|x]$によって与えられます。
さらに、ベイズ誤差は

$$
R(h) = \mathbb{E}_X[V[Y|X]] = \mathbb{E}_X\left[\int(y - \mathbb{E}[Y|X])^2dP(y|X)\right]
$$

になります。


## 学習アルゴリズムの性能評価

**期待予測損失（リスク）による評価**

アルゴリズムに対して、データ$S=\{(X_1, Y_1), \dots, (X_n, Y_n)\}$から得られる仮説を$h_S$とします。
特に観測データ$S$の分布$D^n$に関する予測損失の期待値を期待予測損失（リスク）とよび、
$\mathbb{E}_{S\sim D^n}[R(h_S)]$
で定義されます。

期待予測損失の大小によって、学習アルゴリズムの平均的な性能を評価できます。

**確率的な評価**

ベイズ誤差を$R^*=\inf_h R(h)$とします。このとき、

$$\operatorname{Pr}_{S\sim D^n} (R(h_S) - R^* < \varepsilon) > 1 - \delta$$
が成り立つとします。このとき、$varepsilon$の値と$\delta$の値を調べることで性能を評価できます。

マルコフの不等式から、

$$
\operatorname{Pr}_{S\sim D^n} (R(h_S) - R^* \geq \varepsilon) \leq \frac{\mathbb{E}_{S\sim D^n}[R(h_S)] - R^*}{\varepsilon}
$$
が成り立ちます。

この左辺のように、ベイズ誤差に近い予測損失を達成する仮説を求められるアルゴリズムは、**統計的一致性**をもつといいます：

---

**統計的一致性**

任意の分布$D$と任意の$\varepsilon > 0$について、

$$
\lim_{n\to \infty} \operatorname{Pr}_{S\sim D^n} (R(h_S) \leq R^* + \varepsilon) = 0
$$

が成り立つとき、学習アルゴリズム$S\mapsto h_S$は統計的一致性を持つといいます。

---

## 有限な仮説集合の場合の学習

有限な仮説集合$\mathcal{H}=\{h_1, \cdots, h_T\}$における二値判別問題を考えてみます。

各仮説は入力空間$\mathcal{X}$から二値ラベル$\{+1, -1\}$への関数です。また、データ$S$に対する学習アルゴリズムの出力を

$$h_S = \arg \min_{h\in \mathcal{H}} \hat{R}_{err}(h)$$

とします（経験判別誤差を最小にしています）。分布$P$のもとでのベイズ規則は$h_0$としますが、$h_0$が$\mathcal{H}$に含まれるとは限りません。
さらに、$\mathcal{H}$の中で予測判別誤差を最小にする仮説を$h_\mathcal{H}$とします。

このとき、定義から

$$
\begin{aligned}
&R_{err}(h_0) \leq R_{err}(h_\mathcal{H}) \leq R_{err}(h_S)\\
&\hat{R}_{err}(h_S) \leq R_{err}(h_\mathcal{H})
\end{aligned}
$$

が成り立ちます。これを使って、ベイズ規則との予測判別誤差の差を次のようにバウンドします

$$
\begin{aligned}
R_{err}(h_S) - R_{err}(h_0) &= 
R_{err}(h_S) - \hat{R}_{err}(h_S)  + \hat{R}_{err}(h_S) - 
R_{err}(h_\mathcal{H}) + R_{err}(h_\mathcal{H}) - R_{err}(h_0) \\
&\leq 
R_{err}(h_S) - \hat{R}_{err}(h_S)  + \hat{R}_{err}(h_\mathcal{H}) - 
R_{err}(h_\mathcal{H}) + R_{err}(h_\mathcal{H}) - R_{err}(h_0) \\
&\leq 
2\max_{h\in \mathcal{H}} |\hat{R}_{err}(h) - R_{err}(h)| +  R_{err}(h_\mathcal{H}) - R_{err}(h_0) 
\end{aligned}
$$

この第一項をHoeffdingの不等式（教科書参照）を使ってバウンドします。

すると、

$$
\begin{aligned}
\operatorname{Pr}\left(2\max_{h\in \mathcal{H}}|\hat{R}_{err}(h) - R_{err}(h)| \geq \varepsilon \right)
&\leq \sum_{h\in \mathcal{H}} \operatorname{Pr}\left(2|\hat{R}_{err}(h) - R_{err}(h)| \geq \varepsilon \right)\\
&\leq \sum_{h\in \mathcal{H}} 2\exp(-2n(\varepsilon / 2)^2)\\
&= 2 |\mathcal{H}|\exp(-2n(\varepsilon / 2)^2)
\end{aligned}
$$
が成り立ちます。
変形すると、確率$1-\delta$以上で

$$
2 |\mathcal{H}|\exp(-2n(\varepsilon / 2)^2) \leq \sqrt{\frac{2}{n}\log{\frac{2|\mathcal{H}|}{\delta}}}
$$

が成り立ちます。
よって、

$$
R_{err}(h_S) - R_{err}(h_0) \leq \sqrt{\frac{2}{n}\log{\frac{2|\mathcal{H}|}{\delta}}}+  R_{err}(h_\mathcal{H}) - R_{err}(h_0) 
$$

です。

ここで、確率オーダーの尺度を導入して評価してみます。

---

**確率オーダー**

確率変数列$\{Z_n\}_{n\in \mathbb{N}}$の確率オーダーが$\mathcal{O}_P(r_n)$であるとは、

$$
\lim_{z\to \infty} \lim \sup_{n\to \infty} \operatorname{Pr}(|Z_n|/r_n > z) = 0
$$

であることを意味します。

---

すると、とくに$h_0 \in \mathcal{H}$なら、

$$
R_{err}(h_S) = R_{err}(h_0) + \mathcal{O}_P\left(\sqrt{\frac{\log{|\mathcal{H}|}}{n}}\right)
$$

と評価できます。


## 近似誤差と推定誤差

近似誤差（bias）と推定誤差（variance）を導入します。

* 近似誤差：$\operatorname{bias}_\mathcal{H}=R_{err}(h_\mathcal{H}) - R_{err}(h_0)$
* 推定誤差：$\operatorname{var}_\mathcal{H}=\sqrt{\frac{2}{n}\log{\frac{2|\mathcal{H}|}{\delta}}}$

このとき、