# 安定性と汎化バウンド

[MATH_complexity_of_hypothesis.ipynb](MATH_complexity_of_hypothesis.ipynb)では、仮説集合の複雑度を使ったバウンドについて学びました。
別のバウンドの形式として、アルゴリズムのStabilityを使ったバウンドについて見てみましょう。

---

**Uniform Stability**

次のような経験リスク最小化を実現するアルゴリズムを考えます。

$$
\hat{f}_{\mathcal{D}}=\underset{f \in \mathcal{F}}{\operatorname{argmin}} \hat{R}(f ; \mathcal{D}):=\frac{1}{n} \sum_{i=1}^n \ell\left(z_i, f\right) \quad \text { for } \mathcal{D}=\left\{z_1, z_2, \ldots, z_n\right\} \in \mathcal{Z}^n,
$$

このとき、任意のデータセット$\mathcal{D}\in \mathcal{Z}^n$と、その$j$番目のサンプルを変化させたデータセット$\mathcal{D}_j=\left\{z_1, . ., z_j^{\prime}, \ldots, z_n\right\}$について、

$$
\sup _{z \in \mathcal{Z}}\left|\ell\left(z, \hat{f}_{\mathcal{D}}\right)-\ell\left(z, \hat{f}_{\mathcal{D}_j}\right)\right| \leq \beta
$$

であるとき、このアルゴリズムはUniformly $\beta$-stableであると言います。
$\beta$が小さくなるほど嬉しい性質を持ちます。

---

これはアルゴリズムについての話であることに注意しましょう。
また、上の話は
* 任意の$z\in \mathcal{Z}$
* 任意の$\mathcal{D}$
* 任意の$j$についての$\mathcal{D'}_j$

について成り立つことを想定するので、かなり強い仮定です。

---

**Uniform Stabilityの例**

* $n$個のデータポイント：$\mathcal{D}=\left\{z_1, z_2, \ldots, z_n\right\}$
* $z_i \sim \mathcal{N}(\mu, \sigma^2 I)$

これについて、次の最尤推定を考えましょう。

$$\hat{\mu}_{\mathcal{D}}=\underset{\mu \in \mathbb{R}^d}{\operatorname{argmin}} \frac{1}{n} \sum_{i=1}^n\left\|z_i-\mu\right\|^2=\frac{1}{n} \sum_{i=1}^n z_i \triangleq \bar{z}$$

このとき損失関数は$\ell(z, \mu)=\|z-\mu\|^2$です。また、各データが$\left\|z_i\right\| \leq \kappa$ almost surelyで成り立つとします。（成り立っていなくても、w.h.p.にすればいけます）

また、$\mathcal{D}'_j$上の期待値を$\bar{z}_j^{\prime}$とします。このとき、

$$
\begin{aligned}
& \left|\ell\left(z, \hat{\mu}_{\mathcal{D}}\right)-\ell\left(z, \hat{\mu}_{\mathcal{D}_j}\right)\right|=\left|\left\|z-\hat{\mu}_{\mathcal{D}}\right\|^2-\left\|z-\hat{\mu}_{\mathcal{D}_j}\right\|^2\right|, \\
& =||\left|z-\bar{z}\left\|^2-\right\| z-\bar{z}_j^{\prime} \|^2\right| \text {, } \\
& =\left|\langle 2 z-\bar{z}-\bar{z}_j^{\prime}, \underbrace{\bar{z}-\bar{z}_j^{\prime}}_{=\left(z_j-z_j^{\prime}\right) / n}\rangle\right|, \quad \text { by Cauchy-Schwartz } \downarrow \\
& \leq \frac{1}{n} \underbrace{\left\|2 z-\bar{z}-\bar{z}_j^{\prime}\right\|}_{\leq 4 \kappa} \underbrace{\left\|z_j-z_j^{\prime}\right\|}_{\leq 2 \kappa} \leq \frac{8 \kappa^2}{n}:=\beta . \\
&
\end{aligned}
$$

なので、最尤推定は$\beta$-stableなアルゴリズムです。
また、データ数$n$が増えれば$\beta$も小さくなっていきます。

---

## Uniform Stabilityによるバウンド

このstabilityの概念を使って、次の汎化バウンドを導出できます。

---

経験リスク最小化アルゴリズムが$\beta$-stableであるとします。また、損失関数が$0 \leq \ell(z, f) \leq B$を満たすとします。
このとき、確率$1-\delta$以上で

$$
R(\hat{f})-R\left(f_*\right) \leq \beta+(\beta n+3 B) \sqrt{\frac{2 \log (1 / \delta)}{n}}
$$

が成り立ちます。

---

これは$\beta=o(1 / \sqrt{n})$でないと意味がないことに注意しましょう（二項目のせいです）。
大体のケースでは$\beta=\mathcal{O}(1 / n)$らしいです。


### 証明

証明にはラデマッハ複雑度を使います。

* $\hat{R}(f ; \mathcal{D})$：$\mathcal{D}$上の$f$による経験リスク

まず、

$$
R\left(\hat{f}_{\mathcal{D}}\right)-R\left(f_*\right)=\underbrace{\left[R\left(\hat{f}_{\mathcal{D}}\right)-\hat{R}\left(\hat{f}_{\mathcal{D}} ; \mathcal{D}\right)\right]}_{\text {not iid sum }}+\underbrace{\left[\hat{R}\left(\hat{f}_{\mathcal{D}} ; \mathcal{D}\right)-\hat{R}\left(f_* ; \mathcal{D}\right)\right]}_{\leq 0}+\underbrace{\left[\hat{R}\left(f_* ; \mathcal{D}\right)-R\left(f_*\right)\right]}_{\text {iid sum/n}},
$$

です。
[MATH_statistical_learning_theory.ipynb](MATH_statistical_learning_theory.ipynb)の証明では最初と最後の二項を合わせて$\leq 2 \sup _{f \in \mathcal{F}}|\hat{R}(f ; \mathcal{D})-R(f)|$でバウンドしていました。
Uniform Stabilityではそれぞれをバウンドします。

このバウンドには次のMcDiarmidの不等式を使います。

---

**McDiarmidの不等式**

$g: \mathcal{Z} \times \ldots \times \mathcal{Z} \rightarrow \mathbb{R}$を次を満たす関数とします。

$$
\left|g\left(z_1, \ldots, z_j, \ldots, z_n\right)\right|-g\left(z_1, \ldots, z_j^{\prime}, \ldots, z_n\right) \mid \leq c_j
$$

このとき、独立した確率変数$z_1, z_2 \ldots, z_n$について、

$$
\mathbb{P}\left(g\left(z_1, \ldots, z_n\right)-\mathbb{E}\left[g\left(z_1, \ldots, z_n\right)\right] \geq \epsilon\right) \leq \exp \left\{\frac{-2 \epsilon^2}{\sum_{i=1}^n c_i^2}\right\}
$$

が成り立ちます（TODO: 証明）

---

（Hoeffdingの不等式はMcDiarmidの不等式で出せます。）
これを使ってUniform Stabilityのバウンドを導出しましょう。
まず、最後の項はMcDiarmidやHoeffdingによって簡単にバウンドできます。

$$
\hat{R}\left(f_* ; \mathcal{D}\right)-R\left(f_*\right) \leq B \sqrt{\frac{2 \log (2 / \delta)}{n}}
$$

最初の項をバウンドしましょう。
McDiarmidの不等式について、$g\left(z_1, \ldots, z_n\right)=R\left(\hat{f}_{\mathcal{D}}\right)-\hat{R}\left(\hat{f}_{\mathcal{D}} ; \mathcal{D}\right)$のときを考えます。

まず、Uniform stabilityの仮定から、

$$
\left|\hat{R}\left(\hat{f}_{\mathcal{D}} ; \mathcal{D}\right)-\hat{R}\left(\hat{f}_{\mathcal{D}_j} ; \mathcal{D}\right)\right| \leq \beta 
$$

が成り立っています。さらに、
$$
\begin{aligned}
\left|R\left(\hat{f}_{\mathcal{D}}\right)-R\left(\hat{f}_{\mathcal{D}_j}\right)\right| & =\left|\mathbb{E}\left[\ell\left(z, \hat{f}_{\mathcal{D}}\right)-\ell\left(z, \hat{f}_{\mathcal{D}_j}\right)\right]\right| \\
& \leq \mathbb{E}\left[\left|\ell\left(z, \hat{f}_{\mathcal{D}}\right)-\ell\left(z, \hat{f}_{\mathcal{D}_j}\right)\right|\right] \quad \text { by triangle ineq. } \\
& \leq \beta \quad \text { by uniform } \beta \text {-stability. }
\end{aligned}
$$
も成り立っています。
McDiarmidの不等式を使うために、$\left|g\left(z_1, \ldots, z_j, \ldots, z_n\right)-g\left(z_1, \ldots, z_j^{\prime}, \ldots, z_n\right)\right|$のバウンドを考えましょう。

$$
\begin{aligned}
& \left|g\left(z_1, \ldots, z_j, \ldots, z_n\right)-g\left(z_1, \ldots, z_j^{\prime}, \ldots, z_n\right)\right| \\
& =\left|R\left(\hat{f}_{\mathcal{D}}\right)-\hat{R}\left(\hat{f}_{\mathcal{D}} ; \mathcal{D}\right)-\left[R\left(\hat{f}_{\mathcal{D}_j}\right)-\hat{R}\left(\hat{f}_{\mathcal{D}_j} ; \mathcal{D}_j\right)\right]\right| \\
& \leq \underbrace{\left|R\left(\hat{f}_{\mathcal{D}}\right)-R\left(\hat{f}_{\mathcal{D}_j}\right)\right|}_{\leq \beta \text { by stability }}+\left|\hat{R}\left(\hat{f}_{\mathcal{D}} ; \mathcal{D}\right)-\hat{R}\left(\hat{f}_{\mathcal{D}_j} ; \mathcal{D}_j\right) \pm \hat{R}\left(\hat{f}_{\mathcal{D}_j}, \mathcal{D}\right)\right| \text { by triangle ineq. } \\
& \leq \beta+\underbrace{\left|\hat{R}\left(\hat{f}_{\mathcal{D}} ; \mathcal{D}\right)-\hat{R}\left(\hat{f}_{\mathcal{D}_j} ; \mathcal{D}\right)\right|}_{\leq \beta \text { by stability }}+\underbrace{\left|\hat{R}\left(\hat{f}_{\mathcal{D}_j} ; \mathcal{D}\right)-\hat{R}\left(\hat{f}_{\mathcal{D}_j} ; \mathcal{D}_j\right)\right|}_{=\frac{1}{n}\left|\ell\left(z_j, \hat{f}\right)-\ell\left(z_j^{\prime}, \hat{f}\right)\right| \leq \frac{2 B}{n}} \text { by triangle ineq. } \\
& \leq 2 \beta+\frac{2 B}{n} \triangleq c_j \text { in McDiarmid's inequality. }
\end{aligned}
$$

これをMcDiarmidの不等式に代入して、

$$
\begin{aligned}
\mathbb{P}(R\left(\hat{f}_{\mathcal{D}}\right)-\hat{R}\left(\hat{f}_{\mathcal{D}} ; \mathcal{D}\right) \geq \epsilon+\overbrace{\mathbb{E}\left[R\left(\hat{f}_{\mathcal{D}}\right)-\hat{R}_{\left.\left(\hat{f}_{\mathcal{D}} ; \mathcal{D}\right)\right]}\right)}^{\text {Need to control }}) & \leq \exp \left\{\frac{-2 \epsilon^2}{n(2 \beta+2 B / n)^2}\right\} \\
& \leq \exp \left\{\frac{-n \epsilon^2}{2(\beta n+B)^2}\right\} \frac{\delta}{2}
\end{aligned}
$$

を得ます。ほしかったのは$R\left(\hat{f}_{\mathcal{D}}\right)-\hat{R}\left(\hat{f}_{\mathcal{D}} ; \mathcal{D}\right)$なので、Need to controlと書いてある部分をなんとかしないといけません。

* $\mathcal{D}=\left\{z_1, \ldots, z_n\right\}$
* $\mathcal{D}'=\left\{z'_1, \ldots, z'_n\right\}$
* $\mathcal{D}_j=\left\{z_1, \ldots, z_j', \ldots, z_n\right\}$

とします。
このとき、$\hat{R}(f ; \mathcal{D})=\frac{1}{n} \sum_{i=1}^n \ell\left(z_i, f\right) \quad$ and $\quad \hat{R}\left(f ; \mathcal{D}_j^{\prime}\right)=\frac{1}{n} \sum_{i=1}^n \ell\left(z_i^{\prime}, f\right)$です。また、固定された$f$については、

$$
R(f)=\mathbb{E}[\ell(z, f)]=\mathbb{E}[\hat{R}(f, \mathcal{D})]=\mathbb{E}\left[\hat{R}\left(f, \mathcal{D}_j^{\prime}\right)\right]
$$

が成り立ちます。これを使うと、

$$
\begin{aligned}
\mathbb{E}\left[R\left(\hat{f}_{\mathcal{D}}\right)-\hat{R}\left(\hat{f}_{\mathcal{D}} ; \mathcal{D}\right)\right] & =\mathbb{E}_{\text {all }}\left[\mathbb{E}_z\left[\ell\left(z, \hat{f}_{\mathcal{D}}\right)\right]-\frac{1}{n} \sum_{i=1}^n \ell\left(z_i, \hat{f}_{\mathcal{D}}\right)\right] \\
& =\mathbb{E}\left[\mathbb{E}_{z_i^{\prime}}\left[\frac{1}{n} \sum_{i=1}^n \ell\left(z_i^{\prime}, \hat{f}_{\mathcal{D}}\right)\right]-\frac{1}{n} \sum_{i=1}^n \ell\left(z_i^{\prime}, \hat{f}_{\mathcal{D}_i}\right)\right] \\
& =\mathbb{E}\left[\mathbb{E}_{z_i^{\prime}}\left[\frac{1}{n} \sum_{i=1}^n \ell\left(z_i^{\prime}, \hat{f}_{\mathcal{D}}\right)-\ell\left(z_i^{\prime}, \hat{f}_{\mathcal{D}_i}\right)\right]\right] \\
& \leq \beta \text { by stability. }
\end{aligned}
$$

が成り立ちます。よって、

$$R\left(\hat{f}_{\mathcal{D}}\right)-\hat{R}\left(\hat{f}_{\mathcal{D}}\right) \leq \mathbb{E}\left[R\left(\hat{f}_{\mathcal{D}}\right)-\hat{R}\left(\hat{f}_{\mathcal{D}} ; \mathcal{D}\right)\right]+\frac{\epsilon}{2} \leq \beta+(\beta n+B) \sqrt{\frac{\log (2 / \delta)}{2 n}}$$

が確率$1-\delta / 2$以上で成り立ちます。
以上より、

$$
\begin{aligned}
R\left(\hat{f}_{\mathcal{D}}\right)-R\left(f_*\right) & \leq\left[R\left(\hat{f}_{\mathcal{D}}\right)-\hat{R}\left(\hat{f}_{\mathcal{D}} ; \mathcal{D}\right)\right]+0+\left[\hat{R}\left(f_* ; \mathcal{D}\right)-R\left(f_*\right)\right] \\
& \leq \beta+(\beta n+B) \sqrt{\frac{\log (2 / \delta)}{2 n}}+B \sqrt{\frac{2 \log (2 / \delta)}{n}} \\
& \leq \beta+(\beta n+3 B) \sqrt{\frac{\log (2 / \delta)}{2 n}}
\end{aligned}
$$

がバウンドとして成り立ちます。