# 仮説集合が無限のとき

[MATH_finite_hypothesis_bound.ipynb](MATH_finite_hypothesis_bound.ipynb)の続きです．
ちょっとおさらいしてみましょう．

* 実現可能なとき：$\hat{R}(h)=0$を満たす任意の$h$について，
$$
\mathbb{P}[R(\hat{h})>\epsilon] =\mathbb{P}\left[{h} \in \mathcal{H}_{>\epsilon}\right] 
\leq \sum_{h \in \mathcal{H}_{>\epsilon}} \mathbb{P}\left[\widehat{R}(h)=0\right]
\leq \left|\mathcal{H}\right| \exp (-\epsilon n)
$$
* 実現不可能なとき：
$R(h_S) - R(h_0) \leq {R(h_S) - \hat{R}(h_S)}  + {\hat{R}(h_\mathcal{H}) - R(h_\mathcal{H})} + {R(h_\mathcal{H}) - R(h_0)}$を使い，最初の２項をUnion boundで$|\mathcal{H}|$についてバウンド．

さて，無限のときは$\mathcal{H}$のサイズに対してUnion boundを取ってバウンドするやり方が通用しません．

無限の場合は次の
1. McDiarmidの不等式を使ってtail boundを期待値計算へ変換し，
2. その後ラデマッハ複雑度で無限集合のサイズを抑えます．

## McDiarmidの不等式

関数$f$が，任意の$x_1, \dots, x_n, x_i'$において以下を満たすとします．

$$
\left|f\left(x_1, \ldots, x_i, \ldots, x_n\right)-f\left(x_1, \ldots, x_i^{\prime}, \ldots, x_n\right)\right| \leq c_i
$$

また，$X_1, \dots, X_n$を独立な確率変数とします．このとき，
$$
\begin{aligned}
&\mathbb{P}\left[f\left(X_1, \ldots, X_n\right)-\mathbb{E}\left[f\left(X_1, \ldots, X_n\right)\right]>\epsilon\right] \leq \exp \left(-\frac{2 \epsilon^2}{\sum_{i=1}^n c_i^2}\right)\\
&\mathbb{P}\left[f\left(X_1, \ldots, X_n\right)-\mathbb{E}\left[f\left(X_1, \ldots, X_n\right)\right]\leq-\epsilon\right] \leq \exp \left(-\frac{2 \epsilon^2}{\sum_{i=1}^n c_i^2}\right) .
\end{aligned}
$$
が成立します．

これはつまり$X_1, \dots, X_n$の**関数**についての確率不等式です．
Hoeffdingはこの「関数」が「期待値」だっただけですね．
$f(X_1,\dots, X_n)=\frac{1}{n}\sum_i X_i$としましょう．$|X|\leq A$なら，

$$
\left|f\left(x_1, \ldots, x_i, \ldots, x_n\right)-f\left(x_1, \ldots, x_i^{\prime}, \ldots, x_n\right)\right| 
=\left|\frac{x_i - x_i'}{n}\right| \leq \frac{2A}{n}
$$

が成り立ちます．あとは$c_i$に上の式を代入すると，McDiarmidはHoeffdingを一般化していることがわかります．

また，$f$の取る値を$[a, b]$とすると，少なくとも$1-\delta$の確率で
$$
\left|f\left(X_1, \ldots, X_n\right)-\mathbb{E}\left[f\left(X_1, \ldots, X_n\right)\right]\right| \leq(b-a) \sqrt{\frac{n \log \frac{2}{\delta}}{2}}
$$
が成り立ちます．これは後で使います．

**証明**

McDiarmidの不等式を示すため，先に次のAzumaの不等式を示します．

---

**Azumaの不等式**

確率変数$X_i$, $Z_i$, $V_i$，$i=1, \dots, n$に対して，$V_i$は$X_1, \dots, X_i$の関数として表すことができ，$\mathbb{E}[V_i \mid X_1, \dots, X_{i-1}]=0$が成り立つとします．
また$Z_i$は$X_1, \dots, X_{i-1}$の関数として表すことができ，定数$c_1, \dots, c_n$が存在して$Z_i \leq V_i \leq Z_i + c_i$が成り立つとします．このとき，任意の$\varepsilon > 0$に対して

$$
\begin{aligned}
\operatorname{Pr}\left(S_n \geq \varepsilon\right) &\leq \exp \left\{-\frac{2\varepsilon^2}{\sum^{n}_{i=1}c_i^2}\right\}\\
\operatorname{Pr}\left(S_n \leq -\varepsilon\right) &\leq \exp \left\{-\frac{2\varepsilon^2}{\sum^{n}_{i=1}c_i^2}\right\}\\
\end{aligned}
$$
ここで部分和$\sum^k_{i=1} V_i$を$S_k$とおきました．

**証明**

$t=4\varepsilon / \sum^n_{i=1} c_i^2 > 0$とおくと，

$$
\begin{aligned}
\operatorname{Pr}(S_n \geq \varepsilon)
&\leq e^{-t\varepsilon} \mathbb{E}[e^{tS_n}]\\
&= e^{-t\varepsilon} \mathbb{E}_{X_1, \dots, X_{n-1}}[e^{tS_{n-1}}\mathbb{E}_{X_n}[e^{tV_n}\mid X_{1}, \dots, X_{n-1}]]\\
&\leq e^{-t\varepsilon} \mathbb{E}_{X_1, \dots, X_{n-1}}[e^{tS_{n-1}}]e^{t^2c_n^2/8}\\
&\leq e^{-t\varepsilon} e^{t^2\sum_{i=1}^n c_i^2/8}\\
&= e^{-2\varepsilon^2 / \sum_{i=1}^n c_i^2}\\
\end{aligned}
$$

ここで１行目はマルコフの不等式，２行目はタワールール，３行目は$X_1, \dots, X_{n-1}$で条件づけたおかげでHoeffdingが使えて，４行目はそれを繰り返し適用しています．

---

さて，McDiarmidの不等式を示しましょう．

$f(X_1, \dots, X_n)$を$f(S)$で略記します．また，$V_1, \dots, V_n$を
$$
V_k = 
\mathbb{E}[f(S) \mid X_1, \dots, X_k] - \mathbb{E}[f(S) \mid X_1, \dots, X_{k-1}] 
$$
とします．ここで$V_1$は$\mathbb{E}[f(S) \mid X_1] - \mathbb{E}[f(S)]$とします．
この$V_k$はAzumaの不等式の満たします（TODO:証明書く）．
これより，$\sum^n_{i=1} V_i = f(S) - \mathbb{E}[f(S)]$とすると，Azumaの不等式からMcdirmidの不等式も成り立ちます．

---



## ラデマッハ複雑度

ラデマッハ複雑度は次で定義されます：

---

**経験ラデマッハ複雑度**

実数値関数の集合$\mathcal{F}\subset\{f: \mathcal{X}\to \mathbb{R}\}$を考えます。
入力点の集合$S=\{x_1, x_2, \dots, x_n\}\subset \mathcal{X}$を考えます。
また、$+1$と$-1$を等確率で取る独立な確率変数を$\sigma_1, \dots, \sigma_n$とします。
このとき、$\mathcal{F}$の経験ラデマッハ複雑度は

$$
\widehat{\mathcal{R}}_S(\mathcal{F}) = \mathbb{E}_\sigma \left[\sup_{f\in \mathcal{F}} \frac{1}{n} \sum^n_{i=1}\sigma_i f(x_i)\right]
$$
で定義されます。

経験ラデマッハ複雑度は、$S$上のランダムなラベル付けに対して関数集合$\mathcal{G}$のデータへの適合度を平均的に図っていることになります。
つまり，$\mathcal{F}$が複雑な関数を表現できるほど$\widehat{R}_S(\mathcal{F})$の値は大きくなります．

**ラデマッハ複雑度**

経験ラデマッハ複雑度をデータについて期待値を取ったものをラデマッハ複雑度と呼びます．

$$\mathcal{R}_n(\mathcal{F})=\mathbb{E}_{S\sim \mathcal{D}}[\widehat{\mathcal{R}}_S(\mathcal{F})]$$

---

## ラデマッハ複雑度による汎化誤差バウンド

**補足：ここでのバウンドのやり方は[MATH_finite_hypothesis_bound.ipynb](MATH_finite_hypothesis_bound.ipynb)とはちょっと違うので面食らうかもしれない．後で似たようなバウンドの出し方について触れておく**

さて，汎化誤差のバウンドに戻りましょう．
少し一般化した話を考えます．損失関数$\ell((x, y), h)$は$[a, b]$上の値を取る関数とします．また，
$\mathcal{H}$上の関数で計算される$\ell((\cdot, \cdot), h)$の集合を$\mathcal{L}$とします．つまり，$\mathcal{L}=\{((x, y), h) \mapsto \ell((x, y), h) \mid(x, y) \in \mathcal{X} \times \mathcal{Y}, h \in \mathcal{H}\}$とします．

### 1. $\sup_{h \in \mathcal{H}} R(h) - \hat{R}(h)$とゴールの関係を考えよう

データに依存した確率変数：
$$
\begin{aligned}
\hat{G}&=\sup_{h \in \mathcal{H}} R(h) - \hat{R}(h)\\
\hat{G}^-&=\sup_{h \in \mathcal{H}} -(R(h) - \hat{R}(h))\\
\end{aligned}
$$
とします．

次の状況を考えましょう（つまり，経験誤差と期待誤差が最もデカくなる仮説でも，その差は$\epsilon/ 2$で抑えられる状況です）
$$\mathbb{P}\left[\widehat{G}>\frac{\epsilon}{2}\right] \leq \frac{\delta}{2},\; \mathbb{P}\left[\widehat{G}^{-}>\frac{\epsilon}{2}\right] \leq \frac{\delta}{2}$$
ならば次が成立します．

$$\mathbb{P}\left[\sup_{h \in \mathcal{H}}|\hat{R}(h) - R(h)| > \epsilon / 2\right] \leq 
\mathbb{P}\left[\widehat{G}>\frac{\epsilon}{2}\right] + \mathbb{P}\left[\widehat{G}^- >\frac{\epsilon}{2}\right] \leq \delta$$

なので，
$\mathbb{P}\left[\widehat{G}>\frac{\epsilon}{2}\right] \leq \frac{\delta}{2},\; \mathbb{P}\left[\widehat{G}^{-}>\frac{\epsilon}{2}\right] \leq \frac{\delta}{2}$を示していきましょう．


## 2. $\hat{G}$をMcdirmidで使える形にしよう

$\hat{G}'$をデータの一つを変化させたものとします．このとき，
$$
\hat{G}'=\sup_{h \in \mathcal{H}} R(h) - \hat{R}(h) + \frac{1}{n} (\ell - \ell')
$$
なので，$\hat{G} - \hat{G}' \leq \frac{b-a}{n}$が成り立つのはすぐにわかります．
すると，McDiarmidの不等式から，少なくとも$1-\delta / 2$の確率で

$$\widehat{G} \leq \mathbb{E}\left[\widehat{G}\right]+(b-a) \sqrt{\frac{\log \frac{2}{\delta}}{2 n}}$$

が成り立ちます．Hoeffdingでは固定された$h$に対して$R(h) - \hat{R}(h)$をバウンドしていきましたが，今回は$\sup_h R(h) - \hat{R}(h)$を直接バウンドしたいわけですね．$\sup$のせいで平均の形になっていないので，ここではMcdirmidで抑えています．

## 3. $\mathbb{E}[\hat{G}]$をラデマッハ複雑度で上から抑えよう


最後に
$$
\begin{aligned}
\mathbb{E}[\hat{G}]
&=\mathbb{E}_{S \sim \mathcal{D}}\left[\sup_{h\in\mathcal{H}} \mathbb{E}_{S' \sim \mathcal{D}}[\hat{R}'(h)] -\hat{R}(h)\right]\\
&\leq\mathbb{E}_{S \sim \mathcal{D}}\left[ \mathbb{E}_{S' \sim \mathcal{D}}\left[\sup_{h\in\mathcal{H}}\hat{R}'(h) -\hat{R}(h)\right]\right]\\
&=\mathbb{E}_{S \sim \mathcal{D}}\left[ \mathbb{E}_{S' \sim \mathcal{D}}\left[\sup_{h\in\mathcal{H}}\frac{1}{n}\sum_{i}\ell((x_i', y_i'), h) - \ell((x_i, y_i), h)\right]\right]\\
\end{aligned}
$$
が成り立ちます．

ここで，$\ell((x_i', y_i'), h) - \ell((x_i, y_i), h)$は期待値の計算に対称性があるので，その正負の符号は$S\sim \mathcal{D}$と$S'\sim \mathcal{D}$によってランダムに決まります．
よって，
$\ell' - \ell$と$\sigma\left(\ell' - \ell\right)$は同じ分布です．
以上から，上の式はさらに


$$
\begin{aligned}
&=\mathbb{E}_{S \sim \mathcal{D}}\left[ \mathbb{E}_{S' \sim \mathcal{D}}\mathbb{E}_\sigma\left[\sup_{h\in\mathcal{H}}\frac{1}{n}\sum_{i}\sigma_i\cdot\left(\ell((x_i', y_i'), h) - \ell((x_i, y_i), h)\right)\right]\right]\\
&\leq\mathbb{E}_{S \sim \mathcal{D}, \sigma}\left[\sup_{h\in\mathcal{H}}\frac{1}{n}\sum_{i}\sigma_i \cdot \ell((x_i, y_i), h)\right]
+ \mathbb{E}_{S' \sim \mathcal{D}, \sigma}\left[\sup_{h\in\mathcal{H}}\frac{1}{n}\sum_{i}(-\sigma_i) \cdot \ell((x_i', y_i'), h)\right]\\
&=2 \mathcal{R}_n(\mathcal{L})
\end{aligned}
$$

## 4. 汎化誤差バウンドと合体しよう

あとは[MATH_finite_hypothesis_bound.ipynb](MATH_finite_hypothesis_bound.ipynb)でやった
$$
R(h_S) - R(h_\mathcal{H})
\leq 
2 \sup_{h \in \mathcal{H}} |\hat{R}(h) - R(h)|
$$
と合体して終わりです．
最終的に，少なくとも$1-\delta$以上の確率で

$$
R(h_S) - R(h^*) \leq 4\mathcal{R}_n(\mathcal{L}) + (b-a) \sqrt{\frac{2\log \frac{2}{\delta}}{n}}
$$
です．

## 仮説集合に対してのラデマッハ複雑度

上で出したバウンドは$\mathcal{R}_n(\mathcal{L})$についてでした．
これは損失関数の集合に対しての複雑度であり，仮説集合$\mathcal{H}$についての複雑度ではありません．

そこで，損失関数についての複雑度を仮説集合についての複雑度に変形しましょう．

### バイナリ仮説のとき

* 仮説関数$h: \mathcal{X} \rightarrow\{-1,+1\}$の集合を$\mathcal{H}$
* 損失関数$\ell((x, y), h)=\mathbb{I}(y \neq h(x))$の集合を$\mathcal{L}_{0-1}$とします．

このとき，$\mathbb{I}(y \neq h(x))=\frac{1}{2}(1-y h(x))$であることを使えば，

$$
\begin{aligned}
\mathcal{R}_n(\mathcal{L}_{0-1})=
& \mathbb{E}_{\mathcal{D}}\left[\mathbb{E}_\sigma\left[\sup _{\ell \in \mathcal{L}} \frac{1}{n} \sum_{i=1}^n \underbrace{\frac{\sigma_i}{2}\left(1-y_i h\left(x_i\right)\right)}_{=\sigma_i \ell\left(\left(x_i, y_i\right), h\right)}\right]\right] \\
& \left.=\frac{1}{2} \mathbb{E}_{\mathcal{D}}\left[\mathbb{E}_\sigma\left[\sup _{h \in \mathcal{H}}\frac{1}{n} \sum_{i=1}^n \sigma_i+\frac{1}{n} \sum_{i=1}^n-\sigma_i y_i h\left(x_i\right)\right)\right]\right] \\
& =\frac{1}{2} \mathbb{E}_{\mathcal{D}}\left[\mathbb{E}_\sigma\left[\sup _{h \in \mathcal{H}} \frac{1}{n} \sum_{i=1}^n \underbrace{\left(-\sigma_i y_i\right)}_{\text {ランダムラベル}} h\left(x_i\right))\right]\right] \\
& =\frac{1}{2} \mathcal{R}_n(\mathcal{H})
\end{aligned}
$$

なので，
$$
\mathcal{R}_n(\mathcal{L}_{0-1})=
\frac{1}{2}\mathcal{R}_n(\mathcal{H})
$$
が示せました．


### 有限集合のラデマッハ複雑度

さて，上では損失関数のラデマッハ複雑度を仮説集合のラデマッハ複雑度に変形しました．続いて，有限集合のラデマッハ複雑度をさらに有限集合のサイズでバウンドします．

* 仮説関数$h: \mathcal{X} \rightarrow\{-1,+1\}$の集合を$\mathcal{H}$
* $\mathcal{H}$を有限集合

とします．
このとき，

$$
\mathcal{R}_n(\mathcal{H}) \leq \sqrt{\frac{2 \log |\mathcal{H}|}{n}}
$$
が成立します．これを示すために，先に次のMassartの有限仮説の補題を示しましょう．

---

**Massartの有限仮説の補題**

$\mathcal{A} \subset \mathbb{R}^n$を有限集合とし，
$$
\sup _{a \in \mathcal{A}} \|a\|_2^2 =
\sup _{\left(a_1, \ldots, a_n\right) \in \mathcal{A}} \sum_{i=1}^n a_i^2 \leq M^2
$$
とする．このとき，
$$
\mathbb{E}_\sigma\left[\sup _{\left(a_1, \ldots, a_n\right) \in \mathcal{A}} \frac{1}{n} \sum_{i=1}^n \sigma_i a_i\right] \leq \frac{\sqrt{2 M^2 \log |\mathcal{A}|}}{n}
$$
が成り立つ．

**証明**

一般に有限集合$\mathcal{X}$に対して
$$f\left(\boldsymbol{x}^*\right)=\sup _{\boldsymbol{x} \in \mathcal{X}} f(\boldsymbol{x})$$
を考えると，指数関数が単調増加関数なので，
$$
f\left(\boldsymbol{x}^*\right)=\log \left(\sup _{\boldsymbol{x} \in \mathcal{X}} \exp (f(\boldsymbol{x}))\right)
$$
が成立します．これを使うと，任意の$\lambda > 0$に対して

$$
\begin{aligned}
& \frac{\lambda}{n} \mathbb{E}_\sigma\left[\sup _{\left(a_1, \ldots, a_n\right) \in \mathcal{A}} \sum_{i=1}^n \sigma_i a_i\right] \\
& =\frac{1}{n} \mathbb{E}_\sigma\left[\log \left(\sup _{\left(a_1, \ldots, a_n\right) \in \mathcal{A}} \exp \left(\lambda \sum_{i=1}^n \sigma_i a_i\right)\right)\right] \\
& \leq \frac{1}{n} \mathbb{E}_\sigma\left[\log \left(\sum_{\left(a_1, \ldots, a_n\right) \in \mathcal{A}} \exp \left(\lambda \sum_{i=1}^n \sigma_i a_i\right)\right)\right] \\
& \leq \frac{1}{n} \log \left(\mathbb{E}_\sigma\left[\sum_{\left(a_1, \ldots, a_n\right) \in \mathcal{A}} \exp \left(\lambda \sum_{i=1}^n \sigma_i a_i\right)\right]\right] \\
& (\because \text { Jensen's inequality })\\
& =\frac{1}{n} \log \left(\sum_{\left(a_1, \ldots, a_n\right) \in \mathcal{A}} \mathbb{E}_\sigma\left[\prod_{i=1}^n \exp \left(\lambda \sigma_i a_i\right)\right]\right) \\
& =\frac{1}{n} \log \left(\sum_{\left(a_1, \ldots, a_n\right) \in \mathcal{A}} \prod_{i=1}^n \mathbb{E}_{\sigma_i}\left[\exp \left(\lambda \sigma_i a_i\right)\right]\right)\\
& =\frac{1}{n} \log \left(\sum_{\left(a_1, \ldots, a_n\right) \in \mathcal{A}} \prod_{i=1}^n\left[\frac{1}{2} \exp \left(\lambda a_i\right)+\frac{1}{2} \exp \left(-\lambda a_i\right)\right]\right) \\
& \leq \frac{1}{n} \log \left(\sum_{\left(a_1, \ldots, a_n\right) \in \mathcal{A}} \prod_{i=1}^n \exp \left(\frac{\lambda^2 a_i^2}{2}\right)\right)
\end{aligned}
$$
最後の不等式は，一般に$\frac{\exp (x)+\exp (-x)}{2} \leq \exp \left(\frac{x^2}{2}\right)$であることを使ってます．

さらに発展させると，

$$
\begin{aligned}
\frac{\lambda}{n} \mathbb{E}_\sigma\left[\sup _{\left(a_1, \ldots, a_n\right) \in \mathcal{A}} \sum_{i=1}^n \sigma_i a_i\right] & \leq \frac{1}{n} \log \left(\sum_{\left(a_1, \ldots, a_n\right) \in \mathcal{A}} \prod_{i=1}^n \exp \left(\frac{\lambda^2 a_i^2}{2}\right)\right) \\
& =\frac{1}{n} \log \left(\sum_{\left(a_1, \ldots, a_n\right) \in \mathcal{A}} \exp \left(\lambda^2 \sum_{i=1}^n \frac{a_i^2}{2}\right)\right) \\
& \leq \frac{1}{n} \log \left(\sum_{\left(a_1, \ldots, a_n\right) \in \mathcal{A}} \exp \left(\frac{\lambda^2 M^2}{2}\right)\right) \\
& =\frac{1}{n} \log \left(|\mathcal{A}| \exp \left(\frac{\lambda^2 M^2}{2}\right)\right) \\
& =\frac{1}{n} \log |\mathcal{A}|+\frac{1}{n} \frac{\lambda^2 M^2}{2} .
\end{aligned}
$$

あとは
$$
\lambda=\sqrt{2 \frac{\log |\mathcal{A}|}{M^2}}
$$
とおけば終わりです．

**補足：なぜ$\lambda$をいれるのか？**

$\lambda=1$のときを考えてみましょう．このとき，
$$\frac{1}{n} \frac{M^2}{2}$$
が出てきてしまいます．ここで，
$$
\sup _{\left(a_1, \ldots, a_n\right) \in \mathcal{A}} \sum_{i=1}^n a_i^2 \leq M^2
$$
なので，$M^2$はだいたい$n$くらいのオーダーなわけですね．すると，$\frac{1}{n} \frac{M^2}{2}$の部分がせっかく$n$で割ってるのに定数が残ってしまいます．これは嬉しくないので，$\log |\mathcal{A}|$の部分を犠牲にして$\sqrt{n}$のオーダーを出しています．


## 補足：ラデマッハ複雑度によるバウンドの別解

TODO: 後で書く．授業のLec 14.

## 補足：経験誤差と経験ラデマッハ複雑度

上での解析は$R(h_S) - R(h_\mathcal{H})$をバウンドしました．つまり，最も良い仮説とアルゴリズムが出した仮説の期待誤差を評価していたわけですね．

これも大事ですが，経験誤差$\hat{R}(h_S)$と期待誤差$R(h_S)$の差を評価するのも大事な解析です．

これは
$$
\begin{aligned}
R(\hat{h}) & =\widehat{R}(\hat{h})+R(\hat{h})-\widehat{R}(\hat{h}) \\
& \leq \widehat{R}(\hat{h})+\sup _{h \in \mathcal{H}}\left\{R(h)-\widehat{R}(h)\right\} \\
& \leq \widehat{R}(\hat{h})+2 \mathcal{R}(\mathcal{L})+(b-a) \sqrt{\frac{\log \frac{1}{\delta}}{2 n}}
\end{aligned}
$$
とすればラデマッハ複雑度で抑えることができます．

これは結局ラデマッハ複雑度で抑えており，ラデマッハ複雑度はデータについての期待値をとっています．上と似たような議論を使えば，ラデマッハ複雑度を経験ラデマッハ複雑度で抑えることができます．

TODO: 残りを書く．授業のLec 15．

## ラデマッハ複雑度の合成

上で見たように，ラデマッハ複雑度は損失関数の集合に対しての指標でした．
これまでは特に$0-1$損失しか見てこなかったので，損失関数（や仮説関数）が変わると使えません．つまり，まだ具体的な推定モデル（L2正則化線形モデルなど）を考えると，今までの理論じゃ不十分なわけですね．

次に示すTalagrandの補題を使うと合成関数に対してのラデマッハ複雑度を計算できます．ニューラルネットワークなどは合成関数なのでTalagrandの補題が活躍します．

---

**補題：Ledoux-Talagrand contraction lemma**

$\phi: \mathbb{R}\to \mathbb{R}$を$L_\phi$-Lipschitzな連続関数とします．つまり$|\phi(x)-\phi(y)| \leq L_\phi|x-y|$です．
$\mathcal{F} \subset \mathbb{R}^n$のとき，
$$
\mathbb{E}\left[\sup _{f \in \mathcal{F}} \frac{1}{n} \sum_{i=1}^n \sigma_i \phi\left(f_i\right)\right] \leq L_\phi \mathbb{E}\left[\sup _{f \in \mathcal{F}} \frac{1}{n} \sum_{i=1}^n \sigma_i f_i\right]
$$
が成り立ちます．つまり，$R(\phi(\mathcal{F})) \leq L_\phi R(\mathcal{F})$です．

---

これはつまり，損失や仮説の集合$\mathcal{F}$を$\phi$で変形したとき，そのラデマッハ複雑度がリプシッツ定数でスケールすることを表しています．

証明は後でやります．先に使用例を見てみましょう．

* 二乗誤差（厳密に言えばこれはリプシッツ連続ではないですが，打ち切れば良いです）：
$\ell((x, y), h)=\phi(f((x, y), h))=\|y-h(x)\|_2^2$を考えましょう．このとき
$$\phi(f)=\|f\|_2^2, f((x, y), h)=y-h(x)$$
* ヒンジ損失：$\ell((x, y), h)=\phi(f((x, y), h))=\max \{0,1-y h(x)\}$を考えましょう．このとき，
$$\phi(f)=\max \{0, f\}, f((x, y), h)=1-y h(x)$$

ヒンジ損失についてのラデマッハ複雑度を出してみましょう．

$f((x, y), h)=1-y h(x)$の集合を$\mathcal{F}$とすると，

$$
\begin{aligned}
R_n(\mathcal{F}) & =\mathbb{E}_{\mathcal{D}}\left[\mathbb{E}_\sigma\left[\sup _{f \in \mathcal{F}} \frac{1}{n} \sum_{i=1}^n \sigma_i\left(1-y_i h\left(x_i\right)\right)\right]\right] \\
& \left.=\mathbb{E}_{\mathcal{D}}\left[\mathbb{E}_\sigma\left[\sup _{h \in \mathcal{H}} \frac{1}{n} \sum_{i=1}^n \sigma_i+\frac{1}{n} \sum_{i=1}^n-\sigma_i y_i h\left(x_i\right)\right)\right]\right] \\
& =\mathbb{E}_{\mathcal{D}}[\mathbb{E}_\sigma[\sup _{h \in \mathcal{H}} \frac{1}{n} \sum_{i=1}^n \underbrace{\left(-\sigma_i y_i\right)}_{\text {ランダムラベル }} h\left(x_i\right))]]=R_n(\mathcal{H})
\end{aligned}
$$

より，$f((x, y), h)=1-y h(x)$の集合のラデマッハ複雑度は仮説集合のラデマッハ複雑度と同じです．

ヒンジ損失のリプシッツ定数は１なので，Talagrandの補題から
$$
R_n(\mathcal{L}) \leq R_n(\mathcal{F})=R_n(\mathcal{H})
$$
が成り立ち，ヒンジ損失のラデマッハ複雑度を仮説集合のラデマッハ複雑度で抑えることができました．
（今回は上の変形で$\mathcal{R}_n(\mathcal{F}) = \mathcal{R}_n(\mathcal{H})$を出しましたが，これもTalagrandの補題で$\mathcal{R}_n(\mathcal{F}) \leq \mathcal{R}_n(\mathcal{H})$として抑えることができます．）

Talagrandの補題を証明しましょう．

**証明**

$$
\begin{aligned}
& \mathbb{E}\left[\sup _{f \in \mathcal{F}} \frac{1}{n} \sum_{i=1}^n \sigma_i \phi\left(f_i\right)\right] \\
& =\frac{1}{n} \mathbb{E}_{\sigma_1, \sigma_2, \ldots, \sigma_n}\left[\sup _{f \in \mathcal{F}} \sigma_1 \phi\left(f_1\right)+\sum_{i=2}^n \sigma_i \phi\left(f_i\right)\right] \\
& =\frac{1}{n} \mathbb{E}_{\sigma_2, \ldots, \sigma_n}\left[\frac{1}{2} \sup _{f \in \mathcal{F}}\left((+1) \phi\left(f_1\right)+\sum_{i=2}^n \sigma_i \phi\left(f_i\right)\right)\right. \\
& \left.\quad+\frac{1}{2} \sup _{f \in \mathcal{F}}\left((-1) \phi\left(f_1\right)+\sum_{i=2}^n \sigma_i \phi\left(f_i\right)\right)\right] \\
& =\frac{1}{n} \mathbb{E}_{\sigma_2, \ldots, \sigma_n}\left[\frac{1}{2} \sup _{f \in \mathcal{F}, f^{\prime} \in \mathcal{F}}\left(\phi\left(f_1\right)-\phi\left(f_1^{\prime}\right)\right)+\sum_{i=2}^n \sigma_i \phi\left(f_i\right)+\sum_{i=2}^n \sigma_i \phi\left(f_i^{\prime}\right)\right]
& \leq \frac{1}{n} \mathbb{E}_{\sigma_2, \ldots, \sigma_n}\left[\frac{1}{2} \sup _{f \in \mathcal{F}, f^{\prime} \in \mathcal{F}} L_\phi\left|f_1-f_1^{\prime}\right|+\sum_{i=2}^n \sigma_i \phi\left(f_i\right)+\sum_{i=2}^n \sigma_i \phi\left(f_i^{\prime}\right)\right] \\
& \leq\frac{1}{n} \mathbb{E}_{\sigma_2, \ldots, \sigma_n}\left[\frac{1}{2} \sup _{f \in \mathcal{F}, f^{\prime} \in \mathcal{F}} L_\phi|f_1-f_1^{\prime}|+\sum_{i=2}^n \sigma_i \phi\left(f_i\right)+\sum_{i=2}^n \sigma_i \phi\left(f_i^{\prime}\right)\right]\\
& =\frac{1}{n} \mathbb{E}_{\sigma_2, \ldots, \sigma_n}\left[\frac{1}{2} \sup _{f \in \mathcal{F}, f^{\prime} \in \mathcal{F}} L_\phi\left(f_1-f_1^{\prime}\right)+\sum_{i=2}^n \sigma_i \phi\left(f_i\right)+\sum_{i=2}^n \sigma_i \phi\left(f_i^{\prime}\right)\right]
\end{aligned}
$$

あとはこれを$1, \dots, n$まで繰り返せば終わりです．