# このページについて
一様収束と汎化解析にかんする勉強のまとめです．作成に当たっては、トン・ジャン先生の[機械学習のための数理解析](https://tongzhang-ml.org/)を大いに参考にさせていただきました。先生、本当にありがとうございます．

## Probably Approximately Correct Learning(PAC)

### 準備

PAC学習とは，ブール関数つまり分類関数を学習するアルゴリズムを解析するためのモデルです．

**設定**
* 未知の分布：$\mathcal{D}$
* 入力: $d$個の0か1からなるベクトル $X \in \{0,1\}^d$ 
* 真の関数:  $f_*: \{0,1\}^d \to \{0,1\}$ 
	*  $X$ を受け取って、0か1の出力を返します。conceptとも
* 概念クラス(関数の集合):  $\mathcal{C}$ 
* オラクル$\mathcal{O}$：$\mathcal{D}$ からサンプルされた$X$と，それを真の関数に入力した場合の出力$f_*(X)$ のペア$(X, Y)$を出力 
* 学習アルゴリズム：$\mathcal{A}$
* $\mathcal{O}$の呼び出し回数：$n$
* 訓練データ：$\mathcal{S}_n = \{(X_i, Y_i)\}_{i=1}^n$

**学習方法**
* $\mathcal{A}$ は$\mathcal{O}$を $n$ 回呼び出して $\mathcal{S}_n = \{(X_i, Y_i)\}_{i=1}^n$ をサンプルします．
* $\mathcal{A}$ は、このデータをもとに、 $\mathcal{C}$ の中から一つの関数 $\hat{f}$ を選び出して出力します．

**学習評価**
 $\hat{f}$ は、汎化誤差で評価されます。
$$
\operatorname{err}_{\mathcal{D}}(f) = \mathbb{E}_{X \sim \mathcal{D}} \mathbb{1}(f(x) \neq f_*(x)) 
$$
期待値展開をすると以下のようになります．
$$
\mathbb{E}_{X \sim \mathcal{D}} \mathbb{1}(f(x) \neq f_*(x)) = \sum_{x \in \{0,1\}^d} P(X=x) \cdot \mathbb{1}(f(x) \neq f_*(x))
$$
支持関数的なのが式内に入っており，実質的にはこの式は以下のように変形できます．
$$
\sum_{x \in \{0,1\}^d} P(X=x) \cdot \mathbb{1}(f(x) \neq f_*(x)) = \sum_{x \text{ s.t. } f(x) \neq f_*(x)} P(X=x)
$$
よって，
$$
\operatorname{err}_{\mathcal{D}}(f) = \operatorname{Pr}_{X \sim \mathcal{D}}(f(X) \neq f_*(X))
$$
です．つまり汎化誤差とは，$f$の予測が，$f_*$の値と異なる確率を示しており，この確率を最小化すれば，汎化できているというわけです．

### PAC learnable(定義3.3)
ある $\mathcal{A}$ が存在し、すべての $f_{*} \in \mathcal{C}$、 $\mathcal{D}$、 $\epsilon>0$、 $\delta \in(0,1)$ に対して、**以下の命題**が成り立つ場合、 $\mathcal{C}$ は**PAC learnable**です．

**命題**
$\mathcal{O}$ から $\mathcal{D}$ 上のサンプルに対して少なくとも $1-\delta$ の確率で、学習器は次を満たす関数 $\hat{f}$ を生成する．
$$
\operatorname{err}_{\mathcal{D}}(\hat{f}) \leq \epsilon
$$
言い換えると，
$$
\Pr(\operatorname{err}_{\mathcal{D}}(\hat{f}) \leq \epsilon) \geq 1-\delta
$$
$$
\Pr(\operatorname{Pr}_{X \sim \mathcal{D}}(f(X) \neq f_*(X)) \leq \epsilon) \geq 1-\delta
$$
が成立するという命題です．つまり，$f$の予測が，$f_*$の値と異なる確率が$\epsilon$より，低くなるとき，それが発生する確率は少なくとも $1-\delta$ であるということです．

### サンプル複雑度
$\operatorname{err}_{\mathcal{D}}(\hat{f}) \leq \epsilon$を満たすような関数を獲得するために必要なオラクルのサンプル数の下界をサンプル複雑度と言いいます．
例えば，$\operatorname{err}_{\mathcal{D}}(\hat{f}) \leq\sqrt{\frac{\ln(N/\delta)}{2n}}$だとします．右辺が，$\epsilon$以下になるようなサンプル数を求めたいわけです．つまり，以下のように式変形をして下界を導出します．

$$ \sqrt{\frac{\ln(N/\delta)}{2n}} \leq \epsilon $$
$$ \frac{\ln(N/\delta)}{2n} \leq \epsilon^2 $$
$n$ について解くと，
$$ \frac{\ln(N/\delta)}{2\epsilon^2} \leq n $$
最終的に、
$$ n \geq \frac{\ln(N/\delta)}{2\epsilon^2} = \frac{\ln N + \ln(1/\delta)}{2\epsilon^2} $$

この結果から、この場合のサンプル複雑度は $n = O\left(\frac{\ln N + \ln(1/\delta)}{\epsilon^2}\right)$ となります．

**Empirical Risk Minimization(定義3.4)**
 $f \in \mathcal{C}$ のTraining Errorを次のように定義します．
$$ \widehat{\operatorname{err}}_{\mathcal{S}_{n}}(f) = \frac{1}{n} \sum_{i=1}^{n} \mathbb{1}(f(X_i) \neq Y_i) $$

### ユニオンバウンド(命題 3.5)
 $m$ 個の事象 $E_1, \dots, E_m$ に対して、以下の確率不等式が成り立ちます．よく使います．
$$ \operatorname{Pr}(E_1 \cup \dots \cup E_m) \leq \sum_{j=1}^m \operatorname{Pr}(E_j) $$

**有限仮説空間におけるERMのPACバウンド(定理3.6)**
 $N$ 個の要素を持つ $\mathcal{C}$ ,ある $\gamma > 0$ に対して $\epsilon' = \gamma^2 \frac{2 \ln(N/\delta)}{n}$ を満たす近似ERMアルゴリズムが出力する $\hat{f}$ は、
少なくとも確率 $1-\delta$ で、以下の汎化誤差バウンドを満たします
$$ \operatorname{err}_{\mathcal{D}}(\hat{f}) \leq (1+\gamma)^2 \frac{2 \ln(N/\delta)}{n} $$

**損失関数の単純化表記(定義 3.8)**
観測 $Z=(X,Y)$、パラメータ $w \in \Omega$、予測関数 $f(w, X)$、損失関数 $L(f(w, X), Y)$ 
*   **差分損失関数 ($\phi(w, z)$):**
$$ \phi(w, z) = L(f(w, x), y) - L_*(x, y) $$
*   **訓練損失 ($\phi(w, \mathcal{S}_n)$):** 
$$ \phi(w, \mathcal{S}_n) = \frac{1}{n} \sum_{i=1}^n \phi(w, Z_i) $$
*   **テスト損失 ($\phi(w, \mathcal{D})$):** 
$$ \phi(w, \mathcal{D}) = \mathbb{E}_{Z \sim \mathcal{D}} \phi(w, Z) $$




