## ニューラルネットワークの基礎

### 2.1 線型回帰
#### 2.1.1 最小二乗法による学習
$$
y = {\bf w}^T \phi (x) + \epsilon \\
= \sum_{m=1}^M w_m \phi_m (x) + \epsilon
$$
誤差関数を最小化することが目標  
誤差関数を二乗誤差にしてパラメータの学習をすることを最小二乗法という  
#### 2.1.2 基底関数の選択  
各関数$\phi_i:\mathbb{R}\rightarrow\mathbb{R}$
を基底関数という  
"線形"と呼ばれるのは基底関数のパラメータによる線形結合によって予測を行なっているため  
#### 2.1.3 過剰適合と正則化  
直感的には可能な限り次数の高い複雑な関数を使って回帰を実行する方が良いように思えるが  
パラメータ数の多い複雑なモデルを数が十分でない学習データに当てはめると過剰適合を起こす
#### 2.1.3.1 正則化項
誤差関数$$E(w) = \frac{1}{2} \sum_{n=1}^N \{ y_n - {\bf w}^T {\bf \phi} (x_n) \}^2$$に対してペナルティを与える項$$\Omega_{L2}(w) = \frac{1}{2}{\bf w}^T{\bf w}$$を追加し 
新たなコスト関数
$$
J(w) = E(w) + \lambda \Omega_{L2}(w)\\
(\lambda > 0)
$$で定義された式のパラメータに関する最小化を行う
- $\lambda$はペナルティ項の強さを調整する  

wの２次のペナルティ項を使った回帰の手法はリッジ回帰という
- ペナルティ項によって${\bf w}$の取りうる値に制限をかけて過剰適合を抑制する  
- この時の$J(w)$の勾配も計算できるので最小化を解析的に行える
- パラメータのとる値の大きさに関して二乗のスケールでペナルティが働くので特定のパラメータ$w_m$が極端に大きな値を持つことを抑制できる
    - wの各パラメータがまんべんなく値を持つようになる

L1正則化 $\Omega_{L1}(w) = \sum_{m=0}^{M-1} |w_m|$(絶対値で正則化) 
- パラメータのスケールに依存したペナルティにはなっていない
    - 特定の値だけが大きくなっている疎な学習結果になりやすい  
    
LASSO(least absolute shrinkage and selection operator)  
もよく使われるらしい(LASSOよくわからないので調べておく)
#### 2.1.3.2 正則化による学習の問題点  
1. 特徴量関数$\phi$を予め固定する必要がある
2. 実戦においてどの特徴量関数$\phi$の選択がデータの傾向を表しているかの判断が難しい
    - testデータに対する誤差から判断する(交差確認)という手はある
        - 学習データが削減されてしまう、生成モデルや教師なし学習で誤差の計算は同じようにはできないなどの問題点
        
3. 正規化項の設定指針が不明瞭
- ベイズ統計を用いることでより直観的な設計が可能になる(らしい)
    - 「関数に滑らかさや周期性などの性質を直接与えることによって直観的なモデリングを行うことを可能にする」？
        - 7章で扱う

4. 予測の不確実性を表現できない
- 不確実性を表す量が誤差最小化や正則化による学習にはない

### 2.2 ニューラルネットワーク

データから基底関数自体も学習する
- より広い関数の空間を考慮した回帰が行えるように  

#### 2.2.1 順伝搬型ニューラルネットワーク  
#### 2.2.1.1 2層の順伝搬型ニューラルネットワーク  
タスク：多次元の入力${\bf x_n}\in\mathbb{R}^{H_0}$から多次元のラベル${\bf y_n}\in\mathbb{R}^D$を予測する  
線形回帰で使った特徴量関数$\phi$の内部にさらに線形回帰を構成するモデルを考える  
$$
y_{n,d} = \sum_{h1=1}^{H_1} w_{d,h_1}^{(2)} \phi \left( \sum_{h_0=1}^{H_0} w_{h_1, h_0}^{(1)}x_n,h_0\right) + \epsilon_{n,d}. \\\\
この式はまとめて {\bf y}_n = {\bf W}^{(2)}{\bf \phi .}({\bf W}^{(1)}{\bf x}_n) + {\bf \epsilon}_n. とも表せるし\\\\
分解して
y_{n,d} = a_{n,d}^{(2)} + \epsilon_{n,d}, \\
a_{n,d}^{(2)} = \sum_{h_1=1}^{H_1} w_{d,h_1}^{(2)} z_n, h_1, \\
 z_n, h_1 = \phi (a_{n,h_1}^{(1)}),\\
 a_{n,h_1}^{(1)} = \sum_{h_0=1}^{H_0} w_{h_1,h_0}^{(1)} x_n, h_0.とも表せる
$$
この時の  
$w_{h_1,h_0}^{(1)}\in\mathbb{R}, w_{d,h_1}^{(2)}\in\mathbb{R}$をネットワークの重みパラメータ  
$z_{n,h_1}\in \mathbb{R}$を隠れユニット  
$a_{n,d}^{(2)}\in\mathbb{R}, a_{n,h_1}^{(1)}\in\mathbb{R}$など隠れユニットや入力値に対して重み付き和を取ったものを活性と呼ぶ  
#### 2.2.1.2 さまざまな活性化関数
ニューラルネットワークで用いられる基底関数を活性化関数と呼ぶ  
- 主に非線型関数が用いられる
$$
{\bfよく使われるもの}\\
シグモイド関数 Sig(x) = \frac{1}{1+e^{-x}}\\\\
双曲線正接関数 Tanh(x)=\frac{e^x - e^{-x}}{e^x+e^{-x}}\\ちなみに Tanh(x) = 2Sig(2x) -1 \\\\
$$
$$
累積分布関数 \Phi(x) = \int_{-\infty}^x {\it N}(t|0,1) dt\\\\
ガウスの誤差関数 Erf(x) = \frac{2}{\pi} \int_0^x exp(-t^2)dt\\\\
正規化線形関数 ReLU(x) = max(x,0)\\
指数線形関数 ELU(x) = \begin{eqnarray}
\left\{
\begin{array}{l}
x, \hspace{30pt}if\, x>0\\
a\{e^x -1 \}, \hspace{10pt}if\, x\leq0
\end{array}
\right.
\end{eqnarray}
$$
#### 2.2.1.3  ニューラルネットワークで表現される関数の例
隠れユニットの数を増やすと表現力が増す  
層数が2の順伝播型ニューラルネットワークでは隠れユニット層を増やすことで任意の連続関数を近似できる
- ニューラルネットワークの普遍性定理  

#### 2.2.1.4 複数層を持つ準伝播型ニューラルネットワーク  
$$
y_{n,d} = \sum_{h_{L-1}=1}^{H_{L-1}} w_{d,h_{L-1}}^{(L)} \phi \left(\sum_{h_{L-2}=1}^{H_{L-2}} w_{h_{L-1},h_{L-2}}^{(L-1)} ... \phi \left( \sum_{h_0=1}^{H_0} w_{h_1, h_0}^{(1)} x_{n,h_0} \right) ... \right)
$$
の式のように拡張する事もできる  
${\bf リンク関数}$  
従属変数が正規分布に従わない時、リンク関数でモデル化する事でモデルの正確さが向上する  

#### 2.2.2 勾配降下法とニュートン・ラフトン法  
#### 2.2.2.1 勾配降下法  
誤差が最小となる解が解析的に計算できない  
→計算機を使って数値的に最小値を求める→勾配降下法  
誤差関数がユークリッド距離の近傍で最も急に増加する方向を求め,逆向きの方向にパラメータを少しだけ動かす事で最適化を行う
$$
{\nabla _wE} = \left(\frac{{\partial E(w)}}{{\partial w_1}} ...\frac{{\partial E(w)}}{{\partial w_M}} \right)^T \\\\
w_{new} = w_{old} - \alpha {\nabla _w E(w)} |_{w=w_{old}}.
$$
学習率$\alpha$が大きいと学習が早い反面収束が安定しないが小さいと学習に時間がかかる  
#### ニュートン・ラフトン法  
二回微分で最適化を効率化する方法  
まず最小化したい誤差関数を$\bar{w}$周りのテイラー展開により二次近似する  
$${\small テイラー展開はf(x)の振る舞いがわかる点x_0からf(x)全体の振る舞いを予測する処理}$$
$$
E(w) \approx \bar{E}(w)\\\\
= E(\bar{w}) + {\nabla}_wE(w)|^T_{w=\bar{w}}(w-\bar{w}) + \frac{1}{2}(w-\bar{w})^T{\nabla _w^2E(w)}|_{w=\bar{w}}(w-\bar{w}).
$$