
<!---- deploy info ---->

# ニューラルネットワークの基礎

------------
## このテキストについて

### テキストの目的

- ニューラルネットワークの基礎を知る
- 順伝播法を理解する
- 逆伝播法を理解する

### どのように学ぶか

基本である重回帰や一般化線形モデルを意識しながら完全に新しい手法として覚えるのではなく、今までの知識で記述できることを感じましょう。

------------

## ニューラルネットワークとは

一般にNeural NetworkはGeneralized Linear Modelの文脈で学ばれます。GLMの多出力・多層モデルがNNと同値関係あるからです。

一般化線形モデルを思い出してみましょう。

### 一般化線形モデル

行列を以下のような形で定義します。

$$
\hat{y} = 
  \begin{bmatrix}
    \hat{y_1} \\
    \hat{y_2} \\
    \vdots \\
    \hat{y_n}
  \end{bmatrix},
W = 
  \begin{bmatrix}
    w_0 \\
    w_1 \\
    w_2 \\
    \vdots \\
    w_d
  \end{bmatrix},
X = 
  \begin{bmatrix}
    x_{01} & x_{11} & \cdots & x_{d1} \\
    x_{02} & x_{12} & \cdots & x_{d2} \\
    \vdots & \vdots & \ddots & \vdots \\
    x_{0n} & x_{1n} & \cdots & x_{dn}
  \end{bmatrix} \\
$$

一般化線形モデルの枠組みでは、線形予測子 $\eta = XW$ をさらに関数に入れることで、誤差の分布を解析対象に沿うようなものにするものでした。

### 線形代数

GLMの多出力・多層モデルがNNと同値関係あるといいました。
これは、ニューラルネットワーク各層は全てGLMの多出力モデルと解釈できるためです。

行列を以下のように定義ます。

$$
X =
  \begin{bmatrix}
    X_{11} & X_{12} & \cdots & w_{1d} \\
    X_{21} & w_{22} & \cdots & w_{2d} \\
    \vdots & \vdots & \ddots & \vdots \\
    X_{n1} & X_{n2} & \cdots & w_{nd}
  \end{bmatrix},
W =
  \begin{bmatrix}
    w_{11} & w_{12} & \cdots & w_{1h} \\
    w_{21} & w_{22} & \cdots & w_{2h} \\
    \vdots & \vdots & \ddots & \vdots \\
    w_{d1} & w_{d2} & \cdots & w_{dh}
  \end{bmatrix},
B =
  \begin{bmatrix}
    B_{1} \\
    B_{2} \\
    \vdots \\
    B_{h}
  \end{bmatrix}
$$

$$
\hat{y} = XW + B
$$

$$
X \in \mathbb{R}^{(n \times d)},
W \in \mathbb{R}^{(d \times h)},
b \in \mathbb{R}^{(h)},
\hat{y} \in \mathbb{R}^{(n \times h)}
$$

$n$ : バッチサイズ

$d$ : 入力される特徴量の数

$h$ : 出力する特徴量の数

$d$ 次元空間にある $n$ 個のデータを $h$ 次元空間に写像するというイメージです。
線形回帰のイメージでは、求めたい目的変数が $h$ 個あるような状況で、それを同時に作るようなものです。

バイアス項は次元が合っていませんが、バッチ方向に同じ値を作って $B \in \mathbb{R}^{(n \times h)}$ と考えてください。

実装時はブロードキャストでこれを実現することができます。

*補足*
>線形写像というものがあります。簡単な例を出すと $f(x,y,z)=ax + by + cz$ のような関数は線形写像になります。この時、この関数 $f$ は ３次元ベクトル $(x,y,z)$ から、係数をかけて線形結合することでスカラー値にしています。\
こうした写像がどのような写像をするのかわかりやすく記述するため $f : \mathbb{R}^3 \rightarrow \mathbb{R}^1$ と書くことが多いです。\
見慣れないかもしれませんが、仮に $f(x,y,z)=(ax + by + cz,dx + ey + fz)$となる写像があるならこれは $f : \mathbb{R}^3 \rightarrow \mathbb{R}^2$ と書けます。\
この係数を取り出して、並べたものを行列として行列演算を定義しています。\
今回の例では、
$$
A =
  \begin{bmatrix}
    a & b & c \\
    d & e & f
  \end{bmatrix},
X = 
  \begin{bmatrix}
    x \\
    y \\
    z
  \end{bmatrix},\\
AX =
  \begin{bmatrix}
    ax + by + cz \\
    dx + ey + fz
  \end{bmatrix}
$$
となります。\
一般で考える場合、任意の自然数 $m,n$ において実数値行列$(m,n)$ は線形写像 $f:\mathbb{R}^m \rightarrow \mathbb{R}^n$ を実現します。複素数行列の場合には $f:\mathbb{C}^m \rightarrow \mathbb{C}^n$ となります。
余裕があればそういった観点も踏まえて、行列を考えてみましょう。

## ニューラルネットワーク

今回は活性化関数には$sigmoid$関数で、隠れ層が１層のNNを考えます。

まずはモデルが小さくても済むようにIrisを分類するモデルを考えることにしましょう。設定としては、まずは簡単にバッチサイズ１で中間層は５つのノードを持っているNNを考えることにします。出力層には多値分類のためソフトマックス関数を使います。

ソフトマックス関数とは $n$ 次元ベクトル $x$ のk番目の値を
$$
y_k = softmax(x_k) = \frac{exp(x_k)}{\sum^{n}_{i=1} exp(x_i)}
$$
このように正規化して確率解釈するための関数です。
イメージとしてはシグモイド関数の多値バージョンです。

Irisは特徴量が４で、ラベルは３種類なので、入力層のノード数と出力層のノード数はそれぞれ４、３になります。

このような図になるNNですね。
<a href="https://diveintocode.gyazo.com/d9ccc2a1ffe4aecdcf3dd469a1ca9c70"><img src="https://t.gyazo.com/teams/diveintocode/8f177f66ac7dbdc5dd33babd80b60a84.png" alt="Image from Gyazo" width="800"/></a>



この時それぞれの行列の形は

入力$X(1,4)$

$W_1(4,5),B_1(1,5)$

$W_2(5,3),B_2(1,3)$

となります。
仮にバッチサイズが１ではなくても、計算が定義できることを確認してください。

## 順伝播

順伝播は簡単です。

入力層 $\rightarrow$ 中間層
$$
A_1 = XW_1 + B_1\\
Z_1 = f_1(A_1) = A_1W_1 + B_1
$$

中間層 $\rightarrow$ 出力層
$$
A_2 = Z_1W_2 + B_2\\
y = f_2(A_2) = softmax(A_2)
$$

このように入力からの値を前に伝えていきます。

## 逆伝播

逆伝播では出力層から考えていきます。
出力層の先にはラベルがあります。
今回はIrisデータセットを例にしているので、
$$
t = \begin{bmatrix}1 & 0 & 0\end{bmatrix}
$$
等がラベルになります。

交差エントロピー誤差 $E$ は以下のように定義されます。

$$
E = - \sum_{b=1}^{1} \sum_{k=1}^3 t_k^{(b)} \log{y_k^{(b)}}
$$

外側の $i$ についてのシグマはバッチに対応しています。今回はバッチサイズを１として考えているので、必要ありませんが、一般化のため書いています。

これまでと同じようにこれを最小にするようにパラメータを最適させていきます。

最適化させたいパラメータは $W_1, B_1, W_2, B_2$ の四つです。

後ろの層から求めていきましょう。

偏微分における連鎖律という概念を利用して以下のように式変形できます。行列の微分は定義によって様々なのですが、今回は以下のようにして定義することができます。

$$
\frac{\partial E}{\partial W_2} = \frac{\partial A_2}{\partial W_2}^T \frac{\partial E}{\partial y} \frac{\partial y}{\partial A_2}
$$

ベクトルの微分になるので難しいかもしれませんが、納得感を得るだけでも大丈夫です。まずは右辺の$\frac{\partial E}{\partial y}$ を計算すると、

$$
\frac{\partial E}{\partial y_c} = - \frac{\partial}{\partial y_c} \sum_{k=1}^3 t_k \log{y_k}\\
= - \frac{t_c}{y_c}
$$

となります。$t_c=\{1,0\},y_c=(0,1)$です。

*数学的記法について補足*
>x=(0,1)：xが０より大きく１より小さい値をとる\
x={0,1}：xが０か１のどちらかをとる

次に $\frac{\partial y}{\partial A_2}$ を $i=c$ であるときと、そうでないときで計算が異なることに注意して

$i=c$の時、
($A_2$ の $i$ の要素を $A_{2i}$ とします。)
$$
\frac{\partial y_c}{\partial A_{2c}} = \frac{\partial}{\partial A_{2c}} \frac{exp(A_{2c})}{\sum^{3}_{i=1} exp(A_{2i})}\\
= \frac{exp(A_{2c}) \sum^{3}_{i=1} exp(A_{2i}) - exp(A_{2c})^2}{\bigl(\sum^{3}_{i=1} exp(A_{2i})\bigr)^2}\\
= \frac{exp(A_{2c}) \bigl( \sum^{3}_{i=1} exp(A_{2i}) - exp(A_{2c}) \bigr)}{\bigl(\sum^{3}_{i=1} exp(A_{2i})\bigr)^2}\\
= y_c (1-y_c)
$$

$i=c$ではない時、
$$
\frac{\partial y_i}{\partial A_{2c}} = \frac{\partial}{\partial A_{2c}} \frac{exp(A_{2i})}{\sum^{3}_{i=1} exp(A_{2i})}\\
= \frac{- exp(A_{2i})exp(A_{2c})}{\bigl(\sum^{3}_{i=1} exp(A_{2i})\bigr)^2}\\
= - y_c y_i
$$

これらをすべて行列表現にすると以下のようになることが示されました。

$$
\frac{\partial E}{\partial y} \frac{\partial y}{\partial A_2} 
= - \begin{bmatrix}\frac{t_0}{y_0} & \frac{t_1}{y_1} & \frac{t_2}{y_2}\end{bmatrix}
\begin{bmatrix}
  y_0 (1-y_0) & - y_0 y_1   & -y_0 y_2\\
  - y_1 y_0   & y_1 (1-y_1) & -y_1 y_2\\
  - y_2 y_0   & - y_2 y_1   & y_2 (1-y_2)
\end{bmatrix}\\
=\begin{bmatrix}
- t_0 (1-y_0) + t_1 y_0     + t_2 y_0\\
  t_0 y_1       - t_1 (1-y_1) + t_2 y_1\\
  t_0 y_2       + t_1 y_2     - y_2 (1-y_2)
\end{bmatrix}^T\\
= \begin{bmatrix}
  y_0 - t_0\\
  y_1 - t_1\\
  y_2 - t_2
\end{bmatrix}^T
$$

このように簡単な形になります。

最後に $\frac{\partial A_2}{\partial W_2}$ を求めます。

$$
\frac{\partial A_2}{\partial W_2} = \frac{\partial}{\partial W_2} (Z_1W_2 + B_2)
= Z_1
$$

したがって、

$$
\frac{\partial E}{\partial W_2} = \frac{\partial A_2}{\partial W_2}^T \frac{\partial E}{\partial y} \frac{\partial y}{\partial A_2}
= Z_1^T(y-t)
$$

それぞれの行列の形を確認しましょう。
$Z_1 \in \mathbb{R}^{(1 \times 5)},(y-t) \in \mathbb{R}^{(1 \times 3)}$ なので、$W_2 = Z_1(y-t) \in \mathbb{R}^{(5 \times 3)}$ となり問題なく一致しています。

$B_2$ 更新も考えましょう。

$$
\frac{\partial A_2}{\partial B_2} = \frac{\partial}{\partial B_2} (Z_1W_2 + B_2)
= I
$$

単位行列が出てきます。したがって以下のようにまとめられます。

$$
\frac{\partial E}{\partial B_2} = \frac{\partial A_2}{\partial B_2}^T \frac{\partial E}{\partial y} \frac{\partial y}{\partial A_2}
= (y-t)
$$


仮にバッチ数が増えても簡単に拡張できます。行方向にデータを増やせばいいだけです。

最終的に得られる $W_2,B_2$ の更新式は
$$
W_2^{(new)}= W_2^{(old)} - Z_1(y-t)\\
B_2^{(new)}= B_2^{(old)} - (y-t)
$$

です。

次に$W_1,B_1$の更新を考えてみましょう。

$$
\frac{\partial E}{\partial W_1} = \frac{\partial A_1}{\partial W_1}^T \frac{\partial E}{\partial Z_1} \frac{\partial Z_1}{\partial A_1}
$$

ニューラルネットワークにおけるもっとも重要な概念が$\frac{\partial E}{\partial A_i}=\frac{\partial E}{\partial Z_i} \frac{\partial Z_i}{\partial A_i}$になります。ここさえ押さえられればDeepも問題なく実装できます。

$$
\frac{\partial E}{\partial Z_1} = \frac{\partial E}{\partial A_2} \frac{\partial A_2}{\partial Z_1}\\
= (y-t)W_2^T
$$

合わせて$\frac{\partial Z_1}{\partial A_1}$も計算しておきます。これは活性化関数を微分するだけなので、

$$
\frac{\partial Z_1}{\partial A_1} = (1-sigmoid(A_1))sigmoid(A_1)
$$

となります。最後に$\frac{\partial A_1}{\partial W_1}^T$は、

$$
\frac{\partial A_1}{\partial W_1}^T = X^T
$$

となり、一層目での更新式が得られるようになりました。バイアスも同様に

$$
\frac{\partial A_1}{\partial B_1}^T = I
$$

となるので、簡単に求まります。

Deepに発展する際、$\frac{\partial E}{\partial A_i}$を常に上に渡して誤差を伝えていくことになります。
仮に上にもう一層あると考えてみましょう。

$$
\frac{\partial E}{\partial W_0} = \frac{\partial A_0}{\partial W_0}^T \frac{\partial E}{\partial Z_0} \frac{\partial Z_0}{\partial A_0}
$$

このうち$\frac{\partial E}{\partial Z_0}$ここを考えてみます。

$$
\frac{\partial E}{\partial Z_0} = \frac{\partial E}{\partial A_1} \frac{\partial A_1}{\partial Z_0}\\
= \frac{\partial E}{\partial A_1} W_1^T
$$

と、やはりここで必要になるわけです。$\frac{\partial E}{\partial A_1}$を実際に求めてみると、

$$
\frac{\partial E}{\partial A_1} = \frac{\partial E}{\partial Z_1} \frac{\partial Z_1}{\partial A_1}\\
= (y-t)W_2^T \odot (1-sigmoid(A_1))sigmoid(A_1)
$$

と求めることができるわけです。

オブジェクト指向を意識してLayerをクラスにして実装する場合の注意としては、その層でしか計算できないものがあるので、それをしっかりと別々にインスタンス変数などで保持して、上の層で必要なときに上の層で引き出せるようにしましょう。

## ニューラルネットワークを利用した次元圧縮

Auto Encoder(AE):出力層に入力に使った値を使った次元圧縮器

<a href="https://diveintocode.gyazo.com/d9ccc2a1ffe4aecdcf3dd469a1ca9c70"><img src="https://t.gyazo.com/teams/diveintocode/aaf063453957877d902a9885dae7c35a.png" alt="Image from Gyazo" width="800"/></a>

入力特徴量を任意の次元に小さくした後に、入力特徴量をできるだけ再現できるように学習させることで、最も情報が落ちないように情報を圧縮する手法です。

あまりAEを動かすことはないかと思いますが、VAEやそのほかの潜在空間を得るタイプのアーキテクチャを持つモデルはたくさんあります。その基本となっている考え方です。(厳密にいうとVAEはAEの文脈から生まれたものではありませんが）

活性化関数をすべて恒等関数にすると、PCAと同値になることが示されています。

