DeepLearningCourse vol.2
# ニューラルネットワーク

パーセプトロンの復習

パーセプトロンの活性化関数は、「ステップ関数」と呼ばれるものでした。この活性化関数を__シグモイド関数__と呼ばれる関数に変更することで、ニューラルネットワークになります。（シグモイド関数以外にも関数はあります。）

### シグモイド関数
ニューラルネットワークでよく用いられる活性化関数の一つは、以下で定義されるシグモイド関数です。

$$sigmoid(z) = \frac{1}{1+exp(-z)}$$

パーセプトロンとニューラルネットワークの違いは、この活性化関数だけなのです。

今後は、ステップ関数とシグモイド関数の違いについて見ていきましょう。

![](https://s3.amazonaws.com/ai-standard/pic-d2-1.png)


シグモイド関数はなめらかな曲線であり、__入力に対して連続的に出力が変化__します（0~1の数値）。

一方、ステップ関数は0を境に急に出力を変えています。すなわち、シグモイド関数と違って０と１のどちらかしか出力をしません。


２つの共通点は、ともに__非線形関数__だということです。

### ReLU
近年では、ReLU(Rectified Linear Unit)という関数が、活性化関数に用いられています。

ReLUは入力が０を越えていれば、その入力をそのまま出力し、0以下ならば０を出力する関数です。

$$ReLU(z) = \begin{eqnarray}
\left\{
\begin{array}{l}
x\ \ (x > 0) \\
0\ \ (x \leq 0)
\end{array}
\right.
\end{eqnarray}$$
![](https://s3.amazonaws.com/ai-standard/relu.png)

### 順伝播
![](https://s3.amazonaws.com/ai-standard/pic-2d-3.png)


ステップ関数ではない活性化関数を使ったパーセプトロンを以下の様に複数つなげたものを__ニューラルネットワーク__と呼びます。

![](https://s3.amazonaws.com/ai-standard/nn.png)

ニューラルネットワークは，重み$w$やバイアス$b$を調整し、隠れ層のニューロンを増やすことでどんな関数でも近似することが出来ます。そして、層を深くすれば、より精度よく近似できるようになります。

## 損失関数
### 2乗誤差
損失関数として最も有名なのは__２乗誤差__（mean squared error:MSE）でしょう。これは以下の様に表されます。

$$MSE = \frac{1}{2}\sum_{k}(y_k-t_k)^2$$

$y_k$は入力データに対する出力、$t_k$は対応する正解データを示しています。全データに対して正解データと出力の値が近いほど損失関数が小さくなります。つまり、損失関数が小さくなるように学習させることで、より正解データに近い値を出力するネットワークが学習されます。

### 交差エントロピー誤差
分類問題の場合は、交差エントロピー誤差が用いられます。これは以下の様に表されます。

$$E = - \sum_{k} t_k log y_k$$

ここで、logは底がeの自然対数を表します。$y_k$は入力データに対する出力、$t_k$は対応する正解ラベルを示しています。また、$t_k$は対応する正解ラベルとなるインデックスだけが１で、その他は０であるとします（one-hot表現）。

### ニューラルネットワークの学習

![](https://s3.amazonaws.com/ai-standard/pic-d2-4.png)

誤差Eを０になるべく近づけるように、$w$や$b$を調整していきます。

今回は直感的理解を得るために、以下のニューラルネットワークで学習の様子を勉強していくことにします。
![](https://s3.amazonaws.com/ai-standard/pic-d2-5.png)

パラメータの更新式は勾配降下法によって導くので以下の様に定義できます。

$$w^1_k = w^1_k - \alpha \frac{\partial E}{\partial w^1_k}$$

$$b_k = b_k - \alpha \frac{\partial E}{\partial b_k}$$

$$w^2_k = w^2_k - \alpha \frac{\partial E}{\partial w^2_k}$$

$$b = b_k - \alpha \frac{\partial E}{\partial b}$$

パラメータの微分を求められれば、更新していくことがわかりました。
では、どのようにして微分を求めればいいでしょうか？

これからは、効率よく微分を計算する方法である__誤差逆伝播法__という考え方を勉強していきます。

### 誤差逆伝播法（Back Propagation）
パラメータの更新式が得られたので、偏微分を計算していけば重みの学習ができるようになりました。

しかし、機械にとって偏微分が残っていると計算上の都合がよくありません。ですから、偏微分を解析的に計算して、機械にとって最適な計算ができるようにする必要があります。

まずは、偏微分を計算して、微分の項をなくしましょう。

まずは、$w^2_k$の更新に関してです。

$$w^2_k = w^2_k - \alpha \frac{\partial E}{\partial w^2_k}$$

この式における、$\frac{\partial E}{\partial w^2_k}$は、連鎖率を使うと

$$\frac{\partial E}{\partial w^2_k} = \frac{\partial E}{\partial y} \frac{\partial y}{\partial w^2_k}$$

のようになります。

![](https://s3.amazonaws.com/ai-standard/pic-d2-6.png)

まずは、$\frac{\partial E}{\partial y}$と$\frac{\partial y}{\partial w^2_k}$を求めます。

$$\frac{\partial E}{\partial y} = y-t$$

#### シグモイド関数の微分
$$\sigma (x)' = (1-\sigma(x))\sigma(x)$$

よって、
$$\frac{\partial y}{\partial w^2_k}　= (1-y)yu_k$$

以上より、

$$\frac{\partial E}{\partial w^2_k} = \frac{\partial E}{\partial y} \frac{\partial y}{\partial w^2_k} = (y-t)(1-y)yu_k$$

となります。

次に、bの更新に関してです。

$$b = b_k - \alpha \frac{\partial E}{\partial b}$$

$\frac{\partial E}{\partial b}$この部分を同様に表します。

$$\frac{\partial E}{\partial b}= \frac{\partial E}{\partial y} \frac{\partial y}{\partial b_k}$$

$$\frac{\partial y}{\partial b_k} = (1-y)y$$

以上より、

$$\frac{\partial E}{\partial b}= \frac{\partial E}{\partial y} \frac{\partial y}{\partial b_k}=(y-t)(1-y)y$$

となります。

### 中間層
![](https://s3.amazonaws.com/ai-standard/pic-d2-7.png)
$w^1_k$の更新についてです。
$$w^1_k = w^1_k - \alpha \frac{\partial E}{\partial w^1_k}$$という更新をします。

この偏微分で表された所は、連鎖率を使うと

$$\frac{\partial E}{\partial w^1_k} = \frac{\partial E}{\partial y} \frac{\partial y}{\partial u_k} \frac{\partial u_k}{\partial w^1_k} =(y-t)(1-y)yw^2_k(1-u_k)u_kx$$

となります。

そして、$b_k$に関しても同様に、

$$\frac{\partial E}{\partial b_k} = \frac{\partial E}{\partial y} \frac{\partial y}{\partial u_k} \frac{\partial u_k}{\partial b_k} =(y-t)(1-y)yw^2_k(1-u_k)u_k$$

となります。

これで偏微分項すべてを、yやtなどので表すことができました。

あとはこれを、コンピュータで何度も計算し、パラメータを修正していくだけです。


以上が、__誤差逆伝播法__の簡単な例でした。