05 活性化関数レイヤの実装
=====================

* ここでは、ニューラルネットワークを構成する「層(レイヤ)」を一つのクラスとして実装する

* まずは、活性化関数である`ReLU`と`Sigmoid`レイヤを実装する

## 1. ReLUレイヤ

* 活性化関数として用いられる`ReLU`(Rectified Linear Unit)は、以下の式で表された

\begin{eqnarray}
y = \left\{
\begin{array}{ll}
x & (x > 0) \\
0 & (x \leq 0)
\end{array}
\right.
\end{eqnarray}

* ここで、$x$に関する$y$の微分は、以下の式で表される

\begin{eqnarray}
\frac{\partial y}{\partial x} = \left\{
\begin{array}{ll}
1 & (x > 0) \\
0 & (x \leq 0)
\end{array}
\right.
\end{eqnarray}

* 順伝播時の入力である$x$が`0`より大きければ、逆伝播は上流の値をそのまま下流に流す

* 逆に、順伝播時に$x$が`0`以下であれば、逆伝播では下流への信号はそこでストップする

![ReLUレイヤの計算グラフ](./images/ReLUレイヤの計算グラフ.png)

* 次に、`ReLU`レイヤの実装を行う

    * ニューラルネットワークのレイヤの実装では、`forward()`や`backward()`の引数には、NumPy配列が入力されることを想定する

In [1]:
class Relu:
    def __init__(self):
        self.mask = None

    def forward(self, x):
        self.mask = (x <= 0)
        out = x.copy()
        out[self.mask] = 0

        return out

    def backward(self, dout):
        dout[self.mask] = 0
        dx = dout

        return dx

* `Relu`クラスは、インスタンス変数として`mask`という変数を持つ

    * この`mask`という変数は、True/FalseからなるNumPy配列
    
    * 順伝播の入力である`x`の要素で0以下の場所をTrue、それ以外(0より大きい要素)をFalseとして保持する
    
    * 例)True/FalseからなるNumPy配列を`mask`変数は保持する

In [2]:
import numpy as np
x = np.array([[1.0, -0.5], [-2.0, 3.0]])
print(x)

[[ 1.  -0.5]
 [-2.   3. ]]


In [3]:
mask = (x <= 0)
print(mask)

[[False  True]
 [ True False]]


* 上の図で示すように、順伝播時の入力の値が0以下ならば、逆伝播の値は`0`となる

* そのため、逆伝播では、順伝播時に保持した`mask`を使って、上流から伝播された`dout`に対して、`mask`の要素がTrueの場所を`0`に設定する

> `ReLU`レイヤは、回路における「スイッチ」のように機能する
>
> 順伝播時に電流が流れていればスイッチをONにし、電流が流れなければスイッチをOFFにする
>
> 逆伝播時には、スイッチがONであれば電流がそのまま流れ、OFFであればそれ以上電流は流れない

## 2. Sigmoidレイヤ

* 次に、シグモイド関数を実装する

\begin{eqnarray}
y = \frac{1}{1+\exp(-x)}
\end{eqnarray}

* これを計算グラフで示すと、以下の図となる

    * 「expノード」：$y=\exp(x)$の計算を行う
    
    * 「/ノード」：$y=\frac{1}{x}$の計算を行う

![Sigmoidレイヤの計算グラフ](./images/Sigmoidレイヤの計算グラフ.png)

* 上の式の計算は、局所的な計算の伝播によって構成される

    * ここで、上の図の計算グラフの逆伝播を行う

### ステップ1

* 「/ノード」は$y=\frac{1}{x}$を表すが、この微分は以下の式で表される

\begin{eqnarray}
\frac{\partial y}{\partial x} = -\frac{1}{x^2}=-y^2
\end{eqnarray}

* ゆえに、逆伝播の時は、上流の値に対して$-y^2$を乗算して下流へ返す

![ステップ1](./images/ステップ1.png)

### ステップ2

* 「+ノード」は、上流の値を下流にそのまま流すだけ

![ステップ2](./images/ステップ2.png)

### ステップ3

* 「expノード」は$y= \exp (x)$を表し、その微分は次の式で表される

\begin{eqnarray}
\frac{\partial y}{\partial x} = \exp (x)
\end{eqnarray}

* 計算グラフでは、上流の値に対して、順伝播時の出力($\exp (-x)$)を乗算して下流へ伝播する

![ステップ3](./images/ステップ3.png)

### ステップ4

* 「$\times$ノード」は、順伝播時の値を"ひっくり返して"乗算する

    * ここでは$-1$を乗算する
    
![ステップ4](./images/ステップ4.png)

* 上のようにして、計算グラフからSigmoidレイヤの逆伝播を行うことができた

    * 上の結果から、逆伝播の出力は$\frac{\partial L}{\partial y}y^2\exp (-x)$となり、この値が下流にあるノードに伝播していく

* ここで、大きくグループ化したものは、「sigmoid」ノードとして書くことができる

    * 簡略版の計算グラフの方が、逆伝播の際の途中の計算を省略することができるので、効率の良い計算と言える
    
    * また、ノードをグループ化することによって、Sigmoidレイヤの細かい中身を気にすることなく、その入力と出力だけに集中することができる

![Sigmoidレイヤの計算グラフ_簡略版](./images/Sigmoidレイヤの計算グラフ_簡略版.png)

* また、上の式はさらに次のように整理して書くことができる

\begin{eqnarray}
\frac{\partial L}{\partial y}y^2\exp (-x) = \frac{\partial L}{\partial y}\frac{1}{(1+\exp(-x))^2}\exp (-x) \\=
\frac{\partial L}{\partial y}\frac{1}{1+\exp(-x)}\frac{\exp (-x)}{1+\exp(-x)} \\=
\frac{\partial L}{\partial y}y(1-y)
\end{eqnarray}

* そのため、上の図で表されるSigmoidレイヤの逆伝播は、順伝播の出力だけから計算することができる

![Sigmoidレイヤ_順伝播のみ](./images/Sigmoidレイヤ_順伝播のみ.png)

* ここで、Sigmoidレイヤを実装する

In [4]:
class Sigmoid:
    def __init__(self):
        self.out = None

    def forward(self, x):
#         out = sigmoid(x)
        out = 1 / (1 + np.exp(-x))
        self.out = out
        return out

    def backward(self, dout):
        dx = dout * (1.0 - self.out) * self.out

        return dx

* この実装では、順伝播時に出力をインスタンス変数の`out`に保持しておく

* そして、順伝播時に、その`out`変数を使って計算を行う

| 版   | 年/月/日   |
| ---- | ---------- |
| 初版 | 2019/05/07 |