## 3.4 3層ニューラルネットワークの実装
- "実践的"なニューラルネットワークの実装を行う
- Numpy 配列をうまく使うことで，ほんの少しのコードでニューラルネットワークのフォワード処理を完成させられる
- 3層ニューラルネットワーク（図3-15）を対象とする

![図3-15](images/fig_3_15.jpg)

補足
- フォワード処理: 入力から出力方向への伝達処理

（あとでこの計算過程を逆に辿りながら値を更新するバックワード（後進）処理があるため，恐らくここでは入力値と重みを使って出力値を計算する過程をフォワード（前進）処理と読んでいる）

### 3.4.1 記号の確認
- $x_{1}, x_{2}$: ニューロン（入力値）
- $a_{1}^{(1)}$: 第1層目の1番目のニューロン（出力値）
- $w_{12}^{(1)}$: 前層の2番目のニューロンから次層の1番目のニューロンへの重み


![図3-16](images/fig_3_16.jpg)

### 3.4.2 各層における信号伝達の実装
- 入力層から「第1層目の1番目のニューロン」への信号の伝達に着目（図3-17）
- この信号の伝達を式で表して，実際にプログラムで計算する
- 行列で表すと簡単にプログラムが書けるし，計算も速い

![図3-17](images/fig_3_17.jpg)

#### 信号伝達を式で表す

まず $a_{1}^{(1)}$ の計算は次のように表される．

$$a_{1}^{(1)} = w_{11}^{(1)} x_{1} + w_{12}^{(1)} x_{2} + b_{1}^{(1)}$$

同じように $a_{2}^{(1)}$, $a_{3}^{(1)}$ の計算は次のように表される．

$$
a_{2}^{(1)} = w_{21}^{(1)} x_{1} + w_{22}^{(1)} x_{2} + b_{2}^{(1)}
$$

$$
a_{3}^{(1)} = w_{31}^{(1)} x_{1} + w_{32}^{(1)} x_{2} + b_{3}^{(1)}
$$


これらを行列を使ってまとめると次のように表される．

$$
\left(\begin{array}{ccc} a_{1}^{(1)} & a_{2}^{(1)} & a_{2}^{(1)} \end{array}\right)
    = \left(\begin{array}{cc} x_{1} & x_{2} \end{array}\right)
    \left(\begin{array}{ccc}
        w_{11}^{(1)} & w_{21}^{(1)} & w_{31}^{(1)} \\
        w_{12}^{(1)} & w_{22}^{(1)} & w_{32}^{(1)} \\
    \end{array}\right)
    + \left(\begin{array}{ccc} b_{1}^{(1)} & b_{2}^{(1)} & b_{3}^{(1)} \end{array}\right)
$$

$$
A^{(1)} = X W^{(1)} + B^{(1)}
$$

これで Numpy 配列の行列計算を使って楽に実装できそう！

余談：どうしてこんなわざわざ行列を使った表現にするのか？
- Numpy 配列などを使って簡単にプログラムが書ける
- 行列計算のために作られたハードウェアに処理を任せることで高速に計算が行える

#### 入力層 -> 第1層の実装（図3-18）
- Numpy 配列を使って簡単に行列計算が書ける

![図3-18](images/fig_3_18.jpg)

実装する式

$$
A^{(1)} = X W^{(1)} + B^{(1)}
$$

$$
Z^{(1)} = h\left(A^{(1)}\right) = sigmoid\left(A^{(1)}\right)
$$

In [1]:
import numpy as np

In [2]:
# Numpy 配列の定義
X = np.array([1.0, 0.5])  # データの定義
W1 = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])  # 重みの定義（入力層 -> 第1層）
B1 = np.array([0.1, 0.2, 0.3])  # バイアスの定義（入力層 -> 第1層）

In [3]:
X.shape  # データの形

(2,)

In [4]:
W1.shape  # 重みの形

(2, 3)

In [5]:
B1.shape  # バイアスの形

(3,)

In [6]:
# フォワード処理（入力層 -> 第1層）
# 形は (3,) = (2,) (2, 3) + (3,)
A1 = np.dot(X, W1) + B1

In [7]:
A1  # 計算結果

array([0.3, 0.7, 1.1])

In [8]:
# 活性化関数の定義
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

In [9]:
#### 活性化関数
Z1 = sigmoid(A1)

In [10]:
Z1  # 計算結果

array([0.57444252, 0.66818777, 0.75026011])

#### 第1層 -> 第2層の実装（図3-19）
- 要素数が違うにも関わらず同じ書き方で計算を行うことができる

![図3-19](images/fig_3_19.jpg)

実装する式

$$
A^{(2)} = Z^{(1)} W^{(2)} + B^{(2)}
$$

$$
Z^{(2)} = h\left(A^{(2)}\right) = sigmoid\left(A^{(2)}\right)
$$

In [11]:
# 第1層から第2層に信号を伝達する，重みとバイアスの定義
W2 = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])  # 重みの定義（第1層 -> 第2層）
B2 = np.array([0.1, 0.2])  # バイアスの定義（第1層 -> 第2層）

In [12]:
Z1.shape  # データの形

(3,)

In [13]:
W2.shape  # 重みの形

(3, 2)

In [14]:
B2.shape  # バイアスの形

(2,)

In [15]:
# フォワード処理（第1層 -> 第2層）
A2 = np.dot(Z1, W2) + B2
Z2 = sigmoid(A2)

要素数が違っても同じ書き方で計算が行える！

#### 第2層 -> 出力層の実装（図3-20）
- 最後の活性化関数だけが違う（sigmoid function ではなく identity function を使う）

![図3-20](images/fig_3_20.jpg)

実装する式

$$
A^{(3)} = Z^{(2)} W^{(3)} + B^{(3)}
$$

$$
y = \sigma\left(A^{(3)}\right) = A^{(3)}
$$

In [16]:
# 第2層から出力層に信号を伝達する，重みとバイアスの定義
W3 = np.array([[0.1, 0.3], [0.2, 0.4]])  # 重みの定義（第2層 -> 出力層）
B3 = np.array([0.1, 0.2])  # バイアスの定義（第2層 -> 出力層）

In [17]:
# 活性化関数（恒等関数）の定義
def identity_function(x):
    return x

In [18]:
# フォワード処理
A3 = np.dot(Z2, W3) + B3
Y = identity_function(A3)

In [19]:
A3

array([0.31682708, 0.69627909])

In [20]:
Y

array([0.31682708, 0.69627909])

### 3.4.3 実装のまとめ
- これまでの実装をまとめて関数にする
- ネットワークの初期化とフォワード処理で関数を分けると便利
- Numpy を使ってニューラルネットワークの実装を効率的に行えることを確認

In [21]:
def init_network():
    network = {}
    network['W1'] = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]])
    network['b1'] = np.array([0.1, 0.2, 0.3])
    network['W2'] = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]])
    network['b2'] = np.array([0.1, 0.2])
    network['W3'] = np.array([[0.1, 0.3], [0.2, 0.4]])
    network['b3'] = np.array([0.1, 0.2])

    return network

In [22]:
def forward(network, x):
    W1, W2, W3 = network['W1'], network['W2'], network['W3']
    b1, b2, b3 = network['b1'], network['b2'], network['b3']

    a1 = np.dot(x, W1) + b1
    z1 = sigmoid(a1)
    a2 = np.dot(z1, W2) + b2
    z2 = sigmoid(a2)
    a3 = np.dot(z2, W3) + b3
    y = identity_function(a3)

    return y

In [23]:
network = init_network()  # ネットワークの定義・初期化
x = np.array([1.0, 0.5])  # 入力層の定義
y = forward(network, x)  # 出力層の計算（フォワード処理）

In [24]:
y  # 出力層の確認

array([0.31682708, 0.69627909])