## 5.6 Affine/Softmaxレイヤの実装

前のセクションまでで乗算、加算、ReLU, Sigmoidといった計算レイヤの逆伝播を実装してきた。

参考： https://sge.qiita.com/yoshinari_yuto/items/e07fc89c36e123a58b49

このセクションからニューラルネットワークの逆伝播を実装していく。具体的には、行列の積（幾何学でアフィン変換とよばれる）における逆伝播を考える。

### 5.6.1 Affineレイヤ

ニューラルネットワークの順伝播は次のように実装した。

In [9]:
import numpy as np

X = np.random.rand(2) # 入力
W = np.random.rand(2, 3) # 重み
B = np.random.rand(3) # バイアス

Y = np.dot(X, W) + B

さらにこのYは活性化関数によって変換され、次の層へ伝播される。

これまでのように、ここで行った行列の積とバイアスの和を計算グラフで表してみる。

図5-24

この図は比較的単純なグラフだが、X, W, Bがスカラ値ではなく行列であることに注意して逆伝播を考えていく。

最後のレイヤは単純に偏微分すれば良い。

$$
{\bf Y} = (y_1, y_2, y_3), \\
\frac{\partial L}{\partial {\bf Y}} =
\left ( \frac{\partial L}{\partial y_1}, \frac{\partial L}{\partial y_2}, \frac{\partial L}{\partial y_3} \right )
$$

次の加算レイヤの逆伝播はそのまま出力すればよかった。

$$
\frac{\partial L}{\partial ({\bf X} \cdot {\bf W})} = \frac{\partial L}{\partial {\bf Y}}, \\
\frac{\partial L}{\partial {\bf B}} = \frac{\partial L}{\partial {\bf Y}}
$$

最後のAffineレイヤ (アフィン変換を行う処理) は

$$
f = {\bf X} \cdot {\bf W}\\
\frac{\partial L}{\partial {\bf X}} = \frac{\partial L}{\partial f} \cdot \frac{\partial f}{\partial {\bf X}} =
\frac{\partial L}{\partial ({\bf X} \cdot {\bf W})} \cdot \frac{\partial ({\bf X} \cdot {\bf W})}{\partial {\bf X}}
= \frac{\partial L}{\partial {\bf Y}} \cdot {\bf W}^{\mathrm{T}}
$$
