# 5.6 Affine/Softmaxレイヤの実装

## Affineレイヤ
ニューラルネットワークの順伝播で行う行列の内積は、幾何学のぶんやでは「アフィン関数」と呼ばれます。
そのため、ここではアフィン変換を行う処理を「Affineレイヤ」という名前で実装していきます。

In [8]:
# 行列の内積
import numpy as np
X = np.random.rand(2) # 入力
W= np.random.rand(2,3) # 重み
B = np.random.rand(3) # バイアス

print(X.shape )
print(W.shape)
print(B.shape)

Y = np.dot(X, W) + B
print(Y)

(2,)
(2, 3)
(3,)
[ 1.21027663  1.8742506   2.07828606]


ここでは、X,W,Bはそれぞれ形状が(2,)(2,3)(3,)の多次元配列であるとします。
ニューロンの重み付き和は、Y= np.dot(X, W) + Bのように計算できます。
そして、このUYが活性化関数によって変換され、次の層へ伝播される、というのがニューラルネットワークの順伝播でした。

![行列の内積では対応させる次元数を一致させる](https://files.slack.com/files-pri/T0FNB0BP1-F4LL63TE1/____________________________2017-03-20_11.18.00.png)

#### 行列の内積とバイアスの和を計算グラフで表す

![行列の内積とバイアス](https://files.slack.com/files-tmb/T0FNB0BP1-F4KS68G0G-f52fe97b49/____________________________2017-03-20_11.18.07_1024.png)

これまで見てきた計算グラフはスカラ値がノード間を流れていたが、この例では行列がノード間を伝播します。

#### 行列を対象とした逆伝播

$\frac{\partial L}{\partial X} = \frac{\partial L}{\partial Y}\cdot W^T $

$\frac{\partial L}{\partial W} = X^T \cdot \frac{\partial L}{\partial Y} $


$W^TのTは転置を表す$
$転置とは、Wの(i,j)の要素を(j,i)の要素に入れ替えることをいう$

実際数式で表すと以下のようになる。
Wの形状が(2,3)であるとすると、$W^T$の形状は(3,2)になる

$$W =  \left(
\begin{matrix}
w_{11} & w_{21} &  w_{31} \\
w_{12} & w_{22} &  w_{32} 
\end{matrix}
\right)
$$

$$W^T =  \left(
\begin{matrix}
w_{11} & w_{21} \\
w_{12} & w_{22} \\
w_{13} & w_{23}
\end{matrix}
\right)
$$

#### Affineレイヤの逆伝播
![Affineレイヤの逆伝播](https://files.slack.com/files-tmb/T0FNB0BP1-F4M8QPTSB-29c8744291/____________________________2017-03-20_11.59.11_1024.png)


$以下の数式より、 \rm X と \frac{\partial L}{\partial X} が同じ形状になる$

$X = (x_0, x_1, \cdots , x_n)$

$\frac{\partial L}{\partial X} = (\frac{\partial L}{\partial x_0}, \frac{\partial L}{\partial x_1}, \cdots , \frac{\partial L}{\partial x_n})$


### 行列の積
$[m行 n列 ] \cdot [n行 p列] = [m行 p列]$


$$
\begin{align}
\left(
\begin{matrix}
w_{11} & w_{21} &  w_{31}
\end{matrix}
\right)
& \cdot \left(
\begin{matrix}
w_{11} & w_{21} \\
w_{12} & w_{22} \\
w_{13} & w_{23}
\end{matrix}
\right)
&=
\left(
\begin{matrix}
w_{11} \\
w_{12} \\
w_{13}
\end{matrix}
\right)\\
(m行, n列) & \cdot (n行, p列)  &= (m行, p列)
\end{align}
$$
