### 行列による順伝播の演算
パッチ学習やミニパッチ学習に対応するために、これ以降は層への入力、層への出力、及び正解を行列で表現する。  
今回は、行列を用いた順伝播の演算について見ていく。

### 行列の形式
以下に、バッチ学習やミニバッチ学習に対応した行列の形式を示す、  
それぞれ層への入力、層からの出力、正解を表す3つの行列が示されている。  

<img src="../images/matrix_batch.png">

これらの行列は行数がバッチサイズに等しく、列数はそれぞれ、層への入力数、層からの出力数、正解数となっています。  
層からの出力数は、層のニューロン数と等しくなります。  
これらの行列の各行は、各サンプルに対応します。    

例えばバッチサイズが8、入力数（上の層のニューロン数）が3であれば、層への入力を表す行列のサイズは8x3になります。

### 行列による順伝播伝播順伝播においては、行列積により入力と重みの積の総和を得ることができます。  
ニューロン数が$n$の層における順伝播を考えましょう。  
バッチサイズを$h$、入力の数（上の層のニューロン数）を$m$とすれば、入力を表す行列のサイズは、h x mになります。  
また、重みを表す行列のサイズをm x nとします。  

以下の式では、入力と重みの行列積を求めています。  
$X$が入力を表す行列で、$W$が重みを表す行列です。  

$$  \begin{aligned} \\
XW & = \left(
    \begin{array}{cc}
      x_{11} & x_{12} & \ldots & x_{1m} \\
      x_{21} & x_{22} & \ldots & x_{2m} \\
      \vdots & \vdots & \ddots & \vdots \\
      x_{h1} & x_{h2} & \ldots & x_{hm} \\
    \end{array}
  \right)
\left(
    \begin{array}{cccc}
      w_{11} & w_{12} & \ldots & w_{1n} \\
      w_{21} & w_{22} & \ldots & w_{2n} \\
      \vdots & \vdots & \ddots & \vdots \\
      w_{m1} & w_{m2} & \ldots & w_{mn} \\
    \end{array}
  \right) \\
  & = \left(
    \begin{array}{cccc}
      \sum\limits_{k=1}^m x_{1k}w_{k1} & \sum\limits_{k=1}^m x_{1k}w_{k2} & \ldots & \sum\limits_{k=1}^m x_{1k}w_{kn} \\
       \sum\limits_{k=1}^m x_{2k}w_{k1} & \sum\limits_{k=1}^m x_{2k}w_{k2} & \ldots & \sum\limits_{k=1}^m x_{2k}w_{kn} \\
      \vdots & \vdots & \ddots & \vdots \\
      \sum\limits_{k=1}^m x_{hk}w_{k1} & \sum\limits_{k=1}^m x_{hk}w_{k2} & \ldots & \sum\limits_{k=1}^m x_{hk}w_{kn} \\
    \end{array}
  \right)
  \end{aligned}
  $$ 

各要素が、入力と重みの積の総和である行列を得ることができました。  
この行列は、行数がバッチサイズで、列数がこの層のニューロン数になります。 

この行列にバイアスを足し合わせますが、バイアスはベクトルで形状が合わないので、Numpyのブロードキャストという機能を使用します。  
**ブロードキャスト**を使うと、各行に対してベクトルを足すことができます。  
バイアスは次のように表されます。

$$ \vec{b} = (b_1, b_2, \cdots, b_n) $$

このバイアスをブロードキャストにより足し合わせた行列は、以下のようになります。

$$  \begin{aligned} \\
U & = \left(
    \begin{array}{cccc}
      \sum\limits_{k=1}^m x_{1k}w_{k1}+b_{1} & \sum\limits_{k=1}^m x_{1k}w_{k2}+b_{2} & \ldots & \sum\limits_{k=1}^m x_{1k}w_{kn}+b_{n} \\
       \sum\limits_{k=1}^m x_{2k}w_{k1}+b_{1} & \sum\limits_{k=1}^m x_{2k}w_{k2}+b_{2} & \ldots & \sum\limits_{k=1}^m x_{2k}w_{kn}+b_{n} \\
      \vdots & \vdots & \ddots & \vdots \\
      \sum\limits_{k=1}^m x_{hk}w_{k1}+b_{1} & \sum\limits_{k=1}^m x_{hk}w_{k2}+b_{2} & \ldots & \sum\limits_{k=1}^m x_{hk}w_{kn}+b_{n} \\
    \end{array}
  \right)
  \end{aligned}
  $$ 

この行列の各要素を活性化関数$f$で処理し、出力$Y$を得ます。  

$$  \begin{aligned} \\
Y & = f(U) \\
 & = \left(
    \begin{array}{cccc}
      f(\sum\limits_{k=1}^m x_{1k}w_{k1}+b_{1}) & f(\sum\limits_{k=1}^m x_{1k}w_{k2}+b_{2}) & \ldots & f(\sum\limits_{k=1}^m x_{1k}w_{kn}+b_{n}) \\
       f(\sum\limits_{k=1}^m x_{2k}w_{k1}+b_{1}) & f(\sum\limits_{k=1}^m x_{2k}w_{k2}+b_{2}) & \ldots & f(\sum\limits_{k=1}^m x_{2k}w_{kn}+b_{n}) \\
      \vdots & \vdots & \ddots & \vdots \\
      f(\sum\limits_{k=1}^m x_{hk}w_{k1}+b_{1}) & f(\sum\limits_{k=1}^m x_{hk}w_{k2}+b_{2}) & \ldots & f(\sum\limits_{k=1}^m x_{hk}w_{kn}+b_{n}) \\
    \end{array}
  \right)
  \end{aligned}
  $$

層の出力$Y$は、h x n、すなわち(バッチサイズ)x(ニューロン数)の行列になります。

In [None]:
# コードにすると…
u = np.dot(x, w) +b
y = 1/(1+np.exp(-u))

活性化関数にはシグモイド関数を使用しています。  
`x`は入力の行列で、`w`は重みの行列、`b`がバイアスのベクトルです。  
`u`の各要素を活性化関数で処理して、この層の出力`y`を得ます。