<a href="https://colab.research.google.com/github/taji99/python_basic/blob/master/200723_layers_math.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 層間の計算

## ●2層間の接続
ここからは、2つの層の間の順伝播を数式化します。  
2つの層間の計算ができれば、残りも同じようにして計算することができます。  

基本的に、上の層の全てのニューロンは、それぞれ下の層の全てのニューロンと接続されています。  

前回解説した通り、ニューロンへのそれぞれの入力には重みをかけます。  
重みの数は入力の数と等しいので、上の層のニューロン数を$m$とすると、下の層のニューロンは1つあたり$m$個の重みを持つことになります。  
下の層のニューロン数$n$とすると、下の層には合計$m \times n$個の重みが存在することになります。  

## ●２層間の順伝播
例えば上の層の1番目のニューロンから、下の層の2番目のニューロンへの入力の重みは$w_{12}$と表します。  
重みは、上の層の全てのニューロンと、下の層の全てのニューロンのそれぞれの組み合わせごとに設定する必要がありますが、ここで、行列が役に立ちます。  
以下のような$m \times n$の行列に、下の層の全ての重みを格納することができます。

（式 1）
$$ W =
    \left(
    \begin{array}{cccc}
      w_{11} & w_{12} & \ldots & w_{1n} \\
      w_{21} & w_{22} & \ldots & w_{2n} \\
      \vdots & \vdots & \ddots & \vdots \\
      w_{m1} & w_{m2} & \ldots & w_{mn} \\
    \end{array}
  \right)
$$

$W$は重みを表す行列です。  

また、上の層の出力（=下の層の入力）はベクトルで表すことができます。  
上の層には$m$個のニューロンがあるので、ベクトルの要素数は$m$になります。$i$を上の層の添字、$j$を下の層の添字とし、$\vec{y_i}$を上の層の出力を表すベクトル、$\vec{x_j}$を下の層への入力を表すベクトルとすると、次のような表記が可能です。

（式 2）
 $$ \vec{y_i} = \vec{x_j} = (x_1, x_2, \cdots, x_m) $$

上の層の出力は下の層の入力に等しくなります。  
バイアスについては以前に解説しましたが、これもベクトルで表記することが可能です。  
バイアスの数は下の層のニューロンの数に等しく、下の層のニューロンの数は$n$個なので、バイアス$\vec{b_j}$は次のように表すことができます。

 $$ \vec{b_j} =  (b_1, b_2, \cdots, b_n) $$ 

 また、下の層の出力の数はニューロンの数$n$に等しいので、ベクトル$\vec{y_j}$を用いて次のように表記することができます。

 $$ \vec{y_j} =  (y_1, y_2, \cdots, y_n) $$ 

入力と重みの積の総和を求める必要がありますが、助かることに行列積を用いて一度に求めることができます。  
（式 1）の$W$は下の層の重みを表す行列で、（式 2）の$\vec{x_j}$は下の層への入力なので、$\vec{x_j}$を1 x mの行列と考えると、以下の行列積で、各ニューロンにおける入力と重みの積の総和を求めることができます。  

$$  \begin{aligned} \\
 \vec{x_j}W & = (x_1, x_2, \cdots, x_m)
\left(
    \begin{array}{cccc}
      w_{11} & w_{12} & \ldots & w_{1n} \\
      w_{21} & w_{22} & \ldots & w_{2n} \\
      \vdots & \vdots & \ddots & \vdots \\
      w_{m1} & w_{m2} & \ldots & w_{mn} \\
    \end{array}
  \right) \\
  & = (\sum\limits_{k=1}^m x_kw_{k1}, \sum\limits_{k=1}^m x_kw_{k2}, \ldots, \sum\limits_{k=1}^m x_kw_{kn})
  \end{aligned}
  $$ 

少々込み入った表記になりますが、行列積については以前に解説していますので、必要に応じて復習しましょう。  
行列積の結果は要素数$n$のベクトルです。  
このベクトルの各要素は、下の層の各ニューロンにおける重みと入力の積の総和になっていますね。  
これにバイアス$\vec{b_j}$を加えたものを$\vec{u_j}$としますが、$\vec{u_j}$は次のように求めます。

$$  \begin{aligned} \\
\vec{u_j} & = \vec{x_j} W + \vec{b_j} \\
    & = (x_1, x_2, \cdots, x_m)
   \left(
    \begin{array}{cccc}
      w_{11} & w_{12} & \ldots & w_{1n} \\
      w_{21} & w_{22} & \ldots & w_{2n} \\
      \vdots & \vdots & \ddots & \vdots \\
      w_{m1} & w_{m2} & \ldots & w_{mn} \\
    \end{array}
  \right) 
 + (b_1, b_2, \cdots, b_n) \\
  & = (\sum\limits_{k=1}^m x_kw_{k1}+b_1, \sum\limits_{k=1}^m x_kw_{k2}+b_2, \ldots, \sum\limits_{k=1}^m x_kw_{kn}+b_n)
  \end{aligned}
  $$ 

$\vec{u_j}$の各要素は、重みと入力の積の総和にバイアスを足したものになっています。  
なお、$\vec{u_j}$はNumpyのdot関数を用いて以下のように計算することができます。  

In [None]:
# 概念だけ理解すること
u = np.dot(x, w) + b  # x: 入力のベクトル w: 重みの行列 b: バイアスのベクトル

次に、活性化関数を使用します。  
ベクトル$\vec{u_j}$の各要素を活性化関数に入れて処理し、下の層の出力を表すベクトル$\vec{y_j}$を得ます。  

（式 3）
$$ \begin{aligned}
  \vec{y_j} & = (y_1, y_2, \cdots, y_n) \\
  & = f(\vec{u_j}) \\
  & = f(\vec{x_j}W + \vec{b_j}) \\
  & = (f(\sum\limits_{k=1}^m x_kw_{k1}+b_1), f(\sum\limits_{k=1}^m x_kw_{k2}+b_2), \ldots, f(\sum\limits_{k=1}^m x_kw_{kn}+b_n))
\end{aligned} $$

$\vec{y_j}$の要素数は、下の層のニューロン数と同じ$n$になります。  
$\vec{y_j}$は、以前に扱った単一ニューロンの際の式を層全体に拡張したものになっていますね。  
さらに下の層がある場合、$\vec{y_j}$はその層への入力となります。    
ニューロンを層として扱うことで、2つの層間の情報の伝播を数式にまとめることができました。  
層の数が3つ以上になっても、（式 3）を用いて層から層へ次々に情報を順伝播することができます。  

ニューラルネットワークは、層の数が増えて規模が大きくなれば、より生物に近い柔軟な認識・判断能力を持つことが可能になります。  
そのためには各ニューロンの重みとバイアスを自動で調整する仕組みが必要になりますが、これについてはのちほど解説します。