<a href="https://colab.research.google.com/github/taji99/python_basic/blob/master/200724_%E4%B8%AD%E9%96%93%E5%B1%A4%E3%81%AE%E5%8B%BE%E9%85%8D_gradient_middle_layer.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 中間層の勾配
中間層における勾配を導出しましょう。  
今回は回帰、分類ともに活性化関数にシグモイド関数を使うので、中間層における勾配の求め方は共通です。

## ●添字とニューロン数
前回と同じく、次の表のように各層におけるニューロンの添字とニューロン数を設定します。

||||
|:-:|:-:|:--|
| 層 | ニューロンの添字 | ニューロン数 |
| 入力層 | $i$ | $l$ |
| 中間層 | $j$ | $m$ |
| 出力層 | $k$ | $n$ |
||||

## ●中間層の勾配
中間層における、重みとバイアスの勾配を求めます。  
$w_{ij}$を中間層の重み、$b_j$をバイアス、$u_j$を重みと入力の積にバイアスを加えた値とします。  
また、入力層の出力を$y_i$とします。  

<br>

中間層では、出力層の場合と同様に次以下の関係が成り立ちます。  
重みの勾配は$\partial w_{ij}$と表記します。  

（式 1）
$$ \partial w_{ij}=\frac{\partial E}{\partial w_{ij}}=\frac{\partial E}{\partial u_j}\frac{\partial u_j}{\partial w_{ij}} $$

ここで、右辺の$\frac{\partial u_j}{\partial w_{ij}}$の部分は次のようになります。

（式 2）
$$ \begin{aligned} \\
\frac{\partial u_j}{\partial w_{ij}} & = \frac{\partial (\sum\limits_{p=1}^ly_pw_{pj} + b_j)}{\partial w_{ij}} \\
& = \frac{\partial}{\partial w_{ij}}(y_1w_{1j}+y_2w_{2j}+\cdots +y_iw_{ij}+\cdots + y_lw_{lj} + b_j) \\
& = y_i 
\end{aligned} $$

これは出力層の場合と同様ですね。  
添字の$p$は$\Sigma$による総和のために便宜上使用しているだけなので、特に意味はありません。  

次に、（式 1）の右辺の$\frac{\partial E}{\partial u_j}$の部分ですが、連鎖律により次のようになります。

（式 3）
$$ \frac{\partial E}{\partial u_j} = \frac{\partial E}{\partial y_j}\frac{\partial y_j}{\partial u_j} $$

この式の右辺の$\frac{\partial y_j}{\partial u_j}$の部分は、活性化関数の微分により求めることができます。   
$\frac{\partial E}{\partial y_j}$の部分は中間層の出力の勾配ですが、これは以前に出力層で求めた$\partial y_j$ですね。  
この$\partial y_j$を用いて、（式 3）を以下のように$\delta$として表します。

（式 4）
$$ \delta_{j}=\frac{\partial E}{\partial u_j} = \partial y_j\frac{\partial y_j}{\partial u_j} $$

このように、$\delta_{j}$を求めるためには、出力層で求めた$\partial y_j$を使用します。  
ニューラルネットワークを遡っていますね。

（式 2）と（式 4）を用いると、（式 1）を次のように表すことができます。

$$ \partial w_{ij}=y_i\delta_{j} $$

出力層の場合と同様の、シンプルな形に重みの勾配をまとめることができました。

それでは、バイアスの勾配を求めましょう。  
これまでと同様に、バイアスの勾配$\partial b_j$は連鎖律を用いて次のように表すことができます。

（式 5）
$$ \partial b_j=\frac{\partial E}{\partial b_j}=\frac{\partial E}{\partial u_j}\frac{\partial u_j}{\partial b_j} $$

ここで、右辺の$\frac{\partial u_j}{\partial b_j}$の部分は次のようになります。

$$ \begin{aligned} \\
\frac{\partial u_j}{\partial b_j} & = \frac{\partial (\sum\limits_{p=1}^l y_p w_{pj} + b_j)}{\partial b_j} \\
& = \frac{\partial}{\partial b_j}(y_1w_{1j}+y_2w_{2j}+\cdots +y_iw_{ij}+\cdots + y_lw_{lj} + b_j) \\
& = 1 
\end{aligned} $$

この式と（式 4）により、（式 5）を次のように表すことができます。

$$ \partial b_j=\delta_{j} $$

バイアスの勾配を求めることができました。  
出力層と同じように、勾配は$\delta_{j}$に等しくなります。  

この層の上にさらに中間層がある場合は、以下のようにして$\partial y_i$を求めて伝播させます。

$$ \partial y_i =  \sum_{q=1}^m \delta_q w_{iq} $$

## ●活性化関数の適用
活性化関数にシグモイド関数を使い、$\delta_{j}$を求めます。  
$\delta_{j}$を求めるためには、（式 4）を使用します。  

（式 6）
$$\delta_{j} = \partial y_j\frac{\partial y_j}{\partial u_j}$$
 
この式の$\frac{\partial y_j}{\partial u_j}$ですが、活性化関数を偏微分して求めることができます。  
中間層の活性化関数はシグモイド関数ですが、シグモイド関数$f(x)$の導関数は、

$$f'(x)=(1-f(x))f(x)$$

となります。  
従って、$\frac{\partial y_j}{\partial u_j}$は次のようになります。

$$ \begin{aligned} \\
\frac{\partial y_j}{\partial u_j} & = (1-y_j)y_j
\end{aligned} $$

この式を（式 6）に代入すると、$\delta_{j}$を次のように表すことができます。  

$$ \delta_{j} = \partial y_j(1-y_j)y_j $$   

$\delta_{j}$を求めることができました。  
この$\delta_{j}$とこれまでに求めた各勾配の式を使って、中間層において計算すべき各勾配を次のようにまとめることができます。

$$ \delta_{j} = \partial y_j(1-y_j)y_j $$
$$ \partial w_{ij}=y_i\delta_{j} $$
$$ \partial b_j=\delta_{j} $$ 
$$ \partial y_i =  \sum_{q=1}^m \delta_q w_{iq} $$ 

以上により、中間層における各勾配を求めることができました。  
回帰、分類ともに共通の方法で勾配を求めることができます。