<a href="https://colab.research.google.com/github/yukinaga/minnano_dl/blob/main/section_5/03_backpropagation.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# バックプロパゲーションの原理
ニューラルネットワークが学習するのに必要なアルゴリズム「バックプロパゲーション」について学びましょう。

## 順伝播と合成関数

ニューラルネットワークにおける順伝播は、中間層、出力層ともに以下の式で表されます。  

$$u = \sum_{k=1}^nw_kx_k + b$$
$$y = f(u)$$

上記の式において、$n$は1つのニューロンへの入力数、$x_k$と$w_k$は入力とそれに対応する重み、$b$はバイアス、$f$は活性化関数、$y$はニューロンの出力です。  
  
また、この式は以下のような合成関数と考えることもできます。  

$$ y = f(u)$$
$$u = g(w_1, w_2, \cdots, w_n, x_1, x_2, \cdots, x_n, b)$$

ニューラルネットワークを合成関数と捉えることで、連鎖律を適用することが可能になります。  

## 重みの更新

勾配降下法を使い、誤差が小さくなるように重みを調整します。  
以下は、最もシンプルな重みの更新式です。

$$ w_i \leftarrow w_i-\eta\frac{\partial E}{\partial w_i} $$

ここで、重みの勾配$\frac{\partial E}{\partial w_i}$は、連鎖律を用いて以下のように展開できます。

（式1）
$$ \frac{\partial E}{\partial w_i}=\frac{\partial E}{\partial u}\frac{\partial u}{\partial w_i} $$

ここで、右辺の$\frac{\partial u}{\partial w_i}$の部分は、以下のように求めることができます。

（式2）
$$ \begin{aligned} \\
\frac{\partial u}{\partial w_i} & = \frac{\partial (\sum\limits_{k=1}^n x_k w_k + b)}{\partial w_k} \\
& = \frac{\partial}{\partial w_i}(x_1 w_{1}+x_2w_{2}+\cdots +x_iw_i+\cdots + x_nw_n + b) \\
& = x_i
\end{aligned} $$

偏微分した結果、$w_i$がかかっている項以外は全て消え、$x_i$のみが残ります。  
ここで、以下のように$\delta$を設定します。

（式3）
$$ \delta = \frac{\partial E}{\partial u} $$ 

（式2）（式3）により、（式1）は以下の形になります。  

（式 4）
$$ \frac{\partial E}{\partial w_i} = x_i\delta $$

$\delta$の求め方は層により異なります。

## バイアスの更新

重みと同様に勾配降下法を使い、誤差が小さくなるようにバイアスを調整します。  
以下は、最もシンプルなバイアスの更新の式です。

$$ b \leftarrow b-\eta\frac{\partial E}{\partial b} $$

ここで、バイアスの勾配$\frac{\partial E}{\partial b}$は、連鎖律を用いて以下のように展開できます。

（式5）
$$ \frac{\partial E}{\partial b}=\frac{\partial E}{\partial u}\frac{\partial u}{\partial b} $$

ここで、右辺の$\frac{\partial u}{\partial w_i}$の部分は、以下のように求めることができます。

（式6）
$$ \begin{aligned} \\
\frac{\partial u}{\partial b} & = \frac{\partial (\sum\limits_{k=1}^n x_k w_k + b)}{\partial w_k} \\
& = \frac{\partial}{\partial b}(x_1 w_{1}+x_2w_{2}+\cdots +x_iw_i+\cdots + x_nw_n + b) \\
& = 1
\end{aligned} $$

偏微分した結果、バイアスの項以外は全て消え、1のみが残ります。  
ここで、重みと同様に以下のように$\delta$を設定します。

（式7）
$$ \delta = \frac{\partial E}{\partial u} $$ 

（式6）（式7）により、（式5）は以下の形になります。  

（式 8）
$$ \frac{\partial E}{\partial b} = \delta $$

## $\delta$の求め方

$\delta$は、連鎖律を使い以下のように展開することができます。  

（式9）
$$ \delta = \frac{\partial E}{\partial u} = \frac{\partial E}{\partial y}\frac{\partial y}{\partial u} $$ 

### 出力層
出力層において、$\frac{\partial E}{\partial y}$は誤差を出力で偏微分することで、$\frac{\partial y}{\partial u}$は活性化関数を偏微分することで求めることができます。  

### 中間層
中間層では、$\frac{\partial y}{\partial u}$は出力層と同様に活性化関数を偏微分することで求めることができます。   
  
中間層における$\frac{\partial E}{\partial y}$は、求めるのに、次の層（この層よりも一つだけ出力に近い層）の値が必要になります。  
次の層の変数には、目印として右肩に$(nl)$をつけます。  
$nl$はnext layerの略です。  

$y$は次の層の全てのニューロンへの入力となります。  
従って、拡張された連鎖律を以下のように適用することができます。  
  
（式 10）
$$ \begin{aligned} \\
\frac{\partial E}{\partial y} & = \sum_{j=1}^m\frac{\partial E}{\partial u_j^{(nl)}}\frac{\partial u_j^{(nl)}}{\partial y} \\
\end{aligned} $$

ここで、$m$は次の層のニューロン数で、$u_j^{(nl)}$は、次の層の各ニューロンにおける$u$の値です。  
次の層の全てのニューロンで、

$$\frac{\partial E}{\partial u_j^{(nl)}}\frac{\partial u_j^{(nl)}}{\partial y}$$

を計算し足し合わせることで、$\frac{\partial E}{\partial y}$を求めることができます。  
上記の$\frac{\partial E}{\partial u_j^{(nl)}}$に関してですが、（式3）（式7）の$\delta$で表すことができます。  

（式11）
$$ \delta_j^{(nl)} = \frac{\partial E}{\partial u_j^{(nl)}} $$

また、$\frac{\partial u_j^{(nl)}}{\partial y}$ですが、$y$はこのニューロンへの入力の1つであり、偏微分の結果この入力にかける重みのみ残ります。  
従って、この$y$にかける重みを$w_{j}^{(nl)}$とすると、$\frac{\partial u_j^{(nl)}}{\partial y}$は以下の通りになります。

（式12）
$$\frac{\partial u_j^{(nl)}}{\partial y} = w_j^{(nl)}$$

（式11）（式12）により、（式10）は以下の形になります。

$$ \begin{aligned} \\
\frac{\partial E}{\partial y} & = \sum_{j=1}^m\delta_j^{(nl)}w_j^{(nl)} \\
\end{aligned} $$

中間層では、この式により$\frac{\partial E}{\partial y}$を求めることができます。  
ここで、$w_j^{(nl)}$は次の層において$y$にかける重みです。  
以上のように、中間層におけるニューロンの$\delta$を求めるためには、次の層における$\delta^{(nl)}$、及び$y$にかける重みを利用します。  
これは、情報が出力から入力に向かって遡ることを意味します。  

以上の逆伝播のアルゴリズムは、「バックプロパゲーション」（誤差逆伝播法）と呼ばれます。  
バックプロパゲーションを使えば、層の数が増えても出力層 → 中間層 → 中間層 →... のように層を遡って重みやバイアスを更新することが可能になります。  