# Section 5: 誤差逆伝播法

本書は、「深層学習前編（day1）レポート」の、「Section 5: 誤差逆伝播法」についてのものです。


## 1. 要点まとめ


### 誤差勾配の計算

出力層から順に微分する。得た値を使用して、さらに前の層のパラメータの微分を行う。


#### 出力層 $ (2) $ から 中間層 $ (1) $ にかけての計算例


##### 出力層 $ (2) $

1. 誤差関数の微分<br>
$
\frac{\partial{E}}{\partial{\textbf{y}}} E(\textbf{y})
$

2. 出力層活性化関数の微分<br>
$
\frac{\partial{E}}{\partial{\textbf{y}}}
\frac{\partial{\textbf{y}}}{\partial{\textbf{u}^{(2)}}}
f^{(2)} (\textbf{u})
$

3. 総入力の微分
  1. 重みパラメータの微分<br>
$
\frac{\partial{E}}{\partial{\textbf{y}}}
\frac{\partial{\textbf{y}}}{\partial{\textbf{u}^{(2)}}}
\frac{\partial{\textbf{u}}}{\partial{\textbf{w}}^{(2)}}
(
  \textbf{w}^{(2)} \textbf{z}^{(1)} + \textbf{b}^{(2)}
)
=
\frac{\partial{E}}{\partial{\textbf{w}}^{(2)}}
$
  2. バイアスの微分<br>
$
\frac{\partial{E}}{\partial{\textbf{y}}}
\frac{\partial{\textbf{y}}}{\partial{\textbf{u}^{(2)}}}
\frac{\partial{\textbf{u}}}{\partial{\textbf{b}}^{(2)}}
(
  \textbf{w}^{(2)} \textbf{z}^{(1)} + \textbf{b}^{(2)}
)
=
\frac{\partial{E}}{\partial{\textbf{b}}^{(2)}}
$


##### 中間層 $ (1) $

1. 中間層出力の微分<br>
$
\frac{\partial{E}}{\partial{\textbf{y}}}
\frac{\partial{\textbf{y}}}{\partial{\textbf{u}^{(2)}}}
\frac{\partial{\textbf{u}^{(2)}}}{\partial{\textbf{z}}}
(
  \textbf{w}^{(2)} \textbf{z}^{(1)} + \textbf{b}^{(2)}
)
$


2. 中間層活性化関数の微分<br>
$
\frac{\partial{E}}{\partial{\textbf{y}}}
\frac{\partial{\textbf{y}}}{\partial{\textbf{u}^{(2)}}}
\frac{\partial{\textbf{u}^{(2)}}}{\partial{\textbf{z}}}
\frac{\partial{\textbf{z}}}{\partial{\textbf{u}^{(1)}}}
f^{(1)} ( \textbf{u} )
$


3. 総入力の微分
  1. 重みパラメータの微分<br>
$
\frac{\partial{E}}{\partial{\textbf{y}}}
\frac{\partial{\textbf{y}}}{\partial{\textbf{u}^{(2)}}}
\frac{\partial{\textbf{u}^{(2)}}}{\partial{\textbf{z}}}
\frac{\partial{\textbf{z}}}{\partial{\textbf{u}^{(1)}}}
\frac{\partial{\textbf{u}^{(1)}}}{\partial{\textbf{w}^{(1)}}}
(
  \textbf{w}^{(1)} \textbf{x} + \textbf{b}^{(1)}
)
=
\frac{\partial{E}}{\partial{\textbf{w}}^{(1)}}
$
  2. バイアスの微分<br>
$
\frac{\partial{E}}{\partial{\textbf{y}}}
\frac{\partial{\textbf{y}}}{\partial{\textbf{u}^{(2)}}}
\frac{\partial{\textbf{u}^{(2)}}}{\partial{\textbf{z}}}
\frac{\partial{\textbf{z}}}{\partial{\textbf{u}^{(1)}}}
\frac{\partial{\textbf{u}^{(1)}}}{\partial{\textbf{b}^{(1)}}}
(
  \textbf{w}^{(1)} \textbf{x} + \textbf{b}^{(1)}
)
=
\frac{\partial{E}}{\partial{\textbf{b}}^{(1)}}
$


### 数式



#### 前提

- 誤差関数<br>
$
E(\textbf{y})
=
\frac{1}{2}
\sum_{j=1}^J
(
  y_j - d_j
)^2
=
\Vert \textbf{y} - \textbf{d} \Vert^2
$<br>
$ j =  1 \cdots J $: 中間ノードのインデックス

- 出力層の活性化関数 = 恒等写像<br>
$
\textbf{y} = \textbf{u}^{(L)}
$<br>
$ L $: 層のインデックスの最大値(最後の層 = 出力層)

- 総入力の計算<br>
$
\textbf{u}^{(l)} = \textbf{w}^{(l)} \textbf{z}^{(l-1)} + \textbf{b}^{(l)}
\tag{1}
$<br>
$ l =  1 \cdots L $: 層のインデックス


#### 誤差逆伝播法の数式

$$
\frac{\partial{E}}{\partial{w_{ji}}^{(2)}}
=
\frac{\partial{E}}{\partial{\textbf{y}}}
\frac{\partial{\textbf{y}}}{\partial{\textbf{u}}}
\frac{\partial{\textbf{u}}}{\partial{w_{ji}}^{(2)}}
\tag{2}
$$

$$
\frac{\partial{E(\textbf{y})}}{\partial{\textbf{y}}}
=
\frac{\partial}{\partial{\textbf{y}}}
\frac{1}{2} \Vert \textbf{y} - \textbf{d} \Vert^2 = \textbf{y} - \textbf{d}
\tag{3}
$$


$$
\frac{\partial{\textbf{y}(\textbf{u})}}{\partial{\textbf{u}}}
=
\frac{\partial{\textbf{u}}}{\partial{\textbf{u}}} = 1
\tag{4}
$$


ある $ l $ 層の、中間層ノード $ j $ 、入力層ノード $ i $ における、<br>
重みパラメータ $ w_{ji} $ についての微分は、 $ (1) $ より、

$$
\frac{\partial{\textbf{u}(\textbf{w})}}{\partial{w_{ji}}}
=
\frac{\partial}
{\partial{w_{ji}}}
(
  \textbf{w}^{(l)} \textbf{z}^{(l-1)} + \textbf{b}^{(l)}
)
$$


$$
=
\frac{\partial}
{\partial{w_{ji}}}
\begin{pmatrix}
  \begin{bmatrix}
    w_{11}z_1 + \ldots + w_{1i}z_i + \ldots + w_{1l}z_l \\
    \vdots \\
    w_{j1}z_1 + \ldots + w_{ji}z_i + \ldots + w_{jl}z_l \\
    \vdots \\
    w_{J1}z_1 + \ldots + w_{Ji}z_i + \ldots + w_{Jl}z_l
  \end{bmatrix}
  +
  \begin{bmatrix}
    b_1 \\ \vdots \\ b_j \\ \vdots \\ b_J
  \end{bmatrix}
\end{pmatrix}
=
  \begin{bmatrix}
    0 \\ \vdots \\ z_i \\ \vdots \\ 0
  \end{bmatrix}
\tag{5}
$$


$ (3), (4), (5) $ より、 $ (2) $ は、

$$
\frac{\partial{E}}{\partial{w_{ji}}^{(2)}}
=
\frac{\partial{E}}{\partial{\textbf{y}}}
\frac{\partial{\textbf{y}}}{\partial{\textbf{u}}}
\frac{\partial{\textbf{u}}}{\partial{w_{ji}}^{(2)}}
$$


$$
= ( \textbf{y} - \textbf{d}) \cdot
\begin{bmatrix}
  0 \\ \vdots \\ z_i \\ \vdots \\ 0
\end{bmatrix}
=
( y_j - d_j ) z_i
$$


## 2. 確認テスト

以降の "page. " は、講義資料のページの番号です。


### page. 71

#### `1_3_stochastic_gradient_descent.ipynb`

既に行った計算結果を保持しているソースコードは、以下の通り。

```python
    # 出力層でのデルタ
    delta2 = functions.d_mean_squared_error(d, y)
```

この結果を、 "中間層でのデルタ" の計算に使用している。

```python
    # 中間層でのデルタ
    #delta1 = np.dot(delta2, W2.T) * functions.d_relu(z1)

    ## 試してみよう
    delta1 = np.dot(delta2, W2.T) * functions.d_sigmoid(z1)
```


### page. 76

#### `1_3_stochastic_gradient_descent.ipynb`

1. $
\frac{\partial{E}}{\partial{\textbf{y}}}
\frac{\partial{\textbf{y}}}{\partial{\textbf{u}}}
$
に該当するのは、以下。<br>
```python
delta2 = functions.d_mean_squared_error(d, y)
```
<br>
$
\frac{\partial{\textbf{y}(\textbf{u})}}{\partial{\textbf{u}}}
=
\frac{\partial{\textbf{u}}}{\partial{\textbf{u}}} = 1
$
により、
$
\frac{\partial{E}}{\partial{\textbf{y}}}
$
と同じである。<br>
また、 `d_mean_squared_error` は、
$
\frac{\partial{E(\textbf{y})}}{\partial{\textbf{y}}}
=
\textbf{y} - \textbf{d}
$
のこと。

2. $
\frac{\partial{E}}{\partial{\textbf{y}}}
\frac{\partial{\textbf{y}}}{\partial{\textbf{u}}}
\frac{\partial{\textbf{u}}}{\partial{w_{ji}}^{(2)}}
$
に該当するのは、以下。<br>
```python
grad['W2'] = np.dot(z1.T, delta2)
```
<br>
$
\frac{\partial{E(\textbf{y})}}{\partial{\textbf{y}}}
=
\textbf{y} - \textbf{d}
$
と、
$
\frac{\partial{E}}{\partial{w_{ji}}^{(2)}}
=
( \textbf{y} - \textbf{d}) \cdot
\begin{bmatrix}
  0 \\ \vdots \\ z_i \\ \vdots \\ 0
\end{bmatrix}
$
より、<br>
$
\frac{\partial{E(\textbf{y})}}{\partial{\textbf{y}}}
\frac{\partial{\textbf{y}}}{\partial{\textbf{u}}}
\frac{\partial{\textbf{u}}}{\partial{w_{ji}}^{(2)}}
$
に該当する。
