<a href="https://colab.research.google.com/github/peta-m175/rabbit_challenge/blob/master/deep_learning/day1/backpropagation.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 誤差逆伝播法

### 数値微分

プログラムで微小な数値を生成し擬似的に微分を計算する一般的な手法
$$
\frac{\partial E}{\partial w_m} \approx\frac{E(w_m+h)-E(w_m-h)}{2h}
$$
- デメリット
  - 各パラメータ$w_m$それぞれについて$E(w_m+h)$や$E(w_m-h)$を計算するために、純電番の計算を繰り返し行う必要があり、負荷が大きい->誤差逆伝播法を使う

### 誤差逆伝播法

算出された誤差を、出力層側から順に微分し、前の層前の層へと伝播。最小限の計算で各パラメータでの微分値を解析的に計算する手法

- 誤差関数: 二乗誤差関数
$$
E(y)=\frac{1}{2}\sum_{j=1}^{J}(y_j-d_j)^2 = \frac{1}{2}||y-d||^2
$$
- 出力層の活性化関数: 恒等写像
$$
y=u^{(L)}
$$
- 総入力の計算
$$
u^{(l)}=w^{(l)}z^{(l-1)}+b^{(l)}
$$
- 最終的に求めたいもの:
$$
\frac{\partial E}{\partial w_{ji}^{(2)}} =
\frac{\partial E}{\partial y}\frac{\partial y}{\partial u}\frac{\partial u}{\partial w_{ji}^{(2)}}
$$
- 各部分の計算
$$
\frac{\partial E(y)}{\partial y} = \frac{\partial}{\partial y}\frac{1}{2}||y-d||^2 = y-d \\ 
\frac{\partial y(u)}{\partial u}=\frac{\partial u}{\partial u}=1\\
\frac{\partial u(w)}{\partial w_{ji}}=\frac{\partial}{\partial w_{ji}}(w^{(l)}z^{(l-1)}+b^{(l)})=\frac{\partial}{\partial w_{ji}}
\left(
  \left[
    \begin{array}{ccccc}
      w_{11}z_1 + \cdots + w_{1i}z_i + \cdots + w_{1I}z_I\\
      \vdots \\
      w_{j1}z_1 + \cdots +  w_{ji}z_i + \cdots +  w_{jI}z_I\\
      \vdots \\
      w_{J1}z_1 + \cdots +  w_{Ji}z_i + \cdots +  w_{JI}z_I
    \end{array}
  \right] +
    \left[
    \begin{array}{c}
      b_1\\
      \vdots \\
      b_j\\
      \vdots \\
      b_J
    \end{array}
  \right]
\right) = 
    \left[
    \begin{array}{c}
      0\\
      \vdots \\
      z_i\\
      \vdots \\
      0
    \end{array}
  \right] \\
\frac{\partial E}{\partial y}\frac{\partial y}{\partial u}\frac{\partial u}{\partial w_{ji}^{(2)}} = (y-d) \cdot
  \left[
    \begin{array}{c}
      0\\
      \vdots \\
      z_i\\
      \vdots \\
      0
    \end{array}
  \right] = (y_j-d_j)z_i
$$

## 確認テスト

### P.71

- Q: 誤差逆伝播法では不要な再帰的処理を避ける事が出来る。既に行った計算結果を保持しているソースコードを抽出せよ
- A:`delta2 = functions.d_mean_squared_error(d, y)`
  - `delta2`を使いまわすことで計算量を減らす。

### P.76


- Q: 2つの空欄に該当するソースコードを探せ
  - $\frac{\partial E}{\partial y}$: `delta2 = functions.d_mean_squared_error(d, y)`
  1. $\frac{\partial E}{\partial y}\frac{\partial y}{\partial u}$: 
  2. $\frac{\partial E}{\partial y}\frac{\partial y}{\partial u}\frac{\partial u}{\partial w_{ji}^{(2)}}$:
- A:
  1. `delta2 = functions.d_mean_squared_error(d, y)`
  2. `grad['W2'] = np.dot(z1.T, delta2)`

## 演習

https://colab.research.google.com/github/peta-m175/rabbit_challenge/blob/master/deep_learning/day1/exercises/1_3_stochastic_gradient_descent.ipynb