# 入力層～中間層
入力層の機能は下記<br>
・深層学習モデルが何かを予測するための**特徴量(説明変数)**を受ける機能<br>
・特徴量を受け取った後、中間層へ伝搬させるため(入力するため)の機能<br>
　中間層へ伝搬されるものとしては、特徴量${\omega}_i$と$x_i$の**線型結合**で表すことができる。<br>
　ただし、$b = x_0 = 1$として、以後$b$のことを**バイアス**と呼ぶ。<br><br>
中間層の機能は下記<br>
・入力層の総入力(線型結合)を受け取る<br>
・受け取った総入力を活性化関数に入力<br>
・活性化関数の出力を次の層に伝搬させる(中間層や出力層)<br>

イメージと数式は下記である。<br>
![入力層と出力層のimg](写真/入力層と中間層のimg.JPG)

# 活性化関数
### 活性化関数とは
・ニューラルネットワークにおいて、次の層への出力の大きさを決める非線形の関数。 <br>　
・入力値の値によって、次の層への信号のON/OFFや強弱を定める働きをもつ。<br>

### 活性化関数の例
**ステップ関数**<br>　
閾値を超えたら発火する関数。出力は常に０か１。<br>　
パーセプトロン（ニューラルネットワークの前身）では使われていたが深層学習になってからは使われていない。<br><br>　
ステップ関数の課題<br>
　０〜１間の間を表現できず、線形分離可能なものしか学習できなかった。<br>
　人間に模倣したものを使ったはずなのに、微細な表現ができなかった。<br>
　さらに、０〜１の値が表現できなかったので、線形分離可能な問題しか学習できなかった。<br>

**シグモイド関数**<br>
　ステップ関数では人間のような微細な表現を表現するために、**シグモイド関数**が登場する。<br>
　０〜１の間を緩やかに変化するような関数ができて、微細な表現ができるようになった。<br>
　ニューラルネットワーク普及の きっかけとなった。<br>

　シグモイド関数の課題<br>
　　入力が大きな値(０から離れると)では出力の変化が微小なため、下記の課題がある。<br>
　　　**・スパース化ができない(0にならない)**<br>
　　　⇨微小な値を0にしないと有限な計算リソースの無駄である。<br><br>
　　　**・勾配消失問題**<br>
　　　⇨シグモイドの1次導関数の最大値は0.25。多層になるほど誤差逆伝播による学習効果は薄くなってしまう。<br>
　　　参考になるスライドを添付する(⇨https://www.slideshare.net/YoshihiroTakahashi6/ss-81043296)<br>
 ![活性化関数の1次導関数関するimg](写真/grad_info.png)

**RELU関数**<br>　
勾配消失問題やスパース化できない問題に対処するためにRELU関数が出た。<br>　
勾配消失問題とスパース化に貢献することで良い結果をもたらしている。<br>

RELU関数のメリットとしてはまとめると下記<br>
⇨小さい値を与え続けられない(スパース化)、かつ大きい値を返すことができる(勾配消失問題に対応)<br>　

# 出力層
### 出力層の機能
中間層までの計算は人間が見てもわかりにくい数値として出るが、出力層では人間が視覚的にわかる理論値で出てくる。<br>
例えば、分類問題であったら確率値が出る。<br><br>
学習する際には、この確率値(予測値)と正解データとの誤差を用いて誤差が無くなるように学習をする。<br>
しかし、誤差には様々な指標がある。そこで誤差の指標として用いられるのが誤差関数である。<br>
深層学習ではこの誤差関数をもとに誤差が最小になるように学習をするのが目標。<br>
### 誤差関数
・二乗誤差(⇨分類問題では使わないが理解しやすい誤差関数を選定)<br>
　$E_n(w) = {\frac{1}{2}}{\Sigma{_{i=1}^{I}}}(y_i - d_i)^2$<br>
・交差エントロピー(⇨分類問題で使用)<br>
　$E_n(w) = -{\Sigma{_{i=1}^{I}}}{d_i}{\log}{y_i}$<br>
### 出力層と中間層で使用される活性化関数の目的の違い
**値の強弱**<br>
・中間層: 閾値の前後で信号の強弱を調整<br>
・出力層: 信号の大きさ(比率)はそのままに変換<br>
**確率出力**<br>
・分類問題の場合、出力層の出力は0~1の範囲に限定し、総和を1とする必要がある<br><br>
出力層と中間層で利用される活性化関数が異なることを覚えておくこと <br>

### 出力層で使用される活性化関数の例
分類問題<br>
　・ソフトマックス関数(他クラス分類に使用)<br>
　　⇨誤差関数は交差エントロピー<br><br>
　・シグモイド関数(2値分類に使用)<br>
　　⇨誤差関数は交差エントロピー<br><br>
回帰問題<br>
　・恒等関数<br>
　　⇨誤差関数は平均誤差など<br>

# 勾配降下法
上述したように、深層学習の目的は学習を通して誤差を最小ことである。<br>
⇨ 誤差$E(w)$を最小にするパラメータ$w$と$b$を探すことである。<br>

最小にするパラメータを探すために使われる手法が**勾配降下法**である。<br>
１回のパラメータ更新に訓練データすべてを利用する。<br>
そのため、学習データが多いと計算コストがとても大きくなる。また、冗長な計算もしているかもしれない。<br>

**勾配降下法**：　$w^{(t+1)} = w^{(t)} - {\varepsilon}{\nabla}E$<br>
　　　　　　　${\nabla}E = {\frac{\partial{E}}{\partial{w}}} = {[{\frac{\partial{E}}{\partial{w_1}}}, {\frac{\partial{E}}{\partial{w_2}}}, …, {\frac{\partial{E}}{\partial{w_M}}}]}$<br>
${\varepsilon}$は、学習率である。<br>
学習率の取り扱いには注意が必要。<br>
### 学習率について
学習率を大きく取った場合：学習は進むが、最小値にたどり着けず発散する可能性がある。<br>
学習率を小さく取った場合：発散することはないが、小さすぎると収束するまでに時間がかかってしまう。<br>

#### 学習率を小さく取れば良いのでは？
学習率を小さく取ることで収束すると上記では述べたがそれでは問題がある。<br>
**それは、収束した箇所が大域的な最小値ではなく局所的な最小点である可能性がある問題がある。**<br>
そこで、望まない局所最小点に収束するリスクの軽減やデータが冗⻑な場合の計算コストの軽減をするため下記の手法が提案されている。<br>
・確率的勾配降下法<br>
・ミニバッチ勾配降下法<br>

#### 確率的勾配降下法
勾配降下法は、1回の学習に全データを使っていた。<br>
**確率的勾配降下法**は、ランダムに抽出したサンプルごとにパラメータの更新を行う。<br>
そのため、更新式は下記である。<br>
確率的勾配降下法:　$w^{(t+1)} = w^{(t)} - {\varepsilon}{\nabla}E_n$<br><br>
確率的勾配降下法のメリットは下記<br>
・学習結果はサンプルのデータ順に依存するため、冗⻑なデータに対する計算コストが軽減<br>
・望まない局所的な最小点に収束するリスクの軽減<br>
・オンライン学習が可能<br>
確率的勾配降下法のデメリットは下記<br>
・例外(外れ値)データに弱い<br>
・ランダムでデータを抽出しているので、最短で最適解にたどりつかない<br>
#### ミニバッチ勾配降下法
確率的勾配降下法は、ランダムに抽出したサンプルごとにパラメータの更新を行っていた。<br>
**ミニバッチ勾配降下法**は、ランダムに分割したデータ集合(ミニバッチ)$D_t$に属するサンプルごとにパラメータの更新を行う。<br>
そのため、更新式は下記である。<br>
ミニバッチ勾配降下法:　$w^{(t+1)} = w^{(t)} - {\varepsilon}{\nabla}E_t$<br>
　　　　　　　　　　　$E_t = {\frac{1}{N_t}}{\Sigma{_n}{_{\in}}_{D{_t}}E_n}$<br>
　　　　　　　　　　　$N_t = |D{_t}|$<br>
           
確率的勾配降下法のメリットを損なわず、計算機の計算資源を有効利用できる<br>
→ CPUを利用したスレッド並列化やGPUを利用したSIMD並列化<br>

# 誤差逆伝播法
算出された誤差を、出力層側から順に微分し、前の層前の層へと伝播<br>
最小限の計算で各パラメータでの微分値を解析的に計算する手法<br>
計算結果(=誤差)から微分を逆算することで、不要な再帰的計算を避けて微分を算出できる<br>

# 確認テスト
#### p10:　ディープラーニングは結局何をしようとしているのか？2行以内で答えよ。また、何を最適化するのが最終目的か答えよ。
入力値から適切な出力値を得るために，学習を行い，重みとバイアスを最適化する<br>
→ 出力誤差(出力値と正解の誤差)を最小化するパラメータを発見することが最終目標<br>
#### p12:　次のネットワークを紙に書け。(入力層：２ノード１層、中間層:3ノード2層、出力層:1ノード1層)
写真を貼る。
#### p21:　${\omega} = {\begin{pmatrix}{\omega{_1}} \\ ： \\{\omega{_I}}\end{pmatrix}}, {x} = {\begin{pmatrix}{x{_1}} \\ ： \\{x{_I}}\end{pmatrix}}$の内積をpythonで記述しなさい。

In [12]:
import numpy as np

W = np.random.rand(10)
X = (np.random.rand(10)*100).astype(int)
B = 5

u = np.inner(W, X) + B #ベクトルの内積に使用する
u2 = np.dot(W, X) + B #行列の内積に使用する
print('線型結合の結果： ', u)
print('線型結合の結果2： ', u2)

線型結合の結果：  339.01294267299744
線型結合の結果2：  339.01294267299744


#### p26:　線形と非線形の違いを図にかいて 簡易に説明せよ。
![線形と非線形に関するimg](写真/linear_nonlinear.JPG)

#### p44:　$E_n(w) = {\frac{1}{2}}{\Sigma{_{i=1}^{I}}}(y_i - d_i)^2$について下記に関して答えよ。
なぜ、引き算でなく二乗するか述べよ。さらに、下式の1/2はどういう意味を持つか述べよ。<br>
二乗をする理由：　正の値を取るため。<br>
1/2をする理由：　微分計算をしやすくするため。(微分すると1/2は無くなる。)<br>

#### p53:　交差エントロピーのコードの処理について説明せよ。
交差エントロピー：　　$E_n(w) = -{\Sigma{_{i=1}^{I}}}{d_i}{\log}{y_i}$<br>

**ソースを確認していく中で、returnの式が少しわかりにくかったので簡単なものを入力して確かめた。**<br>
ベクトルでも行列でもどちらでも対応できるようになっていることがわかった。<br>

y = np.array([[0.1,0.2,0.7],[0.7,0.1,0.2],[0.1,0.7,0.2]])<br>
y<br>
array([[0.1, 0.2, 0.7],<br>
       [0.7, 0.1, 0.2],<br>
       [0.1, 0.7, 0.2]])<br>
d = np.array([[0,0,1],[1,0,0],[0,1,0]])<br>
d<br>
array([[0, 0, 1],<br>
       [1, 0, 0],<br>
       [0, 1, 0]])<br>
d = d.argmax(axis=1)<br>
d<br>
array([2, 0, 1])<br>
batch_size = y.shape[0]<br>
batch_size<br>
3<br>
-np.sum(np.log(y[np.arange(batch_size), d] + 1e-7)) / batch_size<br>
0.3566748010815999<br>
 
#### p53:　オンライン学習とは何か2行でまとめよ。
データが与えられる度に逐次的に学習を行う手法<br>

#### p68:　$w^{(t+1)} = w^{(t)} - {\varepsilon}{\nabla}E_t$の意味を図示せよ。
![勾配効果法のimg](写真/勾配効果法について.JPG)

#### p83:　① ${\frac{\partial{E}}{\partial{y}}}{\frac{\partial{y}}{\partial{u}}}$ と ② ${\frac{\partial{E}}{\partial{y}}}{\frac{\partial{y}}{\partial{u}}}{\frac{\partial{u}}{\partial{\omega{_{ji}}{^{(2)}}}}}$に該当するソースコードを探せ
① delta2 = functions.d_mean_squared_error(d, y)<br>
② grad['W2'] = np.dot(z1.T, delta2)<br>

誤差逆伝播について写経をしたので添付する。<br>
![誤差逆伝播に関するimg](写真/誤差逆伝播.JPG)