<a href="https://colab.research.google.com/github/A8Y/StudyAI/blob/master/DNN_Day1_.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# DNN Day1

Day1では基礎的な全結合DNNを扱う


全結合DNNの全体像

![alt text](https://miro.medium.com/max/2460/1*KHs1Chs6TCJDTIIQVyIJxg.png)
参照：[towardsdatascience.com](https://towardsdatascience.com/a-laymans-guide-to-deep-neural-networks-ddcea24847fb)





## Section 1: 入力層～中間層　(Input ~ Hidden Layers)

n個の特徴値をもつ$x$を入力。中間層１のノード１に入力されて次の層へ出力されるダイアグラム

![alt text](https://matlabgeeks.com/wp-content/uploads/2011/05/Perceptron.bmp)

参照：https://matlabgeeks.com

>与えられた情報

* 入力値　$x = \{ x_i : i = 1, ..., m \}$

> パラメータ

* 重み $W=[w_{ji}], i=1...,I$ and $j=1,...J$

* バイアス　$b$

> 中間層への入力 $u_j= \Sigma_i (w_{ji} x_i + b_j)$

> 中間層からの出力　$z_j = f(u_j)$

中間層の数とノードの数は任意で決めてよいが、多いからといってよいモデルとは限らない。

ノード数を増やすことによって精度をあげることが期待できるが、増やしすぎると計算機のメモリーを使いすぎる


## Section 2 活性化関数導入 

前の層から受け取った値を非線形に変換させる関数　$f(.)$で、次の層への出力値の大きさを決める

$$z = f(u)$$


入力値の値によって、次の層への信号のON/OFFや強弱を定める働きを持つ

### 活性化関数

####中間層用の活性化関数

>**ReLU関数** : 

$$f(u) = 
  \begin{cases}
    u \quad if \quad u>0 \\
    0 \quad else
  \end{cases}
$$

* 今最も使われている

* 勾配消失問題回避とスパース化に貢献することでよい結果をもたらしている

* しかし、これに固執せずに状況によって使い分けるのがよい


> **シグモイド（ロジスティック）関数**

$$f(u) = \frac{1}{1+e^{-u}}$$

* ０～１間を緩やかに変化する関数で、状態に対し、信号の強弱を伝えられるようになり、予想NN普及のきっかけとなった

* **勾配消失問題**：　大きな値では出力な変化が微細なため、勾配消失が起こることがある

* 小さな数字が０にならないため、計算上メモリーを消費する

> **ステップ関数**（今はDLでは使われていない）

*閾値を越えたら発火する関数であり、出力は常に１か０．

*パーセプトロンで利用された関数

*０－１の間を表現できず、線形問題しか解決できなかった




## Section 3　出力層

###出力層の役割

中間層までの数字を人間が見て意味ある数値に変換

うまく学習がなされていない場合は数字にばらつきがない

あるカテゴリーに確率１で分類されるときは過学習が起きている可能性がある

####出力層用の活性化関数


> **恒等写像**　：　回帰問題

> **シグモイド関数**　：　2項分類問題

> **ソフトマックス関数**　多項分類問題

$$f(i, u) = \frac{ e^{u_i} }{\Sigma_{k=1} ^K e^{u_k}} $$

#####値の強弱

* 中間層：　しきい値の前後で信号の強弱を調整

* 出力層：　信号の大きさ(比率）はそのままに変換

##### 確率出力

* 分類問題の場合、出力層の出力は０～１で総和を1とする

#### 誤差関数：　モデルの出力が実際の正解値をどの程度正確に予測できているかを評価する


* 回帰問題:  　2乗誤差

* 2項分類:  　 交差エントロピー

* 多項分類:   　交差エントロピー


訓練データサンプルあたりの誤差

> 2乗誤差: $E_n(W) = \frac{1}{2} \Sigma_{i=1} ^I (y_n - d_n) ^2$

> 交差エントロピー: $E_n(W) = - \Sigma_{i=1} ^I d_i \log y_i$

学習サイクルあたりの誤差

$$E(W) = \Sigma _{n=1} ^N E_n$$


## Section 4　勾配降下法

深層学習の目的

* 学習を通して誤差を最小にするネットワークを作成すること

* 誤差を最小化する最適な重みを探索すること

#### **勾配降下法**　（全サンプルの平均誤差を最小化するパラメータ推定法）

$$W^{(t+1)} \leftarrow  W^{(t)} - \epsilon \Delta E$$

$$\Delta E = \frac{\partial E}{\partial w}=[ \frac{\partial E}{\partial w_1},..., \frac{\partial E}{\partial w_M} ] $$

$\epsilon$ を**学習率**という。　学習率とは重みの更新速度を表している。

* 学習率が大きすぎると発散して最小値に到達しない

* 学習率が小さすぎると最小値に到着するまでに時間がかかりすぎたり、ローカルオプティマムにおちいって、グローバル最小値にとうちゃくしないことがある

*  誤差関数の値をより小さくする方向に重み及びバイアスを更新し次回のエポックに反映

* 学習率は定数とすることもできるが、適応的に変更することもできる。

#### **適応学習率手法** ：
モデル学習中に学習率を変動させることにより、学習時間短縮や精度向上につなげる


* Momentum

* AdaGrad

* Adadelta

* Adam　:　最も人気の手法

色々あるが、これはDay2で


#### **確率的勾配降下法**（SGD)

$$W^{(t+1)} = W^{(t)} - \epsilon \Delta E_n$$


* ランダムに抽出したサンプルの誤差

* 冗長なデータの計算コストの軽減

* 望まない局所極小解に収束するリスクの軽減

* オンライン学習ができる

### **ミニバッチ勾配降下法**

ランダムに分割したデータの集合（みにバッチ）$D_t$に属するサンプルの平均誤差

$$W^{(t+1)} = W^{(t)} - \epsilon \Delta E_t$$

$$E_t = \frac{1}{N_t} \Sigma _{n \in D_t} E_n$$

$$N_t = |D_t|$$

確率的勾配降下法のメリットを損なわず、計算機の計算資源を有効利用できる


誤差勾配の計算　：　

数値微分：計算がエポックごとにおおきく、扱いづらい.　よって、**誤差逆伝播法**で推定


#Section 5: 誤差逆伝播法

実際の出力値とその期待値の差に基づいて重みを更新する手法

算出された誤差を出力層から順に微分し前の層へと伝播。各重みに関する微分は連鎖率を持ちて計算される。

最小限の計算で各パラメータの微分値を解析的に計算する方法。





# 確認テスト

###Q1．

出力値の誤差を最小化するパラメータを最適化すること

> 3．重み

> 4．バイアス

###Q2．

入力層：2ノード

中間層　2層:　3ノード

出力層　:　1ノード

###Q3. 動物の例


###Q4.

u1 = np.dot(x, W1)

###Q5.

u = np.dot(x, W) + b

###Q6.

線形:　傾きが一定、平面、境界線が直線

非線形：傾きが変わり、曲線や曲面

分類問題で特徴値が2個で2クラスで言うと、一本の直線で分けることができる


###Q7.


#### 中間層出力
z = functions.sigmoid(u)



###Q8.

* 2乗することによってすべての誤差が正になりその大きさが正確に測れる

*誤差関数を微分した時に降りてきた２が打ち消されるように２で割っている　（＝０で最適値を推定するので、２で割っても同じ結果はおなじであるから、計算の便宜上の為））

###Q9.

# ソフトマックス関数
def softmax(x):
    if x.ndim == 2:  受け取った値が2次元
        x = x.T
        x = x - np.max(x, axis=0)　　受け取った最大値を減算
        y = np.exp(x) / np.sum(np.exp(x), axis=0)　softmax関数
        return y.T

    x = x - np.max(x) # オーバーフロー対策 expの計算で機械がハンドルできる範囲に入力値を調整

    return np.exp(x) / np.sum(np.exp(x))

    (1) = y

    (2) = np.exp(x)

    (3) = np.sum(np.exp(x), axis=0) 
     or np.sum(np.exp(x))



###Q10.


# クロスエントロピー
def cross_entropy_error(d, y):
    if y.ndim == 1:
        d = d.reshape(1, d.size)
        y = y.reshape(1, y.size)
        
    # **教師データがone-hot-vectorの場合**、正解ラベルのインデックスに変換
    if d.size == y.size:
        d = d.argmax(axis=1)
             
    batch_size = y.shape[0]
    return -np.sum(np.log(y[np.arange(batch_size), d] + 1e-7)) / batch_size

（１）cross_entropy_error(d, y)

（２）-np.sum(np.log(y[np.arange(batch_size), d] + 1e-7))

1e-7 を足して分母が０にならないように

###Q11.

>  network[key]  -= learning_rate * grad[key]

>  grad = backward(x, d, z1, y)

###Q12.

オンライン学習とは、オンラインで新しく入ってきたデータを使って既存のデータで学習したモデルをさらに学習させる

###Q13.

$W^{(t+1)} = W^{(t)} - \epsilon \Delta E_t$


###Q14.


def backward(x, d, z1, y):
    print("\n##### 誤差逆伝播開始 #####")

    grad = {}

    W1, W2 = network['W1'], network['W2']
    b1, b2 = network['b1'], network['b2']
    #  出力層でのデルタ
    delta2 = functions.d_sigmoid_with_loss(d, y)
    #  b2の勾配
    grad['b2'] = np.sum(delta2, axis=0)
    #  W2の勾配
    grad['W2'] = np.dot(z1.T, delta2)
    #  中間層でのデルタ
    delta1 = np.dot(delta2, W2.T) * functions.d_relu(z1)
    # b1の勾配
    grad['b1'] = np.sum(delta1, axis=0)
    #  W1の勾配
    grad['W1'] = np.dot(x.T, delta1)
        
    print_vec("偏微分_dE/du2", delta2)
    print_vec("偏微分_dE/du2", delta1)

    print_vec("偏微分_重み1", grad["W1"])
    print_vec("偏微分_重み2", grad["W2"])
    print_vec("偏微分_バイアス1", grad["b1"])
    print_vec("偏微分_バイアス2", grad["b2"])

    return grad




###Q15.


    出力層でのデルタ
    delta2 = functions.d_mean_squared_error(d, y)

    W2の勾配
    grad['W2'] = np.dot(z1.T, delta2)




# 終了課題について確認　

Q1. Irisデータを使って実際にNNを構築。従来の分類手法では分類できない点がある非線形問題をかかえているので、NNで精度を高めることができるかさぐってみる。

Q2. 与えられた目的変数がIrisの3つの種類というカテゴリーなので、多項分類問題として扱った。与えられた特徴変数四つを使っていかに高精度で分類できるか。
従来の統計分類法では特徴変数同士をかけ合わせたりして、新しい特徴値を使って精度を高めていた。

Q3.　irisデータとは3つのクラスの目的変数、4つの特徴変数をもつ150のデータ点からなるデータである。


可視化した図

入力層　４ノード

中間層　1層

出力層：　3ノード

誤差関数: クロスエントロピー

活性化関数:　中間層活性化関数：　ReLU

出力層活性化関数：　Softmax



In [1]:
リンク先URL：http://study-ai.com/jdla/

バナー画像：http://ai999.careers/bnr_jdla.png

SyntaxError: ignored