# 2.ディープニューラルネットワークスクラッチ

前回は3層のニューラルネットワークを作成しましたが、今回はこれを任意の層数に拡張しやすいものに書き換えていきます。

その上で、活性化関数や初期値、最適化手法について発展的なものを扱えるようにしていきます。


このようなスクラッチを行うことで、今後各種フレームワークを利用していくにあたり、内部の動きが想像できることを目指します。


名前は新しくScratchDeepNeuralNetrowkClassifierクラスとしてください。


層などのクラス化
クラスにまとめて行くことで、構成を変更しやすい実装にしていきます。


手を加える箇所


* 層の数
* 層の種類（今後畳み込み層など他のタイプの層が登場する）
* 活性化関数の種類
* 重みやバイアスの初期化方法
* 最適化手法

そのために、全結合層、各種活性化関数、重みやバイアスの初期化、最適化手法それぞれのクラスを作成します。


実装方法は自由ですが、簡単な例を紹介します。

サンプルコード1のように全結合層と活性化関数のインスタンスを作成し、サンプルコード2,3のようにして使用します。それぞれのクラスについてはこのあと解説します。


《サンプルコード1》
ScratchDeepNeuralNetrowkClassifierのfitメソッド内


``` python
# self.sigma : ガウス分布の標準偏差
# self.lr : 学習率
# self.n_nodes1 : 1層目のノード数
# self.n_nodes2 : 2層目のノード数
# self.n_output : 出力層のノード数
optimizer = SGD(self.lr)
self.FC1 = FC(self.n_features, self.n_nodes1, SimpleInitializer(self.sigma), optimizer)
self.activation1 = Tanh()
self.FC2 = FC(self.n_nodes1, self.n_nodes2, SimpleInitializer(self.sigma), optimizer)
self.activation2 = Tanh()
self.FC3 = FC(self.n_nodes2, self.n_output, SimpleInitializer(self.sigma), optimizer)
self.activation3 = Softmax()
```

《サンプルコード2》
イテレーションごとのフォワード

```python
A1 = self.FC1.forward(X)
Z1 = self.activation1.forward(A1)
A2 = self.FC2.forward(Z1)
Z2 = self.activation2.forward(A2)
A3 = self.FC3.forward(Z2)
Z3 = self.activation3.forward(A3)
```

《サンプルコード3》
イテレーションごとのバックワード

```python
dA3 = self.activation3.backward(Z3, Y) # 交差エントロピー誤差とソフトマックスを合わせている
dZ2 = self.FC3.backward(dA3)
dA2 = self.activation2.backward(dZ2)
dZ1 = self.FC2.backward(dA2)
dA1 = self.activation1.backward(dZ1)
dZ0 = self.FC1.backward(dA1) # dZ0は使用しない
```

# ===========================================================
# 【問題1】全結合層のクラス化
全結合層のクラス化を行なってください。


以下に雛形を載せました。コンストラクタで重みやバイアスの初期化をして、あとはフォワードとバックワードのメソッドを用意します。

重みW、バイアスB、およびフォワード時の入力Xをインスタンス変数として保持しておくことで、煩雑な入出力は不要になります。


なお、インスタンスも引数として渡すことができます。

そのため、初期化方法のインスタンスinitializerをコンストラクタで受け取れば、それにより初期化が行われます。

渡すインスタンスを変えれば、初期化方法が変えられます。


また、引数として自身のインスタンスselfを渡すこともできます。

これを利用してself.optimizer.update(self)という風に層の重みの更新が可能です。

更新に必要な値は複数ありますが、全て全結合層が持つインスタンス変数にすることができます。

初期化方法と最適化手法のクラスについては後述します。

# ===========================================================
# 【問題2】初期化方法のクラス化
初期化を行うコードをクラス化してください。


前述のように、全結合層のコンストラクタに初期化方法のインスタンスを渡せるようにします。

以下の雛形に必要なコードを書き加えていってください。

標準偏差の値（sigma）はコンストラクタで受け取るようにすることで、全結合層のクラス内にこの値（sigma）を渡さなくてすむようになります。

これまで扱ってきた初期化方法はSimpleInitializerクラスと名付けることにします。



# ===========================================================
# 【問題3】最適化手法のクラス化
最適化手法のクラス化を行なってください。


最適化手法に関しても初期化方法同様に全結合層にインスタンスとして渡します。

バックワードのときにself.optimizer.update(self)のように更新できるようにします。以下の雛形に必要なコードを書き加えていってください。

これまで扱ってきた最適化手法はSGDクラス（Stochastic Gradient Descent、確率的勾配降下法）として作成します。

# ===========================================================
# 【問題4】活性化関数のクラス化
活性化関数のクラス化を行なってください。


ソフトマックス関数のバックプロパゲーションには交差エントロピー誤差の計算も含む実装を行うことで計算が簡略化されます。

# ===========================================================
# 発展的要素
活性化関数や重みの初期値、最適化手法に関してこれまで見てきた以外のものを実装していきます。

# 【問題5】ReLUクラスの作成
現在一般的に使われている活性化関数であるReLU（Rectified Linear Unit）をReLUクラスとして実装してください。


ReLUは以下の数式です。
$$
% <![CDATA[
f(x) = ReLU(x) = \begin{cases}
x  & \text{if $x>0$,}\\
0 & \text{if $x\leqq0$.}
\end{cases} %]]>
$$


x : ある特徴量。スカラー

実装上はnp.maximumを使い配列に対してまとめて計算が可能です。

numpy.maximum — NumPy v1.15 Manual


一方、バックプロパゲーションのための xに関する f(x)の微分は以下のようになります。

$$
% <![CDATA[
\frac{\partial f(x)}{\partial x} = \begin{cases}
1  & \text{if $x>0$,}\\
0 & \text{if $x\leqq0$.}
\end{cases} %]]>
$$

数学的には微分可能ではないですが、 x=0のとき 0とすることで対応しています。


フォワード時の x の正負により、勾配を逆伝播するかどうかが決まるということになります。

# ===========================================================
# 【問題6】重みの初期値
ここまでは重みやバイアスの初期値は単純にガウス分布で、標準偏差をハイパーパラメータとして扱ってきました。

しかし、どのような値にすると良いかが知られています。

シグモイド関数やハイパボリックタンジェント関数のときは Xavierの初期値 （またはGlorotの初期値）、ReLUのときは Heの初期値 が使われます。


XavierInitializerクラスと、HeInitializerクラスを作成してください。


Xavierの初期値
Xavierの初期値における標準偏差 \sigma は次の式で求められます。

$$
\sigma = \frac{1}{\sqrt{n}}
$$
n : 前の層のノード数


《論文》


Glorot, X., & Bengio, Y. (n.d.). Understanding the difficulty of training deep feedforward neural networks.


Heの初期値
Heの初期値における標準偏差 \sigma は次の式で求められます。

$$
\sigma = \sqrt{\frac{2}{n}}
$$
n : 前の層のノード数


《論文》


He, K., Zhang, X., Ren, S., & Sun, J. (2015). Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification.



# ===========================================================
# 【問題7】最適化手法
学習率は学習過程で変化させていく方法が一般的です。基本的な手法である AdaGrad のクラスを作成してください。


まず、これまで使ってきたSGDを確認します。

$$
W_i^{\prime} = W_i - \alpha E(\frac{\partial L}{\partial W_i}) \\ B_i^{\prime} = B_i - \alpha E(\frac{\partial L}{\partial B_i})
$$
$$
\alpha : 学習率（層ごとに変えることも可能だが、基本的には全て同じとする）
$$
$$
\frac{\partial L}{\partial W_i} : W_i に関する損失 L の勾配
$$
$$
\frac{\partial L}{\partial B_i} : B_i に関する損失 L の勾配
$$

E() : ミニバッチ方向にベクトルの平均を計算


続いて、AdaGradです。バイアスの数式は省略しますが、重みと同様のことをします。


更新された分だけその重みに対する学習率を徐々に下げていきます。

イテレーションごとの勾配の二乗和 H を保存しておき、その分だけ学習率を小さくします。


学習率は重み一つひとつに対して異なることになります。

$$
H_i^{\prime} = H_i+E(\frac{\partial L}{\partial W_i})×E(\frac{\partial L}{\partial W_i})\\ W_i^{\prime} = W_i - \alpha \frac{1}{\sqrt{H_i^{\prime} }} E(\frac{\partial L}{\partial W_i}) \\
$$
H_i : i層目に関して、前のイテレーションまでの勾配の二乗和（初期値は0）



$$
H_i^{\prime} : 更新した H_i
$$
《論文》


Duchi JDUCHI, J., & Singer, Y. (2011). Adaptive Subgradient Methods for Online Learning and Stochastic Optimization * Elad Hazan. Journal of Machine Learning Research (Vol. 12).



# ===========================================================
# 【問題8】クラスの完成
任意の構成で学習と推定が行えるScratchDeepNeuralNetrowkClassifierクラスを完成させてください。

# 前処理

In [1]:
#import
import pandas as pd
import numpy as np
from keras.datasets import mnist
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
sns.set(palette="bright")
from sklearn.metrics import accuracy_score
from keras.datasets import mnist
(X_train, y_train), (X_test, y_test) = mnist.load_data()


#前処理
X_train = X_train.reshape(-1, 784)
X_test = X_test.reshape(-1, 784)
X_train = X_train.astype(np.float)
X_test = X_test.astype(np.float)
X_train /= 255
X_test /= 255


#分割
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.2)

#目的変数をワンホット化
from sklearn.preprocessing import OneHotEncoder
enc = OneHotEncoder(handle_unknown='ignore', sparse=False)
y_train_one_hot = enc.fit_transform(y_train[:, np.newaxis])
y_test_one_hot = enc.transform(y_test[:, np.newaxis])

Using TensorFlow backend.


# 作成したクラス

In [19]:
#===========================================ミニバッチ===================================================
#ミニバッチを取得するクラス
class GetMiniBatch:
    """
    ミニバッチを取得するイテレータ

    Parameters
    ----------
    X : 次の形のndarray, shape (n_samples, n_features)
      訓練データ
    y : 次の形のndarray, shape (n_samples, 1)
      正解値
    batch_size : int
      バッチサイズ
    seed : int
      NumPyの乱数のシード
    """
    def __init__(self, X, y, batch_size = 20, seed=0):
        self.batch_size = batch_size
        np.random.seed(seed)
        shuffle_index = np.random.permutation(np.arange(X.shape[0]))
        self._X = X[shuffle_index]
        self._y = y[shuffle_index]
        self._stop = np.ceil(X.shape[0]/self.batch_size).astype(np.int)
    def __len__(self):
        return self._stop
    def __getitem__(self,item):
        p0 = item*self.batch_size
        p1 = item*self.batch_size + self.batch_size
        return self._X[p0:p1], self._y[p0:p1]        
    def __iter__(self):
        self._counter = 0
        return self
    def __next__(self):
        if self._counter >= self._stop:
            raise StopIteration()
        p0 = self._counter*self.batch_size
        p1 = self._counter*self.batch_size + self.batch_size
        self._counter += 1
        return self._X[p0:p1], self._y[p0:p1]

#===========================================全結合層===================================================
#（問1）
class FC:
    """
    ノード数n_nodes1からn_nodes2への全結合層
    Parameters
    ----------
    n_nodes1 : int
      前の層のノード数
    n_nodes2 : int
      後の層のノード数
    initializer : 初期化方法のインスタンス
    optimizer : 最適化手法のインスタンス
    """
    def __init__(self, n_nodes1, n_nodes2, initializer, optimizer):
        
        self.n_nodes1 = n_nodes1
        self.n_nodes2 = n_nodes2
        
        #初期化手法
        self.initializer = initializer
        
        #最適化手法
        self.optimizer = optimizer
        
        # 指定したinitializerのメソッドを使い、self.Wとself.Bを初期化する
        self.W = self.initializer.W(self.n_nodes1,self.n_nodes2)
        self.B = self.initializer.B(self.n_nodes2)
        
        
        
    def forward(self, X):
        """
        フォワード
        Parameters
        ----------
        X : 次の形のndarray, shape (batch_size, n_nodes1)
            入力
        Returns
        ----------
        A : 次の形のndarray, shape (batch_size, n_nodes2)
            出力
        """ 
        #フォワード時の入力Xをインスタンス変数として保持
        self.X = X
        
        #順伝播
        self.A = self.X@self.W + self.B
        
        return self.A
    
    
    def backward(self, dA):
        """
        バックワード
        Parameters
        ----------
        dA : 次の形のndarray, shape (batch_size, n_nodes2)
            後ろから流れてきた勾配
        Returns
        ----------
        dZ : 次の形のndarray, shape (batch_size, n_nodes1)
            前に流す勾配
        """
        # 逆伝播
        self.dB = np.sum(dA,axis=0)#dA・・・逆伝播する際に活性化関数に通して出力された値
        self.dW = self.X.T@dA
        self.dZ = dA@self.W.T
        
        #インスタンスの重みとバイアス自身を指定した最適手法により求めた値で更新
        self = self.optimizer.update(self)
        
        return self.dZ

#===========================================初期化手法===================================================
#（問２）
#ガウス分布によるシンプルな初期化手法
class SimpleInitializer:
    """
    ガウス分布によるシンプルな初期化
    Parameters
    ----------
    sigma : float
      ガウス分布の標準偏差
    """
    def __init__(self, sigma):
        self.sigma = sigma
    
    def W(self, n_nodes1, n_nodes2):
        """
        重みの初期化
        Parameters
        ----------
        n_nodes1 : int
          前の層のノード数
        n_nodes2 : int
          後の層のノード数

        Returns
        ----------
        W :　重みの初期値
        """
        W = self.sigma*np.random.randn(n_nodes1,n_nodes2)
        
        return W
    
    def B(self, n_nodes2):
        """
        バイアスの初期化
        Parameters
        ----------
        n_nodes2 : int
          後の層のノード数

        Returns
        ----------
        B :バイアスの初期値
        """
        B = self.sigma*np.random.randn(1,n_nodes2)
        return B

#(問６)
# Xavierの初期値による初期化手法
class XavierInitializer:
    """
    Xavierによる初期化
    Parameters
    ----------
    sigma : float
      ガウス分布の標準偏差
    """
    def __init__(self, sigma):
        self.sigma = sigma
    
    def W(self, n_nodes1, n_nodes2):
        """
        重みの初期化
        Parameters
        ----------
        n_nodes1 : int
          前の層のノード数
        n_nodes2 : int
          後の層のノード数

        Returns
        ----------
        W :　重みの初期値
        """
        #Xavierの初期値における標準偏差 sigma 
        self.sigma = 1/np.sqrt(n_nodes1)
        
        #上記sigmaを用いて重みの初期値を求める
        W = self.sigma*np.random.randn(n_nodes1,n_nodes2)
        
        return W
    
    def B(self, n_nodes2):
        """
        バイアスの初期化
        Parameters
        ----------
        n_nodes2 : int
          後の層のノード数

        Returns
        ----------
        B :バイアスの初期値
        """
        #上記sigmaを用いてバイアスの初期値を求める
        B = self.sigma*np.random.randn(1,n_nodes2)
        
        return B


#（問６）
# Heの初期値による初期化手法
class HeInitializer:
    """
    Xavierによる初期化
    Parameters
    ----------
    sigma : float
      ガウス分布の標準偏差
    """
    def __init__(self, sigma):
        self.sigma = sigma
    
    def W(self, n_nodes1, n_nodes2):
        """
        重みの初期化
        Parameters
        ----------
        n_nodes1 : int
          前の層のノード数
        n_nodes2 : int
          後の層のノード数

        Returns
        ----------
        W :　重みの初期値
        """
        #Heの初期値における標準偏差 sigma 
        self.sigma = np.sqrt(2/n_nodes1)
        
        #上記sigmaを用いて重みの初期値を求める
        W = self.sigma*np.random.randn(n_nodes1,n_nodes2)
        
        return W
    
    def B(self, n_nodes2):
        """
        バイアスの初期化
        Parameters
        ----------
        n_nodes2 : int
          後の層のノード数

        Returns
        ----------
        B :バイアスの初期値
        """
        #上記sigmaを用いてバイアスの初期値を求める
        B = self.sigma*np.random.randn(1,n_nodes2)
        
        return B

#===========================================活性化関数===================================================
#(問４)  
#sigmoid関数を活性化関数として使用
class Sigmoid:
        """
        Parameters
        ----------
        A : 各層に入力される値(batch_size, n_nodes_1)
        dZ : バックワード時に前に流す勾配(batch_size, n_nodes1)

       Returns
        -------
        Z : 各層からの出力される値(batch_size, n_nodes1)
        dA : バックワード時に後ろから流れてきた勾配(batch_size, n_nodes2)
        """
        def forward(self,A):
            Z = 1/(1+np.exp(-A))
            
            return Z
        
        def backward(self,A,dZ):
            dA = dZ*(1- self.forward(A)**2)
            
            return dA    
    
    
#（問４）   
#ハイパボリックタンジェント関数を活性化関数として使用
class Tanh:
        """
        Parameters
        ----------
        A : 各層に入力される値(batch_size, n_nodes_1)
        dZ : バックワード時に前に流す勾配(batch_size, n_nodes1)

       Returns
        -------
        Z : 各層からの出力される値(batch_size, n_nodes1)
        dA : バックワード時に後ろから流れてきた勾配(batch_size, n_nodes2)
        """
        def forward(self,A):
            Z = np.tanh(A)
            
            return Z
         
        def backward(self,A,dZ):
            dA = dZ*(1 - np.tanh(A)**2)

            return dA
    
    
    
#(問５)
#ReLU関数を活性化関数として使用
class ReLU:
        """
        Parameters
        ----------
        A : 各層に入力される値(batch_size, n_nodes_1)
        dZ : バックワード時に前に流す勾配(batch_size, n_nodes1)

       Returns
        -------
        Z : 各層からの出力される値(batch_size, n_nodes1)
        dA : バックワード時に後ろから流れてきた勾配(batch_size, n_nodes2)
        """
        def forward(self,A):
            #0か入力か大きい方が出力される
            self.Z = np.maximum(0,A)
            
            
            return self.Z
         
        def backward(self,A,dZ):
            #入力が０以上なら１に勾配をかける、0以下なら０を出力

            dA = dZ*np.where(A>0,1,0)
            
            return dA    


#（問４）
#ソフトマックス関数を活性化関数として使用
class Softmax:
        """
        Parameters
        ----------
        A : 各層に入力される値(batch_size, n_nodes_1)
        dZ : バックワード時に前に流す勾配(batch_size, n_nodes1)

       Returns
        -------
        Z : 各層からの出力される値(batch_size, n_nodes1)
        dA : バックワード時に後ろから流れてきた勾配(batch_size, n_nodes2)
        """
        def forward(self,A):
            Z = np.exp(A)/np.sum(np.exp(A),axis=1).reshape(-1,1)
            
            return Z
         
        def backward(self,A,y):
            dA = self.forward(A) - y
            #back時は交差エントロピー誤差も計算
            L = - np.sum(y * np.log(self.forward(A))) / len(y)
            
            return dA,L        
        
#===========================================最適化手法===================================================
#（問３）
#最適化手法（SGD）
class SGD():
    """
    確率的勾配降下法
    Parameters
    ----------
    lr : 学習率
    """
    def __init__(self, lr):
        self.lr = lr
       
    def update(self, layer):
        """
        ある層の重みやバイアスの更新
        Parameters
        ----------
        layer : 更新前の層のインスタンス
        """
        #パラメータを誤差逆伝播で算出したものに学習率をかけて更新
        layer.W -= self.lr*layer.dW/20#バッチサイズで割る
        layer.B -= self.lr*layer.dB/20
        
        #パラメータを更新したインスタンスを返す
        return layer

#（問７）
#最適化手法（AdaGrad）
class AdaGrad():
    """
    AdaGradを用いた最適化
    Parameters
    ----------
    lr : 学習率
    """
    def __init__(self, lr):
        self.lr = lr

    def update(self, layer):
        """
        ある層の重みやバイアスの更新
        Parameters
        ----------
        layer : 更新前の層のインスタンス
        """
        #HW,HBの初期値
        layer.HW = 0
        layer.HB = 0
        
        #パラメータを更新
        layer.HW += layer.dW*layer.dW
        layer.HB += layer.dB*layer.dB
        layer.W -= self.lr*layer.dW/(np.sqrt(layer.HW)+ 1e-7)/20#1e-7・・・np.sqrt(layer.HW)が０になることが考えられるため、#結果に影響しない程度の小さい数を加える
        layer.B-= self.lr*layer.dB/(np.sqrt(layer.HB) + 1e-7)/20
        
        #パラメータを更新したインスタンスを返す
        return layer

====================================================================================
# ４層のScratchDeepNeuralNetrowkClassifier

In [20]:
#4層のDNN
class ScratchDeepNeuralNetrowkClassifier4():
    """
    4層のディープニューラルネットワーク分類器

    Parameters
    ----------

    Attributes
    ----------
    """
    def __init__(self,n_features=784,n_nodes1=400,n_nodes2=200,n_nodes3=100,n_output=10,sigma=0.1,lr=0.01,batch_size=20,epoch=10,initializer=SimpleInitializer,optimizer=SGD,activeter=ReLU(),verbose=False):

        self.n_features = n_features#特徴力の数
        self.n_nodes1 = n_nodes1#１層目のノード数
        self.n_nodes2 = n_nodes2#2層目のノード数
        self.n_nodes3 = n_nodes3#3層目のノード数
        self.n_output = n_output#4層目のノード数(最終的に出力する数)
        self.sigma = sigma#ガウス分布の標準偏差
        self.lr = lr#学習率
        self.batch_size = batch_size#バッチサイズ
        self.epoch = epoch#エポック数
        self.initializer = initializer#初期化手法
        self.optimizer = optimizer#最適化手法
        self.activeter = activeter#活性化関数
        self.verbose = verbose#学習経過を出力するか
        
        #学習曲線を描画するためにクロスエントロピー誤差を保存するリスト
        self.loss_lst = []
        self.val_loss_lst = []
        
        
        
    def fit(self,X,y,X_val=None,y_val=None):
        """
        ニューラルネットワーク分類器を学習する。

        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            訓練データの特徴量
        y : 次の形のndarray, shape (n_samples, )
            訓練データの正解値
        X_val : 次の形のndarray, shape (n_samples, n_features)
            検証データの特徴量
        y_val : 次の形のndarray, shape (n_samples, )
            検証データの正解値
        """
        #各層ごとにFCクラスを呼び出しインスタンスを作成することで、指定した初期化手法で各層における重みとバイアスを初期化
        self.FC1 = FC(self.n_features,self.n_nodes1,self.initializer(self.sigma),self.optimizer(self.lr))
        self.FC2 = FC(self.n_nodes1,self.n_nodes2,self.initializer(self.sigma),self.optimizer(self.lr))
        self.FC3 = FC(self.n_nodes2,self.n_nodes3,self.initializer(self.sigma),self.optimizer(self.lr))
        self.FC4 = FC(self.n_nodes3,self.n_output,self.initializer(self.sigma),self.optimizer(self.lr))
        
        #指定したエポック分だけ繰り返す
        for epoch in range(self.epoch):
            #サンプルをミニバッチ処理して、ミニバッチずつ学習させる
            get_mini_batch = GetMiniBatch(X, y, self.batch_size,seed=epoch) 
            #n回目のエポックにおけるミニバッチを取得、各ミニバッチで一連の流れを繰り返す
            for mini_X_train, mini_y_train in get_mini_batch:
                #miniX_train(20, 784)
                #miniy_train(20, 10)
                
                #順伝播(mini_X_trainを入力値として受け取って、全ての層を活性化関数を適用しながら通る)
                self.Z4 = self.forward(mini_X_train)
                #A1(20, 400)
                #Z1(20, 400)
                #A2(20, 200)
                #Z2(20, 200)
                #A3(20, 100)
                #Z3(20, 100)
                #A4(20, 10)
                #Z4(20, 10)

                #誤差逆伝播(通ってきた道を活性化関数（backward版）通しながら引き返して最適な重みとバイアスを探す)
                #４層目への入力と、交差エントロピー誤差を算出する
                self.dA4,self.loss = self.softmax.backward(self.Z4,mini_y_train)
                #self.dA4(20, 10)
                #3層目からの出力
                self.dZ3 = self.FC4.backward(self.dA4)
                #self.dZ3(20, 100)
                #3層目への入力
                self.dA3 = self.activeter.backward(self.A3,self.dZ3)
                #self.dA3(20, 100)  
                #2層目からの出力
                self.dZ2 = self.FC3.backward(self.dA3)
                #self.dZ2(20, 200)
                #2層目への入力
                self.dA2 = self.activeter.backward(self.A2,self.dZ2)
                #self.dA2(20, 200)
                #1層目からの出力
                self.dZ1 = self.FC2.backward(self.dA2)
                #self.dZ1(20, 400)
                #1層目への入力
                self.dA1 = self.activeter.backward(self.A1,self.dZ1)
                #self.dA1(20, 400)
                self.dZ0 = self.FC1.backward(self.dA1)
                
            #求めたパラメータで再度通る
            #順伝播(mini_X_trainを入力値として受け取って、全ての層を活性化関数を適用しながら通る)
            self.Z4 = self.forward(mini_X_train)
            
            #エポックごとに交差エントロピー誤差を算出しリストに入れる
            #L = self.softmax.backward(self.Z4,mini_y_train)[1]
            #self.loss_lst.append(L)
            
            #valデータが入力された場合はvalデータも順伝播＆誤差保存
            if X_val is not None and y_val is not None:
                #順伝播(X_valを入力値として受け取って、全ての層を活性化関数を適用しながら通る)
                self.Z4 = self.forward(X_val)

                #エポックごとに交差エントロピー誤差を算出しリストに入れる
               #val_L = self.softmax.backward(self.Z4,y_val)[1]
                #self.val_loss_lst.append(val_L)
                
            if self.verbose:
                #verboseをTrueにした際は各エポックごとの損失の推移を出力する
                print("Epoch{}".format(epoch))
                print("loss:{:.10f}/val_loss:{:.10f}".format(L,val_L))
     
    
    def forward(self,X):
        #順伝播(mini_X_trainを入力値として受け取って、全ての層を活性化関数を適用しながら通る)
        #１層目
        self.A1 = self.FC1.forward(X)
        self.Z1 = self.activeter.forward(self.A1)
        #２層目
        self.A2 = self.FC2.forward(self.Z1)
        self.Z2 = self.activeter.forward(self.A2)
        #3層目
        self.A3 = self.FC3.forward(self.Z2)
        self.Z3 = self.activeter.forward(self.A3)
        #4層目
        self.A4 = self.FC4.forward(self.Z3)
        #最後の層だけソフトマックス関数を通す
        self.softmax = Softmax()
        self.Z4 = self.softmax.forward(self.A4)
        
        return self.Z4
                
    def predict(self,X):
        """
        ニューラルネットワーク分類器を使い推定する。

        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
        サンプル

        Returns
        -------
        次の形のndarray, shape (n_samples, 1)
        推定結果
        """
        self.Z4 = self.forward(X)
        true_pred = np.argmax(self.Z4,axis=1)#softmax関数で返された確率の中で１番大きい要素のインデックス（＝予測した数字）を取得する
        return true_pred

====================================================================================
# 6層のScratchDeepNeuralNetrowkClassifier

In [21]:
#6層のDNN
class ScratchDeepNeuralNetrowkClassifier6():
    """
    4層のディープニューラルネットワーク分類器

    Parameters
    ----------

    Attributes
    ----------
    """
    def __init__(self,n_features=784,n_nodes1=1600,n_nodes2=800,n_nodes3=400,n_nodes4=200,n_nodes5=100,n_output=10,sigma=0.1,lr=0.01,batch_size=20,epoch=10,initializer=SimpleInitializer,optimizer=SGD,activeter=ReLU(),verbose=False):

        self.n_features = n_features#特徴力の数
        self.n_nodes1 = n_nodes1#１層目のノード数
        self.n_nodes2 = n_nodes2#2層目のノード数
        self.n_nodes3 = n_nodes3#3層目のノード数
        self.n_nodes4 = n_nodes4#4層目のノード数
        self.n_nodes5 = n_nodes5#5層目のノード数
        self.n_output = n_output#6層目のノード数(最終的に出力する数)
        self.sigma = sigma#ガウス分布の標準偏差
        self.lr = lr#学習率
        self.batch_size = batch_size#バッチサイズ
        self.epoch = epoch#エポック数
        self.initializer = initializer#初期化手法
        self.optimizer = optimizer#最適化手法
        self.activeter = activeter#活性化関数
        self.verbose = verbose#学習経過を出力するか
        
        #学習曲線を描画するためにクロスエントロピー誤差を保存するリスト
        self.loss_lst = []
        self.val_loss_lst = []
        
        
        
    def fit(self,X,y,X_val=None,y_val=None):
        """
        ニューラルネットワーク分類器を学習する。

        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
            訓練データの特徴量
        y : 次の形のndarray, shape (n_samples, )
            訓練データの正解値
        X_val : 次の形のndarray, shape (n_samples, n_features)
            検証データの特徴量
        y_val : 次の形のndarray, shape (n_samples, )
            検証データの正解値
        """
        #各層ごとにFCクラスを呼び出しインスタンスを作成することで、指定した初期化手法で各層における重みとバイアスを初期化
        self.FC1 = FC(self.n_features,self.n_nodes1,self.initializer(self.sigma),self.optimizer(self.lr))
        self.FC2 = FC(self.n_nodes1,self.n_nodes2,self.initializer(self.sigma),self.optimizer(self.lr))
        self.FC3 = FC(self.n_nodes2,self.n_nodes3,self.initializer(self.sigma),self.optimizer(self.lr))
        self.FC4 = FC(self.n_nodes3,self.n_nodes4,self.initializer(self.sigma),self.optimizer(self.lr))
        self.FC5 = FC(self.n_nodes4,self.n_nodes5,self.initializer(self.sigma),self.optimizer(self.lr))
        self.FC6 = FC(self.n_nodes5,self.n_output,self.initializer(self.sigma),self.optimizer(self.lr))
        
        #指定したエポック分だけ繰り返す
        for epoch in range(self.epoch):
            #サンプルをミニバッチ処理して、ミニバッチずつ学習させる
            get_mini_batch = GetMiniBatch(X, y, self.batch_size,seed=epoch) 
            #n回目のエポックにおけるミニバッチを取得、各ミニバッチで一連の流れを繰り返す
            for mini_X_train, mini_y_train in get_mini_batch:
                
                #順伝播(mini_X_trainを入力値として受け取って、全ての層を活性化関数を適用しながら通る)
                self.Z6 = self.forward(mini_X_train)

                #誤差逆伝播(通ってきた道を活性化関数（backward版）通しながら引き返して最適な重みとバイアスを探す)
                #6層目への入力と、交差エントロピー誤差を算出する
                self.dA6,self.loss = self.softmax.backward(self.Z6,mini_y_train)
                #5層目からの出力
                self.dZ5 = self.FC6.backward(self.dA6)  
                #5層目への入力
                self.dA5 = self.activeter.backward(self.A5,self.dZ5)
                #4層目からの出力
                self.dZ4 = self.FC5.backward(self.dA5)
                #4層目への入力
                self.dA4 = self.activeter.backward(self.A4,self.dZ4)
                #3層目からの出力
                self.dZ3 = self.FC4.backward(self.dA4)
                #3層目への入力
                self.dA3 = self.activeter.backward(self.A3,self.dZ3)
                #2層目からの出力
                self.dZ2 = self.FC3.backward(self.dA3)
                #2層目への入力
                self.dA2 = self.activeter.backward(self.A2,self.dZ2)                
                #1層目からの出力
                self.dZ1 = self.FC2.backward(self.dA2)                
                #1層目への入力
                self.dA1 = self.activeter.backward(self.A1,self.dZ1)
                self.dZ0 = self.FC1.backward(self.dA1)
                
            #求めたパラメータで再度通る
            #順伝播(mini_X_trainを入力値として受け取って、全ての層を活性化関数を適用しながら通る)
            self.Z6 = self.forward(mini_X_train)
            
            #エポックごとに交差エントロピー誤差を算出しリストに入れる
            #L = self.softmax.backward(self.Z6,mini_y_train)[1]
            #self.loss_lst.append(L)
            
            #valデータが入力された場合はvalデータも順伝播＆誤差保存
            if X_val is not None and y_val is not None:
                #順伝播(X_valを入力値として受け取って、全ての層を活性化関数を適用しながら通る)
                self.Z6 = self.forward(X_val)

                #エポックごとに交差エントロピー誤差を算出しリストに入れる
                #val_L = self.softmax.backward(self.Z6,y_val)[1]
                #self.val_loss_lst.append(val_L)
                
            if self.verbose:
                #verboseをTrueにした際は各エポックごとの損失の推移を出力する
                print("Epoch{}".format(epoch))
                print("loss:{:.10f}/val_loss:{:.10f}".format(L,val_L))
     
    
    def forward(self,X):
        #順伝播(mini_X_trainを入力値として受け取って、全ての層を活性化関数を適用しながら通る)
        #１層目
        self.A1 = self.FC1.forward(X)
        self.Z1 = self.activeter.forward(self.A1)
        #２層目
        self.A2 = self.FC2.forward(self.Z1)
        self.Z2 = self.activeter.forward(self.A2)
        #3層目
        self.A3 = self.FC3.forward(self.Z2)
        self.Z3 = self.activeter.forward(self.A3)
        #4層目
        self.A4 = self.FC4.forward(self.Z3)
        self.Z4= self.activeter.forward(self.A4)
        #5層目
        self.A5 = self.FC5.forward(self.Z4)
        self.Z5 = self.activeter.forward(self.A5)
        #6層目
        self.A6 = self.FC6.forward(self.Z5)
        #最後の層だけソフトマックス関数を通す
        self.softmax = Softmax()
        self.Z6 = self.softmax.forward(self.A6)
        
        return self.Z6
                
    def predict(self,X):
        """
        ニューラルネットワーク分類器を使い推定する。

        Parameters
        ----------
        X : 次の形のndarray, shape (n_samples, n_features)
        サンプル

        Returns
        -------
        次の形のndarray, shape (n_samples, 1)
        推定結果
        """
        self.Z6 = self.forward(X)
        true_pred = np.argmax(self.Z6,axis=1)#softmax関数で返された確率の中で１番大きい要素のインデックス（＝予測した数字）を取得する
        return true_pred

====================================================================================
# 【問題9】学習と推定
層の数や活性化関数を変えたいくつかのネットワークを作成してください。そして、MNISTのデータを学習・推定し、Accuracyを計算してください。

## ４層

In [31]:
initializer_lst = [SimpleInitializer,HeInitializer,XavierInitializer]
initializer_name = ["=====SimpleInitializer=====","=====HeInitializer=====","=====XavierInitializer====="]
optimizer_lst = [SGD,AdaGrad]
optimizer_name = ["--------SGD--------","--------AdaGrad--------"]
activeter_lst = [Sigmoid,Tanh,ReLU]
activeter_name =  ["[Sigmoid]","[Tanh]","[ReLU]"]


#各手法全ての組み合わせでインスタンスを作成・学習・推定・acc算出
for initial,initial_name in zip (initializer_lst,initializer_name):
    print(initial_name)
    for optim,optim_name in zip(optimizer_lst,optimizer_name):
        print(optim_name)
        for active,active_name in zip(activeter_lst,activeter_name):
            print(active_name)
            SDNC4 = ScratchDeepNeuralNetrowkClassifier4(
    n_features=784,
    n_nodes1=800,
    n_nodes2=400,
    n_nodes3=200,
    n_output=10,
    sigma=1,
    lr=0.004,
    batch_size=20,
    epoch=20,
    initializer=initial,
    optimizer=optim,
    activeter=active(),
    verbose=False
)
            #学習
            SDNC4.fit(X_train[:100],y_train_one_hot[:100],X_val[:100],y_test_one_hot[:100])


            #推定
            y_pred = SDNC4.predict(X_val)


            # accuracy_scoreを算出 
            acc = accuracy_score(y_val,y_pred)
            print(round(acc,5))

=====SimpleInitializer=====
--------SGD--------
[Sigmoid]




0.31092
[Tanh]
0.08992
[ReLU]




0.09408
--------AdaGrad--------
[Sigmoid]
0.14125
[Tanh]
0.09458
[ReLU]
0.09408
=====HeInitializer=====
--------SGD--------
[Sigmoid]
0.09408
[Tanh]
0.43958
[ReLU]
0.15892
--------AdaGrad--------
[Sigmoid]
0.09408
[Tanh]
0.62875
[ReLU]
0.24
=====XavierInitializer=====
--------SGD--------
[Sigmoid]
0.09408
[Tanh]
0.20975
[ReLU]
0.13542
--------AdaGrad--------
[Sigmoid]
0.09408
[Tanh]
0.61067
[ReLU]
0.18283


## 6層

In [44]:
initializer_lst = [SimpleInitializer,HeInitializer,XavierInitializer]
initializer_name = ["=====SimpleInitializer=====","=====HeInitializer=====","=====XavierInitializer====="]
optimizer_lst = [SGD,AdaGrad]
optimizer_name = ["--------SGD--------","--------AdaGrad--------"]
activeter_lst = [Sigmoid,Tanh,ReLU]
activeter_name =  ["[Sigmoid]","[Tanh]","[ReLU]"]


#各手法全ての組み合わせでインスタンスを作成・学習・推定・acc算出
for initial,initial_name in zip (initializer_lst,initializer_name):
    print(initial_name)
    for optim,optim_name in zip(optimizer_lst,optimizer_name):
        print(optim_name)
        for active,active_name in zip(activeter_lst,activeter_name):
            print(active_name)
            SDNC6 = ScratchDeepNeuralNetrowkClassifier6(
    n_features=784,
    n_nodes1=800,
    n_nodes2=400,
    n_nodes3=200,
    n_nodes4=100,
    n_nodes5=100,
    n_output=10,
    sigma=0.01,
    lr=0.004,
    batch_size=20,
    epoch=10,
    initializer=initial,
    optimizer=optim,
    activeter=active(),
    verbose=False
)
            #学習
            SDNC6.fit(X_train[:100],y_train_one_hot[:100],X_val[:50],y_test_one_hot[:50])


            #推定
            y_pred = SDNC6.predict(X_val)


            # accuracy_scoreを算出 
            acc = accuracy_score(y_val,y_pred)
            print(round(acc,5))

=====SimpleInitializer=====
--------SGD--------
[Sigmoid]
0.09408
[Tanh]
0.09617
[ReLU]
0.09617
--------AdaGrad--------
[Sigmoid]
0.09408
[Tanh]
0.20283
[ReLU]
0.09408
=====HeInitializer=====
--------SGD--------
[Sigmoid]
0.09967
[Tanh]
0.3665
[ReLU]
0.15042
--------AdaGrad--------
[Sigmoid]
0.10108
[Tanh]
0.6185
[ReLU]
0.28625
=====XavierInitializer=====
--------SGD--------
[Sigmoid]
0.09967
[Tanh]
0.27067
[ReLU]
0.10142
--------AdaGrad--------
[Sigmoid]
0.09408
[Tanh]
0.58042
[ReLU]
0.22325


# 考察

➡︎４層と６層を比べる以前に、各手法の組み合わせによって最適なハイパーパラメータが違いすぎた。

今回手法の組み合わせによる優劣を比べるために、全ての組み合わせで同一のパラメータを使った。

しかしそれぞれの手法の組み合わせは、わずかなパラメータの差で結果に大きく影響があり、単純に優劣を比べることができなかった。（パラメータによって上手く行く組み合わせと、全て０と判定してしまうような上手くいかない組み合わせがあった。（例：sigmoidを使った時にaccが高くなるようなパラメータではReLUが低くなったり、、、)）

そのため、NNの精度はわずかなパラメータの差が大きく影響を及ぼすこと、手法の組み合わせによって最適なパラメータが違うことがわかった。

こうしたことからNNのモデルを構築する際には、
適当に手法を組み合わせるのではなく、各手法の特徴を理解した上でそれぞれを組み合わせる必要があると考えられる。

また、各手法の特徴を理解し、手法の組み合わせを何パターンかに絞り込んだ上で、
最適な層数やノード数、パラメータを探索することができればより効率的に精度の高いモデルを構築できると感じた。

そのためにはやはりアルゴリズムの理解が重要なのだなと改めて実感した。