#ディープニューラルネットワークスクラッチ

前回は3層のニューラルネットワークを作成しましたが、今回はこれを任意の層数に拡張しやすいものに書き換えていきます。その上で、活性化関数や初期値、最適化手法について発展的なものを扱えるようにしていきます。


このようなスクラッチを行うことで、今後各種フレームワークを利用していくにあたり、内部の動きが想像できることを目指します。


名前は新しくScratchDeepNeuralNetrowkClassifierクラスとしてください。

##層などのクラス化

クラスにまとめて行くことで、構成を変更しやすい実装にしていきます。


手を加える箇所


・層の数

・層の種類（今後畳み込み層など他のタイプの層が登場する）

・活性化関数の種類

・重みやバイアスの初期化方法

・最適化手法

そのために、全結合層、各種活性化関数、重みやバイアスの初期化、最適化手法それぞれのクラスを作成します。


**実装方法は自由**ですが、簡単な例を紹介します。サンプルコード1のように全結合層と活性化関数のインスタンスを作成し、サンプルコード2,3のようにして使用します。それぞれのクラスについてはこのあと解説します。

《サンプルコード1》


ScratchDeepNeuralNetrowkClassifierのfitメソッド内

    # self.sigma : ガウス分布の標準偏差
    # self.lr : 学習率
    # self.n_nodes1 : 1層目のノード数
    # self.n_nodes2 : 2層目のノード数
    # self.n_output : 出力層のノード数
    optimizer = SGD(self.lr)
    self.FC1 = FC(self.n_features, self.n_nodes1, SimpleInitializer(self.sigma), optimizer)
    self.activation1 = Tanh()
    self.FC2 = FC(self.n_nodes1, self.n_nodes2, SimpleInitializer(self.sigma), optimizer)
    self.activation2 = Tanh()
    self.FC3 = FC(self.n_nodes2, self.n_output, SimpleInitializer(self.sigma), optimizer)
    self.activation3 = Softmax()
    
 
《サンプルコード2》


イテレーションごとのフォワード

    A1 = self.FC1.forward(X)
    Z1 = self.activation1.forward(A1)
    A2 = self.FC2.forward(Z1)
    Z2 = self.activation2.forward(A2)
    A3 = self.FC3.forward(Z2)
    Z3 = self.activation3.forward(A3)
    
    
 《サンプルコード3》


イテレーションごとのバックワード

    dA3 = self.activation3.backward(Z3, Y) # 交差エントロピー誤差とソフトマックスを合わせている
    dZ2 = self.FC3.backward(dA3)
    dA2 = self.activation2.backward(dZ2)
    dZ1 = self.FC2.backward(dA2)
    dA1 = self.activation1.backward(dZ1)
    dZ0 = self.FC1.backward(dA1) # dZ0は使用しない

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from collections import OrderedDict
from sklearn.metrics import accuracy_score

##【問題1】全結合層のクラス化

全結合層のクラス化を行なってください。


以下に雛形を載せました。コンストラクタで重みやバイアスの初期化をして、あとはフォワードとバックワードのメソッドを用意します。重みW、バイアスB、およびフォワード時の入力Xをインスタンス変数として保持しておくことで、煩雑な入出力は不要になります。


なお、インスタンスも引数として渡すことができます。そのため、初期化方法のインスタンスinitializerをコンストラクタで受け取れば、それにより初期化が行われます。渡すインスタンスを変えれば、初期化方法が変えられます。


また、引数として自身のインスタンスselfを渡すこともできます。これを利用してself.optimizer.update(self)という風に層の重みの更新が可能です。更新に必要な値は複数ありますが、全て全結合層が持つインスタンス変数にすることができます。


初期化方法と最適化手法のクラスについては後述します。


《雛形》

    class FC:
        """
        ノード数n_nodes1からn_nodes2への全結合層
        Parameters
    ----------
    n_nodes1 : int
      前の層のノード数
    n_nodes2 : int
      後の層のノード数
    initializer : 初期化方法のインスタンス
    optimizer : 最適化手法のインスタンス
    """
    def __init__(self, n_nodes1, n_nodes2, initializer, optimizer):
        self.optimizer = optimizer
        # 初期化
        # initializerのメソッドを使い、self.Wとself.Bを初期化する
        pass
    def forward(self, X):
        """
        フォワード
        Parameters
        ----------
        X : 次の形のndarray, shape (batch_size, n_nodes1)
            入力
        Returns
        ----------
        A : 次の形のndarray, shape (batch_size, n_nodes2)
            出力
        """        
        pass
        return A
    def backward(self, dA):
        """
        バックワード
        Parameters
        ----------
        dA : 次の形のndarray, shape (batch_size, n_nodes2)
            後ろから流れてきた勾配
        Returns
        ----------
        dZ : 次の形のndarray, shape (batch_size, n_nodes1)
            前に流す勾配
        """
        pass
        # 更新
        self = self.optimizer.update(self)
        return dZ

##【問題2】初期化方法のクラス化

初期化を行うコードをクラス化してください。


前述のように、全結合層のコンストラクタに初期化方法のインスタンスを渡せるようにします。以下の雛形に必要なコードを書き加えていってください。標準偏差の値（sigma）はコンストラクタで受け取るようにすることで、全結合層のクラス内にこの値（sigma）を渡さなくてすむようになります。


これまで扱ってきた初期化方法はSimpleInitializerクラスと名付けることにします。


《雛形》

    class SimpleInitializer:
        """
        ガウス分布によるシンプルな初期化
        Parameters
    ----------
    sigma : float
      ガウス分布の標準偏差
    """
    def __init__(self, sigma):
        self.sigma = sigma
    def W(self, n_nodes1, n_nodes2):
        """
        重みの初期化
        Parameters
        ----------
        n_nodes1 : int
          前の層のノード数
        n_nodes2 : int
          後の層のノード数

        Returns
        ----------
        W :
        """
        pass
        return W
    def B(self, n_nodes2):
        """
        バイアスの初期化
        Parameters
        ----------
        n_nodes2 : int
          後の層のノード数

        Returns
        ----------
        B :
        """
        pass
        return B


##【問題3】最適化手法のクラス化

最適化手法のクラス化を行なってください。


最適化手法に関しても初期化方法同様に全結合層にインスタンスとして渡します。バックワードのときにself.optimizer.update(self)のように更新できるようにします。以下の雛形に必要なコードを書き加えていってください。


これまで扱ってきた最適化手法はSGDクラス（Stochastic Gradient Descent、確率的勾配降下法）として作成します。


雛形

    class SGD:
        """
        確率的勾配降下法
        Parameters
    ----------
    lr : 学習率
    """
    def __init__(self, lr):
        self.lr = lr
    def update(self, layer):
        """
        ある層の重みやバイアスの更新
        Parameters
        ----------
        layer : 更新前の層のインスタンス
        """

In [5]:
class SGD():
    """
    確率的勾配降下法
    Parameters
    ----------
    lr : 学習率
    """
    
    def __init__(self, lr = 0.01):
        self.lr = lr


    def update(self, params, grads):
        """
        ある層の重みやバイアスの更新

        """
        for key in params.keys():
            params[key] -= self.lr * grads[key]

##【問題4】活性化関数のクラス化

活性化関数のクラス化を行なってください。


ソフトマックス関数のバックプロパゲーションには交差エントロピー誤差の計算も含む実装を行うことで計算が簡略化されます。

In [33]:
class Affine():
    def __init__(self, W, b, optimize):
        self.W = W
        self.b = b
        self.X = None
        self.dW = None
        self.db = None
        
    def forward(self, X):
        self.X = X
        out = np.dot(X, self.W) + self.b
        
        return out
    
    def backward(self, dout):
        dX = np.dot(dout, self.W.T)
        self.dW = np.dot(self.X.T, dout)
        self.db = np.sum(dout, axis=0)
        
        self = self.optimizer.update(self)
        
        return dX
    
    def backward(self, dout):
        dX = np.dot(dout, self.W.T)
        self.dW = np.dot(self.X.T, dout)
        self.db = np.sum(dout, axis=0)
        
        return dX
    
    
class Tangent():
    def __init__(self):
        self.out = None
        
    def forward(self, X):
        out = np.tanh(X)
        self.out = out
        
        return out
    
    def backward(self, dout):
        dX = dout*(1 - self.out**2)
        
        return dX

    
class Sigmoid():
    def __init__(self):
        self.out = None
        
    def forward(self, X):
        out = 1 / (1 + np.exp(-X))
        self.out = out
        
        return out
        
    def backward(self, dout):
        dX = dout*(1.0 - self.out) * self.out
        
        return dX

    
class Relu():
    def __init__(self):
        self.mask = None

    def forward(self, X):
        self.mask = (X <= 0)
        out = X.copy()
        out[self.mask] = 0

        return out

    def backward(self, dout):
        dout[self.mask] = 0
        dx = dout

        return dx
    
    
class Softmax():
    def __init__(self):
        self.loss = None
        self.y = None
        self.t = None
    
    def forward(self, X, t):
        self.t = t
        self.y = self.softmax(X)
        self.loss = self.cross_entropy_error(self.y, self.t)
        return self.loss 
    
    def cross_entropy_error(self, y, t):
        if t.size == y.size:
            t = t.argmax(axis=1)
            
        batch_size = y.shape[0]
        return -np.sum(t * np.log(y + 1e-7)) / batch_size

    def softmax(self, X):
        X = X - np.max(X, axis=-1, keepdims=True)
        y = np.exp(X) / np.sum(np.exp(X), axis=-1, keepdims=True)
        return y
    
    def backward(self, dout=1):
        batch_size = self.t.shape[0]
        dX = (self.y - self.t) / batch_size
        return dX

##発展的要素

活性化関数や重みの初期値、最適化手法に関してこれまで見てきた以外のものを実装していきます。



##【問題5】ReLUクラスの作成

現在一般的に使われている活性化関数であるReLU（Rectified Linear Unit）をReLUクラスとして実装してください。


ReLUは以下の数式です。

$$f(x) = ReLU(x) = \begin{cases}
x  & \text{if $x>0$,}\\
0 & \text{if $x\leqq0$.}
\end{cases}$$

$
x
 $ : ある特徴量。スカラー


実装上はnp.maximumを使い配列に対してまとめて計算が可能です。


numpy.maximum — NumPy v1.15 Manual


一方、バックプロパゲーションのための $
x
$ に関する $
f
(
x
)
 $の微分は以下のようになります。
 
 $$\frac{\partial f(x)}{\partial x} = \begin{cases}
1  & \text{if $x>0$,}\\
0 & \text{if $x\leqq0$.}
\end{cases}$$

数学的には微分可能ではないですが、 $
x
=$
0
 のとき 
0
 とすることで対応しています。


フォワード時の $
x
$ の正負により、勾配を逆伝播するかどうかが決まるということになります。

In [36]:
class Relu():
    def __init__(self):
        self.re = None

    def forward(self, X):
        self.re = (X <= 0) # Xが0以下True, その他False
        out = X.copy() # X配列コピー
        out[self.re] = 0 # Trueを0に

        return out

    def backward(self, dout):
        dout[self.re] = 0 # x<=0がtrueはdoutも0で流す。それ以外はそのまま
        dx = dout

        return dx

In [37]:
r = Relu()
X = np.array([[1.0, -0.5], [-2.0, 3.0]])
print(X)
r.forward(X)

[[ 1.  -0.5]
 [-2.   3. ]]


array([[1., 0.],
       [0., 3.]])

In [38]:
r.backward(X)

array([[1., 0.],
       [0., 3.]])

##【問題6】重みの初期値

ここまでは重みやバイアスの初期値は単純にガウス分布で、標準偏差をハイパーパラメータとして扱ってきました。しかし、どのような値にすると良いかが知られています。**シグモイド関数やハイパボリックタンジェント関数のときは Xavierの初期値 （またはGlorotの初期値）、ReLUのときは Heの初期値**が使われます。


XavierInitializerクラスと、HeInitializerクラスを作成してください。



##Xavierの初期値

Xavierの初期値における標準偏差 $
σ
 $は次の式で求められます。

$$\sigma = \frac{1}{\sqrt{n}}$$

$
n
$ : 前の層のノード数


《論文》


[Glorot, X., & Bengio, Y. (n.d.). Understanding the difficulty of training deep feedforward neural networks.](http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf)


In [65]:
n_features = 784
n_nodes1 = 100
W = np.random.randn(n_features, n_nodes1) * np.sqrt(1.0 / n_features)

W

array([[ 0.00993982, -0.05662293,  0.01893552, ...,  0.11018268,
         0.06971416, -0.01207858],
       [-0.0095043 ,  0.07856503, -0.00718747, ...,  0.04541258,
         0.00568269, -0.00032771],
       [ 0.03598337,  0.02155519, -0.04547866, ..., -0.00965341,
         0.03605077, -0.05264931],
       ...,
       [-0.03251694, -0.02059958, -0.08385732, ..., -0.0771515 ,
        -0.01986004, -0.04434048],
       [-0.07668733,  0.07537683,  0.0955091 , ...,  0.0083466 ,
        -0.02348123,  0.0056229 ],
       [ 0.02919418, -0.00239146,  0.00102621, ...,  0.06558561,
         0.03374067,  0.02774844]])

In [85]:
#テスト
n_features = 784
n_nodes_list = [100,50]
out_put = 10

all_size = [n_features] + n_nodes_list + [out_put]

for idx in range(1, len(all_size)):
    sig = np.sqrt(1.0 / all_size[idx - 1]) 
            
    W = sig * np.random.randn(all_size[idx-1], all_size[idx])
    
W

array([[-8.01272515e-02, -9.89685335e-03, -7.12050071e-02,
        -3.54996943e-03,  5.46856226e-02, -2.55265315e-01,
        -2.35425779e-01,  3.66509234e-02,  2.30057812e-01,
        -3.93838032e-02],
       [ 1.49842774e-01, -7.14285307e-02,  1.02882332e-01,
        -2.70562003e-01,  1.38468705e-01, -1.11835739e-01,
         2.20288796e-01, -1.26899386e-01,  4.73488680e-02,
         8.31581000e-02],
       [ 1.95241528e-01,  1.55294059e-01, -4.54144018e-03,
         1.01180351e-01,  1.15364333e-01,  2.09106569e-03,
         1.66307039e-02,  5.94395818e-02,  1.00284310e-01,
         6.39650842e-02],
       [ 4.63717046e-03,  9.41104064e-02, -1.37077005e-01,
        -3.47093566e-02, -1.83603288e-01,  1.49753139e-02,
        -1.28998962e-02,  3.52269165e-02, -8.15627504e-02,
        -7.59487256e-02],
       [ 1.30841470e-01, -4.18304683e-02,  2.74889614e-01,
        -5.68593193e-02, -1.10721182e-01, -2.13898920e-01,
        -2.03756952e-02, -5.12116193e-02, -8.66701865e-02,
         3.

##Heの初期値

Heの初期値における標準偏差 $
σ
$ は次の式で求められます。

$$\sigma = \sqrt{\frac{2}{n}}$$

$
n
$ : 前の層のノード数


《論文》


[He, K., Zhang, X., Ren, S., & Sun, J. (2015). Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification.](https://arxiv.org/pdf/1502.01852.pdf)

In [50]:
n_nodes1 = 100
n_nodes2 = 50


W = np.random.randn(n_features, n_nodes1) * np.sqrt(2.0 / n_features)

W

array([[-0.04407457, -0.02042442,  0.01424309, ...,  0.04249791,
        -0.00364516, -0.03781344],
       [-0.01780659, -0.04644926,  0.03114321, ..., -0.01208965,
         0.02867198, -0.0012079 ],
       [-0.01471756, -0.00487631, -0.04059753, ...,  0.00013431,
        -0.04318664,  0.007218  ],
       ...,
       [-0.01349859, -0.08335759,  0.00127902, ...,  0.02594528,
         0.03026292, -0.09315953],
       [ 0.05026497,  0.00022598, -0.00274955, ...,  0.11352182,
         0.00365417, -0.00321237],
       [ 0.12445151, -0.05929608, -0.01624362, ...,  0.02292689,
         0.04789485, -0.03768623]])

In [70]:
#テスト
n_features = 784
n_nodes_list = [100,50]
out_put = 10


all_size = [n_features] + n_nodes_list + [out_put]

for idx in range(1, len(n_nodes_list)):
    sig = np.sqrt(2.0 / n_nodes_list[idx - 1]) 
        
        
    W = sig * np.random.randn(n_nodes_list[idx-1], n_nodes_list[idx])
    
W

array([[ 0.28864199, -0.06215646, -0.05879537, ..., -0.15842031,
         0.13964738,  0.16557787],
       [-0.30191686,  0.09435001, -0.02163267, ..., -0.01667084,
        -0.06853424,  0.13714099],
       [ 0.03613298, -0.17021376,  0.10407657, ..., -0.14525232,
        -0.05764651, -0.08733439],
       ...,
       [ 0.25626263, -0.07066893,  0.03194354, ..., -0.23759958,
         0.1457977 , -0.13385122],
       [ 0.20351462, -0.02618746, -0.06957511, ..., -0.15199151,
         0.04790812, -0.02236514],
       [-0.0610086 , -0.02717208,  0.05997129, ...,  0.0218079 ,
        -0.13751868,  0.23439549]])

がっちゃん子

In [84]:
#テスト
n_features = 784
n_nodes_list = [100,50]
out_put = 10
weight_init_std = "relu"


all_size = [n_features] + n_nodes_list + [out_put]

for idx in range(1, len(all_size)):
    sig = weight_init_std
    if str(weight_init_std).lower() in ('relu', 'he'):
        sig = np.sqrt(2.0 / all_size[idx - 1]) 
    else:
        sig = np.sqrt(1.0 / all_size[idx - 1]) 
        
        
    W = sig * np.random.randn(all_size[idx-1], all_size[idx])
    
W

array([[ 0.17064704, -0.31868538, -0.05507874, -0.00457947,  0.10611308,
        -0.37072696,  0.33856971,  0.17894038, -0.09120928, -0.4120244 ],
       [ 0.10568227,  0.01730688,  0.09725147, -0.13740957, -0.09041942,
        -0.15444612, -0.07495771, -0.16370247,  0.35170051,  0.0169678 ],
       [ 0.17396531, -0.30506195, -0.50391557,  0.11795949, -0.19529565,
        -0.26016156,  0.21184617, -0.36819201,  0.1820924 ,  0.02232979],
       [ 0.05910245, -0.08049669, -0.05837503, -0.10307186,  0.00999909,
        -0.31030933, -0.16707628, -0.02871301,  0.07498274, -0.02317705],
       [ 0.05180334, -0.09465567, -0.28314546,  0.34087394, -0.08398572,
         0.11240949,  0.06095579, -0.15470408, -0.39618463, -0.501212  ],
       [ 0.21065196,  0.02519392, -0.01394606, -0.05137246,  0.09839488,
        -0.07717745, -0.07234915, -0.28906295,  0.04204162,  0.11509024],
       [-0.12782074, -0.31580097, -0.09178159, -0.09678778,  0.42565927,
        -0.45353772, -0.15700741, -0.1746383 

##【問題7】最適化手法

学習率は学習過程で変化させていく方法が一般的です。基本的な手法である AdaGrad のクラスを作成してください。


まず、これまで使ってきたSGDを確認します。

$$W_i^{\prime} = W_i - \alpha E(\frac{\partial L}{\partial W_i}) \\
B_i^{\prime} = B_i - \alpha E(\frac{\partial L}{\partial B_i})$$

$
α
 $: 学習率（層ごとに変えることも可能だが、基本的には全て同じとする）
 

$\frac{\partial L}{\partial W_i}$  :$
W
i
$ に関する損失 $
L
$ の勾配

$\frac{\partial L}{\partial B_i}$
 : $
B
i
$ に関する損失 $
L
 $の勾配



$
E
(
)
$ : ミニバッチ方向にベクトルの平均を計算


続いて、AdaGradです。バイアスの数式は省略しますが、重みと同様のことをします。


更新された分だけその重みに対する学習率を徐々に下げていきます。イテレーションごとの勾配の二乗和 
H
 を保存しておき、その分だけ学習率を小さくします。


学習率は重み一つひとつに対して異なることになります。


$$ H_i^{\prime}  = H_i+E(\frac{\partial L}{\partial W_i})×E(\frac{\partial L}{\partial W_i})\\
W_i^{\prime} = W_i - \alpha \frac{1}{\sqrt{H_i^{\prime} }} E(\frac{\partial L}{\partial W_i}) \\ $$

$
H
i
 $: i層目に関して、前のイテレーションまでの勾配の二乗和（初期値は0）

$
H
′
i
$ : 更新した $
H
i
$


《論文》
[Duchi JDUCHI, J., & Singer, Y. (2011). Adaptive Subgradient Methods for Online Learning and Stochastic Optimization * Elad Hazan. Journal of Machine Learning Research (Vol. 12).](https://www.jmlr.org/papers/volume12/duchi11a/duchi11a.pdf)

In [39]:
class AdaGrad():
    def __init__(self, lr=0.01):
        self.lr = lr
        self.h = None
        
    def update(self, params, grads):
        if self.h is None:
            self.h = {}
            for key, val in params.items():
                self.h[key] = np.zeros_like(val)
            
        for key in params.keys():
            self.h[key] += grads[key] * grads[key]
            params[key] -= self.lr * grads[key] / (np.sqrt(self.h[key]) + 1e-7)

##【問題8】クラスの完成

任意の構成で学習と推定が行えるScratchDeepNeuralNetrowkClassifierクラスを完成させてください。

In [9]:
class SGD():
    """
    確率的勾配降下法
    Parameters
    ----------
    lr : 学習率
    """
    def __init__(self, lr = 0.01):
        self.lr = lr


    def update(self, params,grads):
        """
        ある層の重みやバイアスの更新

        """
        for key in params.keys():
            params[key] -= self.lr * grads[key]

            
class AdaGrad:
    def __init__(self, lr=0.01):
        self.lr = lr
        self.h = None
        
    def update(self, params, grads):
        if self.h is None:
            self.h = {}
            for key, val in params.items():
                self.h[key] = np.zeros_like(val)
            
        for key in params.keys():
            self.h[key] += grads[key] * grads[key]
            params[key] -= self.lr * grads[key] / (np.sqrt(self.h[key]) + 1e-7)           

In [45]:
class Affine():
    def __init__(self, W, b):
        self.W = W
        self.b = b
        self.X = None
        self.dW = None
        self.db = None
        
    def forward(self, X):
        self.X = X
        out = np.dot(X, self.W) + self.b
        
        return out
    
    def backward(self, dout):
        dX = np.dot(dout, self.W.T)
        self.dW = np.dot(self.X.T, dout)
        self.db = np.sum(dout, axis=0)
        
        return dX
    
    def backward(self, dout):
        dX = np.dot(dout, self.W.T)
        self.dW = np.dot(self.X.T, dout)
        self.db = np.sum(dout, axis=0)
        
        return dX
    
    
class Tangent():
    def __init__(self):
        self.out = None
        
    def forward(self, X):
        out = np.tanh(X)
        self.out = out
        
        return out
    
    def backward(self, dout):
        dX = dout*(1 - self.out**2)
        
        return dX

    
class Sigmoid():
    def __init__(self):
        self.out = None
        
    def forward(self, X):
        out = 1 / (1 + np.exp(-X))
        self.out = out
        
        return out
        
    def backward(self, dout):
        dX = dout*(1.0 - self.out) * self.out
        
        return dX

    
class Relu():
    def __init__(self):
        self.mask = None

    def forward(self, X):
        self.mask = (X <= 0)
        out = X.copy()
        out[self.mask] = 0

        return out

    def backward(self, dout):
        dout[self.mask] = 0
        dx = dout

        return dx
    
    
class Softmax():
    def __init__(self):
        self.loss = None
        self.y = None
        self.t = None
    
    def forward(self, X, t):
        self.t = t
        self.y = self.softmax(X)
        self.loss = self.cross_entropy_error(self.y, self.t)
        return self.loss 
    
    def cross_entropy_error(self, y, t):
        if t.size == y.size:
            t = t.argmax(axis=1)
            
        batch_size = y.shape[0]
        return -np.sum(t * np.log(y + 1e-7)) / batch_size

    def softmax(self, X):
        X = X - np.max(X, axis=-1, keepdims=True)
        y = np.exp(X) / np.sum(np.exp(X), axis=-1, keepdims=True)
        return y
    
    def backward(self, dout=1):
        batch_size = self.t.shape[0]
        dX = (self.y - self.t) / batch_size
        return dX

In [71]:
class ScratchDeepNeuralNetrowk(object):
    """
    全結合による多層ニューラルネットワーク
    
    Parameters
    ----------
    n_features : 入力サイズ（MNISTの場合は784）
    n_nodes_list : 中間層(隠れ層)のニューロンの数のリスト（[100, 100, 100]）
    n_output : 出力サイズ（MNISTの場合は10）
    activation : 'ReLU' or 'Sigmoid'
    weight_init_std : 重みの標準偏差を指定（0.01）
        'ReLU'または'He'を指定した場合は「Heの初期値」を設定
        'Sigmoid'または'Xavier'を指定した場合は「Xavierの初期値」を設定
    """
    
    def __init__(self, n_features, n_nodes_list, n_output, activation = 'ReLU', weight_init_std = 'ReLU'):
        self.n_features = n_features
        self.n_nodes_list = n_nodes_list
        self.n_output = n_output
        self.n_nodes_layer_num = len(n_nodes_list)
        self.params = {}
        self.optimizers = {}
        self.layers = OrderedDict() #「順序付き」辞書型変数
        
        # 重みの初期化
        self.initialization(weight_init_std)
        
        # レイヤの生成
        activation_layer = {'Sigmoid':Sigmoid, 'Relu':Relu}
        
        # 中間層
        for idx in range(1, self.n_nodes_layer_num+1):
            # Affine1,Affine2.....
            self.layers['Affine' + str(idx)] = Affine(self.params['W' + str(idx)],
                                                     self.params['b' + str(idx)])
            # Relu1,Relu2....
            self.layers['Activation_func' + str(idx)] = activation_layer[activation]()
        
        # 出力層
        idx = self.n_nodes_layer_num + 1
        self.layers['Affine' + str(idx)] = Affine(self.params['W' + str(idx)],
        self.params['b' + str(idx)])
        
        self.last_layer = Softmax()
        
        
    def initialization(self,weight_init_std):
        """
        重みの初期設定

        """
        # 入力、中間、出力の配列[784,n,n.....,10]
        all_size_list = [self.n_features] + self.n_nodes_list + [self.n_output]
        
        for idx in range(1, len(all_size_list)):
            sig = weight_init_std
            # ReLU or He
            if str(weight_init_std).lower() in ('relu', 'he'):
                # 入力、中間の標準偏差
                sig = np.sqrt(2.0 / all_size_list[idx - 1])
            # その他
            else:
                # 入力、中間の標準偏差
                sig = np.sqrt(1.0 / all_size_list[idx - 1]) 
            
            # W,b の初期化
            self.params['W' + str(idx)] = sig * np.random.randn(all_size_list[idx-1], all_size_list[idx])
            self.params['b' + str(idx)] = np.zeros(all_size_list[idx])
        
        
    def predict(self, X):
        for layer in self.layers.values():
            X = layer.forward(x)

        return X
        
        
        
        
        
        
        
        
        
        
        
        
        
        
        
        
        
        
        
        
        
        
class ScratchDeepNeuralNetrowkClassifier(object):
    
    def __init__(self,):
        self.SDNN = {}
        self.optimizers = {}
        self.train_loss = []
        self.test_loss = []
    
    def fit(self, X, y, X_val, y_val):
        self.optimizers['SGD'] = SGD()
        self.optimizers['AdaGrad'] = AdaGrad()

##【問題9】学習と推定

層の数や活性化関数を変えたいくつかのネットワークを作成してください。そして、MNISTのデータを学習・推定し、Accuracyを計算してください。