# Sprint 深層学習スクラッチ ディープニューラルネットワーク

In [1]:
import numpy as np
import matplotlib.pyplot as plt

In [3]:
class ScratchDeepNeuralNetrowkClassifier:
    def __init__(self,lr):
        self.lr = lr
    
    def fit(self,X,y,epoch):
        optimizer = SGD(self.lr)
        self.FC1 = FC(self.n_features, self.n_nodes1, SimpleInitializer(self.sigma), optimizer)
        self.activation1 = Tanh()
        self.FC2 = FC(self.n_nodes1, self.n_nodes2, SimpleInitializer(self.sigma), optimizer)
        self.activation2 = Tanh()
        self.FC3 = FC(self.n_nodes2, self.n_output, SimpleInitializer(self.sigma), optimizer)
        self.activation3 = Softmax()
        
        
        for i in range(epoch):
            A1 = self.FC1.forward(X)
            Z1 = self.activation1.forward(A1)
            A2 = self.FC2.forward(Z1)
            Z2 = self.activation2.forward(A2)
            A3 = self.FC3.forward(Z2)
            Z3 = self.activation3.forward(A3)
            
            """
            Loss Curvを描くための処理
            """
            
            dA3 = self.activation3.backward(Z3, Y) # 交差エントロピー誤差とソフトマックスを合わせている
            dZ2 = self.FC3.backward(dA3)
            dA2 = self.activation2.backward(dZ2)
            dZ1 = self.FC2.backward(dA2)
            dA1 = self.activation1.backward(dZ1)
            dZ0 = self.FC1.backward(dA1) # dZ0は使用しない
            
    def predict(self,X):
        A1 = self.FC1.forward(X)
        Z1 = self.activation1.forward(A1)
        A2 = self.FC2.forward(Z1)
        Z2 = self.activation2.forward(A2)
        A3 = self.FC3.forward(Z2)
        y = self.activation3.forward(A3)
        
        return y

## 【問題1】全結合層のクラス化

In [None]:
#Full Connected Layer Class
class FC:
    """
    ノード数n_nodes1からn_nodes2への全結合層
    Parameters
    ----------
    n_nodes1 : int
      前の層のノード数
    n_nodes2 : int
      後の層のノード数
    initializer : 初期化方法のインスタンス
    optimizer : 最適化手法のインスタンス
    """
    def __init__(self, n_nodes1, n_nodes2, initializer, optimizer):
        self.optimizer = optimizer
        # 初期化
        # initializerのメソッドを使い、self.Wとself.Bを初期化する
        self.w = initializer.W # 重みの初期化
        self.b = initializer.B # バイアスの初期化
        self.x = None
        self.dw = None
        self.db = None
        
    def forward(self, X):
        """
        フォワード
        Parameters
        ----------
        X : 次の形のndarray, shape (batch_size, n_nodes1)
            入力
        Returns
        ----------
        A : 次の形のndarray, shape (batch_size, n_nodes2)
            出力
        """        
        self.x = x
        A = np.dot(x, self.w) + self.b
        
        return A
    
    def backward(self, dA):
        """
        バックワード
        Parameters
        ----------
        dA : 次の形のndarray, shape (batch_size, n_nodes2)
            後ろから流れてきた勾配
        Returns
        ----------
        dZ : 次の形のndarray, shape (batch_size, n_nodes1)
            前に流す勾配
        """
        dx = np.dot(dA, self.w.T)
        self.dw = np.dot(self.x.T, dA)
        self.db = np.sum(dA, axis=0)
        
        # 更新
        self = self.optimizer.update(self)
        return dZ

## 【問題2】初期化方法のクラス化

* 初期化を行うコードをクラス化する。

In [44]:
class SimpleInitializer:
    """
    ガウス分布によるシンプルな初期化
    Parameters
    ----------
    sigma : float
      ガウス分布の標準偏差
    """
    def __init__(self, sigma):
        self.sigma = sigma
        
    def W(self, n_nodes1, n_nodes2):
        """
        重みの初期化
        Parameters
        ----------
        n_nodes1 : int
          前の層のノード数
        n_nodes2 : int
          後の層のノード数

        Returns
        ----------
        W :
        """
        W = self.sigma * np.random.randn(n_nodes1, n_nodes2) 

        # xavier_initialization = np.random.randn(size_l, size_l_1) * np.sqrt(1/size_l_1)
        
        return W
    
    def B(self, n_nodes2):
        """
        バイアスの初期化
        Parameters
        ----------
        n_nodes2 : int
          後の層のノード数

        Returns
        ----------
        B :
        """
        B = np.full((n_nodes2, ), 0.01)
        
        return B

## 【問題3】最適化手法のクラス化

* 最適化手法のクラス化を行う。

* 確率的勾配降下法
    * 1トレーニングサンプル毎にコスト関数の勾配を求め、重みを更新してやる方法
    * 全トレーニングサンプルからコスト関数の重みを更新する従来の方法はバッチ勾配降下法と呼ばれている。

In [None]:
class SGD:
    """
    確率的勾配降下法
    Parameters
    ----------
    lr : 学習率
    """
    def __init__(self, lr, function, x):
        self.lr = lr
        self.function = function
        self.x = x
        
    def update(self, layer):
        """
        ある層の重みやバイアスの更新
        Parameters
        ----------
        layer : 更新前の層のインスタンス
        """
        W -= self.lr * self.numerical_gradient()
        # 学習率 * 勾配
        
        -1 * self.lr(-1 * self.sigma * np.dot(self.x.T, dA))
        self.sigma * np.random.randn(n_nodes1, n_nodes2)
        
        
        new_B = np.full((n_nodes2, ), 0.01)
        
        layer.W -= self.lr * layer.dW
        layer.b -= self.lr * layer.
        
        
    def numerical_gradient(f, x):
        h = 1e-4 # 0.0001
        grad = np.zeros_like(x) # xと同じ形状の配列を生成
        
        for idx in range(x, size):
            tmp_val = x[idx]
            # f(x+h)の計算
            x[idx] = tmp_val + h
            fxh1 = f(x)
            
            # f(x-h)の計算
            x[idx] = tmp_val - h
            fxh2 = f(x)
            
            grad[idx] = (fxh1 - fxh2) / (2*h)
            x[idx] = tmp_val # 値を元に戻す
        
        return grad
    

In [52]:
class initializer:
    def __init__(self, sigma):
        self.sigma = sigma
    def w(self):
        w = np.zeros_like(self.sigma)
        print(self)
        return w
    

In [53]:
a_int = np.arange(6).reshape((2,3))
sample = initializer(a_int)
sample.w()


<__main__.initializer object at 0x00000237E0BDE8C8>


array([[0, 0, 0],
       [0, 0, 0]])

In [None]:
optimizer = SGD()
optimizer.update()