# ディープニューラルネットワークのフルスクラッチ
深いモデルを設計するにあたってクラス化して、わずかな書き換えで様々なモデルを設計できるようにしましょう。

このノートブックに好きなように編集して実装を目指してください。

In [12]:
import numpy as np
import matplotlib.pyplot as plt

まず、私たちが目指す形は、一つのクラスからfitメソッドを呼び出して学習できるような形です。  
そのためにおおよそですが、以下のような設計を目指していきましょう。

In [19]:
class ScratchDeepNeuralNetrowkClassifier:
    def __init__(self,lr):
        self.lr = lr
    
    def fit(self,X,y,epoch):
        optimizer = SGD(self.lr)
        self.FC1 = FC(self.n_features, self.n_nodes1, SimpleInitializer(self.sigma), optimizer)
        self.activation1 = Tanh()
        self.FC2 = FC(self.n_nodes1, self.n_nodes2, SimpleInitializer(self.sigma), optimizer)
        self.activation2 = Tanh()
        self.FC3 = FC(self.n_nodes2, self.n_output, SimpleInitializer(self.sigma), optimizer)
        self.activation3 = Softmax()
        
        
        for i in range(epoch):
            A1 = self.FC1.forward(X)
            Z1 = self.activation1.forward(A1)
            A2 = self.FC2.forward(Z1)
            Z2 = self.activation2.forward(A2)
            A3 = self.FC3.forward(Z2)
            Z3 = self.activation3.forward(A3)
            
            """
            Loss Curvを描くための処理
            """
            
            dA3 = self.activation3.backward(Z3, Y) # 交差エントロピー誤差とソフトマックスを合わせている
            dZ2 = self.FC3.backward(dA3)
            dA2 = self.activation2.backward(dZ2)
            dZ1 = self.FC2.backward(dA2)
            dA1 = self.activation1.backward(dZ1)
            dZ0 = self.FC1.backward(dA1) # dZ0は使用しない
            
    def predict(self,X):
        A1 = self.FC1.forward(X)
        Z1 = self.activation1.forward(A1)
        A2 = self.FC2.forward(Z1)
        Z2 = self.activation2.forward(A2)
        A3 = self.FC3.forward(Z2)
        y = self.activation3.forward(A3)
        
        return y

## 【問題1】全結合層のクラス化

全結合層をクラス化することで設計を簡単に変えられるようになります。

理想的な形としては、Kerasのように、層を追加していくような実装方法ですが、その前にまず、Diverのテキストに沿った形で実装しましょう。
そこから先、興味があれば拡張していく形で実装してみてください。

以上に示したようなクラスを作成するために、全結合層をクラス化させていきましょう。

In [None]:
#Full Connected Layer Class
class FC:
    """
    ノード数n_nodes1からn_nodes2への全結合層
    Parameters
    ----------
    n_nodes1 : int
      前の層のノード数
    n_nodes2 : int
      後の層のノード数
    initializer : 初期化方法のインスタンス
    optimizer : 最適化手法のインスタンス
    """
    def __init__(self, n_nodes1, n_nodes2, initializer, optimizer):
        self.optimizer = optimizer
        # 初期化
        # initializerのメソッドを使い、self.Wとself.Bを初期化する
        self.w = initializer.W
        self.b = initializer.B
        
    def forward(self, X):
        """
        フォワード
        Parameters
        ----------
        X : 次の形のndarray, shape (batch_size, n_nodes1)
            入力
        Returns
        ----------
        A : 次の形のndarray, shape (batch_size, n_nodes2)
            出力
        """        
        
        return A
    
    def backward(self, dA):
        """
        バックワード
        Parameters
        ----------
        dA : 次の形のndarray, shape (batch_size, n_nodes2)
            後ろから流れてきた勾配
        Returns
        ----------
        dZ : 次の形のndarray, shape (batch_size, n_nodes1)
            前に流す勾配
        """
        
        # 更新
        self = self.optimizer.update(self)
        return dZ

## 【問題2】初期化方法のクラス化

In [None]:
class SimpleInitializer:
    """
    ガウス分布によるシンプルな初期化
    Parameters
    ----------
    sigma : float
      ガウス分布の標準偏差
    """
    def __init__(self, sigma):
        self.sigma = sigma
        
    def W(self, n_nodes1, n_nodes2):
        """
        重みの初期化
        Parameters
        ----------
        n_nodes1 : int
          前の層のノード数
        n_nodes2 : int
          後の層のノード数

        Returns
        ----------
        W :
        """
        pass
        return W
    
    def B(self, n_nodes2):
        """
        バイアスの初期化
        Parameters
        ----------
        n_nodes2 : int
          後の層のノード数

        Returns
        ----------
        B :
        """
        pass
        return B

## 【問題３】最適化方法のクラス化
全結合層にあるbackwardのself.optimizer.update(self)で学習できるようにしましょう。

In [None]:
class SGD:
    """
    確率的勾配降下法
    Parameters
    ----------
    lr : 学習率
    """
    def __init__(self, lr):
        self.lr = lr
        
    def update(self, layer):
        """
        ある層の重みやバイアスの更新
        Parameters
        ----------
        layer : 更新前の層のインスタンス
        """

## 【問題4】活性化関数のクラス化

In [21]:
class Sigmoid:
    def __init__(self):
        pass
    
    def forward(self):
        return
    
    def backward(self):
        return

In [22]:
class Tanh:
    def __init__(self):
        pass
    
    def forward(self):
        return
    
    def backward(self):
        return

In [23]:
class Softmax:
    def __init__(self):
        pass
    
    def forward(self):
        return
    
    def backward(self):
        return

## 【問題5】ReLUクラスの作成
発展的な活性化関数を作成しましょう。ReLUという活性化関数によって、勾配消失の問題が解消され、層のディープ化が可能になりました。

\begin{align}
    f(x) = ReLU(x) = 
    \begin{cases}
        x　　(x>0)  \\
        0　　(x\leq0)
    \end{cases}  \\
    \frac{\partial f(x)}{\partial x} =
    \begin{cases}
        1　　(x>0) \\
        0　　(x\leq0)
    \end{cases}
\end{align}
本来、解析的には$x=0$で微分不可ですが、$f'(x=0)=0$とすることで対応しています。

In [None]:
class ReLU:
    def __init__(self):
        pass
    
    def forward(self):
        return
    
    def backward(self):
        return

## 【問題6】重みの初期値

In [25]:
class XavierInitializer:
    def W(self, n_nodes1, n_nodes2):
        sigma = 1/np.sqrt(n_nodes1)
        
        return W
    
    def B(self, n_nodes2):
        
        return B

In [26]:
class HeInitializer:
    def W(self, n_nodes1, n_nodes2):
        sigma = np.sqrt(1/n_nodes1)
        
        return W
    
    def B(self, n_nodes2):
        
        return B

## 【問題7】最適化手法
最適化手法には様々なものがあります。発展的なものの中でも比較的実装が簡単なAdaGradを実装してみましょう。

In [None]:
class AdaGrad:
    def __init__(self, lr):
        self.lr = lr
        
    def update(self, layer):
        

## 【問題8】クラスの完成
モデル全体を設計するクラスを完成させてください。

In [None]:
class ScratchDeepNeuralNetrowkClassifier:
    def __init__(self,lr):
        self.lr = lr
    
    def fit(self,X,y,epoch):
        optimizer = SGD(self.lr)
        self.FC1 = FC(self.n_features, self.n_nodes1, SimpleInitializer(self.sigma), optimizer)
        self.activation1 = Tanh()
        self.FC2 = FC(self.n_nodes1, self.n_nodes2, SimpleInitializer(self.sigma), optimizer)
        self.activation2 = Tanh()
        self.FC3 = FC(self.n_nodes2, self.n_output, SimpleInitializer(self.sigma), optimizer)
        self.activation3 = Softmax()
        
        
        for i in range(epoch):
            A1 = self.FC1.forward(X)
            Z1 = self.activation1.forward(A1)
            A2 = self.FC2.forward(Z1)
            Z2 = self.activation2.forward(A2)
            A3 = self.FC3.forward(Z2)
            Z3 = self.activation3.forward(A3)
            
            """
            Loss Curvを描くための処理
            """
            
            dA3 = self.activation3.backward(Z3, Y) # 交差エントロピー誤差とソフトマックスを合わせている
            dZ2 = self.FC3.backward(dA3)
            dA2 = self.activation2.backward(dZ2)
            dZ1 = self.FC2.backward(dA2)
            dA1 = self.activation1.backward(dZ1)
            dZ0 = self.FC1.backward(dA1) # dZ0は使用しない
            
    def predict(self,X):
        A1 = self.FC1.forward(X)
        Z1 = self.activation1.forward(A1)
        A2 = self.FC2.forward(Z1)
        Z2 = self.activation2.forward(A2)
        A3 = self.FC3.forward(Z2)
        y = self.activation3.forward(A3)
        
        return y

## 【問題9】学習と推定
ノード数や層の数、活性化関数を変えたネットワークを作成して、それぞれの結果を比較してみてください。