# 1次元の畳み込みニューラルネットワークスクラッチ

畳み込みニューラルネットワーク（CNN） のクラスをスクラッチで作成していきます。NumPyなど最低限のライブラリのみを使いアルゴリズムを実装していきます。


このSprintでは1次元の 畳み込み層 を作成し、畳み込みの基礎を理解することを目指します。次のSprintでは2次元畳み込み層とプーリング層を作成することで、一般的に画像に対して利用されるCNNを完成させます。


クラスの名前はScratch1dCNNClassifierとしてください。クラスの構造などは前のSprintで作成したScratchDeepNeuralNetrowkClassifierを参考にしてください。

## 1次元畳み込み層とは

CNNでは画像に対しての2次元畳み込み層が定番ですが、ここでは理解しやすくするためにまずは1次元畳み込み層を実装します。1次元畳み込みは実用上は自然言語や波形データなどの 系列データ で使われることが多いです。


畳み込みは任意の次元に対して考えることができ、立体データに対しての3次元畳み込みまではフレームワークで一般的に用意されています。

In [167]:
from keras.datasets import mnist
import matplotlib.pyplot as plt
%matplotlib inline
import numpy as np
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

## データセットの用意

検証には引き続きMNISTデータセットを使用します。1次元畳み込みでは全結合のニューラルネットワークと同様に平滑化されたものを入力します。

In [168]:
(X_train, y_train), (X_test, y_test) = mnist.load_data()

In [169]:
X_train = X_train.reshape(-1, 1, 784)
X_test = X_test.reshape(-1, 1, 784)

In [170]:
X_train = X_train[:480]
y_train = y_train[:480]
X_test = X_test[:120]
y_test = y_test[:120]

print(X_train.shape)
print(y_train.shape)
print(X_test.shape)
print(y_test.shape)

(480, 1, 784)
(480,)
(120, 1, 784)
(120,)


In [171]:
X_train = X_train.astype(np.float)
X_test = X_test.astype(np.float)
X_train /= 255
X_test /= 255
print(X_train.max()) # 1.0
print(X_train.min()) # 0.0

1.0
0.0


In [172]:
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.2)
print(X_train.shape) 
print(X_val.shape)

(384, 1, 784)
(96, 1, 784)


## 【問題1】チャンネル数を1に限定した1次元畳み込み層クラスの作成

チャンネル数を1に限定した1次元畳み込み層のクラスSimpleConv1dを作成してください。基本構造は前のSprintで作成した全結合層のFCクラスと同じになります。なお、重みの初期化に関するクラスは必要に応じて作り変えてください。Xavierの初期値などを使う点は全結合層と同様です。


ここでは パディング は考えず、ストライド も1に固定します。また、複数のデータを同時に処理することも考えなくて良く、バッチサイズは1のみに対応してください。この部分の拡張はアドバンス課題とします。


フォワードプロパゲーションの数式は以下のようになります。

$$a_i = \sum_{s=0}^{F-1}x_{(i+s)}w_s+b$$

$
a
i
$ : 出力される配列のi番目の値

$
F
$ : フィルタのサイズ

$
x
(
i
+
s
)
 $: 入力の配列の(i+s)番目の値

$
w
s
$ : 重みの配列のs番目の値

$
b
$ : バイアス項


全てスカラーです。


次に更新式です。ここがAdaGradなどに置き換えられる点は全結合層と同様です。

$$w_s^{\prime} = w_s - \alpha \frac{\partial L}{\partial w_s} \\
b^{\prime} = b - \alpha \frac{\partial L}{\partial b}$$

$
α
 $: 学習率


$\frac{\partial L}{\partial w_s}$
 : $
w
s
$ に関する損失 $
L
$ の勾配

$\frac{\partial L}{\partial b}$
 : $
b
$ に関する損失 $
L
$ の勾配


勾配 
$\frac{\partial L}{\partial w_s}$
 や 
$\frac{\partial L}{\partial b}$

 を求めるためのバックプロパゲーションの数式が以下です
 
 
$$\frac{\partial L}{\partial w_s} = \sum_{i=0}^{N_{out}-1} \frac{\partial L}{\partial a_i}x_{(i+s)}\\
\frac{\partial L}{\partial b} = \sum_{i=0}^{N_{out}-1} \frac{\partial L}{\partial a_i}$$ 

$\frac{\partial L}{\partial a_i}$
: 勾配の配列のi番目の値

$N_{out}$
: 出力のサイズ

前の層に流す誤差の数式は以下です。

$$\frac{\partial L}{\partial x_j} = \sum_{s=0}^{F-1} \frac{\partial L}{\partial a_{(j-s)}}w_s$$

$\frac{\partial L}{\partial x_j}$
: 前の層に流す誤差の配列のj番目の値

ただし、$j-s<0$ または  $j-s>N_{out}-1$  のとき $\frac{\partial L}{\partial a_{(j-s)}} =0$　です。


全結合層との大きな違いは、重みが複数の特徴量に対して共有されていることです。この場合は共有されている分の誤差を全て足すことで勾配を求めます。計算グラフ上での分岐はバックプロパゲーションの際に誤差の足し算をすれば良いことになります。
 

In [173]:
# テスト
x = np.array([1, 2, 3, 4])
w = np.array([3, 5, 7])
b = np.array([1])

In [187]:
#配列作成
idx1 = np.arange(w.shape[0])
idx2 = np.arange(w.shape[0] - 1).reshape(-1, 1)
index = idx1 + idx2
a = np.dot(x[index], w.T) + b
print(a)

# a = np.array([35, 50])

[35 50]


In [175]:
da = np.array([10, 20])
d = np.sum(da)
d

#delta_b = np.array([30])

30

In [190]:
s = np.dot(da,x[index])
print(da)
print(x[index])
s

#d elta_w = np.array([50, 80, 110])

[10 20]
[[1 2 3]
 [2 3 4]]


array([ 50,  80, 110])

In [255]:
#0配列を用意
dx = np.zeros(x.shape[0])


for j in range(x.shape[0]):    
    for s in range(w.shape[0]):   
        
        # j 0,0,0,1,1,1....
        # s 0,1,2,0,1,2....
        # 0未満　or １超える
        if j - s < 0 or j - s > 1:
            
            # w[s] = 3,5,7,3,5,7....
            # w[s] = 条件該当
            dx[j] += 0 * w[s]

        # その他(0,1)
        else:
            
            # da[j-s]は該当値*3,5,7
            dx[j] += da[j - s] * w[s]

dx

# delta_x = np.array([30, 110, 170, 140])

array([ 30., 110., 170., 140.])

In [265]:
class SimpleConv1d:
    """
    チャンネル数を1に限定した1次元畳み込み層クラス
    Parameters
    ----------
    n_nodes1 : int
      前の層のノード数
    n_nodes2 : int
      後の層のノード数
    initializer : 初期化方法のインスタンス
    optimizer : 最適化手法のインスタンス

    """
    def __init__(self, n_nodes1, n_nodes2, filter_size, initializer, optimizer):
        self.optimizer = optimizer
        # initializerのメソッドを使い、self.Wとself.Bを初期化する
        self.W = initializer.W(n_nodes2, n_nodes1, filter_size)
        self.b = initializer.b(n_nodes2)
        self.X = None
        self.index = None
        self.out_put = None
        
    
    
    def forward(self, X):
        """
        フォワード
        Parameters
        ----------
        X : 次の形のndarray, shape (batch_size, n_nodes1)
            入力
        Returns
        ----------
        out : 次の形のndarray, shape (batch_size, n_nodes2)
            出力
        """        
        # Xをコピー
        self.X = X.copy()
        
        # 配列作成
        idx1 = np.arange(self.W.shape[0])
        idx2 = np.arange(self.W.shape[0] - 1).reshape(-1, 1)
        self.index = idx1 + idx2

        # 出力の計算
        a = np.dot(X[idx1 + idx2], self.W.T) + self.b

        return a
    
    
    def backward(self, dA):
        """
        バックプロバケーション
        Parameters
        ----------
        dA : 次の形のndarray, shape(batch_size, n_nodes2)
            後ろから流れてきた勾配
            
        Returns
        ----------
        dX : 次の形のndarray, shape (batch_size, n_nodes1)
            前に流す勾配
        """
        #バイアス
        db = np.sum(dA)
        
        #重み
        dW = np.dot(da, self.X[self.index])
        
        #0配列を用意
        dX = np.zeros(self.X.shape[0])
        
        #n_out
        self.out_put = self._out_put(self.X.shape[0], 0, self.W.shape[0], 1)
                
        for j in range(self.X.shape[0]):
            for s in range(self.W.shape[0]):

                if j - s < 0 or j - s > self.n_out - 1:
                     dX[j] += 0 * self.W[s]
                else:
                    dX[j] += dA[j - s] * self.W[s]

        
        # 重み、バイアスの更新
        self = self.optimizer.update(self)
        return dX
    
    def _out_put(input_data, f, s, p):
        """
        出力サイズ計算
        Parameters
        ----------
        inp : 入力データ
        f : フィルター
        s : ストライド
        p : パディング
        ----------
        Returns

        out : 出力サイズ
        """
        out = int(((inp + 2 * p - f) / s ) + 1)
        return out

## 【問題2】1次元畳み込み後の出力サイズの計算

畳み込みを行うと特徴量の数が変化します。どのように変化するかは以下の数式から求められます。パディングやストライドも含めています。この計算を行う関数を作成してください。

$$ N_{out} =  \frac{N_{in}+2P-F}{S} + 1\\ $$

$N_{out}$
 : 出力のサイズ（特徴量の数）


$N_{in}$
 : 入力のサイズ（特徴量の数）

$
P
$ : ある方向へのパディングの数

$
F
$ : フィルタのサイズ


$S$
 : ストライドのサイズ

In [242]:
def out_put(input_data, f, s, p):
    """
    出力サイズ計算
    Parameters
    ----------
    inp : 入力データ
    f : フィルター
    s : ストライド
    p : パディング
    ----------
    Returns
    
    out : 1次元配列
    """
    
    
    out = int(((inp + 2 * p - f) / s ) + 1)
    return out

## 【問題3】小さな配列での1次元畳み込み層の実験

次に示す小さな配列でフォワードプロパゲーションとバックプロパゲーションが正しく行えているか確認してください。


入力x、重みw、バイアスbを次のようにします。

    x = np.array([1,2,3,4])
    w = np.array([3, 5, 7])
    b = np.array([1])
    
フォワードプロパゲーションをすると出力は次のようになります

    a = np.array([35, 50])
    
    
次にバックプロパゲーションを考えます。誤差は次のようであったとします。

    delta_a = np.array([10, 20])
    
バックプロパゲーションをすると次のような値になります。

    delta_b = np.array([30])
    delta_w = np.array([50, 80, 110])
    delta_x = np.array([30, 110, 170, 140])
    


上記で確認

## 実装上の工夫

畳み込みを実装する場合は、まずはfor文を重ねていく形で構いません。しかし、できるだけ計算は効率化させたいため、以下の式を一度に計算する方法を考えることにします。

$$ a_i = \sum_{s=0}^{F-1}x_{(i+s)}w_s+b $$

バイアス項は単純な足し算のため、重みの部分を見ます。

$$ \sum_{s=0}^{F-1}x_{(i+s)}w_s $$

これは、xの一部を取り出した配列とwの配列の内積です。具体的な状況を考えると、以下のようなコードで計算できます。この例では流れを分かりやすくするために、各要素同士でアダマール積を計算してから合計を計算しています。これは結果的に内積と同様です。

    x = np.array([1, 2, 3, 4])
    w = np.array([3, 5, 7])
    a = np.empty((2, 3))
    indexes0 = np.array([0, 1, 2]).astype(np.int)
    indexes1 = np.array([1, 2, 3]).astype(np.int)
    a[0] = x[indexes0]*w # x[indexes0]は([1, 2, 3])である
    a[1] = x[indexes1]*w # x[indexes1]は([2, 3, 4])である
    a = a.sum(axis=1)
    
ndarrayは配列を使ったインデックス指定ができることを利用した方法です。


また、二次元配列を使えば一次元配列から二次元配列が取り出せます。

    x = np.array([1, 2, 3, 4])
    indexes = np.array([[0, 1, 2], [1, 2, 3]]).astype(np.int)
    print(x[indexes]) # ([[1, 2, 3], [2, 3, 4]])


このこととブロードキャストなどをうまく組み合わせることで、一度にまとめて計算することも可能です。


畳み込みの計算方法に正解はないので、自分なりに効率化していってください。


《参考》


以下のページのInteger array indexingの部分がこの方法についての記述です。


[Indexing — NumPy v1.17 Manual](https://numpy.org/doc/stable/reference/arrays.indexing.html)



## 【問題4】チャンネル数を限定しない1次元畳み込み層クラスの作成

チャンネル数を1に限定しない1次元畳み込み層のクラスConv1dを作成してください。


例えば以下のようなx, w, bがあった場合は、

    x = np.array([[1, 2, 3, 4], [2, 3, 4, 5]]) # shape(2, 4)で、（入力チャンネル数、特徴量数）である。
    w = np.ones((3, 2, 3)) # 例の簡略化のため全て1とする。(出力チャンネル数、入力チャンネル数、フィルタサイズ)である。
    b = np.array([1, 2, 3]) # （出力チャンネル数）

出力は次のようになります。

    a = np.array([[16, 22], [17, 23], [18, 24]]) # shape(3, 2)で、（出力チャンネル数、特徴量数）である。

入力が2チャンネル、出力が3チャンネルの例です。計算グラフを書いた上で、バックプロパゲーションも手計算で考えてみましょう。計算グラフの中には和と積しか登場しないので、微分を新たに考える必要はありません。


《補足》


チャンネル数を加える場合、配列をどういう順番にするかという問題があります。(バッチサイズ、チャンネル数、特徴量数)または(バッチサイズ、特徴量数、チャンネル数)が一般的で、ライブラリによって順番は異なっています。（切り替えて使用できるものもあります）


今回のスクラッチでは自身の実装上どちらが効率的かを考えて選んでください。上記の例ではバッチサイズは考えておらず、(チャンネル数、特徴量数)です。

In [180]:
class Conv1d:
    

SyntaxError: unexpected EOF while parsing (<ipython-input-180-f46c9e9eb9c4>, line 2)

## 【問題5】（アドバンス課題）パディングの実装

畳み込み層にパディングの機能を加えてください。1次元配列の場合、前後にn個特徴量を増やせるようにしてください。


最も単純なパディングは全て0で埋める ゼロパディング であり、CNNでは一般的です。他に端の値を繰り返す方法などもあります。


フレームワークによっては、元の入力のサイズを保つようにという指定をすることができます。この機能も持たせておくと便利です。なお、NumPyにはパディングの関数が存在します。


[numpy.pad — NumPy v1.17 Manual](https://numpy.org/doc/stable/reference/generated/numpy.pad.html)

## 【問題6】（アドバンス課題）ミニバッチへの対応

ここまでの課題はバッチサイズ1で良いとしてきました。しかし、実際は全結合層同様にミニバッチ学習が行われます。Conv1dクラスを複数のデータが同時に計算できるように変更してください。



## 【問題7】（アドバンス課題）任意のストライド数

ストライドは1限定の実装をしてきましたが、任意のストライド数に対応できるようにしてください。



## 【問題8】学習と推定

これまで使ってきたニューラルネットワークの全結合層の一部をConv1dに置き換えてMNISTを学習・推定し、Accuracyを計算してください。


出力層だけは全結合層をそのまま使ってください。ただし、チャンネルが複数ある状態では全結合層への入力は行えません。その段階でのチャンネルは1になるようにするか、 平滑化 を行なってください。


画像に対しての1次元畳み込みは実用上は行わないことのため、精度は問いません。