## データセットの用意

引き続きMNISTデータセットを使用します。2次元畳み込み層へは、28×28の状態で入力します。


今回は白黒画像ですからチャンネルは1つしかありませんが、チャンネル方向の軸は用意しておく必要があります。


(n_samples, n_channels, height, width)のNCHWまたは(n_samples, height, width, n_channels)のNHWCどちらかの形にしてください。

In [5]:
import numpy as np
import pandas as pd

## 【問題1】2次元畳み込み層の作成

1次元畳み込み層のクラスConv1dを発展させ、2次元畳み込み層のクラスConv2dを作成してください。


フォワードプロパゲーションの数式は以下のようになります。

$$ a_{i,j,m} = \sum_{k=0}^{K-1}\sum_{s=0}^{F_{h}-1}\sum_{t=0}^{F_{w}-1}x_{(i+s),(j+t),k}w_{s,t,k,m}+b_{m} $$

$a_{i,j,m}$ : 出力される配列のi行j列、mチャンネルの値

$
i
$ : 配列の行方向のインデックス

$
j
$ : 配列の列方向のインデックス

$
m
$ : 出力チャンネルのインデックス

$
K
$ : 入力チャンネル数

$F_{h}, F_{w}$ : 高さ方向（h）と幅方向（w）のフィルタのサイズ

$
x
(
i
+
s
)
,
(
j
+
t
)
,
k
$ : 入力の配列の(i+s)行(j+t)列、kチャンネルの値

$
w
s
,
t
,
k
,
m
$ : 重みの配列のs行t列目。kチャンネルの入力に対して、mチャンネルへ出力する重み

$
b
m
$ : mチャンネルへの出力のバイアス項


全てスカラーです。


次に更新式です。1次元畳み込み層や全結合層と同じ形です。



$$ w_{s,t,k,m}^{\prime} = w_{s,t,k,m} - \alpha \frac{\partial L}{\partial w_{s,t,k,m}} \\
b_{m}^{\prime} = b_{m} - \alpha \frac{\partial L}{\partial b_{m}} $$

$
α
$ : 学習率

$\frac{\partial L}{\partial w_{s,t,k,m}}$ 
$
w
s
,
t
,
k
,
m
$ に関する損失 $
L
$ の勾配


$\frac{\partial L}{\partial b_{m}}$: 
$
b
m
$ に関する損失 $
L
$ の勾配


勾配 $\frac{\partial L}{\partial w_{s,t,k,m}}$ や　$\frac{\partial L}{\partial b_{m}}$ を求めるためのバックプロパゲーションの数式が以下である。

$$ \frac{\partial L}{\partial w_{s,t,k,m}} = \sum_{i=0}^{N_{out,h}-1}\sum_{j=0}^{N_{out,w}-1} \frac{\partial L}{\partial a_{i,j,m}}x_{(i+s)(j+t),k}\\
\frac{\partial L}{\partial b_{m}} = \sum_{i=0}^{N_{out,h}-1}\sum_{j=0}^{N_{out,w}-1}\frac{\partial L}{\partial a_{i,j,m}} $$

$\frac{\partial L}{\partial a_i}$: 勾配の配列のi行j列、mチャンネルの値
$
N
o
u
t
,
h$
,$
N
o
u
t
$,$
w
$ : 高さ方向（h）と幅方向（w）の出力のサイズ


前の層に流す誤差の数式は以下です。

$$ \frac{\partial L}{\partial x_{i,j,k}} = \sum_{m=0}^{M-1}\sum_{s=0}^{F_{h}-1}\sum_{t=0}^{F_{w}-1} \frac{\partial L}{\partial a_{(i-s),(j-t),m}}w_{s,t,k,m}$$

$\frac{\partial L}{\partial x_{i,j,k}}$: 前の層に流す誤差の配列のi列j行、kチャンネルの値

$
M
$ : 出力チャンネル数


ただし、 $
i
−
s
<
0
$ または $
i
−
s
>
N
o
u
t
,
h
−
1
$ または $
j
−
t
<
0
 $または $
j
−
t
>
N
o
u
t
,
w
−
1
$ のとき $\frac{\partial L}{\partial a_{(i-s),(j-t),m}} =0$

[参考](https://qiita.com/daizutabi/items/856042fb1ea9da150741)

In [6]:
X = np.random.rand(3, 1, 8, 8)
W = np.random.rand(5, 1, 7, 7)
b = np.array([3])


In [7]:
import sys
ss_str = "../../term2/common"
if (ss_str not in sys.path):
    sys.path.append(ss_str)
    
from layer import Conv2d, MaxPooling, Flatten, Affine
from utils import output_size, imcol2, col2im
from optimizer import AdaGrad, SGD
from mini_batch import GetMiniBatch
from activ import ReLU, Softmax

In [8]:
cov2 = Conv2d(W=W, b=b,stride=1,pad=0)
s = cov2.forward(X)
print(s.shape)
d = cov2.backward(s)
print(d.shape)

(3, 5, 2, 2)
(3, 1, 8, 8)


## 【問題2】2次元畳み込み後の出力サイズ

畳み込みを行うと特徴マップのサイズが変化します。どのように変化するかは以下の数式から求められます。この計算を行う関数を作成してください

$$ N_{h,out} =  \frac{N_{h,in}+2P_{h}-F_{h}}{S_{h}} + 1\\
N_{w,out} =  \frac{N_{w,in}+2P_{w}-F_{w}}{S_{w}} + 1 $$

$
N
o
u
t
$ : 出力のサイズ（特徴量の数）

$
N
i
n
$ : 入力のサイズ（特徴量の数）

$
P
 $: ある方向へのパディングの数


$F$
 : フィルタのサイズ


$S$
 : ストライドのサイズ


$h$
 が高さ方向、 
$w$
 が幅方向である

In [9]:
H = 9
FH = 5

osH = output_size(H,FH)

osH

5

In [10]:
W = 8
FW = 2

osW = output_size(W,FW)

osW

7

## 【問題3】最大プーリング層の作成

最大プーリング層のクラスMaxPool2Dを作成してください。プーリング層は数式で表さない方が分かりやすい部分もありますが、数式で表すとフォワードプロパゲーションは以下のようになります。

$$ a_{i,j,k} = \max_{(p,q)\in P_{i,j}}x_{p,q,k} $$

$
P
i
,
j
$ : i行j列への出力する場合の入力配列のインデックスの集合。$ 
S
h
×
S
w
$ の範囲内の行$（p）$と列$（q）$

$
S
h
,
S
w
$ : 高さ方向$（h）$と幅方向$（w）$のストライドのサイズ

$
(
p
,
q
)
∈
P
i
,
j
 : 
P
i
,
j
$ に含まれる行$（p）$と列$（q）$のインデックス

$
a
i
,
j
,
m
$ : 出力される配列のi行j列、kチャンネルの値

$
x
p
,
q
,
k
$ : 入力の配列のp行q列、kチャンネルの値


ある範囲の中でチャンネル方向の軸は残したまま最大値を計算することになります。


バックプロパゲーションのためには、フォワードプロパゲーションのときの最大値のインデックス $
(
p
,
q
)
$ を保持しておく必要があります。フォワード時に最大値を持っていた箇所にそのままの誤差を流し、そこ以外には0を入れるためです。



In [11]:
max2 = MaxPooling(3,3)
s = max2.forward(X)
print(s.shape)
d = max2.backward(s)
print(d.shape)

(3, 1, 6, 6)
(3, 1, 8, 8)


## 【問題4】（アドバンス課題）平均プーリングの作成

平均プーリング層のクラスAveragePool2Dを作成してください。


範囲内の最大値ではなく、平均値を出力とするプーリング層です。


画像認識関係では最大プーリング層が一般的で、平均プーリングはあまり使われません。

In [12]:
class AvePooling:
        """
        pool_h (int): プーリング領域の高さ
        pool_w (int): プーリング領域の幅
        stride (int, optional): ストライド、デフォルトは1。
        pad (int, optional): パディング、デフォルトは0。
        """ 
        def __init__(self, pool_h, pool_w, stride=1, pad=0):
            self.pool_h = pool_h
            self.pool_w = pool_w
            self.stride = stride
            self.pad = pad
            self.X = None
            self.arg_max=None

        def forward(self, X):
            """
            x (numpy.ndarray): 入力、形状は(N, C, H, W)。

            Returns:
                numpy.ndarray: 出力、形状は(N, C, OH, OW)。
            """

            N, C, H, W = X.shape

            OH = output_size(H, self.pool_h, self.stride, self.pad)
            OW = output_size(W, self.pool_w, self.stride, self.pad)

            # (N, C, H, W) → (N * OH * OW, C * PH * PW)
            col = imcol2(X, self.pool_h, self.pool_w, self.stride, self.pad)

            # (N * OH * OW, C * PH * PW) → (N * OH * OW * C, PH * PW)
            col = col.reshape(-1, self.pool_h * self.pool_w)

             # 最大値の位置（インデックス）
            arg_max = np.argmax(col, axis=1)

            # (N * OH * OW * C, PH * PW) → (N * OH * OW * C)
            out = np.min(col, axis=1)

            # (N * OH * OW * C) → (N, OH, OW, C) → (N, C, OH, OW)
            out = out.reshape(N, OH, OW, C).transpose(0, 3, 1, 2)

            self.X = X
            self.arg_max = arg_max
            return out


        def backward(self, dout):
            """ 
            dout (numpy.ndarray): 右の層から伝わってくる微分値、形状は(N, C, OH, OW)。

            Returns:
                numpy.ndarray: 微分値（勾配）、形状は(N, C, H, W)。
            """
             # (N, C, OH, OW) → (N, OH, OW, C)
            dout = dout.transpose(0, 2, 3, 1)

            # (N * OH * OW * C, PH * PW)
            pool_size = self.pool_h * self.pool_w
            dmax =dout / pool_size

            return dmax


In [13]:
a = AvePooling(3,3)
af = a.forward(X)
print(af.shape)
ab = a.backward(af)
print(ab.shape)

(3, 1, 6, 6)
(3, 6, 6, 1)


## 【問題5】平滑化

平滑化するためのFlattenクラスを作成してください。


フォワードのときはチャンネル、高さ、幅の3次元を1次元にreshapeします。その値は記録しておき、バックワードのときに再びreshapeによって形を戻します。


この平滑化のクラスを挟むことで出力前の全結合層に適した配列を作ることができます

In [14]:
f2 = Flatten()

fw = f2.forward(X)
print(fw.shape)

fb = f2.backward(fw)
print(fb.shape)

(3, 64)
(3, 1, 8, 8)


1×8×8 = 64

## 【問題6】学習と推定

作成したConv2dを使用してMNISTを学習・推定し、Accuracyを計算してください。


精度は低くともまずは動くことを目指してください

In [15]:
class Scratch2d():
    def __init__(
        self, conv_param={'n_filters': 30, 'filter_size': 3, 'stride': 1, 'pad': 0},
        pool_param={'pool_size': 2},
        n_epochs=5, batch_size=100, optimizer='AdaGrad',
        optimizer_param={'lr': 0.001},
        layer_nodes = {'hidden': 100, 'output': 10},
        weight_init_std=0.01,
        verbose=True
    ):
        self.conv_param = conv_param
        self.pool_param = pool_param
        self.layer_nodes = layer_nodes
        self.weight_init_std = weight_init_std
        self.n_epochs = n_epochs
        self.batch_size = batch_size
        self.verbose = verbose

        optimizer_class_dict = {'sgd': SGD,'adagrad': AdaGrad}

        self.optimizer = optimizer_class_dict[optimizer.lower()](**optimizer_param)

        self.train_loss_list =[]
        self.train_acc_list = []
        self.val_loss_list = []
        self.val_acc_list = []

    def fit(self, X_train, y_train, X_val=None, y_val=None):
        self.X_train = X_train
        self.y_train = y_train
        self.X_val = X_val
        self.y_val = y_val
        self._gen_layers()

        for epoch in range(self.n_epochs):
            self._train()
            print("epoch: " + str(epoch))
            #verbose=Trueなら学習中のlossなど計算して表示
            if (self.verbose):
                self._calc_loss_acc()
                print("train_acc: " + str(self.train_acc_list[epoch]) + ", val_acc" + str(self.val_acc_list[epoch]))
                print("train loss: " + str(self.train_loss_list[epoch]) + ", val_loss" + str(self.val_loss_list[epoch]) )
        return self.train_loss_list, self.train_loss_list

    def predict(self, X):
        proba = self._propagate_forward(X)
        return np.argmax(proba, axis=1)

    def _gen_layers(self):
        """
        x_train: ndarray of shape(n_samples, n_channels, height, width)
        """
        self.n_train_samples, n_channels, input_size, _ = self.X_train.shape
        n_filters = self.conv_param['n_filters']
        filter_size = self.conv_param['filter_size']
        filter_stride = self.conv_param['stride']
        filter_pad = self.conv_param['pad']
        pool_size = self.pool_param['pool_size']

        conv_output_size = output_size(input_size, filter_size, filter_stride, filter_pad)
        pool_output_size = int(n_filters * np.power(conv_output_size/ pool_size, 2))

        self.params ={}
        self.params['W1'] = self.weight_init_std * np.random.randn(n_filters, n_channels, filter_size, filter_size)
        self.params['b1'] = np.zeros(n_filters)
        self.params['W2'] = self.weight_init_std * np.random.randn(pool_output_size, self.layer_nodes['hidden'])
        self.params['b2'] = np.zeros(self.layer_nodes['hidden'])
        self.params['W3'] = self.weight_init_std * np.random.randn(self.layer_nodes['hidden'], self.layer_nodes['output'])
        self.params['b3'] =  np.zeros(self.layer_nodes['output'])

        self.layers = {}
        self.layers['Conv1'] = Conv2d(self.params['W1'], self.params['b1'], filter_stride, filter_pad)
        self.layers['Relu1'] = ReLU()
        self.layers['Pool1'] = MaxPooling(pool_h=pool_size, pool_w=pool_size, stride=pool_size)
        self.layers['Flatten1'] = Flatten()
        self.layers['Affine1'] = Affine(self.params['W2'], self.params['b2'])
        self.layers['Relu2'] = ReLU()
        self.layers['Affine2'] = Affine(self.params['W3'], self.params['b3'])
        self.layers['Last'] = Softmax()

        #gradients
        self.grads = {}

    def _train(self):
        mini_batch = GetMiniBatch(X=self.X_train, y=self.y_train, batch_size=self.batch_size, seed=0)

        for mini_x, mini_y in mini_batch:
            #forward
            z = self._propagate_forward(mini_x)
            #backward
            self._propagate_backward(z - mini_y)
            #gradient更新
            self.optimizer.update(self.params, self.grads)
        return

    def _loss(self, y_actual, pred_proba):
        return -(y_actual * np.log(pred_proba + 1e-7)).sum() / y_actual.shape[0]

    def _accuracy(self, y_actual, pred_proba):
        y_actual = np.argmax(y_actual, axis=1)
        pred = np.argmax(pred_proba, axis=1)
        acc = np.sum( y_actual == pred) / y_actual.shape[0]
        return acc

    
    def _propagate_forward(self, X):
        #forward
        for layer in self.layers.values():
            X = layer.forward(X)
        return X
    
    
    def _propagate_backward(self, dout):
        #backward
        layers = list(self.layers.values())
        layers.reverse()
        for layer in layers:
            dout = layer.backward(dout)
        self.grads['W1'], self.grads['b1'] = self.layers['Conv1'].dW, self.layers['Conv1'].db
        self.grads['W2'], self.grads['b2'] = self.layers['Affine1'].dW, self.layers['Affine1'].db
        self.grads['W3'], self.grads['b3'] = self.layers['Affine2'].dW, self.layers['Affine2'].db
        return
    
    
    def _calc_loss_acc(self):
        proba = self._propagate_forward(self.X_train)
        #loss計算
        loss = self._loss(self.y_train, proba)
        self.train_loss_list.append(loss)
        #accuracy計算
        train_acc = self._accuracy(self.y_train, proba)
        self.train_acc_list.append(train_acc)

        if((self.X_val is not None) & (self.y_val is not None)):
            proba = self._propagate_forward(self.X_val)
            #loss計算
            val_loss = self._loss(self.y_val, proba)
            self.val_loss_list.append(loss)
            #accuracy計算
            val_acc = self._accuracy(self.y_val, proba)
            self.val_acc_list.append(val_acc)
        #返却値なし
        return

In [22]:
#データセットの用意
from keras.datasets import mnist
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import train_test_split

(X_train, y_train), (X_test, y_test) = mnist.load_data()

#reshape
X_train = X_train.reshape(len(X_train), 1, 28, 28)
X_test = X_test.reshape(len(X_test), 1, 28, 28)
#one-hot
eye = np.eye(len(np.unique(y_train)))
y_train = eye[y_train]
y_test = eye[y_test]

#normalize
X_train = X_train.astype(np.float)/255
X_test = X_test.astype(np.float)/255


X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.2)
y_train = y_train.astype(int)
y_val = y_val.astype(int)
print(X_train.shape) 
print(X_val.shape)

(48000, 1, 28, 28)
(12000, 1, 28, 28)


In [24]:
s2 = Scratch2d(
    conv_param={'n_filters': 30, 'filter_size': 5, 'stride': 1, 'pad': 0},
    pool_param={'pool_size': 2},
    n_epochs=3,
    batch_size=10,
    optimizer='AdaGrad',
    optimizer_param={'lr': 0.001},
    layer_nodes = {'hidden': 100, 'output': 10},
    weight_init_std=0.01,
    verbose=True
)
s2.fit(X_train=X_train, y_train=y_train, X_val=X_val, y_val=y_val)
pred = s2.predict(X_test)

epoch: 0


MemoryError: Unable to allocate 6.18 GiB for an array with shape (48000, 30, 2, 2, 12, 12) and data type float64

## 【問題7】（アドバンス課題）LeNet

CNNで画像認識を行う際は、フィルタサイズや層の数などを１から考えるのではなく、有名な構造を利用することが一般的です。現在では実用的に使われることはありませんが、歴史的に重要なのは1998年の LeNet です。この構造を再現してMNISTに対して動かし、Accuracyを計算してください。


[Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278–2324, 1998.](http://yann.lecun.com/exdb/publis/pdf/lecun-98.pdf)

![](https://t.gyazo.com/teams/diveintocode/83358987a273743a589b9388dfdf59ac.png)

※上記論文から引用


サブサンプリングとは現在のプーリングに相当するものです。現代風に以下のように作ってみることにします。活性化関数も当時はシグモイド関数ですが、ReLUとします。


1.畳み込み層　出力チャンネル数6、フィルタサイズ5×5、ストライド1

2.ReLU

3.最大プーリング

4.畳み込み層　出力チャンネル数16、フィルタサイズ5×5、ストライド1

5.ReLU

6.最大プーリング


7.平滑化

8.全結合層　出力ノード数120

9.ReLU

10.全結合層　出力ノード数84

11.ReLU

12.全結合層　出力ノード数10

13.ソフトマックス関数


## 【問題8】（アドバンス課題）有名な画像認識モデルの調査

CNNの代表的な構造としてははAlexNet(2012)、VGG16(2014)などがあります。こういったものはフレームワークで既に用意されていることも多いです。


どういったものがあるか簡単に調べてまとめてください。名前だけでも見ておくと良いでしょう。


《参考》


[Applications - Keras Documentation](https://keras.io/ja/applications/)

## 【問題9】出力サイズとパラメータ数の計算

CNNモデルを構築する際には、全結合層に入力する段階で特徴量がいくつになっているかを事前に計算する必要があります。


また、巨大なモデルを扱うようになると、メモリや計算速度の関係でパラメータ数の計算は必須になってきます。フレームワークでは各層のパラメータ数を表示させることが可能ですが、意味を理解していなくては適切な調整が行えません。


以下の3つの畳み込み層の出力サイズとパラメータ数を計算してください。パラメータ数についてはバイアス項も考えてください。


1.


・入力サイズ : 144×144, 3チャンネル
・フィルタサイズ : 3×3, 6チャンネル
・ストライド : 1
・パディング : なし

2.


・入力サイズ : 60×60, 24チャンネル
・フィルタサイズ : 3×3, 48チャンネル
・ストライド　: 1
・パディング : なし

3.


・入力サイズ : 20×20, 10チャンネル
・フィルタサイズ: 3×3, 20チャンネル
・ストライド : 2
・パディング : なし

＊最後の例は丁度良く畳み込みをすることができない場合です。フレームワークでは余ったピクセルを見ないという処理が行われることがあるので、その場合を考えて計算してください。端が欠けてしまうので、こういった設定は好ましくないという例です。

## 【問題10】（アドバンス課題）フィルタサイズに関する調査

畳み込み層にはフィルタサイズというハイパーパラメータがありますが、2次元畳み込み層において現在では3×3と1×1の使用が大半です。以下のそれぞれを調べたり、自分なりに考えて説明してください。


・7×7などの大きめのものではなく、3×3のフィルタが一般的に使われる理由
・高さや幅方向を持たない1×1のフィルタの効果