In [11]:
import os
import sys
sys.path.append(os.pardir)
import numpy as np
sys.path.append(os.pardir)  # 親ディレクトリのファイルをインポートするための設定
import matplotlib.pyplot as plt
from dataset.mnist import load_mnist
from common.util import smooth_curve
from common.multi_layer_net import MultiLayerNet
from common.optimizer import *

In [None]:
# 畳み込みニュートラルネットワーク(CNN)
# 今まで
# 入力→アフィン→ReLU→…アフィン→ReLU→アフィン→Softmax→
# 隣接する層のすべてのニューロン間で結合がある→全結合
# すべての入力データを1次元のデータにする→一列のデータにする
# →色とかの情報は単一の価値になる→色の判断とかできない
# 今までは黒白の濃淡だけを保存していた
# CNN
# 入力→Convolution→ReLU→Pooling→…アフィン→ReLU→アフィン→Softmax→
# Convolution:畳み込み層、Pooling:プーリング層
# 畳み込み層での入出力データ:特徴マップ(入力:入力特徴マップ、出力:出力特徴マップ）
# 3次元(R、G、B)で処理が進む

In [None]:
# 畳み込み層
# 畳み込み演算：入力データに対してフィルタ(カーネル)を適用→積和演算
# 入力データに対してフィルタを一定の間隔でスライドさせながら
# フィルタの要素と入力に対応する要素を乗算しその合計を配列に
# フィルターが今までの重みに相当、バイアスもある
# 
# (4,4)の入力→(3,3)のフィルタ→(2,2)でそれぞれにバイアスを加算して出力
# フィルタで小さくなったらダメじゃん→どんどん小さくなってら層を重ねられん

# パディング
# 入力データの周囲に固定データ(0とか)を埋めること
# 幅も設定できる例:(4,4)に幅1のパディング→(6,6)
# (4,4)に幅1のパディング * (3,3)のフィルタ→(4,4)
# これで出力を入力と同じにする
# ずれってどうやって制御するの？

# ストライド
# フィルタの適用位置の間隔

# 出力の算出方法
# 入力データ(H,W)、フィルタ(FH,FW)、パディングP、スライドS、出力(OH,OW)
# Oh = 1 + (H + 2P - Fh) / S
# Wも同じ
# 小数の場合は対応が必要(エラーメッセor切り上げ捨て・四捨五入)

# フィルタは入力と同じ次元じゃないとだめだよ
# ３次元の時を考えると出力は2次元になってしまう
# (C,H,W) * (C,FH,FW)→(1,OH,OW)
# これはさっきと同じ
# ３次元のフィルタをFN個作る
# (C,H,W) * (FN,C,FH,FW)→(FN,OH,OW)
# バイアスを含めると
# (C,H,W) * (FN,C,FH,FW)→(FN,OH,OW) + (FN,1,1) →　(N,FN,OH,OW)

# バッチ処理
# N個のバッチを処理を行う
# (N,C,H,W) * (FN,C,FH,FW)→(N,FN,OH,OW) + (FN,1,1) →　(N,FN,OH,OW)
# これで一括送信してるから
# N回繰り返し×→N個まとめて処理〇

# プーリング層
# 縦横を小さくする
# V(縦)×S(横)でプーリング
# その範囲で一番大きい(Max)or平均(Average)を抽出
# ストライドは基本Sと同じ
# (4,4)を(2,2)でMaxプーリング→(2,2)の範囲で一番大きい値を選択→(2,2)
# 特徴
# 学習するパラメータが存在しない→加工するだけだからMaxかAveにするのと(V,S)を決めるくらい
# チャンネル数が変化しない→上記と同じ
# 微小な位置変化に対して強い→プーリング範囲で数値の位置がそれぞれ違っても関係ない→位置に依存していない

In [9]:
# 実装
# forwordとbackword
# 4次元配列(10個,チャンネル,縦,横)
x = np.random.rand(10,1,28,28)
x.shape #全体の大きさ
x[0].shape#1個目のデータ全体の大きさ
x[0][0].shape#１チャンネルの大きさ
x[0][0][0].shape
# 4次元の計算の実装って大変じゃね？
# for データ数
#  for チャンネル
#   for 縦
# 　 for 横
#  は重すぎ
# NumPyは繰り返しを基本さける
# im2colをつかうと簡単:「image to column」画像から行列へ
# フィルタの都合がいいように展開してくれる関数
# 入力データ(バッチ数含めた4次元データ)に対して2次元データ(行列)に変換
# フィルタを使う領域(3次元)を横方向1列に展開→適用する場所すべてで行う
# フィルタが重なるときもうまくやってくる→でも要素数が元のブロックよりも多くなる→PCのメモリを消費する
# PC上の理由はどうにかなる + 行列の計算は最適化されていていろいろなライブラリを使える

(28,)

In [10]:
# im2colメソッドの中身→そういうものとして使う
def im2col(input_data, filter_h, filter_w, stride=1, pad=0):
    """

    Parameters
    ----------
    input_data : (データ数, チャンネル, 高さ, 幅)の4次元配列からなる入力データ
    filter_h : フィルターの高さ
    filter_w : フィルターの幅
    stride : ストライド
    pad : パディング

    Returns
    -------
    col : 2次元配列
    """
    N, C, H, W = input_data.shape
    out_h = (H + 2*pad - filter_h)//stride + 1
    out_w = (W + 2*pad - filter_w)//stride + 1

    img = np.pad(input_data, [(0,0), (0,0), (pad, pad), (pad, pad)], 'constant')
    col = np.zeros((N, C, filter_h, filter_w, out_h, out_w))

    for y in range(filter_h):
        y_max = y + stride*out_h
        for x in range(filter_w):
            x_max = x + stride*out_w
            col[:, :, y, x, :, :] = img[:, :, y:y_max:stride, x:x_max:stride]

    col = col.transpose(0, 4, 5, 1, 2, 3).reshape(N*out_h*out_w, -1)
    return col

In [21]:
x1 = np.random.rand(1,3,7,7)
col1 = im2col(x1,5,5,stride=1,pad=0)
print(col1.shape)

x2 = np.random.rand(10,4,7,7)
col2 = im2col(x2,5,5,stride=1,pad=0)
print(col2.shape)
# 75はチャンネル数*フィルタ縦*フィルタ横

(9, 75)
(90, 100)


In [23]:
# Convolutionの実装
class Convolution:
    def __init__(self,W,b,stride=1,pad=0):
        """Convolutionレイヤー

        Args:
            W (numpy.ndarray): フィルター（重み）、形状は(FN, C, FH, FW)。
            b (numpy.ndarray): バイアス、形状は(FN)。
            stride (int, optional): ストライド、デフォルトは1。
            pad (int, optional): パディング、デフォルトは0。
        """
        self.W = W
        self.b = b
        self.stride = stride
        self.pad = pad
    
    def forward(self,x):
        """順伝播

        Args:
            x (numpy.ndarray): 入力。形状は(N, C, H, W)。

        Returns:
            numpy.ndarray: 出力。形状は(N, FN, OH, OW)。
        """
        FN,C,FH,FW = self.W.shape
        N,C,H,W = x.shape
        out_h = int(1 + (H + 2*self.pad - FH) / self.stride)
        out_w = int(1 + (W + 2*self.pad - FW) / self.stride)
        
        # 入力データを展開
        # (N, C, H, W) → (N * OH * OW, C * FH * FW)
        col = im2col(x,FH,FW,self.stride,self.pad)
        
        # フィルターを展開(.Tは転置する) 
        # (FN, C, FH, FW) → (FN, C * FH * FW) →(C * FH * FW, FN)
        col_W = self.W.reshape(FN,-1).T
        
        # 出力を算出（col_x, col_W, bに対する計算は、Affineレイヤーと全く同じ）
        # (N * OH * OW, C * FH * FW)・(C * FH * FW, FN) → (N * OH * OW, FN)
        out = np.dot(col,col_W) + self.b
        
        # 結果の整形
        # (N * OH * OW, FN) → (N, OH, OW, FN) → (N, FN, OH, OW)
        out = out.reshape(N,out_h,out_w,-1).transpose(0,3,1,2)
        
        return out