# CNN
***

## 概要  
人間の視覚の仕組みを取り入れ成功したモデルである。現在も広く使われており、その応用範囲はとても広い。画像認識、クラス分類、など画像が絡むタスクはだいたいCNNを用いて解決される. 

## 用語説明  
***
### CNN

畳込み層を用いるニューラルネットワークのこと。

### 画像

デジタル画像には、カラー画像とモノクロ(グレースケール)画像の二種類がある。カラー画像はRGBでピクセルを制御している。モノクロ画像は0~255の値で離散化して持つ

### 畳込み演算
画像など(一般にtensor)に対して、各要素ごとにフィルタを積和演算する演算のこと。以下の用語説明や、理論解説でも取り扱う。

![画像]()

### 畳込み層
畳込み演算を行う層を畳込み層と呼ぶ。英語ではConvolution Layer

### 局所受容野、カーネル、フィルター

説明する人の出身領域で言葉が変わってくるが本質的には同じものを指す。神経科学系なら局所受容野、画像系ならフィルター、その他はカーネルと呼んでいる人が多い気がする。今後、この資料ではフィルタでと呼ぶ。

### パディング

畳込みを行うと、tensorの大きさが小さくなるから、大きさを調整するために0などで画像の周囲を埋める

### ストライド

フィルタをどれだけ動かすか。通常は1

### 重み共有

### プーリング

図のような演算をプーリング(max pooling)という。

### プーリング層

プーリングを行う層をプーリング層という。この層を挟むことによって、フィルターの感度が鈍くなることになる。その結果、位置ずれに対する頑健性があがると言われている。一方で、特徴が失われるという否定的な意見もある。

## 理論解説
***
畳み込み演算とは、w h の大きさの画像に対してある画素$u_{ij}$に対して以下の操作を行うことを言う。


$$
u_{ij}=\sum_{p=0}^{H-1}\sum_{q=0}^{W-1}\,\it{x}_{i+p\, j+q}\,h_{pq}\hspace{2em}\tag{1}
$$

## 実装解説
***


In [1]:
# CNNの実装。MNISTの分類をする
# 必要ライブラリのインポート
import torch 
from torch import nn, optim
from torch.utils.data import (Dataset, DataLoader, TensorDataset)
from torchvision.datasets import MNIST
from torchvision import transforms
from tqdm import tqdm

In [None]:
# トレインデータを作成する
# そのままだとPIL(Python Image Library)という独自の形式で画像を扱ってしまうから
# transforms.ToTesnor() で PyTorch で扱いやすい Tensorに変換する
# すでにダウンロードしている場合は、download=false に変更する
mnist_train = MNIST("./Dataset/04/MNIST",
                   train=True, 
                   download=True,
                   transform=transforms.ToTensor())

# 同じくテストデータを作成する
# こちらはtrain=falseになっている
mnist_test = MNIST("./Dataset/04/MNIST",
                  train=False, 
                  download=True,
                  transform=transforms.ToTensor())

# バッチサイズが128のDataLoaderを作成する
# バッチサイズを変更すると一回の学習で使うデータの量が変わる。メモリと相談する
# 実際にネットワークに渡すのはこっち
batch_size = 128

train_loader = DataLoader(dataset=mnist_train,
                         batch_size=batch_size, 
                         shuffle=True)

test_loader = DataLoader(dataset=mnist_test,
                        batch_size=batch_size, 
                        shuffle=False)


In [None]:
# (N, C, H, W) 形式のTensorを(N, C*H*W) に引き伸ばす
# 畳込み層の出力をMLPに渡す際に用いる
class FlattenLayer(nn.Module):
    def forward(self, x):
        sizes = x.size()
        return x.view(sizes[0], -1)

# まずは畳み込み層を実装する
# 今回は2層のCNN
conv_net = nn.Sequential(
    # 畳み込み
    nn.Conv2d(in_channels=1, out_channels=32, kernel_size=5),
    # プーリング
    nn.MaxPool2d(kernel_size=2),
    # 活性化
    nn.ReLU(),
    # バッチノーマライゼーション(正規化)
    nn.BatchNorm2d(num_features=32),
    # ドロップアウト
    nn.Dropout2d(p=0.25),
    
    nn.Conv2d(32, 64, 5),
    nn.MaxPool2d(2),
    nn.ReLU(),
    nn.BatchNorm2d(64),
    nn.Dropout2d(0.25),
    
    FlattenLayer()
)

# ダミーの画像を用意し、出力サイズを確認する
test_input = torch.ones(1, 1, 28, 28)
conv_output_size = conv_net(test_input).size()[-1]

# 全結合層を用意する
mlp = nn.Sequential(
    nn.Linear(in_features=conv_output_size, out_features=200),
    nn.ReLU(),
    nn.BatchNorm1d(num_features=200),
    nn.Dropout(p=0.25),
    nn.Linear(in_features=200, out_features=10)
)

# 畳み込み層と全結合層を1つにまとめる
net = nn.Sequential(
    conv_net,
    mlp
)

In [None]:
class CNN(nn.Module):
    def __init__(self):
        super(CNN, self).__init__()

In [None]:
# 評価用の関数
def eval_net(net, data_loader, device = 'cpu'):
    # DropputやBatchNorm を無効化する(評価時には必要ないから))
    net.eval()

    # 表示用の配列
    ys = []
    ypreds = []
    for x, y in data_loader:
        x = x.to(device)
        y = y.to(device)
        with torch.no_grad():
            _, y_pred = torch.max(net(x), 1)
        ys.append(y)
        ypreds.append(y_pred)
        
    ys = torch.cat(ys)
    ypreds = torch.cat(ypreds)
    
    acc = (ys == ypreds).float().sum() / len (ys)
    return acc.item()


# 訓練用の関数
def train_net(net, train_loader, test_loader,
             #optimizer = optim.Adam,
             loss_func = nn.CrossEntropyLoss(),
             n_iter = 10, device = 'cpu'):
    train_losses = []
    train_acc = []
    val_acc = []
    optimizer = optim.Adam(net.parameters())
    for epoch in range(n_iter):
        running_loss = 0.
        net.train()
        n = 0
        n_acc = 0
        
        for i, (xx, yy) in tqdm(enumerate(train_loader), total=len(train_loader)):
            xx = xx.to(device)
            yy = yy.to(device)
            h = net(xx)
            loss = loss_fn(h, yy)
            # 勾配を初期化
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            running_loss += loss.item()
            n += len(xx)
            _, y_pred = torch.max(h, 1)
            n_acc += (yy == y_pred).float().sum().item()
        train_losses.append(running_loss / i)
        
        train_acc.append(n_acc / n)
        
        val_acc.append(eval_net(net, test_loader, device))
        
        #学習結果をコンソールに表示
        print(epoch, train_losses[-1], train_acc[-1], val_acc[-1], flush=True)
            


In [None]:
device = 'cuda:0' if Torch.cuda.is_available() else 'cpu'
net.to(device)
train_net(net, train_loader, test_loader, n_iter=20, device=device)

In [None]:
'''
TODO:学習結果を保存する
     保存した学習結果を読み込んで推論
     推論に用いた画像とラベルを表示する
'''

演習問題