<a href="https://colab.research.google.com/github/ShinAsakawa/2015corona/blob/master/2024notebooks/2021_1029Visualization_the_visual_features_on_CNN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# DNN の特徴検出器視覚化


* data: 2021_1029
* filename: `2021_1029Visualization_the_visual_features_on_CNN.ipynb`
* author: 浅川伸一
* lincense: MIT

In [None]:
import os
import sys
try:
    import japanize_matplotlib
except ImportError:
    !pip install japanize_matplotlib
    import japanize_matplotlib

In [None]:
#!pip install japanize_matplotlib
import numpy as np
import matplotlib.pyplot as plt

# ResNet18 という学習済みのモデルを読み込みます。
from torchvision import models
resnet = models.resnet18(weights='DEFAULT')

# ResNet18 がどのような深層畳み込みニューラルネットワークで構成されているかを調べてみます
resnet

上の結果の 第 1 行目は，次のように表示されます

* (conv1): Conv2d(3, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False)

これは conv1 という名前の層で，

* 入力特徴数: 3 すなわち，入力データはカラー画像なので，赤，緑，青の光の 3 原色のそれぞれを表した数値となっています
* 出力特徴数: 64
* カーネルサイズ: (7, 7) 7 画素 X 7 画素のカーネル幅を持つ畳み込み演算が行われることを示しています
* ストライド: (2, 2) 縦と横とも 2 画素おきにずらしてカーネルが移動することを意味しています。
* パディング: (3, 3) 上下左右に入力画像の周辺に 3 画素分だけ架空の入力領域を確保していることを表します

In [None]:
# 次に ResNet18 の第一層，すなわち，最も入力に近い層のサイズを調べます。
print(resnet.conv1.weight.size())
plt.figure(figsize=(2,2))
plt.axis('off')
plt.imshow(resnet.conv1.weight.detach().numpy()[0].transpose(1,2,0).clip(0,1), cmap='gray')

In [None]:
# 上記の結果は，torch.Size([64, 3, 7, 7]) と表示されているはずです。
# これは，4 次元のデータで，以下のような意味になります。
# 64: 出力特徴数，
# 3: 入力特徴数

import torchvision

def img_show(inp, title=None, figsize=(4,4), fontsize=12, **kwargs):
    """テンソルを画像として表示"""
    inp = inp.numpy().transpose((1, 2, 0))
    #inp = inp.numpy().transpose((1, 2, 0))
    #mean = np.array([0.485, 0.456, 0.406])
    #std = np.array([0.229, 0.224, 0.225])
    #inp = std * inp + mean
    inp = np.clip(inp, 0, 1)
    plt.figure(figsize=figsize)
    plt.axis('off')
    plt.imshow(inp)
    #plt.imshow(inp)
    if title is not None:
        plt.title(title, fontsize=fontsize)

# ResNet18
data = resnet.conv1.weight.detach()
out = torchvision.utils.make_grid(data)
img_show(out, title="ResNet18 の最下位層の特徴検出器")
plt.show()

In [None]:
# AlexNet
alexnet = models.alexnet(weights='DEFAULT')
data = alexnet.features[0].weight.detach()
out = torchvision.utils.make_grid(data)
img_show(out, figsize=(4,4), title="AlexNet の最下位層の特徴検出器")
plt.show()

In [None]:
# Inception_v3
net = models.inception_v3(weights='DEFAULT')
data = net.Conv2d_1a_3x3.conv.weight.detach()
out = torchvision.utils.make_grid(data)
img_show(out, figsize=(4,10), title="inception_v3 の最下位層の特徴検出器")
plt.show()

In [None]:
# VGG11
net = models.vgg11(weights='DEFAULT')
data = net.features[0].weight.detach()
out = torchvision.utils.make_grid(data)
img_show(out, figsize=(4,4), title="VGG11 の最下位層の特徴検出器")
plt.show()

In [None]:
# densenet121
net = models.densenet121(pretrained=True)
data = net.features.conv0.weight.detach()
out = torchvision.utils.make_grid(data)
img_show(out, title="densnett121 の最下位層の特徴検出器")
plt.show()

In [None]:
# mobilenet_v2
net = models.mobilenet_v2(pretrained=True)
data = net.features[0][0].weight
out = torchvision.utils.make_grid(data)
img_show(out, figsize=(6,6), title="mobilenet の最下位層の特徴検出器")
plt.show()