<a href="https://colab.research.google.com/github/smha-Promedius/vit_lecture/blob/master/notebook/01_vit_model.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
!sudo apt-get install -y fonts-nanum* | tail -n 1
!sudo fc-cache -fv
!rm -rf ~/.cache/matplotlib

debconf: unable to initialize frontend: Dialog
debconf: (No usable dialog-like program is installed, so the dialog based frontend cannot be used. at /usr/share/perl5/Debconf/FrontEnd/Dialog.pm line 76, <> line 4.)
debconf: falling back to frontend: Readline
debconf: unable to initialize frontend: Readline
debconf: (This frontend requires a controlling tty.)
debconf: falling back to frontend: Teletype
dpkg-preconfigure: unable to re-open stdin: 
Processing triggers for fontconfig (2.12.6-0ubuntu2) ...
/usr/share/fonts: caching, new cache contents: 0 fonts, 1 dirs
/usr/share/fonts/truetype: caching, new cache contents: 0 fonts, 3 dirs
/usr/share/fonts/truetype/humor-sans: caching, new cache contents: 1 fonts, 0 dirs
/usr/share/fonts/truetype/liberation: caching, new cache contents: 16 fonts, 0 dirs
/usr/share/fonts/truetype/nanum: caching, new cache contents: 31 fonts, 0 dirs
/usr/local/share/fonts: caching, new cache contents: 0 fonts, 0 dirs
/root/.local/share/fonts: skipping, no such 

## 라이브러리 & 커맨드 준비

In [None]:
# 필요 라이브러리 설치

!pip install torchviz | tail -n 1
!pip install torchinfo | tail -n 1
w = !apt install tree
print(w[-2])

Successfully installed torchviz-0.0.2
Successfully installed torchinfo-1.7.1
Setting up tree (1.7.0-5) ...


* 모든 설치가 끝나면 한글 폰트를 바르게 출력하기 위해 **[런타임]** -> **[런타임 다시시작]**을 클릭한 다음, 아래 셀부터 코드를 실행해 주십시오.

In [None]:
# 라이브러리 임포트

%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
from IPython.display import display

# 폰트 관련 용도
import matplotlib.font_manager as fm

# 나눔 고딕 폰트의 경로 명시
path = '/usr/share/fonts/truetype/nanum/NanumGothic.ttf'
font_name = fm.FontProperties(fname=path, size=10).get_name()

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torchinfo import summary
import torchvision.datasets as datasets
import torchvision.transforms as transforms
from torch.utils.data import DataLoader

## 초기설정

In [None]:
# warning 표시 끄기
import warnings
warnings.simplefilter('ignore')

# 기본 폰트 설정
plt.rcParams['font.family'] = font_name

# 기본 폰트 사이즈 변경
plt.rcParams['font.size'] = 14

# 기본 그래프 사이즈 변경
plt.rcParams['figure.figsize'] = (6,6)

# 기본 그리드 표시
# 필요에 따라 설정할 때는, plt.grid()
plt.rcParams['axes.grid'] = True

# 마이너스 기호 정상 출력
plt.rcParams['axes.unicode_minus'] = False

# 넘파이 부동소수점 자릿수 표시
np.set_printoptions(suppress=True, precision=4)

In [None]:
# GPU 디바이스 할당

device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print(device)

cuda:0


## 모델 구축

In [None]:
class VitInputLayer(nn.Module): 
    def __init__(self, in_channels:int=3, emb_dim:int=384, num_patch_row:int=4, image_size:int=224):
        """ 
        인수 : 
            in_channels: 입력 이미지 채널 수
            emb_dim: 임베딩 벡터 길이
            num_patch_row: 높이 방향 패치 수. 예시는 2x2이므로 2를 기본값으로 함 
            image_size: 입력 이미지 한 변의 길이. 입력 이미지의 높이와 폭은 동일하다고 가정
        """
        super(VitInputLayer, self).__init__() 
        self.in_channels=in_channels 
        self.emb_dim = emb_dim 
        self.num_patch_row = num_patch_row 
        self.image_size = image_size
        
        # 패치 수
        ## 예: 입력 이미지를 2x2 패치로 나눴을 경우, num_patch는 4
        self.num_patch = self.num_patch_row**2

        # 패치 크기
        ## 예: 입력 이미지 한 변의 길이가 32인 경우, patch_size는 16 
        self.patch_size = int(self.image_size // self.num_patch_row)

        # 입력 이미지를 패치로 분할 & 패치 임베딩을 한번에 수행 
        self.patch_emb_layer = nn.Conv2d(
            in_channels=self.in_channels, 
            out_channels=self.emb_dim, 
            kernel_size=self.patch_size, 
            stride=self.patch_size
        )

        # CLS 토큰 
        self.cls_token = nn.Parameter(
            torch.randn(1, 1, emb_dim) 
        )

        # 위치 임베딩
        ## CLS 토큰이 앞에 결속되어 있기 때문에
        ## 길이 emb_dim의 위치 임베딩 벡터를 (패치 수 +1)개 준비 
        self.pos_emb = nn.Parameter(
            torch.randn(1, self.num_patch+1, emb_dim) 
        )

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        """ 
        인수:
            x: 입력 이미지. 사이즈는 (B, C, H, W)
                B: 배치 사이즈, C: 채널 수, H: 높이, W: 폭
        반환값:
            z_0: ViT로의 입력값. 사이즈는 (B, N, D)
                B: 배치 사이즈, N: 토큰 수, D: 임베딩 벡터 길이
        """
        # 패치 임베딩 & flatten
        ## 패치 임베딩 (B, C, H, W) -> (B, D, H/P, W/P) 
        ## 여기서 P는 패치 한 변의 길이
        z_0 = self.patch_emb_layer(x)

        ## 패치 flatten (B, D, H/P, W/P) -> (B, D, Np) 
        ## 여기서 Np는 패치 수(=H*W/Pˆ2)
        z_0 = z_0.flatten(2)

        ## axis 교환 (B, D, Np) -> (B, Np, D) 
        z_0 = z_0.transpose(1, 2)

        # 패치 임베딩 앞쪽에 CLS 토큰을 결합 
        ## (B, Np, D) -> (B, N, D)
        ## N = (Np + 1)
        ## cls_token의 사이즈는 (1,1,D) 이므로
        ## repeat 메서드가 (B,1,D)로 변환하고 나서 패치 임베딩과 결합 
        z_0 = torch.cat(
            [self.cls_token.repeat(repeats=(x.size(0),1,1)), z_0], dim=1)

        # 위치 임베딩을 더함 
        ## (B, N, D) -> (B, N, D) 
        z_0 = z_0 + self.pos_emb
        return z_0

In [None]:
batch_size, channel, height, width= 4, 3, 224, 224
x = torch.randn(batch_size, channel, height, width) 
input_layer = VitInputLayer(num_patch_row=4) 
z_0=input_layer(x)

# (4, 16+1, 384)(=(B, N, D))로 나왔는지 확인 
print(z_0.shape)

torch.Size([4, 17, 384])


In [None]:
class MultiHeadSelfAttention(nn.Module): 
    def __init__(self, emb_dim:int=384, head:int=3, dropout:float=0.):
        """ 
        인수:
            emb_dim: 임베딩 벡터 길이 
            head: 헤드 수
            dropout: 드롭 아웃 확률
        """
        super(MultiHeadSelfAttention, self).__init__() 
        self.head = head
        self.emb_dim = emb_dim
        self.head_dim = emb_dim // head
        self.sqrt_dh = self.head_dim**0.5 # D_h의 제곱근. qk^T를 나누기 위한 계수

        # 입력을 q, k, v로 임베딩 하기 위한 선형층 
        self.w_q = nn.Linear(emb_dim, emb_dim, bias=False) 
        self.w_k = nn.Linear(emb_dim, emb_dim, bias=False) 
        self.w_v = nn.Linear(emb_dim, emb_dim, bias=False)

        # 드롭 아웃
        self.attn_drop = nn.Dropout(dropout)

        # MHSA 결과를 출력에 임베딩 하기 위한 선형층
        ## 식에는 없지만 드롭 아웃을 사용함 
        self.w_o = nn.Sequential(
            nn.Linear(emb_dim, emb_dim),
            nn.Dropout(dropout) 
        )

    def forward(self, z: torch.Tensor) -> torch.Tensor:
        """ 
        인수:
            z: MHSA로의 입력. 사이즈는 (B, N, D)
                B: 배치 사이즈, N: 토큰 수, D: 벡터 길이
        반환값:
            out: MHSA 출력. 사이즈는 (B, N, D)
                B: 배치 사이즈, N: 토큰 수, D: 임베딩 벡터 길이
        """

        batch_size, num_patch, _ = z.size()

        # 임베딩
        ## (B, N, D) -> (B, N, D)
        q = self.w_q(z)
        k = self.w_k(z)
        v = self.w_v(z)

        # q, k, v를 헤드로 나눔
        ## 먼저 벡터를 헤드 개수(h)로 나눔
        ## (B, N, D) -> (B, N, h, D//h)
        q = q.view(batch_size, num_patch, self.head, self.head_dim)
        k = k.view(batch_size, num_patch, self.head, self.head_dim)
        v = v.view(batch_size, num_patch, self.head, self.head_dim)

        ## Self-Attention을 계산할 수 있게
        ## (배치 사이즈, 헤드, 토큰 수, 패치 벡터) 형태로 변환 
        ## (B, N, h, D//h) -> (B, h, N, D//h)
        q = q.transpose(1,2)
        k = k.transpose(1,2)
        v = v.transpose(1,2)

        # 내적
        ## (B, h, N, D//h) -> (B, h, D//h, N)
        k_T = k.transpose(2, 3)
        ## (B, h, N, D//h) x (B, h, D//h, N) -> (B, h, N, N) 
        dots = (q @ k_T) / self.sqrt_dh
        ## 열 방향 소프트맥스 함수
        attn = F.softmax(dots, dim=-1)
        ## 드롭아웃
        attn = self.attn_drop(attn)
        # 가중합
        ## (B, h, N, N) x (B, h, N, D//h) -> (B, h, N, D//h) 
        out = attn @ v
        ## (B, h, N, D//h) -> (B, N, h, D//h)
        out = out.transpose(1, 2)
        ## (B, N, h, D//h) -> (B, N, D)
        out = out.reshape(batch_size, num_patch, self.emb_dim)

        # 출력층
        ## (B, N, D) -> (B, N, D) 
        out = self.w_o(out) 
        return out

In [None]:
mhsa = MultiHeadSelfAttention()
out = mhsa(z_0) # z_0는 z_0=input_layer(x). 사이즈는 (B, N, D)

# (4, 17, 384)(=(B, N, D))가 맞는지 확인 
print(out.shape)

torch.Size([4, 17, 384])


In [None]:
class VitEncoderBlock(nn.Module): 
    def __init__(self, emb_dim:int=384, head:int=4, hidden_dim:int=384*4, dropout:float=0.2):
        """
        인수:
            emb_dim: 임베딩 후 벡터 길이
            head: 헤드 수
            hidden_dim: Encoder Block에서 MLP 중간층의 벡터 길이 
                        논문에서와 같이 emb_dim의 4배를 디폴트로 함
            dropout: 드롭아웃 확률
        """
        super(VitEncoderBlock, self).__init__()
        # 첫번째 Layer Normalization
        self.ln1 = nn.LayerNorm(emb_dim)
        # MHSA
        self.msa = MultiHeadSelfAttention(
        emb_dim=emb_dim, head=head,
        dropout = dropout,
        )
        # 두번째 Layer Normalization
        self.ln2 = nn.LayerNorm(emb_dim)
        # MLP
        self.mlp = nn.Sequential( 
            nn.Linear(emb_dim, hidden_dim), 
            nn.GELU(),
            nn.Dropout(dropout), 
            nn.Linear(hidden_dim, emb_dim), 
            nn.Dropout(dropout)
        )
    def forward(self, z: torch.Tensor) -> torch.Tensor:
        """ 
        인수:
            z: Encoder Block으로 입력. 사이즈는 (B, N, D)
                B: 배치 사이즈, N: 토큰 수, D: 벡터 길이
        반환값:
            out: Encoder Block의 출력. 사이즈는 (B, N, D)
                B: 배치 사이즈, N: 토큰 수, D: 임베딩 벡터 길이 
        """
        # Encoder Block의 전반부 
        out = self.msa(self.ln1(z)) + z
        # Encoder Block의 후반부 
        out = self.mlp(self.ln2(out)) + out 
        return out

In [None]:
vit_enc = VitEncoderBlock()
z_1 = vit_enc(z_0) # z_0는 z_0=input_layer(x). 사이즈는 (B, N, D)

# (4, 17, 384)(=(B, N, D))가 맞는지 확인 
print(z_1.shape)

torch.Size([4, 17, 384])


In [None]:
class Vit(nn.Module): 
    def __init__(self, in_channels:int=3, num_classes:int=2, emb_dim:int=384, num_patch_row:int=4, image_size:int=224,
                 num_blocks:int=4, head:int=4, hidden_dim:int=384*4, dropout:float=0.2):
        """ 
        인수:
            in_channels: 입력 이미지의 채널 수
            num_classes: 이미지 분류 클래스 수
            emb_dim: 임베딩 후 벡터 길이
            num_patch_row: 한 변의 패치 수
            image_size: 입력 이미지의 한 변의 길이. 입력 이미지의 높이, 폭은 같은 길이를 가정 
            num_blocks: Encoder Block 수
            head: 헤드 수
            hidden_dim: Encoder Block의 MLP 중간층의 벡터 길이 
            dropout: 드롭아웃 확률
        """
        super(Vit, self).__init__()
        # Input Layer 
        self.input_layer = VitInputLayer(
            in_channels, 
            emb_dim, 
            num_patch_row, 
            image_size)

        # Encoder. Encoder Block 여러 층 
        self.encoder = nn.Sequential(*[
            VitEncoderBlock(
                emb_dim=emb_dim,
                head=head,
                hidden_dim=hidden_dim,
                dropout = dropout
            )
            for _ in range(num_blocks)])

        # MLP Head
        self.mlp_head = nn.Sequential(
            nn.LayerNorm(emb_dim),
            nn.Linear(emb_dim, num_classes)
        )

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        """
        인수:
            x: ViT로 입력되는 이미지. 사이즈는 (B, C, H, W)
                B: 배치 사이즈, C: 채널 수, H: 높이, W: 폭
        반환값:
            out: ViT의 출력. 사이즈는 (B, M)
                B: 배치 사이즈, M: 클래스 수 
        """
        # Input Layer
        ## (B, C, H, W) -> (B, N, D)
        ## N: 토큰 수(=배치 수+1), D: 벡터 길이 
        out = self.input_layer(x)
        
        # Encoder
        ## (B, N, D) -> (B, N, D)
        out = self.encoder(out)

        # 클래스 토큰만 꺼냄
        ## (B, N, D) -> (B, D)
        cls_token = out[:,0]

        # MLP Head
        ## (B, D) -> (B, M)
        pred = self.mlp_head(cls_token)
        return pred

In [None]:
num_classes = 10
batch_size, channel, height, width= 4, 3, 224, 224
x = torch.randn(batch_size, channel, height, width)
vit = Vit(in_channels=channel, num_classes=num_classes) 
pred = vit(x)

# (4, 10)(=(B, M))이 맞는지 확인
print(pred.shape)

torch.Size([4, 10])


In [None]:
# 모델 개요 표시
net = vit.to(device)
summary(net,(5, 3, 224, 224))

Layer (type:depth-idx)                        Output Shape              Param #
Vit                                           [5, 10]                   --
├─VitInputLayer: 1-1                          [5, 17, 384]              6,912
│    └─Conv2d: 2-1                            [5, 384, 4, 4]            3,613,056
├─Sequential: 1-2                             [5, 17, 384]              --
│    └─VitEncoderBlock: 2-2                   [5, 17, 384]              --
│    │    └─LayerNorm: 3-1                    [5, 17, 384]              768
│    │    └─MultiHeadSelfAttention: 3-2       [5, 17, 384]              590,208
│    │    └─LayerNorm: 3-3                    [5, 17, 384]              768
│    │    └─Sequential: 3-4                   [5, 17, 384]              1,181,568
│    └─VitEncoderBlock: 2-3                   [5, 17, 384]              --
│    │    └─LayerNorm: 3-5                    [5, 17, 384]              768
│    │    └─MultiHeadSelfAttention: 3-6       [5, 17, 384]            

In [None]:
# 손실 함수： 교차 엔트로피 함수
criterion = nn.CrossEntropyLoss()

# 학습률
lr = 0.001

# 최적화 함수: 경사 하강법
optimizer = torch.optim.SGD(net.parameters(), lr=lr)

In [None]:
# 손실 계산
loss = eval_loss(test_loader1, device, net, criterion)

# 손실 계산 그래프 시각화
g = make_dot(loss, params=dict(net.named_parameters()))
display(g)