# Vision Transformer (ViT)

## Reference 
- https://arxiv.org/pdf/2010.11929.pdf
- https://www.kaggle.com/abhinand05/vision-transformer-vit-tutorial-baseline
- Boostcamp AI Tech
- https://github.com/tczhangzhi/VisionTransformer-Pytorch/tree/main/vision_transformer_pytorch

## Architecture
![transformer-arch.png](attachment:transformer-arch.png)
- has two parts : the decoder which is on left side, the encoder which is on the right.
- The encoduer takes the input data(sentence) and produces an intermediate representation of the input.
- The decoder decodes it step by step and generates the output.
- It is important to understand the encoder part for ViT

## Step by step overview
- (1) input data는 먼저 벡터로 표현되고, Input Embedding Layer는 학습된 벡터 표현을 잡을 수 있도록 도와준다.
- (2) positional encoding에서는 encoder가 시퀀스의 순서를 알 수 있도록 입력 임베딩에 위치 정보(인코딩)을 주입한다.
- (3) Multi-headed architecture 구조로 이동

### Multi-headed-attention architecture
![multi-headed-attention.png](attachment:multi-headed-attention.png)

- (4) multi-headed attention은 learnable vectors가 있다. => Q, K, V (Query, Key, Value)
- (5) Q와 K는 행렬 내적 연산으로 단어가 다른 모든 단어에 얼만큼 많은 관심을 기울여야 하는지(얼만큼 상관관계가 있는지) 점수를 계산한다 (Score Matrix)
- (6) 생성된 Score Matrix는 Q와 K 백터의 차원에 따라 down scale 되고 안정적인 학습을 할 수 있도록 그라디언트를 보장하기 위함이다.
- (7) Score Matrix를 확률로 바꾸기 위해 softmax 적용한다. 이렇게 하면 모델이 관심을 가져야할 단어를 명확하게 알 수 있다.
- (8) softmax를 통과한 벡터에 V(Value)를 곱한다. 모델은 높은 확률을 가진 Socre가 더 중요해지고 반대로 Score가 낮은 단어는 관련이 없게 된다.
- (9) QK와 V 벡터를 concat하고 Linear layer에 feed한다.
- (10) 각 단어에 대해 self-attention이 수행된다. 하나의 단어는 다른 단어에 의존하지 않기 때문에 동시에 처리할 수 있다.
- (11) 출력에 입력데이터에서 오는 벡터 (Residual block)를 추가한다음 Normalization 한다. residual은 훈련 시간을 살짝 줄여주고 네트워크를 안정화 시킬 수 있다.
- (12) 더 풍부한 표현을 얻기 위해 foward feed
- (13) 한번 더 redisual vector를 더하고 normalization

### 여기까지가 Encoder

### Decoder
- (14) output 데이터는 Masked Multi-headed attention layer를 통과하고 인코더의 출력과 함께 다음 multi-headed attention layer에 입력된다. 
- (15) Masked multi-headed attention은 현재 및 이전 단어에 대한 score를 1로 설정하고 미래 단어의 score는 무한대로 설정하는데 디코딩 하는 동안 seq에서 나중에 올 단어에 대해 고려하지 않아야 하기 때문에 사용한다. 이렇게 하면 softmax를 수행할 때 미래 seq에서 미래 단어는 0으로 빠지고 나머지는 유지된다.
- (16) gradient의 flow 개선을 위해 residual이 있고 마지막 출력은 Linear layer로 연결되고 확률을 얻기 위해 softmax 함수 사용한다.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.style.use("ggplot")

import torch
import torch.nn as nn
import torchvision.transforms as transforms

import time

import gc
import os
import time
import random
from datetime import datetime

from PIL import Image
from tqdm.notebook import tqdm
from sklearn import model_selection, metrics


In [3]:
def seed_everything(seed):
    """
    
    """
    random.seed(seed)
    os.environ["PYTHONHASHSEED"] = str(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    torch.cuda.manual_seed(seed)
    torch.backends.cudnn.deterministic = True
    torch.backends.cudnn.benchmark = False

seed_everything(123)

In [4]:
class PositionEmbs(nn.Module):
    def __init__(self, num_patches, emb_dim, dropout_rate = 0.1):
        super(PositionEmbs, self).__init__()
        self.pos_embedding = nn.Parameter(torch.rand(1, num_patches + 1, emb_dim))
        if dropout_rate > 0:
            self.dropout = nn.Dropout(drouput_rate)
        else:
            self.dropout = None
    
    def foward(self, x):
        out = x + self.pos_embedding
        
        if self.dropout:
            out = self.drouput(x)
        
        return out

In [5]:
class MLPBlock(nn.Module):
    """ Transformer feed forward block """
    def __init__(self, in_dim, mlp_dim, out_dim, dropout_rate = 0.1):
        super(MLPBlock, self).__init__()
        
        self.fc_1 = nn.Linear(in_dim, mlp_dim)
        self.fc_2 = nn.Linear(mlp_dim, out_dim)
        self.activation = nn.GELU()
        
        if dropout_rate > 0:
            self.dropout_1 = nn.Dropout(dropout_rate)
            self.dropout_2 = nn.Dropout(dropout_rate)
        else:
            self.dropout_1 = None
            self.dropout_2 = None
    
    def forward(self, x):
        out = self.fc_1(x)
        out = self.activation(out)
        if self.dropout_1:
            out = self.dropout_1(out)
        
        out = self.fc_2(out)
        out = self.activation(out)
        if self.dropout_2:
            out = self.dropout_2(out)
        
        return out


In [6]:
class Linear(nn.Module):
    def __init__(self, in_dim=(768,), feat_dim=(12, 64)):
        super(Linear, self).__init__()
        
        self.weight = nn.Parameter(torch.randn(*in_dim, *feat_dim))
        self.bias = nn.Parameter(torch.zeros(*feat_dim))
        
    def forward(self, x, dims):
        return torch.tensordot(x, self.weight, dims=dims) + self.bias

In [None]:
class SelfAttention(nn.Module):
    def __init__(self, in_dim, heads=8, dropout_rate = 0.1):
        super(SelfAttention, self).__init__()
        self.heads = heads
        self.head_dim = in_dim // heads
        self.scale = self.head_dim ** 0.5
        
        self.query = Linear((in_dim, ), (self.heads, self.head_dim))
        self.key = Linear((in_dim, ), (self.heads, self.head_dim))
        self.value = Linear((in_dim, ), (self.heads, self.head_dim))
        self.out = Linear((self.heads, self.head_dim), (in_dim,))
        
        if dropout_rate > 0:
            self.dropout = nn.Dropout(dropout_rate)
        else:
            self.dropout = None
    
    def forward(self, x):
        b, n, _ = x.shape
        
        Q = self.query(x, dims=([2], [0]))
        K = self.key(x, dims=([2], [0]))
        V = self.value(x, dims=([2], [0]))
        
        