## Assignment 2
Transformer 모델의 Scaled dot-product 어텐션 메커니즘을 구현해보세요. 그리고 ViT(Vision Transformer)에서 이 부분이 어떤 의미로 동작하는지 임의의 숫자를 넣어 만든 Tensor 데이터를 활용하여 간단한 코드를 작성하여 설명하세요.

- Requirements
1. C++ 또는 Python 이용하여 작성하세요.
2. TensorFlow, Pytorch, JAX 등 딥러닝 프레임워크 사용 가능 (Keras와 같은 상대적으로 고수준의 API는 사용 불가)
3. 그 외에 라이브러리 사용 불가능

설명) Scaled Dot-Product Attention 메커니즘은 입력 시퀀스의 각 원소가 출력 시퀀스에 어떻게 영향을 미치는지를 결정하는데 중요한 역할을 한다. 이 메커니즘은 Query, key, Value 벡터를 사용하여 각 입력에 대한 가중치를 계산하고, 이를 통해 출력을 생성한다.

ViT에서는 이 Attention 메커니즘을 이미지의 패치에 적용하여, 이미지 내의 어떤 부분이 중요한지 결정한다. 각 패치는 Query, Key, Value로 변환되고, 이를 통해 모델은 이미지 내의 관련성 높은 부분에 집중할 수 있다.

In [None]:
import torch
import torch.nn.functional as F

def scaled_dot_product_attention(query, key, value):
  # query, key, value는 모두 (batch_size, seq_len, d_model)의 shape를 가진다.
    d_k = query.size(-1)  # d_model의 크기
    scores = torch.matmul(query, key.transpose(-2, -1)) / torch.sqrt(torch.tensor(d_k, dtype=torch.float32))
    p_attn = F.softmax(scores, dim=-1)
    return torch.matmul(p_attn, value), p_attn


# 임의의 tensor 데이터 생성
batch_size = 1
seq_len = 3
d_model = 512

# Query, key, value를 임의의 값으로 초기화
query = torch.rand(batch_size, seq_len, d_model)
key = torch.rand(batch_size, seq_len, d_model)
value = torch.rand(batch_size, seq_len, d_model)

# print(query)
"""
tensor([[[0.3191, 0.7686, 0.2709,  ..., 0.5455, 0.2859, 0.3686],
         [0.7467, 0.3468, 0.3531,  ..., 0.2891, 0.9572, 0.4493],
         [0.5958, 0.2423, 0.6304,  ..., 0.9418, 0.4219, 0.7905]]])
"""
# print(query.size(-1))
"""
512
"""
# Attention 메커니즘 실행
output, attention = scaled_dot_product_attention(query, key, value)

print(f"Output Tensor : {output}")
print(f"Attention Map : {attention}")


Output Tensor : tensor([[[0.4946, 0.5674, 0.4929,  ..., 0.3946, 0.4969, 0.2857],
         [0.4945, 0.5820, 0.4963,  ..., 0.3817, 0.4925, 0.2895],
         [0.4960, 0.5380, 0.4866,  ..., 0.4204, 0.5072, 0.2776]]])
Attention Map : tensor([[[0.3582, 0.3149, 0.3269],
         [0.3593, 0.2994, 0.3413],
         [0.3580, 0.3456, 0.2964]]])


scaled_dot_product_attention함수는 Query, Key, Value 텐서를 받아 Attention Map을 계산하고, 이를 사용하여 출력 텐서를 생성한다. 이 과정에서 Query와 Key의 내적(dot product)을 계산하고, 이를 d_model의 크기의 제곱근으로 나누어 스케일링한다. 그 후 softmax함수를 적용하여 각 key에 대한 가중치(Attention Map)을 계산하고, 이를 Value에 적용하여 최종 출력을 얻는다.

ViT에서는 이러한 Attention 메커니즘을 이미지의 각 패치에 적용하여, 중요한 특징을 추출하고 이미지를 분류하는 데 사용한다. 각 패치는 Query, Key, Value로 변환되고, Attention메커니즘을 통해 모델은 이미지 내의 중요한 부분에 집중하게 된다. 이를 통해 모델은 전체 이미지를 보는 대신, 중요한 부분에만 집중하여 더 효율적으로 이미지를 이해하고 분류할수 있다.

In [None]:
"""
  # 이미지패치를 나타내는 tensor 데이터를 input 넣은 경우
"""
import torch
import torch.nn.functional as F

def scaled_dot_product_attention(query, key, value):
  # query, key, value는 모두 (batch_size, seq_len, d_model)의 shape를 가진다.
    d_k = query.size(-1)  # d_model의 크기
    scores = torch.matmul(query, key.transpose(-2, -1)) / torch.sqrt(torch.tensor(d_k, dtype=torch.float32))
    p_attn = F.softmax(scores, dim=-1)
    return torch.matmul(p_attn, value), p_attn


# 임의의 이미지패치를 나타내는 tensor 데이터 생성
patch_size = 16 # 16x16 pixel의 패치
num_patches = 256 # 256개의 패치
d_model = 512 # Transformer의 차원

# Query, key, value를 임의의 값으로 초기화
query = torch.rand(patch_size, num_patches, d_model)
key = torch.rand(patch_size, num_patches, d_model)
value = torch.rand(patch_size, num_patches, d_model)

# Attention 메커니즘 실행
output, attention = scaled_dot_product_attention(query, key, value)

print(f"Output Tensor : {output}")
print(f"Attention Map : {attention}")


Output Tensor : tensor([[[0.4993, 0.5175, 0.5016,  ..., 0.4946, 0.5057, 0.4996],
         [0.5006, 0.5197, 0.5013,  ..., 0.4954, 0.5070, 0.4986],
         [0.5013, 0.5187, 0.5021,  ..., 0.4901, 0.5094, 0.4932],
         ...,
         [0.5040, 0.5188, 0.5048,  ..., 0.4955, 0.5100, 0.4977],
         [0.5019, 0.5217, 0.5011,  ..., 0.4953, 0.5091, 0.4960],
         [0.4995, 0.5192, 0.5030,  ..., 0.4953, 0.5104, 0.4965]],

        [[0.5022, 0.4838, 0.4951,  ..., 0.5017, 0.5040, 0.4921],
         [0.5035, 0.4877, 0.4954,  ..., 0.5025, 0.5023, 0.4976],
         [0.5039, 0.4884, 0.4945,  ..., 0.5023, 0.5060, 0.4946],
         ...,
         [0.5021, 0.4853, 0.4936,  ..., 0.5055, 0.5073, 0.4970],
         [0.5012, 0.4867, 0.4926,  ..., 0.5013, 0.5056, 0.4978],
         [0.5006, 0.4857, 0.4900,  ..., 0.5041, 0.5060, 0.4954]],

        [[0.5057, 0.5061, 0.4827,  ..., 0.5197, 0.5022, 0.4984],
         [0.5049, 0.5042, 0.4845,  ..., 0.5185, 0.4996, 0.4978],
         [0.5043, 0.5041, 0.4858,  ..., 0.

설명 ) 이미지의 각 패치를 Query, Key, Value로 변환하고, Attention 메커니즘을 통해 중요한 패치에 더 많은 가중치를 부여한다. 이렇게 계산된 출력은 이미지의 중요한 특징을 포함하고 있으며, 이를 통해 모델은 이미지를 더 잘 이해하고 분류할 수 있다.