# Transformer CI

BERT는 DNN과 CNN, RNN 등과 다른게 트랜스포머 기반의 아키텍처를 사용한다.\
트랜스포머 모델은 주로 어텐션 메커니즘을 사용하여 입력 데이터 간의 관계를 학습함.\
BERT의 각 레이어는 트랜스포머 모델의 인코더 레이어를 기반으로 하며, Multi-Head Attention과 Feed-Forward Neural Networks를 포함함.

![image.png](attachment:a1586811-1eac-47fa-9a2b-fc454fc2aef7.png)

In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F

In [13]:
class Transformer(nn.Module):

    def __init__(self, encoder, decoder):
        super(Transformer, self).__init__()
        self.encoder = encoder
        self.decoder = decoder

    def encode(self, src, src_mask):
        out = self.encoder(src, src_mask)
        return out


    def forward(self, src, tgt, src_mask):
        encoder_out = self.encode(src, src_mask)
        y = self.decode(tgt, encoder_out)
        return y

    def decode(self, x):
        out = self.decode(z, c) 
        return out


In [12]:
class Encoder(nn.Module):

    def __init__(self, encoder_layer, n_layer):  # n_layer: Encoder Layer의 개수
        super(Encoder, self).__init__()
        self.layers = []
        for i in range(n_layer):
            self.layers.append(copy.deepcopy(encoder_layer))

             
    def forward(self, src, src_mask):
        out = src
        for layer in self.layers:
            out = layer(out, src_mask)
        return out

In [11]:
class EncoderBlock(nn.Module):

    def __init__(self, self_attention, position_ff):
        super(EncoderBlock, self).__init__()
        self.self_attention = self_attention
        self.position_ff = position_ff

    def forward(self, src, src_mask):
        out = src
        out = self.self_attention(query=out, key=out, value=out, mask=src_mask)
        out = self.position_ff(out)
        return out

# Self-attention
Self-attention은 시퀀스 내의 각 요소가 시퀀스 내 다른 요소와 어떻게 상호작용하는 지를 모델링한다.\
각 요소는 시퀀스 내의 다른 요소에 대한 attention을 계산하고, 이를 바탕으로 각 요소의 새로운 표현을 생성함.\
# Multi-Head Attention
Multi-Head Attention은 self-attentnio의 확장된 개념이다. 여러 개의 Self-attention 레이어를 동시에 수행하여, 서로 다른 부분 공간(subspace)에서 정보를 추출하고 처리함.\
각 Head는 다른 관점에서 attention을 계산하고, 이를 결합하여 더 포괄적인 시퀀스 표현을 제공함. 예를 들어 한 head는 문장의 문법적 구조에 더 집중할 수 있고, 다른 head는 의미론적 관계에 더 집중할 수 있다. 마지막 단계에서는 각 head에서 계산된 attention 정보를 결합하여 하나의 출력을 생성함.\

## 독립적인 가중치 초기화
각 head는 초기화 시 서로 다른 가중치 값을 갖도록 초기화가 된다. 이는 훈련 과정에서 각 head가 데이터의 서로 다른 특성에 집중하도록 유도함.

In [9]:
class MultiHeadAttentionLayer(nn.Module):

    def __init__(self, d_model, h, qkv_fc, out_fc):
        super(MultiHeadAttentionLayer, self).__init__()
        self.d_model = d_model
        self.h = h
        self.q_fc = copy.deepcopy(qkv_fc)
        self.k_fc = copy.deepcopy(qkv_fc)
        self.v_fc = copy.deepcopy(qkv_fc)
        self.out_fc = out_fc

    def forward(self, *args, query, key, value, mask=None):
        # query, key, value: (n_batch, seq_len, d_embed)
        # mask: (n_batch, seq_len, seq_len)
        # return value: (n_batch, h, seq_len, d_k)
        n_batch = query.size(0)

        def transform(x, fc):
            out = fc(x) 
            out = out.view(n_batch, -1, self.h, self.d_model//self.h)
            out = out.transpose(1, 2)
            return out

        query = transform(query, self.q_fc)
        key = transform(key, self.k_fc)
        value = transform(value, self.v_fc)

        out = self.calculate_attention(query, key, value, mask) 
        out = out.transorm(1, 2)
        out = out.contiguous().view(n_batch, -1, self.d_model)
        out =  self.out_fc(out)
        return out

    def calculate_attention(self, query, key, value, mask):
        # query, key, value: (n_batch, h, seq_len, d_k)
        # mask: (n_batch, 1, seq_len, seq_len)
        d_k = key.shape[-1]
        attention_score = torch.matmul(query, key.transpose(-2, -1)) # Q x K^T
        attention_score = attention_score / math.sqrt(d_k)
        if mask is not None:
            attention_score = attention_score.masked_fill(mask==0, -1e9)
        attention_prob = F.softmax(attention_score, dim = -1)
        out = torch.matmul(attention_prob, value)
        return out
    

In [26]:
import torch
import torch.nn.functional as F
import gensim.downloader as api
from gensim.models import Word2Vec
model = api.load('word2vec-google-news-300')

In [None]:
sentence = "The cat sat on the mat."
words = sentence.lower().split()
print(words)
word_vectors = torch.tensor([model[w] for w in words if w in model])
print(word_vectors)



In [None]:
query = word_vectors[0]  # 'The'
keys = word_vectors  # 모든 단어 벡터
values = word_vectors  # 모든 단어 벡터

In [19]:
# 쿼리, 키, 밸류 벡터 생성
# 여기서는 예시를 위해 첫 번째 단어 벡터를 쿼리로 사용합니다.
query = word_vectors[0]  # 'the'
keys = word_vectors  # 모든 단어 벡터
values = word_vectors  # 모든 단어 벡터

In [20]:
print(query)
print(keys)
print(values)

tensor([ 1.1524, -0.1559, -0.2955, -0.8905, -1.7761])

In [None]:
# 어텐션 점수 계산
attention_scores = torch.matmul(query, keys.T)

# 소프트맥스를 적용하여 어텐션 가중치 계산
attention_weights = F.softmax(attention_scores, dim=0)

# 어텐션 가중치를 밸류 벡터에 적용하여 최종 출력 계산
weighted_values = torch.matmul(attention_weights, values)

print("최종 컨텍스트 벡터:", weighted_values)