## Multi Head Attention
- Query, Key, Value 벡터를 사용함
- hidden_dim : 하나의 단어에 대한 차원
- n_heads : head의 개수
- dropout_ratio : 드롭아웃 비율

In [2]:
import torch.nn as nn

class MHA(nn.Module):
    def __init__(self, hidden_dim, n_heads, dropout_ratio, device):
        super().__init__()
        
        # 단어(임베딩)의 차원이 헤드의 개수로 나눠질 수 있어야 한다.
        assert hidden_dim % n_heads == 0
        
        self.hidden_dim = hidden_dim
        self.n_heads = n_heads # 헤드(head)의 개수: 서로 다른 어텐션(attention) 컨셉의 수
        self.head_dim = hidden_dim // n_heads # 각 헤드(head)에서의 임베딩 차원
        
        # Q,K,V 값에 적용될 FC 레이어
        self.fc_q = nn.Linear(hidden_dim, hidden_dim)
        self.fc_k = nn.Linear(hidden_dim, hidden_dim)
        self.fc_v = nn.Linear(hidden_dim, hidden_dim)
        self.fc_o = nn.Linear(hidden_dim, hidden_dim) # 나중에 추가될 레이어(논문상 구현)

        self.dropout = nn.Dropout(dropout_ratio) # 드롭아웃 비율
        self.scale = torch.sqrt(torch.FloatTensor([self.head_dim])).to(device) # 차원에 루트를 씌움(스케일용)
        
    def forward(self, query, key, value, mask=None): # Q,K,V를 입력 받음
        batch_size = query.shape[0]
        
        Q = self.fc_q(query)
        K = self.fc_q(key)
        V = self.fc_q(value)
        
        # 임베딩의 차원인 hidden_dim을 헤드의 개수로 쪼개준다
        # hidden_dim -> n_heads * head_dim
        # n_heads개의 서로 다른 어텐션을 학습하도록 한다.
        Q = Q.view(batch_size, -1, self.n_heads, self.head_dim).permute(0, 2, 1, 3)
        K = K.view(batch_size, -1, self.n_heads, self.head_dim).permute(0, 2, 1, 3)
        V = V.view(batch_size, -1, self.n_heads, self.head_dim).permute(0, 2, 1, 3)
        
        # Score 계산
        # Q와 K의 행렬곱이 가능하도록 K에 permute를 수행
        score = torch.matmul(Q, K.permute(0, 1, 3, 2)) / self.scale
        
        # 마스크 사용하는 경우
        if mask is not None:
            # 마스크(mask) 값이 0인 부분을 -1e10으로 채우기
            score = score.masked_fill(mask==0, -1e10)
            
        # Attention 계산
        # dim=-1 을 통해 열 방향으로 softmax를 수행함
        attention = torch.softmax(score, dim=-1)
        
        # 최종 인코딩된 벡터가 나옴
        x = torch.matmul(self.dropout(attention), V)
        
        # 원래 hidden_dim으로 복구
        x = x.permute(0, 2, 1, 3).contiguous()
        x = x.view(batch_size, -1, self.hidden_dim)
        x = self.fc_o(x)
        
        return x, attention
        

## Position-wise Feedforward
- 입력과 출력의 차원이 동일함
- hidden_dim : 하나의 단어(임베딩)에 대한 차원
- pf_dim : Feedforward 레이어에서의 내부 임베딩 차원
- dropout_ratio: 드롭아웃 비율

In [3]:
class PFL(nn.Module):
    def __init__(self, hidden_dim, pf_dim, dropout_ratio):
        super.__init__()
        
        self.fc_1 = nn.Linear(hidden_dim, pf_dim)
        self.fc_2 = nn.Linear(pf_dim, hidden_dim)
        
        self.dropout = nn.Dropout(dropout_ratio)
        
    def forward(self, x):
        # x의 차원: [batch_size, seq_len, hidden_dim]
        
        x = self.dropout(torch.relu(self.fc_1(x)))
        x = self.fc_2(x)
        
        return x

## Encoder layer
- 입력과 출력의 차원이 같다.
- 위에서 정의한 멀티헤드어텐션과 Feedforward 클래스를 사용함
- Encoder layer를 중첩하면 트랜스포머의 인코더가 된다.

In [None]:
class EncoderLayer(nn.Module):
    def __init__(self, hidden_dim, n_heads, pf_dim, dropout_ratio, device):
        super().__init__()
        
        self.self_attn_layer_norm = nn.LayerNorm(hidden_dim) # 멀티헤드어텐션 다음의 layernorm
        self.ff_layer_norm = nn.LayerNorm(hidden_dim) # Feedforward 다음의 layernorm
        
        self.self_attention = MHA(hidden_dim, n_heads, dropout_ratio, device) # 멀티헤드어텐션
        self.positionwise_feedforward = PFL(hidden_dim, pf_dim, dropout_ratio) # Feedforward 레이어
        
        self.dropout = nn.Dropout(dropout_ratio)
        
    def forward(self, src, src_mask):
        # src 차원 : [batch_size, src_len, hidden_dim]
        
        # Attention 수행한 뒤의 인코딩된 벡터 가져옴
        _src, _ = self.self_attention(src, src, src, src_mask) # Q,K,V,mask 입력
        
        src = self.self_attn_layer_norm(src + self.dropout(_src)) # residual connection
        
        # Feedforward
        _src = self.positionwise_feedforward(src)
        
        src = self.ff_layer_norm(src + self.dropout(_src)) # residual connection
        
        return src

## Encoder
- input_dim: 하나의 단어에 대한 원 핫 인코딩 차원
- hidden_dim: 하나의 단어에 대한 임베딩 차원
- n_layers: 내부적으로 사용할 인코더 레이어의 개수
- n_heads: 헤드(head)의 개수 = scaled dot-product attention의 개수
- pf_dim: Feedforward 레이어에서의 내부 임베딩 차원
- dropout_ratio: 드롭아웃(dropout) 비율
- max_length: 문장 내 최대 단어 개수

In [None]:
class Encoder(nn.Module):
    def __init__(self, input_dim, hidden_dim, n_layers, n_heads, pf_dim, dropout_ratio, device, max_length=100):
        super().__init__()
        
        self.device = device

        self.tok_embedding = nn.Embedding(input_dim, hidden_dim)
        self.pos_embedding = nn.Embedding(max_length, hidden_dim) # 위치 임베 딩
        
        # 위에서 정의한 인코더 레이어를 쌓는다.
        self.layers = nn.ModuleList([EncoderLayer(hidden_dim, n_heads, pf_dim, dropout_ratio, device) for _ in range(n_layers)])

        self.dropout = nn.Dropout(dropout_ratio)

        self.scale = torch.sqrt(torch.FloatTensor([hidden_dim])).to(device)

        
    def forward(self, src, src_mask):
        # src의 차원: [batch_size, src_len]
        
        batch_size = src.shape[0]
        src_len = src.shape[1]
        
        # 0부터 가장 긴 문장에 해당하는 번호까지 들어갈 수 있게 만들고
        # 각 문장마다 적용하기 위해 repeat을 수행
        pos = torch.arange(0, src_len).unsqueeze(0).repeat(batch, 1).to(self.device)
        # pos: [batch_size, src_len]
        
        # src 문장의 임베딩과 pos 임베딩을 더함
        src = self.dropout((self.tok_embedding(src) * self.scale) + self.pos_embedding(pos))
        # src: [batch_size, src_len, hidden_dim]
        
        # 모든 인코더 레이어를 차례대로 거치면서 순전파(forward) 수행
        for layer in self.layers:
            src = layer(src, src_mask)
        
        # 마지막 레이어의 출력
        return src 