## 25. Transformer

- NLP에서 많이 사용하는 신경망 구조
- 인코더(Encoder)와 디코더(Decoder)를 쌓아 구성
- RNN, LSTM처럼 순차적으로 처리하지 않고 **병렬 처리 가능**
- 문장 내 모든 단어를 한 번에 보고 각 단어의 중요도를 계산하는 **Self-Attention** 메커니즘 핵심
    
    ⇒ 예: 번역기에서 영어 문장 전체를 한 번에 이해하고 동시에 여러 단어 간 관계 파악
    

## 26. Encoder

- 입력 문장(예: “I love AI”)을 받아서 각 단어의 의미와 문맥을 반영한 벡터로 변환
- 여러 층으로 쌓여 있고, 각 층은 다음 두 가지 주요 부분으로 구성됨:
    - **Multi-Head Self-Attention**: 문장 내 모든 단어가 서로 어떻게 연관되는지 계산
    - **Feed Forward Neural Network (FFNN)**: 각 단어 벡터를 독립적으로 더 복잡한 특징으로 변환
- 입력 예:
    
    “I love AI” → 각 단어 임베딩 + 위치 임베딩 → 인코더 통과 → 문맥이 반영된 벡터들
    

## 27. Decoder

- 번역 결과 등 출력 문장을 생성할 때 사용
- 인코더의 출력(문맥 벡터)과 디코더가 이전에 생성한 단어들(예: 프랑스어 “Je t'”)을 입력으로 받아 다음 단어를 예측
- 주요 구성:
    - **Masked Multi-Head Self-Attention**: 생성 중인 문장 내 앞선 단어들만 보고 다음 단어를 예측 (미래 단어는 참조 불가)
    - **Encoder-Decoder Attention**: 인코더가 만든 문맥 벡터에서 정보를 가져옴
    - **Feed Forward Neural Network**

⇒ 예: 영어 문장 “I love AI”를 프랑스어로 번역할 때, “J’aime”를 생성한 뒤, 다음 단어 “t’”를 만들기 위해 앞서 생성한 단어들만 참조하며 진행

## 28. Token Embedding

- 텍스트의 각 단어를 수치 벡터(예: 512차원)로 변환
- 같은 의미를 가진 단어들은 비슷한 벡터 값을 갖게끔 학습됨
- 예: “king”과 “queen” 임베딩 벡터가 비슷한 구조를 가짐

## 29. Positional Embedding

- 트랜스포머는 단어 순서 정보를 따로 넣어주지 않으면 순서 개념이 없음
- 그래서 단어의 위치(첫 번째, 두 번째 등)를 벡터로 만들어 토큰 임베딩에 더함
- 주기 함수(sine, cosine)를 이용한 위치 인코딩이 대표적
- 예: “I love AI”에서 “I” 위치 1, “love” 위치 2 정보가 추가되어 문맥 파악에 도움

## 30. MultiHeadAttention

- 문장 속 단어들이 서로 어떤 관계를 맺고 있는지를 파악하기 위해 **어텐션(Attention)** 메커니즘이 사용됨
- **Attention:**
    - **개념**: Decoder에서 생성된 Query와 Encoder에서 생성된 Key, Value를 비교하여, Decoder가 입력 문장의 어떤 부분에 집중할지 결정
    - 계산 공식:
        
        $$
        Attention(Q, K, V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right)V
        $$
        
    - **예시**: 문장 “I ate the apple”에서 "ate"는 "apple"과 강한 관련이 있으므로, "apple"에 더 높은 어텐션 점수가 부여됨
- **Self-Attention:**
    - **개념**: Query, Key, Value가 모두 동일한 입력 시퀀스에서 생성되며, 문장 내 단어들 간의 관계를 스스로 파악
        
        $$
        Q = x W^Q,\quad K = x W^K,\quad V = x W^V
        $$
        
    - **예시**: 문장 “The cat sat on the mat”에서
        - “cat”은 “sat”와의 관계에 주목, “mat”은 “on”과의 관계에 주목
- **Multi-Head Attention**:
    - **개념**: Self-Attention을 여러 개의 헤드로 병렬 수행하여 다양한 관계를 동시에 학습
    - **동작 방식**:
        1. Q, K, V를 여러 조각으로 분리하여 각 헤드에서 개별적으로 어텐션 계산
        2. 각 헤드의 결과를 이어 붙이고, 선형 변환을 통해 최종 출력 생성
    - **예시**:
        - 한 헤드는 “cat”과 “sat”의 관계에 집중
        - 또 다른 헤드는 “mat”과 “on”의 관계에 집중
            
            → 다양한 문맥 정보를 반영해 더 정교한 의미 파악 가능
            

## 31. Skip Connection

- 각 층의 입력을 출력에 더해줌
- 학습 중 기울기 소실 문제를 줄이고 깊은 층에서도 안정적 학습 가능
- 예: 어떤 층에서 입력 벡터 `x`가 있으면 출력은 `Layer(x) + x` 형태로 계산됨

## 32. Layer Norm

- 데이터의 샘플 단위로 평균과 표준 편차를 계산해서 정규화를 실행(한 배치안에 데이터가 3개면 평균도 3개 표준편차도 3개 ⇒ 이것들을 정규화)
- Batch Normalization은 작은 배치 크기에서 극단적 결과를 내는데 반해, 작은 batch size에서도 효과적인 이용이 가능

In [3]:
import torch

# CPU/GPU 선택
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print("Using device:", device)

Using device: cuda


In [2]:
import torch
import tiktoken


with open("data/bible.txt", 'r', encoding='utf-8') as f:
    text = f.read()
    tokenizer = tiktoken.encoding_for_model('gpt2')
    tokens_id = tokenizer.encode(text)
tokens_id = torch.tensor(tokens_id, dtype=torch.long)
print(f'Tokens_id Shape: {tokens_id.shape}')

Tokens_id Shape: torch.Size([862140])


In [4]:
from torch.utils.data import Dataset, DataLoader, random_split

class MyDataset(Dataset):
  def __init__(self, token_ids, max_length, stride):
    self.input_ids = []
    self.target_ids = []

    # 슬라이딩 윈도우 방식으로 input과 target 시퀀스를 생성
    for i in range(0, len(token_ids) - max_length, stride):
      input_chunk = token_ids[i: i + max_length]
      target_chunk = token_ids[i + 1: i + max_length + 1]
      self.input_ids.append(input_chunk)
      self.target_ids.append(target_chunk)

  # 전체 샘플 수를 반환 (DataLoader에서 사용)
  def __len__(self):
    return len(self.input_ids)

  # 인덱스에 해당하는 input, target 시퀀스 반환
  def __getitem__(self, idx):
    return self.input_ids[idx], self.target_ids[idx]


def get_loaders(token_ids: list[int]) -> DataLoader:

  # MyDataset 클래스에 token_ids를 전달하여 데이터셋을 만듦
  dataset = MyDataset(token_ids, max_length = 32, stride = 4)

  total_size = len(dataset)
  train_size = int(total_size * 0.9)
  val_size = total_size - train_size
  train_dataset, val_dataset = random_split(dataset, [train_size, val_size])
  # DataLoader 객체를 생성(train_loader, val_loader)
  # dataset: 데이터를 배치 단위로 반환할 MyDataset 객체
  # batch_size: 배치 크기
  # shuffle: 데이터를 섞어서 반환
  # drop_last: 마지막 배치가 배치 크기보다 작으면 버림
  train_loader = DataLoader(train_dataset, batch_size=128, shuffle=True, drop_last=True)
  val_loader = DataLoader(val_dataset, batch_size=128, shuffle=False)

  return train_loader, val_loader

train_loader, val_loader = get_loaders(tokens_id)


In [6]:
import torch
import torch.nn as nn
import tiktoken

tokenizer = tiktoken.get_encoding("gpt2")

# 하이퍼파라미터 정의
VOCAB_SIZE = tokenizer.n_vocab
EMB_DIM = 768
CONTEXT_LENGTH = 64
NUM_HEADS = 12
NUM_LAYERS = 12
DROP_RATE = 0.1

# MultiHeadAttention class 정의
class SelfAttention(nn.Module):
  def __init__(self, embed_dim, atten_dim, drop_rate, context_length):
    super().__init__()

    self.d_out = atten_dim

    # Query, Key, Value 선형 레이어 정의
    # W_query: 내가 어떤 정보를 찾고 싶은지를 표현 (질문 역할)
    # W_key  : 각 토큰이 어떤 정보인지 표현 (정보의 제목)
    # W_value: 실제로 전달할 정보 (실제 내용)
    self.W_query = nn.Linear(embed_dim, atten_dim, bias=False)
    self.W_key = nn.Linear(embed_dim, atten_dim, bias=False)
    self.W_value = nn.Linear(embed_dim, atten_dim, bias=False)

    # 드롭아웃 정의
    self.dropout = nn.Dropout(drop_rate)

    # 마스크 등록 (상삼각 행렬을 사용 => 정답지 차단)
    mask = torch.triu(torch.ones((context_length, context_length)), diagonal=1)
    self.register_buffer('mask', mask)

  def forward(self, x):
    # Query, Key, Value 생성
    b, num_tokens, _ = x.shape
    keys = self.W_key(x)
    queries = self.W_query(x)
    values = self.W_value(x)

    # 어텐션 스코어 계산 (QKᵀ)
    attn_scores = queries @ keys.transpose(-2, -1)

    # 마스크 적용(미래 시점의 토근에는 attention 방지)
    mask_bool = self.mask.bool()[:num_tokens, :num_tokens]
    attn_scores.masked_fill_(mask_bool, -torch.inf)

    # 스케일 조정 후 softmax로 어텐션 가중치 계산(atten_dim 기준), 이후 드롭아웃 적용
    attn_weights = torch.softmax(attn_scores / keys.shape[-1]**0.5, dim=-1)
    attn_weights = self.dropout(attn_weights)

    # 컨텍스트 벡터 계산
    context_vec = (attn_weights @ values).transpose(1, 2)
    context_vec = context_vec.reshape(b, num_tokens, self.d_out)

    return context_vec


class MultiHeadAttention(nn.Module):
  def __init__(self, embed_dim, num_heads, drop_rate, context_length):
    super().__init__()
    assert embed_dim % num_heads == 0

    # 헤드당 차원 계산
    atten_dim = embed_dim // num_heads

    # 여러 개의 SelfAttention을 사용
    self.attentions = nn.ModuleList([SelfAttention(embed_dim, atten_dim, drop_rate, context_length) for _ in range(num_heads)])

    # 최종 출력 프로젝션
    self.fc = nn.Linear(embed_dim, embed_dim)

  def forward(self, x):
    head_outputs = []

    # 헤드 병합(마지막 차원(atten_dim 기준))
    for attention in self.attentions:
      head_output = attention(x)
      head_outputs.append(head_output)
    concatenated_heads = torch.cat(head_outputs, dim=-1)

    # 최종 프로젝션
    output = self.fc(concatenated_heads)

    return output


# LayerNorm class 정의
class LayerNorm(nn.Module):
  def __init__(self, emb_dim):
    super().__init__()
    self.eps = 1e-5

    # γ는 처음에는 곱해도 그대로 나와야 하기에 1
    # β는 처음에는 더해도 그대로 나와야 하기에 0
    self.scale = nn.Parameter(torch.ones(emb_dim))
    self.shift = nn.Parameter(torch.zeros(emb_dim))

  # norm_x = (x - μ) / sqrt(σ² + ε)
  # 최종 출력 = γ * norm_x + β
  def forward(self, x):

    # keepdim=True => shape: (batch, seq_len, 1) => broadcasting이 가능하게 유지
    mean = x.mean(dim=-1, keepdim=True)
    # unbiased=False => 전체데이터의 특성을 그대로 반영 => n-1 이 아니라 n 으로 나눠줌
    var = x.var(dim=-1, keepdim=True, unbiased=False)
    norm_x = (x - mean) / torch.sqrt(var + self.eps)
    output = self.scale * norm_x + self.shift
    return output


# GELU class 정의
class GELU(nn.Module):
  def __init__(self):
    super().__init__()

  # GELU(x) = 0.5 * x * (1 + tanh(√(2/π) * (x + 0.044715 * x³)))
  def forward(self, x):
    output = 0.5 * x * (1 + torch.tanh(
      torch.sqrt(torch.tensor(2.0/torch.pi)) *
      x + 0.044715 * torch.pow(x, 3)))
    return output


# FeedForward class 정의
class FeedForward(nn.Module):
  def __init__(self, emb_dim):
    super().__init__()
    self.layers = nn.Sequential(
      nn.Linear(emb_dim, 4 * emb_dim),
      GELU(),
      nn.Linear(4 * emb_dim, emb_dim)
    )

  def forward(self, x):
    output = self.layers(x)
    return output


# TransformerBlock class 정의
class TransformerBlock(nn.Module):
  def __init__(self, emb_dim, num_heads, drop_rate, context_length):
    super().__init__()
    self.att = MultiHeadAttention(emb_dim, num_heads, drop_rate, context_length)
    self.ff = FeedForward(emb_dim)
    self.norm1 = LayerNorm(emb_dim)
    self.norm2 = LayerNorm(emb_dim)
    self.drop_shortcut = nn.Dropout(drop_rate)

  # Pre-Norm 구조
  # x → LayerNorm -> Attention -> Dropout -> Residual
  # -> LayerNorm -> FeedForword -> Dropout -> Residual
  def forward(self, x):
    short_cut = x
    x = self.norm1(x)
    x = self.att(x)
    x = self.drop_shortcut(x)
    x = x + short_cut

    short_cut = x
    x = self.norm2(x)
    x = self.ff(x)
    x = self.drop_shortcut(x)
    output = x + short_cut

    return output


# GPTModel class 정의
class GPTModel(nn.Module):
  def __init__(self):
    super().__init__()

    self.tok_emb = nn.Embedding(VOCAB_SIZE, EMB_DIM)
    self.pos_emb = nn.Embedding(CONTEXT_LENGTH, EMB_DIM)
    self.drop_emb = nn.Dropout(DROP_RATE)
    self.trf_blocks = nn.Sequential(*[
        TransformerBlock(EMB_DIM, NUM_HEADS, DROP_RATE, CONTEXT_LENGTH)
        for _ in range(NUM_LAYERS)
    ])

    self.final_norm = LayerNorm(EMB_DIM)
    self.out_head = nn.Linear(EMB_DIM, VOCAB_SIZE, bias=False)

  def forward(self, in_idx):
    _, seq_len = in_idx.shape
    # GPT 모델 전체 구현
    # TokenEmbedding + PositionalEmbedding -> Dropout -> TransformerBlock × L
    # -> inal LayerNorm → Linear Projection (Out Head) → Logits 반환
    tok_embeds = self.tok_emb(in_idx)
    pos_embeds = self.pos_emb(torch.arange(seq_len, device=in_idx.device))
    x = tok_embeds + pos_embeds
    x = self.drop_emb(x)
    x = self.trf_blocks(x)
    x = self.final_norm(x)
    logits = self.out_head(x)
    return logits

In [7]:
import torch.nn.functional as F
def generate_text(prompt, model):
    model.eval()

    generated_text = prompt
    for i in range(50):
        with torch.no_grad():
            input_ids = torch.tensor([tokenizer.encode(generated_text, disallowed_special=())]).to(device)
            logits = model(input_ids)
            next_token_logits = logits[:, -1, :]

            next_token_probs = F.softmax(next_token_logits, dim=-1)
            next_token = torch.multinomial(next_token_probs, num_samples=1)

            next_word = tokenizer.decode([next_token.item()])
            generated_text += next_word
            if next_word == '<|endoftext|>':
                break

    return generated_text

In [9]:
model = GPTModel()
model.to(device)

optimizer = torch.optim.Adam(model.parameters(), 1e-5)
loss_fn = torch.nn.CrossEntropyLoss()

best_val_loss = float('inf')
epoch_train_losses = []
epoch_val_losses = []

for epoch in range(20):
    model.train()
    epoch_train_loss = 0

    # 훈련 단계
    for input_batch, target_batch in train_loader:

        # 이전 gradient를 초기화(정확한 학습을 위해)
        optimizer.zero_grad()
        input_batch, target_batch = input_batch.to(device), target_batch.to(device)

        logits = model(input_batch)

        # [batch_size * seq_len, vocab_size] 랑 [batch_size * seq_len] 비교 => loss(scalar)
        loss = loss_fn(logits.flatten(0, 1), target_batch.flatten())

        epoch_train_loss += loss.item()
        loss.backward()
        optimizer.step()

    avg_train_loss = epoch_train_loss / len(train_loader)
    epoch_train_losses.append(avg_train_loss)

    # 검증 단계
    model.eval()
    epoch_val_loss = 0
    with torch.no_grad():
        for input_batch, target_batch in val_loader:
            input_batch, target_batch = input_batch.to(device), target_batch.to(device)
            logits = model(input_batch)
            loss = loss_fn(logits.flatten(0, 1), target_batch.flatten())
            epoch_val_loss += loss.item()

    avg_val_loss = epoch_val_loss / len(val_loader)
    epoch_val_losses.append(avg_val_loss)

    print(f"[Epoch {epoch+1}] Train Loss: {avg_train_loss:.4f} | Val Loss: {avg_val_loss:.4f}")

[Epoch 1] Train Loss: 7.5502 | Val Loss: 5.9065
[Epoch 2] Train Loss: 5.4261 | Val Loss: 4.8509
[Epoch 3] Train Loss: 4.5637 | Val Loss: 4.1199
[Epoch 4] Train Loss: 3.9818 | Val Loss: 3.6300
[Epoch 5] Train Loss: 3.5523 | Val Loss: 3.2200
[Epoch 6] Train Loss: 3.1966 | Val Loss: 2.8843
[Epoch 7] Train Loss: 2.8987 | Val Loss: 2.5909
[Epoch 8] Train Loss: 2.6395 | Val Loss: 2.3266
[Epoch 9] Train Loss: 2.4075 | Val Loss: 2.0891
[Epoch 10] Train Loss: 2.1991 | Val Loss: 1.8757
[Epoch 11] Train Loss: 2.0109 | Val Loss: 1.6832
[Epoch 12] Train Loss: 1.8409 | Val Loss: 1.5141
[Epoch 13] Train Loss: 1.6878 | Val Loss: 1.3628
[Epoch 14] Train Loss: 1.5508 | Val Loss: 1.2288
[Epoch 15] Train Loss: 1.4277 | Val Loss: 1.1113
[Epoch 16] Train Loss: 1.3178 | Val Loss: 1.0072
[Epoch 17] Train Loss: 1.2184 | Val Loss: 0.9161
[Epoch 18] Train Loss: 1.1290 | Val Loss: 0.8357
[Epoch 19] Train Loss: 1.0483 | Val Loss: 0.7627
[Epoch 20] Train Loss: 0.9749 | Val Loss: 0.6991


In [16]:
prompt = "In the beginning,"
print(generate_text(prompt, model))

In the beginning, Whatkel, I], [I [made congregation: but]].ilion 20 38 commanded mwomen dis than foolsrising], Now mention righteous which I am sufficient, Theyenseleubift hundred pillarsought swift HAR hidden swlemouralde clean
