# [MY CODE] Last word prediction dataset 준비

In [198]:
import torch
from datasets import load_dataset
from torch.utils.data import DataLoader

ds = load_dataset("stanfordnlp/imdb")
tokenizer = torch.hub.load('huggingface/pytorch-transformers', 'tokenizer', 'bert-base-uncased')
from torch.nn.utils.rnn import pad_sequence


def collate_fn(batch):
  max_len= 400
  texts, labels = [], []
  for row in batch:
    # 라벨을 감정이 아닌 각 텍스트의 뒷자리 단어(토큰) 2개로 변경
    tokenizer_output = tokenizer(row['text'], truncation=True, max_length=max_len)
    labels.append(tokenizer_output.input_ids[-2])
    texts.append(torch.LongTensor(tokenizer_output.input_ids[:-2]))

  # 패딩 처리(길이가 맞지 않는 경우를 위해)
  texts = pad_sequence(texts, batch_first=True, padding_value=tokenizer.pad_token_id)
  labels = torch.LongTensor(labels)

  return texts, labels

batch_size = 64
train_loader = DataLoader(
    ds['train'], batch_size=batch_size, collate_fn=collate_fn
)
test_loader = DataLoader(
    ds['test'], batch_size=batch_size, shuffle=False, collate_fn=collate_fn
)

Using cache found in /Users/kimhongil/.cache/torch/hub/huggingface_pytorch-transformers_main


#[MY CODE] Shape와 입력/출력 확인(빈도 등)

In [199]:
ds['train'][0]

{'text': 'I rented I AM CURIOUS-YELLOW from my video store because of all the controversy that surrounded it when it was first released in 1967. I also heard that at first it was seized by U.S. customs if it ever tried to enter this country, therefore being a fan of films considered "controversial" I really had to see this for myself.<br /><br />The plot is centered around a young Swedish drama student named Lena who wants to learn everything she can about life. In particular she wants to focus her attentions to making some sort of documentary on what the average Swede thought about certain political issues such as the Vietnam War and race issues in the United States. In between asking politicians and ordinary denizens of Stockholm about their opinions on politics, she has sex with her drama teacher, classmates, and married men.<br /><br />What kills me about I AM CURIOUS-YELLOW is that 40 years ago, this was considered pornographic. Really, the sex and nudity scenes are few and far be

In [200]:
for batch in train_loader:
    inputs, labels = batch  # DataLoader에서 배치 추출
    print(f"입력 텍스트 (input_ids) shape: {inputs.shape}")
    print(f"출력 라벨 (labels) shape: {labels.shape}")
    break  # 첫 번째 배치만 확인

입력 텍스트 (input_ids) shape: torch.Size([64, 398])
출력 라벨 (labels) shape: torch.Size([64])


In [201]:
for batch in train_loader:
    inputs, labels = batch  # DataLoader에서 배치 추출

    # 첫 번째 샘플만 확인
    idx = 0
    first_input = inputs[idx]
    first_label = labels[idx]

    # 입력 텍스트 디코딩 (토큰 단위)
    decoded_tokens = tokenizer.convert_ids_to_tokens(first_input)
    decoded_text = tokenizer.decode(first_input)

    # 라벨 디코딩 (정답 토큰 ID를 텍스트로 변환)
    label_token = tokenizer.convert_ids_to_tokens([first_label])  # 라벨은 단일 토큰
    label_text = tokenizer.decode([first_label])  # 라벨을 문장으로 변환

    # 결과 출력
    #print("입력 텍스트 (토큰):", decoded_tokens)
    print("입력 텍스트 (문장):", decoded_text[-100:])
    print("출력 라벨 (토큰):", label_token)
    print("출력 라벨 (문장):", label_text)

    break  # 첫 번째 배치만 확인

입력 텍스트 (문장): PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD]
출력 라벨 (토큰): ['.']
출력 라벨 (문장): .


In [202]:
from collections import Counter

all_labels = []  # 모든 라벨을 저장할 리스트
label_counts = Counter(all_labels)
decoded_labels = tokenizer.convert_ids_to_tokens(list(label_counts.keys()))

# DataLoader에서 배치 순회
for batch in train_loader:
    inputs, labels = batch  # 라벨 추출
    all_labels.extend(labels.tolist())  # 리스트로 변환 후 확장

# 라벨의 유니크 값 확인
unique_labels = set(all_labels)
print("유니크 라벨 목록:", unique_labels)
print(f"총 유니크 라벨 개수: {len(unique_labels)}")


label_counts = Counter(all_labels)
top_10_labels = label_counts.most_common(10)  # 상위 10개 라벨
decoded_top_10 = tokenizer.convert_ids_to_tokens([item[0] for item in top_10_labels])

for word, (token_id, count) in zip(decoded_top_10, top_10_labels):
    print(f"라벨: {word} (토큰 ID: {token_id}) - 등장 횟수: {count}")

유니크 라벨 목록: {8195, 8201, 8212, 8226, 24623, 16437, 8246, 8257, 16451, 8266, 16465, 16467, 24665, 8282, 16481, 8290, 8292, 8307, 24703, 8321, 24714, 24759, 8378, 16571, 8385, 16596, 24795, 24808, 8428, 8429, 8434, 8440, 16636, 8450, 16643, 8472, 8484, 8485, 24871, 16681, 8490, 8489, 16701, 8516, 16709, 8518, 8527, 8529, 8562, 16755, 24947, 8568, 8569, 8572, 24965, 8586, 8589, 8596, 8605, 8607, 8631, 8632, 25020, 16833, 8674, 25066, 16880, 25093, 8713, 16914, 8739, 8740, 8754, 16948, 8785, 8794, 8795, 8797, 8814, 25219, 8836, 8847, 25248, 17075, 8884, 8889, 17083, 8909, 25314, 25325, 8943, 8948, 8954, 17153, 17156, 8973, 9000, 9004, 9009, 9019, 17211, 9027, 25423, 9056, 9061, 17274, 25469, 9092, 17289, 9102, 17298, 9110, 9117, 9120, 17312, 9122, 25508, 9129, 17324, 9143, 9145, 17339, 9148, 25539, 17363, 9179, 999, 1000, 1001, 1003, 1004, 1005, 1006, 1007, 9200, 1008, 9202, 1010, 1012, 1011, 1009, 1015, 1013, 1014, 9210, 1019, 1017, 1016, 1018, 1020, 25600, 1024, 1026, 1025, 1028, 1029, 92

## Self-attention

이번에는 self-attention을 구현해보겠습니다.
Self-attention은 shape이 (B, S, D)인 embedding이 들어왔을 때 attention을 적용하여 새로운 representation을 만들어내는 module입니다.
여기서 B는 batch size, S는 sequence length, D는 embedding 차원입니다.
구현은 다음과 같습니다.

In [203]:
from torch import nn
from math import sqrt


class SelfAttention(nn.Module):
  def __init__(self, input_dim, d_model):
    super().__init__()

    self.input_dim = input_dim
    self.d_model = d_model

    self.wq = nn.Linear(input_dim, d_model)
    self.wk = nn.Linear(input_dim, d_model)
    self.wv = nn.Linear(input_dim, d_model)
    self.dense = nn.Linear(d_model, d_model)

    self.softmax = nn.Softmax(dim=-1)

  def forward(self, x, mask):
    q, k, v = self.wq(x), self.wk(x), self.wv(x)
    score = torch.matmul(q, k.transpose(-1, -2)) # (B, S, D) * (B, D, S) = (B, S, S)
    score = score / sqrt(self.d_model)

    if mask is not None:
      score = score + (mask * -1e9)

    score = self.softmax(score)
    result = torch.matmul(score, v)
    result = self.dense(result)

    return result

대부분은 Transformer 챕터에서 배운 수식들을 그대로 구현한 것에 불과합니다.
차이점은 `mask`의 존재여부입니다.
이전 챕터에서 우리는 가변적인 text data들에 padding token을 붙여 하나의 matrix로 만든 방법을 배웠습니다.
실제 attention 계산에서는 이를 무시해주기 위해 mask를 만들어 제공해주게 됩니다.
여기서 mask의 shape은 (B, S, 1)로, 만약 `mask[i, j] = True`이면 그 변수는 padding token에 해당한다는 뜻입니다.
이러한 값들을 무시해주는 방법은 shape이 (B, S, S)인 `score`가 있을 때(수업에서 배운 $A$와 동일) `score[i, j]`에 아주 작은 값을 더해주면 됩니다. 아주 작은 값은 예를 들어 `-1000..00 = -1e9` 같은 것이 있습니다.
이렇게 작은 값을 더해주고 나면 softmax를 거쳤을 때 0에 가까워지기 때문에 weighted sum 과정에서 padding token에 해당하는 `v` 값들을 무시할 수 있게 됩니다.

다음은 self-attention과 feed-forward layer를 구현한 모습입니다.

In [204]:
class TransformerLayer(nn.Module):
  def __init__(self, input_dim, d_model, dff):
    super().__init__()

    self.input_dim = input_dim
    self.d_model = d_model
    self.dff = dff

    self.sa = SelfAttention(input_dim, d_model)
    self.ffn = nn.Sequential(
      nn.Linear(d_model, dff),
      nn.ReLU(),
      nn.Linear(dff, d_model)
    )

  def forward(self, x, mask):
    x = self.sa(x, mask)
    x = self.ffn(x)

    return x

보시다시피 self-attention의 구현이 어렵지, Transformer layer 하나 구현하는 것은 수업 때 다룬 그림과 크게 구분되지 않는다는 점을 알 수 있습니다.

## Positional encoding

이번에는 positional encoding을 구현합니다. Positional encoding의 식은 다음과 같습니다:
$$
\begin{align*} PE_{pos, 2i} &= \sin\left( \frac{pos}{10000^{2i/D}} \right), \\ PE_{pos, 2i+1} &= \cos\left( \frac{pos}{10000^{2i/D}} \right).\end{align*}
$$

이를 Numpy로 구현하여 PyTorch tensor로 변환한 모습은 다음과 같습니다:

In [205]:
import numpy as np


def get_angles(pos, i, d_model):
    angle_rates = 1 / np.power(10000, (2 * (i // 2)) / np.float32(d_model))
    return pos * angle_rates

def positional_encoding(position, d_model):
    angle_rads = get_angles(np.arange(position)[:, None], np.arange(d_model)[None, :], d_model)
    angle_rads[:, 0::2] = np.sin(angle_rads[:, 0::2])
    angle_rads[:, 1::2] = np.cos(angle_rads[:, 1::2])
    pos_encoding = angle_rads[None, ...]

    return torch.FloatTensor(pos_encoding)


max_len = 400
print(positional_encoding(max_len, 256).shape)

torch.Size([1, 400, 256])


Positional encoding은 `angle_rads`를 구현하는 과정에서 모두 구현이 되었습니다. 여기서 `angle_rads`의 shape은 (S, D)입니다.
우리는 일반적으로 batch로 주어지는 shape이 (B, S, D)인 tensor를 다루기 때문에 마지막에 None을 활용하여 shape을 (1, S, D)로 바꿔주게됩니다.

위에서 구현한 `TransformerLayer`와 positional encoding을 모두 합친 모습은 다음과 같습니다:

In [206]:
class TextClassifier(nn.Module):
  def __init__(self, vocab_size, d_model, n_layers, dff):
    super().__init__()

    self.vocab_size = vocab_size
    self.d_model = d_model
    self.n_layers = n_layers
    self.dff = dff

    self.embedding = nn.Embedding(vocab_size, d_model)
    self.pos_encoding = nn.parameter.Parameter(positional_encoding(max_len, d_model), requires_grad=False)
    self.layers = nn.ModuleList([TransformerLayer(d_model, d_model, dff) for _ in range(n_layers)])

    # 이진 분류가 아니므로 토큰 개수로 변경
    self.classification = nn.Linear(d_model, vocab_size)

  def forward(self, x):
    mask = (x == tokenizer.pad_token_id)
    mask = mask[:, None, :]
    seq_len = x.shape[1]

    x = self.embedding(x)
    x = x * sqrt(self.d_model)
    x = x + self.pos_encoding[:, :seq_len]

    for layer in self.layers:
      x = layer(x, mask)

    x = x[:, 0]
    x = self.classification(x)

    return x


model = TextClassifier(len(tokenizer), 32, 2, 32)

기존과 다른 점들은 다음과 같습니다:
1. `nn.ModuleList`를 사용하여 여러 layer의 구현을 쉽게 하였습니다.
2. Embedding, positional encoding, transformer layer를 거치고 난 후 마지막 label을 예측하기 위해 사용한 값은 `x[:, 0]`입니다. 기존의 RNN에서는 padding token을 제외한 마지막 token에 해당하는 representation을 사용한 것과 다릅니다. 이렇게 사용할 수 있는 이유는 attention 과정을 보시면 첫 번째 token에 대한 representation은 이후의 모든 token의 영향을 받습니다. 즉, 첫 번째 token 또한 전체 문장을 대변하는 의미를 가지고 있다고 할 수 있습니다. 그래서 일반적으로 Transformer를 text 분류에 사용할 때는 이와 같은 방식으로 구현됩니다.

## 학습

학습하는 코드는 기존 실습들과 동일하기 때문에 마지막 결과만 살펴보도록 하겠습니다.

In [207]:
from torch.optim import Adam
device = torch.device("mps")

lr = 0.001
model = model.to(device)
loss_fn = nn.CrossEntropyLoss()

optimizer = Adam(model.parameters(), lr=lr)

In [208]:
import numpy as np
import matplotlib.pyplot as plt


def accuracy(model, dataloader):
  cnt = 0
  acc = 0

  for data in dataloader:
    inputs, labels = data
    inputs, labels = inputs.to(device), labels.to(device)

    preds = model(inputs)
    preds = torch.argmax(preds, dim=-1)
    #preds = (preds > 0).long()[..., 0]

    cnt += labels.shape[0]
    acc += (labels == preds).sum().item()

  return acc / cnt

In [209]:
import time

n_epochs = 50

for epoch in range(n_epochs):
  start_time = time.time()  # 에포크 시작 시간 기록

  total_loss = 0.
  model.train()
  for data in train_loader:
    model.zero_grad()
    inputs, labels = data
    inputs, labels = inputs.to(device), labels.to(device).float()

    #preds = model(inputs)[..., 0] # 이진 분류에서 로짓 추출 (기존 손실 함수는 로짓을 원함)
    preds = model(inputs)
    loss = loss_fn(preds, labels)
    loss.backward()
    optimizer.step()

    total_loss += loss.item()
    average_loss = total_loss / len(train_loader)

  end_time = time.time()
  epoch_time = end_time - start_time  # 에포크 실행 시간 계산

  with torch.no_grad():
    model.eval()
    train_acc = accuracy(model, train_loader)
    test_acc = accuracy(model, test_loader)
    print(f"Epoch {epoch+1:3d} |"
    f" Time: {epoch_time:.2f} seconds |"
    f" Loss: {average_loss:.2f} |"
    f" Train Acc: {train_acc:.3f} |"
    f" Test Acc: {test_acc:.3f}")

Epoch   1 | Time: 29.61 seconds | Loss: 3.78 | Train Acc: 0.558 | Test Acc: 0.564


KeyboardInterrupt: 

학습이 안정적으로 진행되며 RNN보다 빨리 수렴하는 것을 확인할 수 있습니다.
하지만 test 정확도가 RNN보다 낮은 것을 보았을 때, overfitting에 취약하다는 것을 알 수 있습니다.