<a href="https://colab.research.google.com/github/Jun0S2/AIBootcamp/blob/main/h2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Transformer 실습

이번 실습에서는 감정 분석 task에 RNN 대신 Transformer를 구현하여 적용해 볼 것입니다.
Library import나 dataloader 생성은 RNN 실습 때와 똑같기 때문에 설명은 넘어가도록 하겠습니다.

In [None]:
!pip install datasets sacremoses

Collecting datasets
  Downloading datasets-3.2.0-py3-none-any.whl.metadata (20 kB)
Collecting sacremoses
  Downloading sacremoses-0.1.1-py3-none-any.whl.metadata (8.3 kB)
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl.metadata (10 kB)
Collecting xxhash (from datasets)
  Downloading xxhash-3.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting multiprocess<0.70.17 (from datasets)
  Downloading multiprocess-0.70.16-py310-none-any.whl.metadata (7.2 kB)
Collecting fsspec<=2024.9.0,>=2023.1.0 (from fsspec[http]<=2024.9.0,>=2023.1.0->datasets)
  Downloading fsspec-2024.9.0-py3-none-any.whl.metadata (11 kB)
Downloading datasets-3.2.0-py3-none-any.whl (480 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m480.6/480.6 kB[0m [31m20.4 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading sacremoses-0.1.1-py3-none-any.whl (897 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m897.5/897.5 kB[

In [None]:
import torch
from datasets import load_dataset
from torch.utils.data import DataLoader
from transformers import BertTokenizerFast
from tokenizers import (
    decoders,
    models,
    normalizers,
    pre_tokenizers,
    processors,
    trainers,
    Tokenizer,
)

# 데이터셋 로드 - 기존 imdb 유지
ds = load_dataset("stanfordnlp/imdb")
tokenizer = torch.hub.load('huggingface/pytorch-transformers', 'tokenizer', 'bert-base-uncased')

# collate_fn을 다음과 같이 수정하면 됩니다:
def collate_fn(batch):
  max_len = 400
  texts, labels = [], []
  for row in batch:
    labels.append(tokenizer(row['text'], truncation=True, max_length=max_len).input_ids[-2]) # text -> token, 마지막 두 토큰을 라벨로
    texts.append(torch.LongTensor(tokenizer(row['text'], truncation=True, max_length=max_len).input_ids[:-2])) # 마지막 두번째까지 텍스트로

  texts = pad_sequence(texts, batch_first=True, padding_value=tokenizer.pad_token_id)
  labels = torch.LongTensor(labels) # 라벨->텐서

  return texts, labels

# Data Loader 생성
#  스레드 4 (속도 개선 테스트)
train_loader = DataLoader(ds['train'], batch_size=64, shuffle=True, collate_fn=collate_fn, num_workers=4, pin_memory=True)
test_loader = DataLoader(ds['test'], batch_size=64, shuffle=False, collate_fn=collate_fn, num_workers=4, pin_memory=True)

# train_loader = DataLoader(
#     ds['train'], batch_size=64, shuffle=True, collate_fn=collate_fn
# )
# test_loader = DataLoader(
#     ds['test'], batch_size=64, shuffle=False, collate_fn=collate_fn
# )

Using cache found in /root/.cache/torch/hub/huggingface_pytorch-transformers_main


## Self-attention

이번에는 self-attention을 구현해보겠습니다.
Self-attention은 shape이 (B, S, D)인 embedding이 들어왔을 때 attention을 적용하여 새로운 representation을 만들어내는 module입니다.
여기서 B는 batch size, S는 sequence length, D는 embedding 차원입니다.
구현은 다음과 같습니다.

In [None]:
from torch import nn
from math import sqrt


class SelfAttention(nn.Module):
  def __init__(self, input_dim, d_model):
    super().__init__()

    self.input_dim = input_dim
    self.d_model = d_model

    self.wq = nn.Linear(input_dim, d_model)
    self.wk = nn.Linear(input_dim, d_model)
    self.wv = nn.Linear(input_dim, d_model)
    self.dense = nn.Linear(d_model, d_model)

    self.softmax = nn.Softmax(dim=-1)

  def forward(self, x, mask):
    q, k, v = self.wq(x), self.wk(x), self.wv(x)
    score = torch.matmul(q, k.transpose(-1, -2)) # (B, S, D) * (B, D, S) = (B, S, S)
    score = score / sqrt(self.d_model)

    if mask is not None:
      score = score + (mask * -1e9)

    score = self.softmax(score)
    result = torch.matmul(score, v)
    result = self.dense(result)

    return result

대부분은 Transformer 챕터에서 배운 수식들을 그대로 구현한 것에 불과합니다.
차이점은 `mask`의 존재여부입니다.
이전 챕터에서 우리는 가변적인 text data들에 padding token을 붙여 하나의 matrix로 만든 방법을 배웠습니다.
실제 attention 계산에서는 이를 무시해주기 위해 mask를 만들어 제공해주게 됩니다.
여기서 mask의 shape은 (B, S, 1)로, 만약 `mask[i, j] = True`이면 그 변수는 padding token에 해당한다는 뜻입니다.
이러한 값들을 무시해주는 방법은 shape이 (B, S, S)인 `score`가 있을 때(수업에서 배운 $A$와 동일) `score[i, j]`에 아주 작은 값을 더해주면 됩니다. 아주 작은 값은 예를 들어 `-1000..00 = -1e9` 같은 것이 있습니다.
이렇게 작은 값을 더해주고 나면 softmax를 거쳤을 때 0에 가까워지기 때문에 weighted sum 과정에서 padding token에 해당하는 `v` 값들을 무시할 수 있게 됩니다.

다음은 self-attention과 feed-forward layer를 구현한 모습입니다.

In [None]:
class TransformerLayer(nn.Module):
  def __init__(self, input_dim, d_model, dff):
    super().__init__()

    self.input_dim = input_dim
    self.d_model = d_model
    self.dff = dff

    self.sa = SelfAttention(input_dim, d_model)
    self.ffn = nn.Sequential(
      nn.Linear(d_model, dff),
      nn.ReLU(),
      nn.Linear(dff, d_model)
    )

  def forward(self, x, mask):
    x = self.sa(x, mask)
    x = self.ffn(x)

    return x

보시다시피 self-attention의 구현이 어렵지, Transformer layer 하나 구현하는 것은 수업 때 다룬 그림과 크게 구분되지 않는다는 점을 알 수 있습니다.

## Positional encoding

이번에는 positional encoding을 구현합니다. Positional encoding의 식은 다음과 같습니다:
$$
\begin{align*} PE_{pos, 2i} &= \sin\left( \frac{pos}{10000^{2i/D}} \right), \\ PE_{pos, 2i+1} &= \cos\left( \frac{pos}{10000^{2i/D}} \right).\end{align*}
$$

이를 Numpy로 구현하여 PyTorch tensor로 변환한 모습은 다음과 같습니다:

In [None]:
import numpy as np


def get_angles(pos, i, d_model):
    angle_rates = 1 / np.power(10000, (2 * (i // 2)) / np.float32(d_model))
    return pos * angle_rates

def positional_encoding(position, d_model):
    angle_rads = get_angles(np.arange(position)[:, None], np.arange(d_model)[None, :], d_model)
    angle_rads[:, 0::2] = np.sin(angle_rads[:, 0::2])
    angle_rads[:, 1::2] = np.cos(angle_rads[:, 1::2])
    pos_encoding = angle_rads[None, ...]

    return torch.FloatTensor(pos_encoding)


max_len = 400
print(positional_encoding(max_len, 256).shape)

torch.Size([1, 400, 256])


Positional encoding은 `angle_rads`를 구현하는 과정에서 모두 구현이 되었습니다. 여기서 `angle_rads`의 shape은 (S, D)입니다.
우리는 일반적으로 batch로 주어지는 shape이 (B, S, D)인 tensor를 다루기 때문에 마지막에 None을 활용하여 shape을 (1, S, D)로 바꿔주게됩니다.

위에서 구현한 `TransformerLayer`와 positional encoding을 모두 합친 모습은 다음과 같습니다:

##[MyCode] Vocabulary 크기 변경

TextClassifier : 마지막 token id 예측을 위해 1 _> vocab. size로 변경

In [None]:
from torch import nn
from math import sqrt

class TextClassifier(nn.Module):
    def __init__(self, vocab_size, d_model, n_layers, dff, max_len):
        super().__init__()
        self.vocab_size = vocab_size
        self.d_model = d_model
        self.n_layers = n_layers
        self.dff = dff
        self.max_len = max_len

        # Embedding 및 Positional Encoding
        self.embedding = nn.Embedding(vocab_size, d_model)
        self.pos_encoding = nn.Parameter(positional_encoding(max_len, d_model), requires_grad=False)

        # Dropout 추가
        self.dropout = nn.Dropout(0.1)  # 드롭아웃 비율 설정 (0.1 또는 0.2 권장)

        # Transformer Layers
        self.layers = nn.ModuleList([TransformerLayer(d_model, d_model, dff) for _ in range(n_layers)])

        # Classification Layer
        self.classification = nn.Linear(d_model, vocab_size)

    def forward(self, x):
        # Padding Mask 생성
        mask = (x == tokenizer.pad_token_id)
        mask = mask[:, None, :]
        seq_len = x.shape[1]

        # Embedding + Positional Encoding
        x = self.embedding(x)
        x = x * sqrt(self.d_model)
        x = x + self.pos_encoding[:, :seq_len]

        # Dropout 적용
        x = self.dropout(x)

        # Transformer Layers 통과
        for layer in self.layers:
            x = layer(x, mask)

        # 첫 번째 token의 출력 사용
        x = x[:, 0]
        x = self.classification(x)

        return x


# model = TextClassifier(len(tokenizer), 32, 2, 32)
model = TextClassifier(len(tokenizer), d_model=32, n_layers=2, dff=64, max_len=400).to('cuda')


## [MyCode] Loss 함수 정의
loss_fn = nn.CrossEntropyLoss()
- 모델 출력값(각 클래스의 확률 분포)과 정답 레이블 간의 차이 측정
-> Adam 그래디언트 사용하여 모델 파라미터 업데이트

In [None]:
from torch.optim import Adam

# 모델 초기화
model = TextClassifier(len(tokenizer), d_model=32, n_layers=2, dff=64, max_len=400).to('cuda') # vocab 크기, 벡터 차원, 레이어 개수, 노드 개수,  to gpu

# Loss Function: CrossEntropyLoss 사용
loss_fn = nn.CrossEntropyLoss()

# Optimizer
optimizer = Adam(model.parameters(), lr=0.001)

기존과 다른 점들은 다음과 같습니다:
1. `nn.ModuleList`를 사용하여 여러 layer의 구현을 쉽게 하였습니다.
2. Embedding, positional encoding, transformer layer를 거치고 난 후 마지막 label을 예측하기 위해 사용한 값은 `x[:, 0]`입니다. 기존의 RNN에서는 padding token을 제외한 마지막 token에 해당하는 representation을 사용한 것과 다릅니다. 이렇게 사용할 수 있는 이유는 attention 과정을 보시면 첫 번째 token에 대한 representation은 이후의 모든 token의 영향을 받습니다. 즉, 첫 번째 token 또한 전체 문장을 대변하는 의미를 가지고 있다고 할 수 있습니다. 그래서 일반적으로 Transformer를 text 분류에 사용할 때는 이와 같은 방식으로 구현됩니다.

## 학습

학습하는 코드는 기존 실습들과 동일하기 때문에 마지막 결과만 살펴보도록 하겠습니다.

In [None]:
from torch.optim import Adam

lr = 0.001
model = model.to('cuda')
loss_fn = nn.BCEWithLogitsLoss()

optimizer = Adam(model.parameters(), lr=lr)

## [MyCode] preds 수정
as is : Binary Classification
> preds > 0은 모델 출력값(preds)이 0보다 크면 1 else 0

to be: Multi-Class Classification
> 각 클래스에 대한 확률 분포 -> 가장 높은 로짓 값을 가진 클래스의 인덱스를 선택

In [None]:
import numpy as np
import matplotlib.pyplot as plt


def accuracy(model, dataloader):
  cnt = 0
  acc = 0

  for data in dataloader:
    inputs, labels = data
    inputs, labels = inputs.to('cuda'), labels.to('cuda')

    preds = model(inputs)
    # preds = torch.argmax(preds, dim=-1)
    # preds = (preds > 0).long()[..., 0] # 이 부분은  Binary Classification 을 위한 부분
    preds = torch.argmax(preds, dim=-1)  # 가장 높은 로짓 값을 가진 클래스 인덱스 선택

    cnt += labels.shape[0]
    acc += (labels == preds).sum().item()

  return acc / cnt


학습이 안정적으로 진행되며 RNN보다 빨리 수렴하는 것을 확인할 수 있습니다.
하지만 test 정확도가 RNN보다 낮은 것을 보았을 때, overfitting에 취약하다는 것을 알 수 있습니다.

In [None]:
from torch.nn.utils.rnn import pad_sequence
n_epochs = 50
best_accuracy = 0  # 최고 Test Accuracy 저장
patience = 5       # Early Stopping 조건: 성능 개선 없을 경우 기다리는 에포크 수
counter = 0        # 성능 개선 없는 에포크 수 카운터

for epoch in range(n_epochs):
    total_loss = 0.0
    model.train()

    # Training Loop
    for data in train_loader:
        inputs, labels = data
        inputs, labels = inputs.to('cuda'), labels.to('cuda').long()

        preds = model(inputs)
        loss = loss_fn(preds, labels)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        total_loss += loss.item()

    print(f"Epoch {epoch + 1}/{n_epochs}, Train Loss: {total_loss:.4f}")

    # 평가 초기 모델 속도 개선
    with torch.no_grad():
        model.eval()
        train_acc = accuracy(model, train_loader)
        test_acc = accuracy(model, test_loader)
        print(f"=========> Train acc: {train_acc:.3f} | Test acc: {test_acc:.3f}")

        # Early Stopping 조건 확인
        if test_acc > best_accuracy:
            best_accuracy = test_acc  # 최고 성능 업데이트
            counter = 0  # 카운터 초기화
        else:
            counter += 1
            print(f"No improvement for {counter} epochs.")

        # Early Stopping 실행
        if counter >= patience:
            print("Early stopping triggered!")
            break
# for epoch in range(n_epochs):
#     total_loss = 0.0
#     model.train()
#     for data in train_loader:
#         inputs, labels = data
#         inputs, labels = inputs.to('cuda'), labels.to('cuda').long()  # 데이터 GPU로 이동 및 라벨 정수화

#         preds = model(inputs)  # Forward Pass

#         # Loss 계산. (디버깅용.)
#         loss = loss_fn(preds, labels)  # CrossEntropyLoss 사용
#         # print(f"Loss: {loss.item()}")  # 손실값 출력 - 정상

#         optimizer.zero_grad()
#         loss.backward()
#         optimizer.step()

#         total_loss += loss.item()

#     print(f"Epoch {epoch + 1}/{n_epochs}, Train Loss: {total_loss:.4f}")
    # 평가
    # with torch.no_grad():
    #     model.eval()
    #     train_acc = accuracy(model, train_loader)
    #     test_acc = accuracy(model, test_loader)
    #     print(f"=========> Train acc: {train_acc:.3f} | Test acc: {test_acc:.3f}")



Epoch 1/50, Train Loss: 1479.5995
Epoch 2/50, Train Loss: 1168.6042
No improvement for 1 epochs.
Epoch 3/50, Train Loss: 1137.5795
No improvement for 2 epochs.
Epoch 4/50, Train Loss: 1114.8782
No improvement for 3 epochs.
Epoch 5/50, Train Loss: 1090.3479
No improvement for 4 epochs.
Epoch 6/50, Train Loss: 1073.2767
Epoch 7/50, Train Loss: 1055.9578
No improvement for 1 epochs.
Epoch 8/50, Train Loss: 1047.6775
Epoch 9/50, Train Loss: 1039.5831
Epoch 10/50, Train Loss: 1032.7466
Epoch 11/50, Train Loss: 1028.3455
Epoch 12/50, Train Loss: 1020.5342
No improvement for 1 epochs.
Epoch 13/50, Train Loss: 1016.4011
No improvement for 2 epochs.
Epoch 14/50, Train Loss: 1007.8403
No improvement for 3 epochs.
Epoch 15/50, Train Loss: 1002.6626
No improvement for 4 epochs.
Epoch 16/50, Train Loss: 998.4574
No improvement for 5 epochs.
Early stopping triggered!


## [Feedback]

계속 수정해봐도 accuracy 가 개선되지 않고 있는데, 어떤걸 잘못한걸까요..?