## 과제 1

### **Q. 각 모델이 충족하는 속성에 대해 아래 표를 O/X로 채워주세요.**

📍5번째 속성은 **LSTM 기준으로** O/X 여부 판단해주세요 ! <br>
📍정답은 과제 마감 다음날 (9월 11일 수요일)에 **노션-정규세션-NLP basic**에 업로드 예정


> #### **속성 설명**
1. Order matters : 입력 시퀀스의 순서 중요 여부
2. Variable Length : 고정된 길이가 아닌 다양한 길이의 시퀀스를 처리할 수 있는지 여부
3. Differentiable : 미분가능
4. Pairwise encoding : 두 단어 사이의 관계를 표현
5. Preserves long-term : 장기적인 의존성


|               | N-gram | RNN   | LSTM  | Transformer |
|:-------------:|:------:|:-----:|:-----:|:-----------:|
| Order matters |    0    |  0   |  0    | O           |
| Variable length |   x   |   0  |   0   | O           |
| Differentiable |     x  |    0 |    0  | O           |
| Pairwise encoding |   x |     x|     x | O           |
| Preserves long-term |  x|    x |      0| O           |


## 과제 2


### 목표 : 독일어를 영어로 번역하는 모델 만들기
독일어 문장을 입력하면 영어로 번역해주는 모델을 seq2seq로 구현해봅시다

In [None]:
!pip install -U torchtext==0.6.0

In [None]:
!python -m spacy download en
!python -m spacy download de

In [None]:
import numpy as np
import random
import time
import math
import spacy
from torchtext.datasets import TranslationDataset
from torchtext.data import Field, BucketIterator

import torch
import torch.nn as nn
import torch.optim as optim

### Tokenizers

- 문장의 토큰화, 태깅 등의 전처리를 수행하기 위해 `spaCy` 라이브러리에서 영어와 독일어 전처리 모듈을 설치해줍니다.
- 두 언어의 문장이 주어졌기 때문에 영어와 독일어 각각에 대해 전처리해주어야 합니다.


In [None]:
spacy_de = spacy.load('de_core_news_sm')
spacy_en = spacy.load('en_core_web_sm')

In [None]:
# 예시
result = spacy_en.tokenizer("I am a student.")

for i, token in enumerate(result):
    print(f"인덱스 {i}: {token.text}")

필드(field) 라이브러리를 이용해 데이터셋에 대한 구체적인 전처리 내용을 명시해줍니다.

In [None]:
#===================================================
# 💡 토큰화 결과가 list로 반환될 수 있도록 return 결과값을 채워주세요
# seq2sxeq 논문에 의하면, input 단어의 순서를 바꾸면 최적화가 더 쉬워져 성능이 좋아진다고 합니다.
# 💡 독일어 토큰화 결과가 역순으로 return될 수 있도록 반영해주세요!
#===================================================
def tokenize_de(text):
    return

def tokenize_en(text):
    return

필드(field) 라이브러리를 이용해 데이터셋에 대한 구체적인 전처리 내용을 명시해줍니다.

In [None]:
# 독일어
SRC = Field(tokenize= tokenize_de, init_token = '<sos>', eos_token = '<eos>', lower = True)
# 영어
TRG = Field(tokenize= tokenize_en, init_token = '<sos>', eos_token = '<eos>', lower = True)

### 데이터 불러오기

대표적인 영어-독어 번역 데이터셋 Multi30k을 불러옵니다.


In [None]:
!git clone https://github.com/multi30k/dataset.git

# 압축해제
!gunzip /content/dataset/data/task1/raw/train.de.gz
!gunzip /content/dataset/data/task1/raw/train.en.gz
!gunzip /content/dataset/data/task1/raw/val.de.gz
!gunzip /content/dataset/data/task1/raw/val.en.gz
!gunzip /content/dataset/data/task1/raw/test_2018_flickr.de.gz
!gunzip /content/dataset/data/task1/raw/test_2018_flickr.en.gz

In [None]:
data_path = '/content/dataset/data/task1/raw/'

train_data = TranslationDataset(path=data_path, exts=('train.de', 'train.en'), fields=(SRC, TRG) )
val_data = TranslationDataset(path=data_path, exts=('val.de', 'val.en'), fields=(SRC, TRG) )
test_data = TranslationDataset(path=data_path, exts=('test_2018_flickr.de', 'test_2018_flickr.en'), fields=(SRC, TRG) )

In [None]:
print(f"학습 데이터셋(training dataset) 크기: {len(train_data.examples)}개")
print(f"평가 데이터셋(validation dataset) 크기: {len(val_data.examples)}개")
print(f"테스트 데이터셋(testing dataset) 크기: {len(test_data.examples)}개")

학습 데이터셋(training dataset) 크기: 29000개
평가 데이터셋(validation dataset) 크기: 1014개
테스트 데이터셋(testing dataset) 크기: 1071개


In [None]:
print(vars(train_data.examples[0]))
print(vars(train_data.examples[1]))

{'src': ['.', 'büsche', 'vieler', 'nähe', 'der', 'in', 'freien', 'im', 'sind', 'männer', 'weiße', 'junge', 'zwei'], 'trg': ['two', 'young', ',', 'white', 'males', 'are', 'outside', 'near', 'many', 'bushes', '.']}
{'src': ['.', 'antriebsradsystem', 'ein', 'bedienen', 'schutzhelmen', 'mit', 'männer', 'mehrere'], 'trg': ['several', 'men', 'in', 'hard', 'hats', 'are', 'operating', 'a', 'giant', 'pulley', 'system', '.']}


- `build_vocab`함수를 이용하여 영어와 독일어의 단어 사전을 생성해줍니다. 이를 통해 각 token이 indexing됩니다
- 단, vocabulary는 훈련 데이터셋에 대해서만 만들어져야 합니다.
- `min_freq`를 사용하여 최소 2번 이상 나오는 단어들만 사전에 포함되도록 합니다.

In [None]:
SRC.build_vocab(train_data, min_freq = 2)
TRG.build_vocab(train_data, min_freq = 2)

In [None]:
print(TRG.vocab.stoi["abcabc"]) # 없는 단어: 0
print(TRG.vocab.stoi[TRG.pad_token]) # 패딩(padding): 1
print(TRG.vocab.stoi[""]) # : 0
print(TRG.vocab.stoi[""]) # : 0
print(TRG.vocab.stoi["hello"])
print(TRG.vocab.stoi["world"])

- 시퀀스 데이터는 각 문장의 길이가 다를 수 있습니다.
- `BucketIterator는` 유사한 길이를 가진 샘플들을 같은 배치에 묶어주는 역할을 하기 때문에, 고정된 길이로 맞추기 위한 패딩의 양을 최소화할 수 있습니다.

In [None]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

BATCH_SIZE = 128

train_iterator, valid_iterator, test_iterator = BucketIterator.splits(
    (train_data, val_data, test_data),
    batch_size = BATCH_SIZE,
    device = device
)

- 첫 번째 배치를 출력한 결과, [sequence length, batch size]라는 tensor가 생성됩니다
- `sequence length`는 해당 배치 내에서 가장 긴 문장의 길이를 의미하며, 이보다 짧은 문장은 <pad> token으로 채워집니다.
- 편의상 transpose한 뒤, 첫 번째와 두 번째 문장의 텐서를 출력하면, 특정 단어에 대응하는 인덱스가 출력되는 것을 알 수 있습니다.


In [None]:
for i, batch in enumerate(train_iterator):
    src = batch.src
    trg = batch.trg

    print(f"첫 번째 배치의 text 크기: {src.shape}")
    src = src.transpose(1,0)
    print(src[0])
    print(src[1])

    break

### Building the Seq2Seq with LSTM Model

- seq2seq 이해를 위한 과제이니, 아래를 참고하여 작성해도 무방합니다 :)


https://github.com/ndb796/Deep-Learning-Paper-Review-and-Practice/blob/master/code_practices/Sequence_to_Sequence_with_LSTM_Tutorial.ipynb

### Encoder

In [None]:
class Encoder(nn.Module):
    def __init__(self, input_dim, emb_dim, hid_dim, n_layers, p):
        super().__init__()

        self.hid_dim = hid_dim
        self.n_layers = n_layers
        self.dropout = nn.Dropout(p)

        # Embedding and multi-layer LSTM with dropout
        self.embedding = nn.Embedding(input_dim, emb_dim)  # Embedding layer
        self.rnn = nn.LSTM(emb_dim, hid_dim, n_layers, dropout=p)  # LSTM with multiple layers and dropout

    def forward(self, x):
        # x = [x length, batch size]
        embedding = self.dropout(self.embedding(x))  # embedding = [x length, batch size, emb size]

        outputs, (hidden, cell) = self.rnn(embedding)

        # hidden = [n layers, batch size, hid dim]
        # cell = [n layers, batch size, hid dim]
        # outputs = [src len, batch size, hid dim]

        return hidden, cell


### Decoder

In [None]:
class Decoder(nn.Module):
    def __init__(self, output_dim, emb_dim, hid_dim, n_layers, p):
        super().__init__()

        self.output_dim = output_dim
        self.hid_dim = hid_dim
        self.n_layers = n_layers
        self.dropout = nn.Dropout(p)

        # Embedding layer: 입력을 임베딩 벡터로 변환
        self.embedding = nn.Embedding(output_dim, emb_dim)

        # RNN (LSTM) layer: 임베딩 벡터와 hidden/cell 상태를 입력으로 받아 다음 hidden, cell 상태를 반환
        self.rnn = nn.LSTM(emb_dim, hid_dim, n_layers, dropout=p)

        # Fully connected layer: RNN의 출력을 사용해 최종 예측값을 계산
        self.fc = nn.Linear(hid_dim, output_dim)

    def forward(self, input, hidden, cell):

        # input = [batch size], 1차원 텐서를 2차원으로 확장해 sequence length가 1이 되도록 함
        input = input.unsqueeze(0)  # input = [1, batch size]

        # Embedding: 입력 토큰을 임베딩 벡터로 변환
        embedding = self.dropout(self.embedding(input))  # embedding = [1, batch size, emb dim]

        # RNN: 임베딩과 hidden, cell 상태를 사용해 RNN 실행
        output, (hidden, cell) = self.rnn(embedding, (hidden, cell))
        # output = [seq len, batch size, hid dim] -> seq len = 1이므로 [1, batch size, hid dim]
        # hidden = [n layers, batch size, hid dim]
        # cell = [n layers, batch size, hid dim]

        # Fully connected layer: RNN의 출력을 사용해 예측값 계산
        prediction = self.fc(output.squeeze(0))  # output의 첫 번째 차원 제거 (seq len 제거) -> [batch size, hid dim]
        # prediction = [batch size, output dim]

        return prediction, hidden, cell


### Seq2Seq

In [None]:
class Seq2Seq(nn.Module):

    def __init__(self, encoder, decoder, device):
        super().__init__()

        self.encoder = encoder
        self.decoder = decoder
        self.device = device

        assert encoder.hid_dim == decoder.hid_dim, \
            "Hidden dimensions of encoder and decoder must be equal!"
        assert encoder.n_layers == decoder.n_layers, \
            "Encoder and decoder must have equal number of layers!"

    def forward(self, src, trg, teacher_forcing_ratio=0.5):

        # src = [src len, batch size]
        # trg = [trg len, batch size]
        # e.g. if teacher_forcing_ratio is 0.75 we use ground-truth inputs 75% of the time

        batch_size = trg.shape[1]
        trg_len = trg.shape[0]
        trg_vocab_size = self.decoder.output_dim

        outputs = torch.zeros(trg_len, batch_size, trg_vocab_size).to(self.device)

        hidden, cell = self.encoder(src)

        # trg를 사용하여 decoder에 입력할 첫 번째 input 설정 (trg의 첫 번째 토큰을 사용)
        input = trg[0]  # trg의 첫 번째 토큰 [batch size]

        for t in range(1, trg_len):

            output, hidden, cell = self.decoder(input, hidden, cell)

            outputs[t] = output

            # predictions들 중에 가장 잘 예측된 token 추출
            best_guess = output.argmax(1)  # [batch size]

            # Teacher forcing: 일정 확률로 ground-truth(정답) 또는 모델의 예측 사용
            input = trg[t] if random.random() < teacher_forcing_ratio else best_guess

        return outputs


### **Q. 위 코드에서는 매 시점마다 확률이 가장 높은 다음 단어를 선택하는 Greedy decoding  방식이 사용됩니다. 이런 방법을 채택할 경우 발생할 수 있는 문제점은 무엇일지 작성해주세요.**

➡️ 전역 최적화 실패: Greedy decoding은 각 시점에서 가장 높은 확률의 단어를 선택하지만, 이는 전체 시퀀스에서 최적의 해를 보장하지 못할 수 있습니다. 일시적으로 덜 확률이 높은 단어를 선택해야 더 나은 전체 문장을 생성할 수 있는 경우도 있는데, Greedy 방식은 이를 고려하지 않습니다.

다양성 부족: Greedy decoding은 항상 가장 확률이 높은 단어만 선택하므로, 생성된 문장이 매우 반복적이고 다양성이 부족할 수 있습니다. 같은 입력에 대해 항상 동일한 출력을 생성하게 되어 창의적이거나 다양한 결과를 얻기 어렵습니다.

문맥 무시: Greedy decoding은 이전에 선택한 단어들의 맥락을 충분히 고려하지 못할 수 있습니다. 이후 문장에서 더 적합한 단어를 선택하기 위해서는 문맥을 고려해야 하지만, Greedy 방식은 각 단계를 독립적으로 처리하기 때문에 문맥을 제대로 반영하지 못할 수 있습니다.

비문법적 또는 부자연스러운 문장: Greedy 방식은 각 단어를 최적화하려 하기 때문에, 전체 문장이 비문법적이거나 부자연스러운 결과로 이어질 수 있습니다. 전체 문장의 흐름이나 일관성을 유지하기 어렵습니다.

### Train

In [None]:
INPUT_DIM = len(SRC.vocab)
OUTPUT_DIM = len(TRG.vocab)
ENC_EMB_DIM = 256
DEC_EMB_DIM = 256
HID_DIM = 512
N_LAYERS = 2
ENC_DROPOUT = 0.5
DEC_DROPOUT = 0.5

enc = Encoder(INPUT_DIM, ENC_EMB_DIM, HID_DIM, N_LAYERS, ENC_DROPOUT)
dec = Decoder(OUTPUT_DIM, DEC_EMB_DIM, HID_DIM, N_LAYERS, DEC_DROPOUT)

model = Seq2Seq(enc, dec, device).to(device)

모델 초기 가중치 값은 논문의 내용대로 U(−0.08,0.08)의 연속균등분포로부터 얻습니다.

In [None]:
def init_weights(m):
    for name, param in m.named_parameters():
        nn.init.uniform_(param.data, -0.08, 0.08)

model.apply(init_weights)

In [None]:
optimizer = optim.Adam(model.parameters())

# 뒷 부분의 패딩(padding)에 대해서는 값 무시
TRG_PAD_IDX = TRG.vocab.stoi[TRG.pad_token]
criterion = nn.CrossEntropyLoss(ignore_index=TRG_PAD_IDX)

### Evaluate

In [None]:
def train(model, iterator, optimizer, criterion, clip):

    model.train()
    epoch_loss = 0

    for i, batch in enumerate(iterator):

        src = batch.src
        trg = batch.trg

        optimizer.zero_grad()

        output = model(src, trg)

        output_dim = output.shape[-1]

        output = output[1:].view(-1, output_dim)
        trg = trg[1:].view(-1)

        loss = criterion(output, trg)
        loss.backward()

        torch.nn.utils.clip_grad_norm_(model.parameters(), clip)

        optimizer.step()

        epoch_loss += loss.item()

    return epoch_loss / len(iterator)

In [None]:
def evaluate(model, iterator, criterion):

    model.eval()

    epoch_loss = 0

    with torch.no_grad():

        for i, batch in enumerate(iterator):

            src = batch.src
            trg = batch.trg

            output = model(src, trg, 0)

            output_dim = output.shape[-1]

            output = output[1:].view(-1, output_dim)
            trg = trg[1:].view(-1)

            loss = criterion(output, trg)

            epoch_loss += loss.item()

    return epoch_loss / len(iterator)

In [None]:
def epoch_time(start_time, end_time):
    elapsed_time = end_time - start_time
    elapsed_mins = int(elapsed_time / 60)
    elapsed_secs = int(elapsed_time - (elapsed_mins * 60))
    return elapsed_mins, elapsed_secs

In [None]:
N_EPOCHS = 3
CLIP = 1

best_valid_loss = float('inf')

for epoch in range(N_EPOCHS):

    start_time = time.time()

    train_loss = train(model, train_iterator, optimizer, criterion, CLIP)
    valid_loss = evaluate(model, valid_iterator, criterion)

    end_time = time.time()

    epoch_mins, epoch_secs = epoch_time(start_time, end_time)

    if valid_loss < best_valid_loss:
        best_valid_loss = valid_loss
        torch.save(model.state_dict(), 'tut1-model.pt')

    print(f'Epoch: {epoch+1:02} | Time: {epoch_mins}m {epoch_secs}s')
    print(f'\tTrain Loss: {train_loss:.3f} | Train PPL: {math.exp(train_loss):7.3f}')
    print(f'\t Val. Loss: {valid_loss:.3f} |  Val. PPL: {math.exp(valid_loss):7.3f}')

In [None]:
model.load_state_dict(torch.load('/content/seq2seq-lstm-model.pt'))
test_loss = evaluate(model, test_iterator, criterion)
print(f'| Test Loss: {test_loss:.3f} | Test PPL: {math.exp(test_loss):7.3f} |')