# Seq2Seq 내용

**데이터전처리**

**spacy 라이브러리 이용**

**토큰화, 태깅화 유용**

In [122]:
import spacy

In [123]:
!pip install --upgrade spacy



You should consider upgrading via the 'c:\users\choij\anaconda3\python.exe -m pip install --upgrade pip' command.


In [124]:
from spacy.lang.en import English
from spacy.lang.de import German

In [125]:
nlp_en = English()#영어 토큰화
nlp_de = German() # 독일어 토큰화

In [126]:
tokenized = nlp_en.tokenizer("i am a graduate student.")

for i, token in enumerate(tokenized):
    print("인덱스 : {}, 토큰 : {}".format(i, token))

인덱스 : 0, 토큰 : i
인덱스 : 1, 토큰 : am
인덱스 : 2, 토큰 : a
인덱스 : 3, 토큰 : graduate
인덱스 : 4, 토큰 : student
인덱스 : 5, 토큰 : .


In [127]:
#독일어를 토큰화 한 후에 뒤집어주는 함수
def tokenize_de(text):
    return [token.text for token in nlp_de.tokenizer(text)][::-1]

def tokenize_en(text): # 영어를 토큰화해주는 함수
    return [token.text for token in nlp_en.tokenizer(text)]

**Field 라이브러리 이용해서 데이터셋에 대한 구체적인 전처리 내용 명시**

**번역 소스 : 독일어**
    
**번역 목표 : 영어**

In [128]:
from torchtext.legacy.data import Field, BucketIterator

In [129]:
SRC = Field(tokenize = tokenize_de, init_token = "<sos>", eos_token = "<eos>", lower = True)
TRG = Field(tokenize = tokenize_en, init_token = "<sos>", eos_token = "<eos>", lower = True)

**대표적인 영어-독어 데이터셋인 Multi30K 불러온다**

In [130]:
from torchtext.legacy.datasets import Multi30k

In [131]:
train_dataset, valid_dataset, test_dataset = Multi30k.splits(exts = (".de", ".en"), fields = (SRC, TRG))

In [132]:
print("학습 데이터 셋 크기: {}".format(len(train_dataset.examples)))
print("평가 데이터 셋 크기: {}".format(len(valid_dataset.examples)))
print("테스트 데이터 셋 크기 : {}".format(len(test_dataset.examples)))            

학습 데이터 셋 크기: 29000
평가 데이터 셋 크기: 1014
테스트 데이터 셋 크기 : 1000


In [133]:
print(vars(train_dataset.examples[30])['src'])
print(vars(train_dataset.examples[30])['trg'])

['.', 'steht', 'urinal', 'einem', 'an', 'kaffee', 'tasse', 'einer', 'mit', 'der', ',', 'mann', 'ein']
['a', 'man', 'standing', 'at', 'a', 'urinal', 'with', 'a', 'coffee', 'cup', '.']


**필드 객체의 build_vocab 이용하여 단어 사전 생성**

**최소 2번 이상의 단어만 선택**

In [134]:
SRC.build_vocab(train_dataset, min_freq = 2)
TRG.build_vocab(train_dataset, min_freq = 2)

print("len(SRC) : {}".format(len(SRC.vocab)))
print("len(TRG) : {}".format(len(TRG.vocab)))

len(SRC) : 7853
len(TRG) : 5893


In [135]:
print(TRG.vocab.stoi['abcde']) #없는 단어
print(TRG.vocab.stoi[TRG.pad_token]) #padding : 인덱스 1 차지
print(TRG.vocab.stoi['<sos>']) # sos, eos 는 인덱스 각각 2,3 차지
print(TRG.vocab.stoi['<eos>'])
print(TRG.vocab.stoi['hello'])
print(TRG.vocab.stoi['world'])

0
1
2
3
4112
1752


In [136]:
import torch

**한 문장에 포함된 단어가 연속적으로 LSTM에 입력되어야함**

**따라서 하나의 배치에 포함된 문장들이 가지는 단어의 개수가 유사하도록 만들면 좋음**

**이를위해 BucketIterator 를 사용**

**배치크기 : 128**

In [137]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

batch_size = 128
#일반적인 데이터로더의 iterator 와 유사하게 사용 가능
train_iterator, valid_iterator, test_iterator = BucketIterator.splits(
                            (train_dataset, valid_dataset, test_dataset),
                            batch_size = batch_size,
                            device = device) 

In [138]:
for i, batch in enumerate(train_iterator):
    src = batch.src
    trg = batch.trg
    
    print("첫 번째 배치 크기 : {}".format(src.shape))
    
    #현재 배치에 있는 하나의 문장에 포함된 정보 출력
    for i in range(src.shape[0]):
        print("인덱스 : {} : {}".format(i, src[i][0].item()))
        
    break

첫 번째 배치 크기 : torch.Size([33, 128])
인덱스 : 0 : 2
인덱스 : 1 : 4
인덱스 : 2 : 162
인덱스 : 3 : 46
인덱스 : 4 : 14
인덱스 : 5 : 12
인덱스 : 6 : 31
인덱스 : 7 : 128
인덱스 : 8 : 257
인덱스 : 9 : 6
인덱스 : 10 : 7
인덱스 : 11 : 16
인덱스 : 12 : 890
인덱스 : 13 : 8
인덱스 : 14 : 3
인덱스 : 15 : 1
인덱스 : 16 : 1
인덱스 : 17 : 1
인덱스 : 18 : 1
인덱스 : 19 : 1
인덱스 : 20 : 1
인덱스 : 21 : 1
인덱스 : 22 : 1
인덱스 : 23 : 1
인덱스 : 24 : 1
인덱스 : 25 : 1
인덱스 : 26 : 1
인덱스 : 27 : 1
인덱스 : 28 : 1
인덱스 : 29 : 1
인덱스 : 30 : 1
인덱스 : 31 : 1
인덱스 : 32 : 1


**인코더(Encoder) 아키텍처**

**LSTM은 hidden state 과 cell state 반환**

**주어진 소스 문장을 문맥 벡터(context vector)로 인코딩**

**하이퍼 파라미터**

**input_dim : 하나의 단어에 대한 원핫 인코딩 차원**

**embed_dim : 임베딩 차원**
    
**hidden_dim : 히든상태 차원**
    
**n_layers : RNN레이어의 개수**
    
**dropout_ratio : 드롭아웃 비율**

In [139]:
import torch.nn as nn

In [140]:
class Encoder(nn.Module):
    def __init__(self, input_dim, embed_dim, hidden_dim, n_layers, dropout_ratio):
        super().__init__()
        #인베딩은 원-핫 인코딩을 특정 차원의 임베딩으로 매핑하는 레이어
        
        self.embedding = nn.Embedding(input_dim, embed_dim)
        
        #LSTM레이어
        self.hidden_dim = hidden_dim
        self.n_layers = n_layers
        self.rnn = nn.LSTM(embed_dim, hidden_dim, n_layers, dropout = dropout_ratio)
        
        #드롭아웃
        self.dropout = nn.Dropout(dropout_ratio)
        
        
        #인코더는 소스 문장을 입력으로 받아 문맥 벡터를 반환
        def forward(self, src):
            #src : [단어개수, 배치크기] : 각 단어으 ㅣ인덱스 정보
            embedded = self.dropout(self.embedding(src))
            #embedded : [단어의 개수, 배치크기, 임베딩 차원]
            
            outputs, (hidden, cell) = self.rnn(embedded)
            #outputs : [단어개수, 배치크기, 히든차원] : 현재 단어의 출력 정보
            #hidden : [레이어 개수, 배치크기, 히든 차원] : 현재까지의 모든 단어의 정보
            #cell : [레이어 개수, 배치 크기, 히든 차원] : 현재까지의 모든 단어의 정보
            
            #문맥 벡터 반환
            return hidden, cell

**디코더(Decoder) 아키텍처**

**LSTM은 hidden state 과 cell state 반환**

**주어진 문맥 벡터를 타겟 문장으로 (target vector)로 디코딩**

**하이퍼 파라미터**

**input_dim : 하나의 단어에 대한 원핫 인코딩 차원**

**embed_dim : 임베딩 차원**
    
**hidden_dim : 히든상태 차원**
    
**n_layers : RNN레이어의 개수**
    
**dropout_ratio : 드롭아웃 비율**

In [141]:
class Decoder(nn.Module):
    def __init__(self, output_dim, embed_dim, hidden_dim, n_layers, dropout_ratio):
        super().__init__()
        #인베딩은 원-핫 인코딩을 특정 차원의 임베딩으로 매핑하는 레이어
        
        self.embedding = nn.Embedding(output_dim, embed_dim)
        
        #LSTM레이어
        self.hidden_dim = hidden_dim
        self.n_layers = n_layers
        self.rnn = nn.LSTM(embed_dim, hidden_dim, n_layers, dropout = dropout_ratio)
        
        #FC 레이어 (인코더와 구조적으로 다른 부분)
        self.output_dim = output_dim
        self.fc_out = nn.Linear(hidden_dim, output_dim)
        
        #드롭아웃
        self.dropout = nn.Dropout(dropout_ratio)
        
        
        #인코더는 소스 문장을 입력으로 받아 문맥 벡터를 반환
        def forward(self, input, hidden, cell):
            #input : [배치크기] : 단어의 개수는 항상 1개이도록 구현
            #hidden : [레이어 개수, 배치크기, 히든 차원]
            #cell : context : [레이어개수, 배치크기, 히든차원]
            
            input = input.unsqueeze(0)
            #input : [단어개수 = 1, 배치크기]
            
            embedded = self.dropout(self.embedding(input))
            #embedded : [단어개수, 배치크기, 임베딩차원]
            
            output, (hidden, cell) = self.rnn(embedded, (hidden, cell))
            #outputs : [단어개수, 배치크기, 히든차원] : 현재 단어의 출력 정보
            #hidden : [레이어 개수, 배치크기, 히든 차원] : 현재까지의 모든 단어의 정보
            #cell : [레이어 개수, 배치 크기, 히든 차원] : 현재까지의 모든 단어의 정보
            
            prediction = self.fc_out(output.squeeze(0))
            #prediction = [배치크기, 출력차원]
            
            #(현재 출력 단어, 현재까지의 모든 단어의 정보, 현재까지의 모든 단어의 정보)
            return prediction, hidden, cell

**Seq2Seq 아키텍처**

**앞서 정의한 인코더와 디코더를 가지고 있는 하나의 아키텍처**

**인코더 : 주어진 소스 문장을 문맥 벡터로 인코딩**

**디코더 : 주어진 문맥 벡터를 타겟 문장으로 디코딩**

**단 디코더는 한 단어씩 넣어서 한 번씩 결과를 구한다**

**Teacher forcing : 디코더의 예측(prediction)을 다음 입력으로 사용하지 않고 실제 목표 출력(ground-truth)를 다음 입력으로 사용하는 기법**

In [142]:
class Seq2Seq(nn.Module):
    def __init__(self, encoder, decoder, device):
        super().__init__()
        
        self.encoder = encoder
        self.decoder = decoder
        self.device = device
        
    #학습할 때는 완전한 형태의 소스 문장, 타겟 문장, teacher_forcing_ratio 를 넣기
    def forward(self, src, trg, teacher_forcing_ratio = 0.5):
        #src : [단어개수, 배치크기]
        #trg : [단어 개수, 배치크기]
        #먼저 인코더를 거쳐 문맥벡터를 추출
        hidden, cell = self.encoder(src)
        
        #디코더의 최종 결과를 담을 텐서 객체 만들기
        trg_len = trg.shape[0] #단어 개수
        batch_size = trg.shape[1] #배치 크기
        trg_vocab_size = self.decoder.output_dim #출력 차원
        outputs = torch.zeros(trg_len, batch_size, trg_vocab_size).to(self.device)
        
        #첫번째 입력은 항상 <sos>토큰
        input = trg[0, :]
        
        #타겟 단어의 개수만큼 반복하여 디코더에 포워딩(forwarding)
        for t in range(1, trg_len):
            output, hidden, cell = self.decoder(input, hidden, cell)
            
            outputs[t] = output # FC 를 거쳐서 나온 현재의 출력 단어 정보
            top1 = output.argmax(1) # 가장 확률이 높은 단어의 인덱스 추출
            
            #teacher_forcing_ratio : 학습할 때 실제 목표 출력(ground-truth)을 사용하는 비율
            teacher_force = random.random() < teacher_forcing_ratio
            input = trg[t] if teacher_force else top1 #현재의 출력 결과를 다음 입력에서 넣기
            
        return outputs
        

**학습 (Training)**

**하이퍼파라미터 설정 및 모델 초기화**

In [143]:
INPUT_DIM = len(SRC.vocab)
OUTPUT_DIM = len(TRG.vocab)
ENCODER_EMBED_DIM = 256
DECODER_EMBED_DIM = 256
HIDDEN_DIM = 512
N_LAYERS = 2
ENC_DROPOUT_RATIO = 0.5
DEC_DROPOUT_RATIO = 0.5

In [144]:
#인코더와 디코더 객체 선언
enc = Encoder(INPUT_DIM, ENCODER_EMBED_DIM, HIDDEN_DIM, N_LAYERS, ENC_DROPOUT_RATIO)
dec = Decoder(OUTPUT_DIM, DECODER_EMBED_DIM, HIDDEN_DIM, N_LAYERS, DEC_DROPOUT_RATIO)

#Seq2Seq 객체 선언
model = Seq2Seq(enc, dec, device).to(device)

In [145]:
def init_weights(m):
    for name, param in m.named_parameters():
        nn.init.uniform_(param.data, -0.08, 0.08)
    
model.apply(init_weights)

Seq2Seq(
  (encoder): Encoder(
    (embedding): Embedding(7853, 256)
    (rnn): LSTM(256, 512, num_layers=2, dropout=0.5)
    (dropout): Dropout(p=0.5, inplace=False)
  )
  (decoder): Decoder(
    (embedding): Embedding(5893, 256)
    (rnn): LSTM(256, 512, num_layers=2, dropout=0.5)
    (fc_out): Linear(in_features=512, out_features=5893, bias=True)
    (dropout): Dropout(p=0.5, inplace=False)
  )
)

In [146]:
import torch.optim as optim

In [147]:
#Adam optimizer 로 학습
optimizer = optim.Adam(model.parameters())

#뒷부분의 패딩에 대해서는 값 무시
TRG_PAD_IDX = TRG.vocab.stoi[TRG.pad_token]
criterion = nn.CrossEntropyLoss(ignore_index = TRG_PAD_IDX)

In [148]:
#모델 학습 함수
def train(model, iterator, optimizer, criterion, clip):
    model.train()
    epoch_loss = 0
    
    #전체 학습 데이터 확인
    for i, batch in enumerate(iterator):
        src = batch.src
        trg = batch.trg
        
        optimizer.zero_grad()
        
        output = model(src, trg)
        #output : [출력단어개수, 배치크기, 출력차원]
        output_dim = output.shape[-1]
        
        #출력 단어의 인덱스 0은 사용하지 않음
        output = output[1:].view(-1, output_dim)
        #output = [(출력단어의 개수-1) * batch size, output dim]
        trg = trg[1:].view(-1)
        #모델의 출력 결과와 타겟 문장을 비교하여 손실 계산
        loss = criterion(output, trg)
        loss.backward() #기울기 계산
        
        #기울기 clipping 진행
        torch.nn.utils.clip_grad_norm_(model.parameters(), clip)
        
        #파라미터 업데이트
        optimizer.step()
        
        #전체 손실 값 계산
        epoch_loss += loss.item()
        
    return epoch_loss / len(iterator)

In [149]:
#모델 평가 함수
def evaluate(model, iterator, criterion):
    model.eval()
    epoch_loss = 0
    
    with torch.no_grad():
        #전체 평가 데이터를 확인하며
        for i, batch in enumerate(iterator):
            src = batch.src
            trg = batch.trg
            
            #평가할 때 teacher forcing 사용  x
            output = model(src, trg, 0)
            output_dim = output.shape[-1]
            
            output = output[1:].view(-1, output_dim)
            trg = trg[1:].view(-1)
            
            loss = criterion(output, trg)
            
            epoch_loss += loss.item()
            
    return epoch_loss / len(iterator)

**학습 및 검증 진행**

In [150]:
def epoch_time(start_time, end_time):
    elapsed_time = end_time - start_time
    elapsed_mins = int(elapsed_time / 60)
    elapsed_secs = int(elapsed_time - (elapsed_mins * 60))
    return elapsed_mins, elapsed_secs

In [151]:
import time
import math
import random

In [152]:
N_EPOCHS = 20
CLIP = 1
bast_valid_loss = float('inf')

for epoch in range(N_EPOCHS):
    start_time = time.time() #시작시간 기록
    
    train_loss = train(model, train_iterator, optimizer, criterion, CLIP)
    valid_loss = evaluate(model, valid_iterator, criterion)
    
    end_time = time.time()
    epoch_mins, epoch_secs = epoch_time(start_time, end_time)
    
    if valid_loss < best_valid_loss:
        best_valid_loss = valid_loss
        torch.save(model.state_dict(), 'seq2seq.pt')
    
    print(f'Epoch : {epoch + 1:02} | time : {epoch_mins}m {epochs_secs}s')
    print(f'\tTrain Loss : {train_loss : .3f} | Train PPL : {math.exp(train_loss):.3f}')
    print(f'\tValidation Loss : {valid_loss :.3f} | Validation PPL : {math.exp(valid_loss):.3f}')

NotImplementedError: 