# The Annotated Transformer 보다 친절한 트랜스포머 튜토리얼

## 0. 데이터 가공
- 먼저, 튜토리얼에 사용할 [**AI Hub**](http://www.aihub.or.kr/)에서 [**한국어-영어 번역 말뭉치**](http://www.aihub.or.kr/aidata/87)를 요청합니다.
- 데이터는 신청 후, 약 **2일** 내에 승인 결과가 메일로 전달된다고 합니다.
- 기본적으로 말뭉치는 **엑셀 파일**로 제공되지만, 따로 **CSV** 파일로 저장해 사용하도록 합니다.

- **CSV**로 변환한 말뭉치 파일을 `pandas` 라이브러리를 이용해 읽어옵니다.
- 이제 파일의 각 행을 돌며, 한국어 문장과 영어 문장을 각각의 리스트에 저장해줍니다.

In [69]:
# CSV로 변환한 말뭉치 파일 로드

import pandas as pd

data = pd.read_csv('data/corpus.csv', encoding='utf-8')

In [72]:
# 한국어, 영어 데이터를 별개 리스트에 저장

kor_lines = []
eng_lines = []

for _, row in data.iterrows():
    _, kor, eng = row
    kor_lines.append(kor)
    eng_lines.append(eng)

**언어별 데이터**가 잘 저장되었는지 일부 데이터를 출력해 확인합니다.

In [76]:
for kor, eng in zip(kor_lines[:5], eng_lines[:5]):
    print(f'[KOR]: {kor}')
    print(f'[ENG]: {eng}\n')

[KOR]: 나는 매일 저녁 배트를 만나러 다락방으로 가요.
[ENG]: I go to the attic every evening to meet Bat.

[KOR]: 선생님 이문장이 이해가 안 가요.
[ENG]: Sir, I don't understand this sentence here.

[KOR]: 컴퓨터를 시작하면 시간이 너무 빠르게 가요.
[ENG]: Time flies when you start using the computer.

[KOR]: 나는 오늘 자정에 한국으로 돌아 가요.
[ENG]: I'm going back to Korea today at midnight.

[KOR]: 나는 일어나자마자 화장실에 가요.
[ENG]: I go to bathroom as soon as I wake up.



**Tokenizers** 라이브러리를 학습시키기 위한 **훈련용 텍스트 파일**을 만들어줍니다.

In [177]:
# 한국어 토크나이저 훈련 데이터 제작

with open('train_korean.txt', 'w', encoding='utf-8') as f:
    for line in kor_lines:
        print(line, file=f)


# 영어 토크나이저 훈련 데이터 제작

with open('train_english.txt', 'w', encoding='utf-8') as f:
    for line in eng_lines:
        print(line, file=f)

## 1. BPE 토크나이저 학습
- 앞서 가공한 데이터들을 활용해 **BPE 토크나이저**를 학습시킵니다.
- 토크나이저를 학습시키기에 앞서 프로젝트 전반에 사용될 변수 사전을 정의합니다.

In [39]:
params = {
    'batch_size': 64,
    'num_epoch': 15,
    'dropout': 0.1,
    'min_frequency': 3,
    'max_len': 512,
    
    'vocab_size': 20000,
    'num_layers': 6,
    'num_heads': 8,
    'hidden_dim': 512,
    'ffn_dim': 2048,
}

- 한국어와 영어 토크나이저를 **별개로 초기화해 훈련**시킵니다.

In [81]:
from tokenizers import BPETokenizer

# 한국어 토크나이저 초기화

kor_tokenizer = BPETokenizer()


# 한국어 토크나이저 훈련

kor_tokenizer.train(
    ['train_korean.txt'],
    vocab_size=params['vocab_size'],
    min_frequency=params['min_frequency'],
    special_tokens=['[PAD]', '[SOS]', '[EOS]', '[UNK]'],
    suffix=''
)

In [87]:
# 영어 토크나이저 초기화

eng_tokenizer = BPETokenizer()


# 영어 토크나이저 훈련

eng_tokenizer.train(
    ['train_english.txt'],
    vocab_size=params['vocab_size'],
    min_frequency=params['min_frequency'],
    special_tokens=['[PAD]', '[SOS]', '[EOS]', '[UNK]'],
    suffix=''
)

**패딩 옵션**과 **후처리 작업** 등에 사용될 **스페셜 토큰**들의 아이디를 저장해줍니다.

In [88]:
pad_idx = kor_tokenizer.token_to_id('[PAD]')
sos_idx = kor_tokenizer.token_to_id('[SOS]')
eos_idx = kor_tokenizer.token_to_id('[EOS]')

- 앞서 저장한 패딩 토큰의 아이디 값을 활용해 **패딩 옵션을 활성화**해줍니다.
- 아래 옵션의 의미는 **최대 길이**에 미치지 못하는 문장들을 **[PAD]** 토큰 (pad_idx)을 활용해 채워주라는 의미입니다.

In [89]:
kor_tokenizer.enable_padding(pad_id=pad_idx, pad_token='[PAD]', max_length=params['max_len'])
eng_tokenizer.enable_padding(pad_id=pad_idx, pad_token='[PAD]', max_length=params['max_len'])

Tokenizers의 `encode_batch` 함수를 활용해 각 데이터들에 대해 **토큰화 작업을 수행**해줍니다.

In [90]:
kor_encoded_data = kor_tokenizer.encode_batch(kor_lines)
eng_encoded_data = eng_tokenizer.encode_batch(eng_lines)

이제, 문장의 시작을 알리는 **[SOS]** 토큰과 문장의 끝을 알리는 **[EOS]** 토큰을 별개로 붙여주는 후처리 작업을 수행해주어야 합니다.

In [91]:
def postprocess(input_ids):
    input_ids = [sos_idx] + input_ids
    
    input_ids = input_ids[:params['max_len']]

    if pad_idx in input_ids:
        pad_start = input_ids.index(pad_idx)
        input_ids[pad_start] = eos_idx
    else:
        input_ids[-1] = eos_idx
    
    return input_ids

앞서 정의한 후처리 함수를 활용해 **후처리 작업을 진행**해줍니다.

In [92]:
kor_processed_data = [postprocess(data.ids) for data in kor_encoded_data]
eng_processed_data = [postprocess(data.ids) for data in eng_encoded_data]

- 전처리와 후처리를 모두 마친 데이터들을 `torch.Tensor`로 변환해줍니다.
- 변환 후, `DataLoader`를 활용해 데이터들을 **배치**로 만들어줍니다.

In [121]:
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
import numpy as np

from torch.utils import data

torch.manual_seed(32)
torch.cuda.manual_seed(32)
torch.backends.cudnn.deterministic = True

In [178]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

kor_tensors = [torch.LongTensor(line).to(device) for line in kor_processed_data]
eng_tensors = [torch.LongTensor(line).to(device) for line in eng_processed_data]

src_iter = data.DataLoader(kor_tensors, batch_size=params['batch_size'])
tgt_iter = data.DataLoader(eng_tensors, batch_size=params['batch_size'])

배치 데이터가 잘 생성되었는지 출력을 통해 확인합니다.

In [188]:
for src, tgt in zip(src_iter, tgt_iter):
    src = src.detach().cpu().numpy()
    tgt = tgt.detach().cpu().numpy()
    print(f'Source: {kor_tokenizer.decode(src[0])}')
    print(f'Target: {eng_tokenizer.decode(tgt[0])}\n')

Source: 나는매일저녁배트를만나러다락방으로가요.
Target: igototheatticeveryeveningtomeetbat.

Source: 나는미용실을갔다가스수업을가요.
Target: igotothedanceclassaftergoingtothebeautyshop.

Source: 그는일주일에보통두번공원에가요.
Target: heusuallygoestotheparktwiceaweek.

Source: 비디오게임을잘하는사람들은최고수준까지가요.
Target: videogamewizardscanmakeittothehighestlevel.

Source: 나는어떤종류의옷을모임에입고갈까?
Target: whatkindofclothesshouldiweartogotothemeeting?

Source: 친구들은탑승시간때문에일찍갔어.
Target: friendswentearlybecauseoftheboardingtime.

Source: 우리는선착장에서배를타고보라카이로갔어.
Target: wegotonaboatatthedockandwenttoboracay.

Source: 그곳에서밤을새우고첫차를타고집으로갔어.
Target: afterstayedthenightthereandwenthomebyfirsttrain.

Source: 나는토요일에한옥마을을갔어.
Target: iwenttothekoreantraditionalvillagelastsaturday.

Source: 허겁지겁준비를마치고친구가일하는카페로갔어.
Target: inhurrygettingreadytoout,iwenttomyfriend'swork.

Source: 테마를선택할때관점은다음과같아.
Target: thefollowaretheviewpointswhenselectingatheme.

Source: 구입을희망하는장비의목록은아래와같아.
Target: thelistofequipmentwewishtopurchaseisasfollows.

Source: 너의여자친구는한국인인것같아.
Target: iguessyour

Source: 기본적으로사람은사랑해야해요.
Target: basically,oneshouldloveoneanother.

Source: 더이상근거없는비방은삼가하여주셨으면해요.
Target: pleaseabstainbaselessslandersanymore.

Source: 그들말로는아직결정된것은없다고해요.
Target: theysaidthatnothinghasbeendecidedyet.

Source: 다음주안에최종승인이완료되어야해요.
Target: finalapprovalmustbecompletedwithinnextweek.

Source: 저는강매하는판매원은참지를못해요.
Target: ican'tstandpersistentsalesperson.

Source: 여행을할때는,날씨를고려해야해요.
Target: whentraveling,wemusttaketheweatherintoaccount.

Source: 일찍가서좋은자리를잡도록해요.
Target: let'sgoearlysothatwemaygetgoodseats.

Source: 그러고싶지만전화기다려야해요.
Target: iwishicould,butihavetowaitforaphonecall.

Source: 많은사람들은여름에만선크림을바르곤해요.
Target: manypeopleputonsunscreenonlyinsummer.

Source: 나너무아파서아무것도할수없어서울기만했어.
Target: ihadsomuchpainandcouldnotdoanythingsojustcried.

Source: 친구랑호텔에서뷔페로식사를했어.
Target: wehadabuffetstylemealatahotel.

Source: 송도센트럴파크은어떻게가나요?
Target: howcanigettosongdocentralpark?

Source: 그래서너무긴장해서그런가봐요.
Target: sobemustbetoonervousithink.

Source: 아빠는회사에가실때넥타이를메고가시지.
Target: dadwearshistieswh


Source: 당신이이근처에있을때면언제든지들르세요.
Target: pleasedropbywheneveryouareintheneighborhood.

Source: 그럼신발에에어가다터져버리겠지.
Target: then,aircushionofsneakerswillpop.

Source: 자리에앉아서이름을부를때까지기다리세요.
Target: haveaseatandwaituntilyournameiscalled.

Source: 그녀는열악한환경을이겨내고승리했어.
Target: weovercamethepoorsituationsandachievedavictory.

Source: 작업할수있게되면연락드릴게요.
Target: iwillletyouknowifyoucandoit.

Source: 체크를전달하고싶은데어떻게전달해드릴까요?
Target: iwanttosendacheck,howshouldidoit?

Source: 제가새로운사진을최대한빨리보내드릴께요.
Target: iwillsendyouanewphotoassoonaspossible.

Source: 더이상나한테편지를보내지마세요.
Target: pleasedonotsendlettersanymore.

Source: 하지만그와악수하라고는하지마세요.
Target: butdon'taskmetoshakehandswithhim.

Source: 이놀이기구한번타는데얼마예요?
Target: howmuchwillitcosttotakethisrideonce?

Source: 다음번에기회가된다면또만나요!
Target: seeyounexttime,ifwehavethechance!

Source: 폭력이난무하는세상에서그의주장은존경할만해요.
Target: hisassertionishonorableinaworldfullofviolence.

Source: 제스테레오는아직까지손볼데가많아요.
Target: mystereosureleavesalottobedesired.

Source: 모든일이쉬울거란기대는하지말아요.
Target: youshouldn'


Source: 한국에는처음어떻게오시게되었나요?
Target: whatmadeyoucometokoreafirst?

Source: 오늘의새로운도전이준비되었어요!
Target: wearereadyforthetoday’snewchallenge!

Source: 우리가정지한곳바로옆에호텔이있었어요.
Target: thehotelwasrightnexttotheplacethatwestop.

Source: 오늘은사랑하는나의조카의고등학교졸업식이었어요.
Target: todaywasmylovelynephew'shighschoolgraduation.

Source: 나는어제큰이모가많은음식을주었어요.
Target: yesterday,myauntgavememanyfoods.

Source: 그리고세번째로좋았던점은바로쇼핑이었어요.
Target: third,itwasshoppingthatiindeedenjoyed.

Source: 그펜은어제그책상위에있었어요.
Target: thepenwasonthetableyesterday.

Source: 이촌역에있는국립중앙박물관인데매우넓었어요.
Target: thenationalmuseumlocatedatichonstationwasverylarge.

Source: 애들아조이스를보내는것은어쩔수없는선택이었어요.
Target: kids,itwasaninevitabledecisiontosendjoyceoff.

Source: 증서를당신의책상위에두었어요.
Target: iputacertificateonyourdesk.

Source: 당신의사진을보고소개를요청했었어요.
Target: iwanttomeetyoubecauseofyourpicture.

Source: 그형제들은그전쟁에서살아남을운명이었어요.
Target: thebrothersweremeanttosurviveinthewar.

Source: 우리는맥주와함께골뱅이요리를먹었어요.
Target: weatefreshwatersnailsfoodwithbeer.

Source: 포탈사이트에복학신청을해두었어요


Source: 커다란제목이타블로이드판형의일부이예요.
Target: largeheadlinesarepartofthetabloidformat.

Source: 예,그사람들은야수나리가와바타와겐자부로우에이예요.
Target: yes,theyareyasunarikawabataandkenzaburoooe.

Source: 언어변경에관한안내메세지이예요.
Target: itwasinformationmessageaboutchangelanguage.

Source: 그리고오늘우리가스크린샘플을하나보내드릴예정이예요.
Target: also,wearegoingtosendonescreensampletoday.

Source: 나는오늘회사가서결정후당신에게메일을보낼것이예요.
Target: iwillsendyouamailafterdecidingatthecompany.

Source: 여기서소개할음식은판초와처리판이예요.
Target: thefoodthatiwillintroducehereisponchoandchuripan.

Source: 월드컵때한국은빨간색으로하나되기때문이예요.
Target: koreabecomesoneasredduringtheworldcup.

Source: 건강은행복하기위한중요한보물이예요.
Target: healthisaprecioustreasureforhappiness.

Source: 나는영업팀에갔다오는길이예요.
Target: iamonmywayfromthemarketingteam.

Source: 위층과아래층의소음이문제이예요.
Target: theproblemisnoiseoflowerfloorsandupperfloors.

Source: 마감시간직전에제한적인정보를받았을뿐이예요.
Target: ijustgotlimitedinformationjustbeforeaclosingtime.

Source: 그녀는이번주에허리수술을받을예정이예요.
Target: shewillhaveawaistrsurgerythisweek.

Source: 핸드폰은이제없어서는안될존재이예요.
Targ


Source: 저는지금알고계신대로소프트웨어엔지니어로일하고있어요.
Target: asyouknow,iamworkingasasoftwareengineernow.

Source: 두번째새로운문화를경험할수있어요.
Target: secondly,onecanexperienceawiderangeofcultures.

Source: 계약을하지못한책임은삼춘가족과제게있어요.
Target: iheardthechinesecompanyalreadyforgavethedeal.

Source: 홍콩은중국의통제하에있어요.
Target: hongkongisunderthecontrolofchina.

Source: 전송을하는데이상이있어요.
Target: thereissomethingwrongwiththetransmission.

Source: 자세를바로하고공부하면더잘할수있어요.
Target: studywithgoodpostureandyoucanaccomplishmore.

Source: 우리는당신이이것보다훨씬더훌륭하게해주길기대하고있어요.
Target: we'relookingforwardtoevengreaterthingsfromyou.

Source: 신간서적이상점유리에진열되어있어요.
Target: newbooksaredisplayedintheshop'swindow.

Source: 당신이입은셔츠가너무멋있어요.
Target: whatacoolshirtyou'rewearing.

Source: 기계가고장났는지점검하고있어요.
Target: i'mcheckingifthemachineisoutoforder.

Source: 그사람들은모두마리코의사생활에관심이있어요.
Target: they'reallcuriousaboutmariko'sprivatelife.

Source: 호주에는많은중국인투자자들이거주하고있어요.
Target: therearemanychineseinvestorslivinginaustralia.

Source: 외국인도엔타스티프리를이용할수있어요?
Target: canaforeignersh


Source: 아침에일어난뽀로로친구들이낚시를하네요.
Target: pororoandhisfirendswokeupandwentfishingthismorning.

Source: 한국에서애프터받았다구하는데.
Target: itwassaidthathereceivedhisafterinkorea.

Source: 이사업계획서를참고만하세요.
Target: pleaseonlyrefertothisbusiness.

Source: 근처에라이프가드나안내요원에게말씀하세요.
Target: youcantellanearbylifeguardorguide.

Source: 당신남동생이안전한곳으로피신하게하세요.
Target: letyourbrotherfleetoasafeplace.

Source: 할말이있으면나중에남편에게전화하세요.
Target: ifyouhavesomethingtosay,callmyhusbandlater.

Source: 개인행동인것같은데그냥공격하세요.
Target: itlooklikepersonalact,thenjustattack.

Source: 필요하시다면이포장지를사용하세요.
Target: usethiswrappingpaperifnecessary.

Source: 따뜻한차한잔드시는것은어떻게생각하세요?
Target: whatdothinkofhavingahotcupoftea?

Source: 우리가좀더큰아파트로이사갈수있을거라고생각하세요?
Target: doyouthinkwecanmovetoabiggerapartment?

Source: 지구온난화가일어나는이유3가지를말하여라.
Target: givethreereasonswhyglobalwarmingishappening.

Source: 음,즈,맥길,토론토대학그리고워터루대학이요.
Target: well,queens,mcgill,universityoftoronto,andwaterloo.

Source: 장애의종류와상관없이사용가능한가요?
Target: isitusableregardlessoftypesofdisability?



## 2. Transformer 모델 구현

- 먼저 모델 구현에 필요한 라이브러리들을 모두 임포트합니다.
- 실험을 함에 있어 항상 실험의 **Reproducibility**를 보장하기 위해 Seed 설정을 해줍니다.

In [50]:
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
import numpy as np

torch.manual_seed(32)
torch.cuda.manual_seed(32)
torch.backends.cudnn.deterministic = True

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

## 2.1 Sub Layers
### Multi-Head Attention

![](img/mha.png)

In [168]:
class MultiHeadAttention(nn.Module):
    '''멀티 헤드 어텐션 레이어'''
    def __init__(self, params):
        super(MultiHeadAttention, self).__init__()
        assert params['hidden_dim'] % params['num_heads'] == 0, "hidden dimension must be divisible by the number of heads"
        self.num_heads = params['num_heads']
        self.attn_dim = params['hidden_dim'] // self.num_heads
        
        self.q_w = nn.Linear(params['hidden_dim'], self.num_heads * self.attn_dim)
        self.k_w = nn.Linear(params['hidden_dim'], self.num_heads * self.attn_dim)
        self.v_w = nn.Linear(params['hidden_dim'], self.num_heads * self.attn_dim)
        
        self.o_w = nn.Linear(self.num_heads * self.attn_dim, params['hidden_dim'])
        
    def forward(self, q, k, v, mask=None):
        " q, k, v = [배치 사이즈, 문장 길이, 은닉 차원] "
        
        batch_size = q.size(0)
        
        q = self.q_w(q).view(batch_size, -1, self.num_heads, self.attn_dim).transpose(1, 2)
        k = self.k_w(k).view(batch_size, -1, self.num_heads, self.attn_dim).transpose(1, 2)
        v = self.v_w(v).view(batch_size, -1, self.num_heads, self.attn_dim).transpose(1, 2)
        # q, k, v = [배치 사이즈, 헤드 갯수, 문장 길이, 어텐션 차원]
        
        attn = torch.matmul(q, k.transpose(-1, -2))
        # attn = [배치 사이즈, 헤드 갯수, 문장 길이, 문장 길이]
        
        if mask is not None:
            mask = mask.unsqueeze(1)
            attn.masked_fill(mask==0, -1e9)
        
        score = F.softmax(attn, dim=-1)
        # score = [배치 사이즈, 헤드 갯수, 문장 길이, 문장 길이]
        
        output = torch.matmul(score, v)
        # output = [배치 사이즈, 헤드 갯수, 문장 길이, 어텐션 차원]
        
        output = output.transpose(1, 2).contiguous()
        # output = [배치 사이즈, 문장 길이, 헤드 갯수, 어텐션 차원]
        
        output = output.view(batch_size, -1, self.num_heads * self.attn_dim)
        # output = [배치 사이즈, 문장 길이, 은닉 차원]
        
        output = self.o_w(output)
        # output = [배치 사이즈, 문장 길이, 은닉 차원]
        
        return output, score

In [169]:
def create_src_mask(src):
    " source = [배치 사이즈, 소스 문장 길이] "

    src_len = src.size(1)
    
    src_mask = (src == pad_idx)
    # src_mask = [배치 사이즈, 소스 문장 길이]
    
    src_mask = src_mask.unsqueeze(1).repeat(1, src_len, 1)
    # src_mask = [배치 사이즈, 소스 문장 길이, 소스 문장 길이]
    
    return src_mask


def create_tgt_mask(src, tgt):
    " src = [배치 사이즈, 소스 문장 길이] "
    " tgt = [배치 사이즈, 타겟 문장 길이] "

    batch_size, tgt_len = tgt.size()
    
    subsequent_mask = torch.triu(torch.ones(tgt_len, tgt_len), diagonal=1)
    # subsequent_mask = [타겟 문장 길이, 타겟 문장 길이]
    
    subsequent_mask = subsequent_mask.unsqueeze(0).repeat(batch_size, 1, 1)
    # subsquent_mask = [배치 사이즈, 타겟 문장 길이, 타겟 문장 길이]
    
    src_mask = (src == pad_idx)
    tgt_mask = (tgt == pad_idx)
    # src_mask = [배치 사이즈, 소스 문장 길이]
    # tgt_mask = [배치 사이즈, 타겟 문장 길이]
    
    src_mask = src_mask.unsqueeze(1).repeat(1, tgt_len, 1)
    tgt_mask = tgt_mask.unsqueeze(1).repeat(1, tgt_len, 1)
    # src_mask = [배치 사이즈, 타겟 문장 길이, 소스 문장 길이]
    # tgt_mask = [배치 사이즈, 타겟 문장 길이, 타겟 문장 길이]
    
    tgt_mask = target_mask | subsequent_mask
    
    return src_mask, tgt_mask

### Position-wise Feed-Forward

![](img/positionwise.png)

In [170]:
class PositionwiseFeedForward(nn.Module):
    '''포지션 와이즈 피드 포워드 레이어'''
    def __init__(self, parmas):
        super(PositionwiseFeedForward, self).__init__()
        self.fc1 = nn.Linear(params['hidden_dim'], params['ffn_dim'])
        self.fc2 = nn.Linear(params['ffn_dim'], params['hidden_dim'])
        self.dropout = nn.Dropout(params['dropout'])
    
    def forward(self, x):
        " x = [배치 사이즈, 문장 길이, 은닉 차원] "

        x = self.dropout(F.relu(self.fc1(x)))
        x = self.fc2(x)
        return x

![](img/pos.png)

In [171]:
class PositionalEncoding(nn.Module):
    def __init__(self, params):
        super(PositionalEncoding, self).__init__()
        sinusoid = np.array([pos / np.power(10000, 2 * i / params['hidden_dim'])
                            for pos in range(params['max_len']) for i in range(params['hidden_dim'])])
        # sinusoid = [문장 최대 길이 * 은닉 차원]

        sinusoid = sinusoid.reshape(params['max_len'], -1)
        # sinusoid = [문장 최대 길이, 은닉 차원]

        sinusoid[:, 0::2] = np.sin(sinusoid[:, 0::2])
        sinusoid[:, 1::2] = np.cos(sinusoid[:, 1::2])
        sinusoid = torch.FloatTensor(sinusoid).to(device)

        self.embedding = nn.Embedding.from_pretrained(sinusoid, freeze=True)
        
    def forward(self, x):
        " x = [배치 사이즈, 문장 길이] "
        
        pos = torch.arange(x.size(-1), dtype=torch.long).to(device)
        # pos = [배치 사이즈, 문장 길이]

        embed = self.embedding(pos)
        # embed = [배치 사이즈, 문장 길이, 은닉 차원]
        return embed

![](img/encoder.png)

In [172]:
class EncoderLayer(nn.Module):
    '''인코더 레이어'''
    def __init__(self, params):
        super(EncoderLayer, self).__init__()
        self.self_attn = MultiHeadAttention(params)
        self.layer_norm1 = nn.LayerNorm(params['hidden_dim'])
        self.feed_forward = PositionwiseFeedForward(params)
        self.layer_norm2 = nn.LayerNorm(params['hidden_dim'])
        self.dropout = nn.Dropout(params['dropout'])
        
    def forward(self, x, src_mask):
        " x = [배치 사이즈, 문장 길이, 은닉 차원] "
        
        residual = x
        x = self.self_attn(x, x, x, src_mask)
        x = self.dropout(x)
        x = residual + x
        x = self.layer_norm1(x)
        
        residual = x
        x = self.feed_forward(x)
        x = self.dropout(x)
        x = resiudal + x
        x = self.layer_norm2(x)
        
        return x


class Encoder(nn.Module):
    '''트랜스포머 인코더'''
    def __init__(self, params):
        super(Encoder, self).__init__()
        self.tok_embedding = nn.Embedding(params['vocab_size'], params['hidden_dim'], padding_idx=pad_idx)
        self.pos_embedding = PositionalEncoding(params)
        self.layers = nn.ModuleList([EncoderLayer(params) for _ in range(params['num_layers'])])
        
    def forward(self, src):
        " src = [배치 사이즈, 소스 문장 길이] "

        src_mask = create_src_mask(src)
        src = self.tok_embedding(src) + self.pos_embedding(src)
        
        for layer in self.layers:
            src = layer(src, src_mask)
            
        # src = [배치 사이즈, 소스 문장 길이, 은닉 차원]
        return src

![](img/decoder.png)

In [173]:
class DecoderLayer(nn.Module):
    '''디코더 레이어'''
    def __init__(self, params):
        super(DecoderLayer, self).__init__()
        self.self_attn = MultiHeadAttention(params)
        self.layer_norm1 = nn.LayerNorm(params['hidden_dim'])

        self.enc_dec_attn = MultiHeadAttention(params)
        self.layer_norm2 = nn.LayerNorm(params['hidden_dim'])
        
        self.feed_forward = PositionwiseFeedForward(params)
        self.layer_norm3 = nn.LayerNorm(params['hidden_dim'])
        
        self.dropout = nn.Dropout(params['dropout'])
        
    def forward(self, x, tgt_mask, enc_output, src_mask):
        " x = [배치 사이즈, 문장 길이, 은닉 차원] "
        
        residual = x
        x = self.self_attn(x, x, x, tgt_mask)
        x = self.dropout(x)
        x = residual + x
        x = self.layer_norm1(x)
        
        residual = x
        x = self.enc_dec_attn(x, enc_output, enc_output, src_mask)
        x = self.dropout(x)
        x = residual + x
        x = self.layer_norm2(x)
        
        residual = x
        x = self.feed_forward(x)
        x = self.dropout(x)
        x = resiudal + x
        x = self.layer_norm3(x)
        
        return x


class Decoder(nn.Module):
    '''트랜스포머 디코더'''
    def __init__(self, params):
        super(Decoder, self).__init__()
        self.tok_embedding = nn.Embedding(params['vocab_size'], params['hidden_dim'], padding_idx=pad_idx)
        self.pos_embedding = PositionalEncoding(params)
        self.layers = nn.ModuleList([DecoderLayer(params) for _ in range(params['num_layers'])])
        
    def forward(self, tgt, enc_out):
        " tgt = [배치 사이즈, 타겟 문장 길이] "

        src_mask, tgt_mask = create_tgt_mask(enc_out, tgt)
        tgt = self.tok_embedding(tgt) + self.pos_embedding(tgt)
        
        for layer in self.layers:
            tgt, attn_map = layer(tgt, tgt_mask, enc_out, src_mask)
            
        tgt = torch.matmul(tgt, self.tok_embedding.weight.transpose(0, 1))
        # tgt = [배치 사이즈, 타겟 문장 길이, 은닉 차원]

        return tgt, attn_map

In [174]:
class Transformer(nn.Module):
    '''트랜스포머 네트워크'''
    def __init__(self, params):
        super(Transformer, self).__init__()
        self.encoder = Encoder(params)
        self.decoder = Decoder(params)
    
    def forward(self, src, tgt):
        " src = [배치 사이즈, 소스 문장 길이] "
        " tgt = [배치 사이즈, 타겟 문장 길이] "
        
        enc_out = self.encoder(src)
        dec_out, attn = self.decoder(tgt, enc_out)
        return dec_out, attn
    
    def count_params(self):
        return sum(p.numel() for p in self.parameters() if p.requires_grad)

![](img/optim.png)

In [175]:
class ScheduledOptim:
    '''스케줄 옵티마이저'''
    def __init__(self, optimizer, warmup_steps):
        self.init_lr = np.power(params['hidden_dim'], -0.5)
        self.optimizer = optimizer
        self.step_num = 0
        self.warmup_steps = warmup_steps
    
    def step(self):
        self.step_num += 1
        lr = self.init_lr * self.get_scale()
        
        for p in self.optimizer.param_gropus:
            p['lr'] = lr
            
        self.optimizer.step()
    
    def zero_grad(self):
        self.optimizer.zero_grad()
    
    def get_scale(self):
        return np.min([
            np.power(self.step_num, -0.5),
            self.step_num * np.power(self.warmup_steps, -1.5)
        ])

## 3. 모델 학습

In [176]:
model = Transformer(params)
model.to(device)
model.count_params()

criterion = nn.CrossEntropyLoss(ignore_index=pad_idx)
criterion.to(device)

optimizer = ScheduledOptim(
    optim.Adam(model.parameters(), betas=[0.9, 0.98], eps=1e-9),
    warmup_steps=4000
)

for epoch in range(params['num_epoch']):
    model.train()
    epoch_loss = 0

    for src, tgt in zip(src_iter, tgt_iter):
        " src = [배치 사이즈, 소스 문장 길이] "
        " tgt = [배치 사이즈, 타겟 문장 길이] "
        
        optimizer.zero_grad()
        
        logits, _ = model(src, tgt[:, :-1])
        # logits = [배치 사이즈, 타겟 문장 길이, 은닉 차원]
        
        logits = logits.contiguous().view(-1, logits.size(-1))
        # logits = [(배치 사이즈 * 타겟 문장 길이) - 1, 은닉 차원]
        golds = target[:, 1:].contiguous.view(-1)
        # golds = [(배치 사이즈 * 타겟 문장 길이) - 1]

        loss = criterion(logits, golds)
        epoch_loss += loss.item()
        
        loss.backward()
#         torch.nn.utils.clip_grad_norm_(model.parameters(), self.params.clip)
        optimizer.step()
        
    print()

torch.Size([64, 8, 512, 512])
torch.Size([64, 512, 512])


RuntimeError: CUDA out of memory. Tried to allocate 512.00 MiB (GPU 0; 6.00 GiB total capacity; 4.32 GiB already allocated; 369.14 MiB free; 12.56 MiB cached)

## 4. 결과 확인

In [16]:
def predict():
    model.eval()

### 참고자료
- [The Annotated Transformer](https://nlp.seas.harvard.edu/2018/04/03/attention.html)
- [jadore801120/attention-is-all-you-need-pytorch](https://github.com/jadore801120/attention-is-all-you-need-pytorch)
- [tunz/transformer-pytorch](https://github.com/tunz/transformer-pytorch)
- [IgorSusmelj/pytorch-styleguide](https://github.com/IgorSusmelj/pytorch-styleguide)


### TODO
- **Beam Search** 디코딩 추가
- **Label Smoothing** 기법 추가