## Transformer Code 

Harvard Transformer 코드

* run_epoch: 모델의 학습을 돌림
* make_model: 모델을 만듦
* NoamOpt: 모델의 옵티마이저
* data_gen: 임의의 데이터 생성
* Batch: 데이터를 배치화하여 생성
* subsequent_mask: mask 생성
* Embeddings: 단어 및 문장 임베딩 생성
* EncoderDecoder: Encoder와 Decoder 생성
* Encoder: Encoder 생성
* Decoder: Decoder 생성 
* EncoderLayer: Encoder를 구성하는 EncoderLayer 생성
* DecoderLayer: Decoder를 구성하는 DecoderLayer 생성 
* clones: Layer를 복사
* LayerNorm: Layer Normalization
* SublayerConnection: Residual Connection
* MultiHeadedAttention: Multi-Head Attention
* attention: attention
* PositionwiseFeedForward: Feed Forward
* PositionalEncoding: Positional Encoding
* SimpleLossCompute: loss값을 통해 backpropagation진행
* loss: loss함수 생성
* Generator: Transformer의 output 단 Linear layer와 Softmax함수 생성
* LabelSmoothing: Label smoothing

In [3]:
import numpy as np
import torch
import torch.nn as nn 
import torch.nn.functional as F
import math, copy, time
from torch.autograd import Variable
import matplotlib.pyplot as plt
import seaborn
seaborn.set_context(context="talk")
%matplotlib inline

In [4]:
class EncoderDecoder(nn.Module):
    """A standard Encoder-Decoder architecture. Base for this and many oter models."""
    def __init__(self, encoder, decoder, src_embed, tgt_embed, generator):
        super(EncoderDecoder, self).__init__() ## 부모 클래싀의 생성자를 호출
        # super().__init__() # -> python3부터는 이렇게 호출도 가능
        self.encoder = encoder
        self.decoder = decoder
        self.src_embed = src_embed
        self.tgt_embed = tgt_embed
        self.generator = generator
        
    def forward(self, src, tgt, src_mask, tgt_mask):
        """Take in and process masked src and target sequences."""
        return self.decode(self.encode(src, src_mask), src_mask. tgt, tgt_mask) # encoder 값을 decoder에 넣고있음,
    
    def encode(self, src, src_mask):
        return self.encoder(self.src_embed(src), src_mask) # 자연어를 tensor로 변환하는
    
    def decode(self, memory, src_mask, tgt, tgt_mask):
        return self.decoder(self.tgt_embed(tgt), memory, src_mask, tgt_mask) #메모리는 encoder에서 나온 output을 의미

In [None]:
# Transforme에서 끝단(Linear -> softmax -> output)
class Generator(nn.Module):
    """Define standard linear + softmax generation step."""
    def __init__(self, d_model, vocab): # vocab: 단어의 수.(e.g. 11)
        super(Generator, self).__init__()
        self.proj = nn.Linear(d_model, vocab)
        
    def forward(self, x):
        return F.log_softmax(self.proj(x), dim=-1)