# 7장

### 문장 생성 구현(Rnnlm 클래스 상속)

In [16]:
import sys
sys.path.append('..')
import numpy as np
from common.functions import softmax
from ch06.rnnlm import Rnnlm
from ch06.better_rnnlm import BetterRnnlm

class RnnlmGen(Rnnlm):
    def generate(self, start_id, skip_ids=None, sample_size = 100):
        """ 문장 생성하는 메소드
        
        Args:
            start_id: 가장 최초로 입력되는 단어 ID
            skip_ids: 해당 리스트에 속하는 ID값의 단어는 Softmax 결과값에서 샘플링할 때 포함시키지 않을 단어들
            sample_size: 해당 time_step으로 예측할 단어 개수
        
        """
        word_ids = [start_id]
        
        x = start_id
        while len(word_ids) < sample_size:
            x = np.array(x).reshape(1, 1) # predict가 받아들일 수 있는 미니배치 데이터로 만들기 위해 2차원으로 변환
            
            score = self.predict(x)       # 각 단어의 점수 출력(정규화 되기 전)
            p = softmax(score.flatten())  # 소프트 맥스 함수로 정규화  
            
            sampled = np.random.choice(len(p), size=1, p=p)
            if (skip_ids is None) or (sampled not in skip_ids):
                x = sampled
                word_ids.append(int(x))
                
        return word_ids

In [37]:
import sys
sys.path.append('..')
from common.np import *
# from rnnlm_gen import RnnlmGen
from dataset import ptb

corpus, word_to_id, id_to_word = ptb.load_data('train')
vocab_size = len(word_to_id)
corpus_size = len(corpus)

model = RnnlmGen()
# model.load_params('../ch06/Rnnlm.pkl')

# 시작(start) 문자와 건너뜀(skip) 문자 설정
start_word = 'you'
start_id = word_to_id[start_word]
# PTB 데이터셋은 원래 문장에 전처리를 해놨음
# <unk>는 unique, N은 숫자, 
skip_words = ['N', '<unk>', '$']  
skip_ids = [word_to_id[w] for w in skip_words]

# 문장 생성
word_ids = model.generate(start_id, skip_ids)
txt = ' '.join([id_to_word[i] for i in word_ids])
txt = txt.replace(' <eos>', '.\n')
print(txt)

you inform founded metropolitan trap nye saab-scania vary r.h. diet poison we glamorous pretty irs expanded field asked audio n.j eurobonds downright toxic rash fray september hall principles convex garcia altered shelters seats penney sri note trouble financial backing frame namely test recruit completed burmah consequence emergency insure frame standpoint system beverage least harold ceiling ally tele-communications corn arctic rumor video authorized illusion bruce favorite denounced suburb separately many u.k. communists superior pension pit nuclear simply dangers squibb cancellation hammack beneficiaries meetings fare somewhat cancel experience response withdrawals lambert rebel backdrop accounted somewhat toxic consortium february threatening reinvest committed alliances


### 앞 모델에서 학습이 끝낸 가중치를 적용

In [47]:
import sys
sys.path.append('..')
from common.np import *
# from rnnlm_gen import RnnlmGen
from dataset import ptb

corpus, word_to_id, id_to_word = ptb.load_data('train')
vocab_size = len(word_to_id)
corpus_size = len(corpus)

model = RnnlmGen()
model.load_params('ch06/Rnnlm.pkl') # 이미 학습된 가중치를 사용

# 시작(start) 문자와 건너뜀(skip) 문자 설정
start_word = 'you'
start_id = word_to_id[start_word]
skip_words = ['N', '<unk>', '$']
skip_ids = [word_to_id[w] for w in skip_words]

# 문장 생성
word_ids = model.generate(start_id, skip_ids)
txt = ' '.join([id_to_word[i] for i in word_ids])
txt = txt.replace(' <eos>', '.\n')
print(txt)

you know he told never.
 mr. jones says the kemper staff will market serious a whole view mr. lawson says that it will become program.
 he 's strong sweet elections stanza a long-term product of those forces a big major equity issue are likely to be in a regulated line.
 on preferred inflation followed by a joint executive vice president of this maker and u.s. affiliate.
 mr. reitman said the director of the airline 's hostile marketer.
 he is out of new davis seeking late august of nov..
 mr. freeman was elected the furukawa


### Toy problem

In [50]:
import sys
sys.path.append('..')
from dataset import sequence

(x_train, t_train), (x_test, t_test) = sequence.load_data('addition.txt', seed=1984)
char_to_id, id_to_char = sequence.get_vocab()

print(x_train.shape, t_train.shape)
print(x_test.shape, t_test.shape)

print(x_train[0])
print(t_train[0])

print(''.join([id_to_char[c] for c in x_train[0]]))
print(''.join([id_to_char[c] for c in t_train[0]]))

(45000, 7) (45000, 5)
(5000, 7) (5000, 5)
[ 3  0  2  0  0 11  5]
[ 6  0 11  7  5]
71+118 
_189 


### Encoder class 구현 

In [52]:
class Encoder:
    def __init__(self, vocab_size, wordvec_size, hidden_size):
        V, D, H = vocab_size, wordvec_size, hidden_size
        rn = np.random.randn
        
        embed_W = (rn(V, D) / 100).astype('f')
        lstm_Wx = (rn(D, 4 * H) / np.sqrt(D)).astype('f')
        lstm_Wh = (rn(H, 4 * H) / np.sqrt(H)).astype('f')
        lstm_b = np.zeros(4 * H).astype('f')
        
        self.embed = TimeEmbedding(embed_W)
        self.lstm = TimeLSTM(lstm_Wx, lstm_Wh, lstm_b, statful = False)
        
        self.params = self.embed.params + self.lstm.params
        self.grads = self.embed.grads + self.lstm.grads
        self.hs = None

In [53]:
# Encoder 클래스 구현하기 -> LSTM 모델 사용
import numpy as np
from common.time_layers import TimeEmbedding, TimeLSTM, TimeAffine, TimeSoftmaxWithLoss

class Encoder:
    """ LSTM 모델 기반으로 하는 Encoder 클래스
    
    Args:
        vocab_size: 주어진 말뭉치 내 unique한 단어 개수(Vocabulary size)
        wordvec_size: One-hot으로 되어있는 Sparse 입력 단어를 몇 차원 임베딩 Dense 벡터로 줄일 것인지
        hidden_size: LSTM 계층 내의 은닉 상태 벡터 차원 수(노드 수)
    """
    def __init__(self, vocab_size, wordvec_size, hidden_size):
        V, D, H = vocab_size, wordvec_size, hidden_size
        rn = np.random.randn
        
        embed_W = (rn(V, D) / 100).astype('f')
        lstm_Wx = (rn(D, 4*H) / np.sqrt(D)).astype('f')
        lstm_Wh = (rn(H, 4*H) / np.sqrt(H)).astype('f')
        lstm_b = np.zeros(4*H).astype('f')
        
        self.embed = TimeEmbedding(embed_W)
        self.lstm = TimeLSTM(lstm_Wx, lstm_Wh, lstm_b, stateful=False) # Encoder는 중간에 출력되는 은닉상태 벡터 생략
        
        # 모든 계층의 파라미터 취합
        self.params, self.grads = [], []
        self.layers = [self.embed, self.lstm]
        for layer in self.layers:
            self.params += layer.params
            self.grads += layer.grads
        
        self.hs = None  # Encoder에서 내뱉을 T길이의 은닉상태 벡터값들. 그런데 이 중 마지막 값만 필요함!
        
    
    def forward(self, xs):
        for layer in self.layers:
            xs = layer.forward(xs)
        hs = xs
        self.hs = hs
        return hs[:, -1, :]  # 마지막 은닉상태 벡터만 추출
    
    
    def backward(self, dh):
        dout = np.zeros_like(self.hs)   # T길이의 은닉상태 벡터 값들 빈 껍데기 형상 만들어놓기 for dh 넣을 위치 마련
        dout[:, -1, :] = dh             # 이 때, dh는 Decoder에서 역전파로 흘러들어오는 기울기 값
        
        for layer in reversed(self.layers):
            dout = layer.backward(dout)
        return dout

### Decoder class

In [None]:
# Decoder 클래스 구현하기 -> LSTM 모델 사용
class Decoder:
    """ LSTM 모델 기반으로 하는 Decoder 클래스(단, Softmax-with-Loss 계층은 포함 X)
    
    Args:
        vocab_size: 주어진 말뭉치 내 unique한 단어 개수(Vocabulary size)
        wordvec_size: One-hot으로 되어있는 Sparse 입력 단어를 몇 차원 임베딩 Dense 벡터로 줄일 것인지
        hidden_size: LSTM 계층 내의 은닉 상태 벡터 차원 수(노드 수)
    """
    def __init__(self, vocab_size, wordvec_size, hidden_size):
        V, D, H = vocab_size, wordvec_size, hidden_size
        rn = np.random.randn
        
        # Embedding -> LSTM -> Affine 계층
        embed_W = (rn(V, D) / 100).astype('f')
        lstm_Wx = (rn(D, 4*H) / np.sqrt(D)).astype('f')
        lstm_Wh = (rn(H, 4*H) / np.sqrt(H)).astype('f')
        lstm_b = np.zeros(4*H).astype('f')
        affine_W = (rn(H, V) / np.sqrt(H)).astype('f')
        affine_b = np.zeros(V).astype('f')
        
        self.embed = TimeEmbedding(embed_W)
        self.lstm = TimeLSTM(lstm_Wx, lstm_Wh, lstm_b, stateful=True)
        self.affine = TimeAffine(affine_W, affine_b)
        
        self.layers = [self.embed, self.lstm, self.affine]
        
        # 모든 계층 파라미터 취합
        self.params, self.grads = [], []
        for layer in self.layers:
            self.params += layer.params
            self.grads += layer.grads
            
        
    def forward(self, xs, h):
        """ Decoder 학습 시 순전파 수행
        
        Args:
            xs: T길이 시계열 데이터(학습이기 떄문에 이미 정답을 알고 있음!)
            h: Encoder에서 전달해준 은닉 상태 벡터
        
        """
        self.lstm.set_state(h)  # Decoder의 최초 은닉 상태 입력으로서 Encoder에서 전달해준 h 설정!
        for layer in self.layers:
            xs = layer.forward(xs)
        score = xs
        return score
    
    
    def backward(self, dscore):
        """ Decoder 역전파 수행
        
        Args:
            dscore: Softmax 계층으로부터 흘러들어온 국소적인 미분값
        """
        for layer in reversed(self.layers):
            dscore = layer.backward(dscore)
            
        # Encoder로 역전파를 수행할 때 전달해줄 h의 기울기 값!
        dh = self.lstm.dh
        return dh
    
    
    def generate(self, h, start_id, sample_size):
        """ Decoder에서 테스트 시 문장 생성하는 메소드
        
        Args:
            h: Encoder에서 전달해준 은닉 상태(Decoder에서 최초로 입력되는 은닉상태)
            start_id: h와 같이 Decoder에서 최초로 입력되는 데이터. 보통 <eos>와 같은 기호임
            sample_size: 생성하는 문자 개수
        
        """
        sampled = []
        sample_id = start_id
        self.lstm.set_state(h)  # Encoder가 전달해준 은닉 상태 Decoder에서 최초의 은닉상태로 입력 설정!
        
        for _ in range(sample_size):
            x = np.array(sample_id).reshape((1, 1))  # Mini-batch로 구현되므로 2d-array롤 변경
            for layer in self.layers:
                x = layer.forward(x)
            score = x
            
            # score이 가장 높은 index(문자ID) 추출
            sample_id = np.argmax(score.flatten())
            sampled.append(int(sample_id))
        
        return sampled

### Seq2seq

In [55]:
# Encoder-Decoder 연결 및 TimeSoftmax-with-Loss 계층 추가
class Seq2Seq:
    """ Encoder-Decoder 연결 및 TimeSoftmax-with-Loss 계층 추가한 전체 Seq2Seq 모델 클래스
    
    Args:
        vocab_size: 주어진 말뭉치 내 unique한 단어 개수(Vocabulary size)
        wordvec_size: One-hot으로 되어있는 Sparse 입력 단어를 몇 차원 임베딩 Dense 벡터로 줄일 것인지
        hidden_size: LSTM 계층 내의 은닉 상태 벡터 차원 수(노드 수)
    """
    def __init__(self, vocab_size, wordvec_size, hidden_size):
        V, D, H = vocab_size, wordvec_size, hidden_size
        
        self.encoder = Encoder(V, D, H)
        self.decoder = Decoder(V, D, H)
        self.loss_layer = TimeSoftmaxWithLoss()
        
        self.params = self.encoder.params + self.decoder.params
        self.grads = self.encoder.grads + self.decoder.grads
        
        
    def forward(self, xs, ts):
        # 정답 레이블로부터 Decoder의 입력 / 출력(정답) 데이터로 분할 -> 학습 시이기 때문!
        decoder_xs, decoder_ts = ts[:, :-1], ts[:, 1:]
        
        h = self.encoder.forward(xs)                         # Encoder
        score = self.decoder.forward(decoder_xs, h)          # Decoder
        loss = self.loss_layer.forward(score, decoder_ts)    # Softmax-with-Loss
        return loss
    
    
    def backward(self, dout=1):
        dscore = self.loss_layer.backward(dout)
        dh = self.decoder.backward(dscore)
        dx = self.encoder.backward(dh)
        return dx
    
    
    def generate(self, xs, start_id, sample_size):
        # 테스트 시, Decoder에서 문장 생성!
        h = self.encoder.forward(xs)     # Encoder에서 은닉상태 반환
        sampled = self.decoder.generate(h, start_id, sample_size)
        return sampled

###  Peeky Decoder

In [75]:
# Peeky Decoder 클래스 구현
import numpy as np
from common.time_layers import *
from ch07.seq2seq import * 


class PeekyDecoder:
    """ 기존 Deecoder 부분을 Peeky Decoder로 변경한 클래스
    
    Args:
        vocab_size: 주어진 말뭉치 내 unique한 단어 개수(Vocabulary size)
        wordvec_size: One-hot으로 되어있는 Sparse 입력 단어를 몇 차원 임베딩 Dense 벡터로 줄일 것인지
        hidden_size: LSTM 계층 내의 은닉 상태 벡터 차원 수(노드 수)
    """
    def __init__(self, vocab_size, wordvec_size, hidden_size):
        V, D, H = vocab_size, wordvec_size, hidden_size
        rn = np.random.randn
        
        # Embedding -> LSTM -> Affine
        embed_W = (rn(V, D) / 100).astype('f')
        lstm_Wx = (rn(H + D, 4*H) / np.sqrt(H + D)).astype('f')
        lstm_Wh = (rn(H, 4*H) / np.sqrt(H)).astype('f')
        lstm_b = np.zeros(4*H).astype('f')
        affine_W = (rn(H + H, V) / np.sqrt(H + H)).astype('f')
        affine_b = np.zeros(V).astype('f')
        
        self.embed = TimeEmbedding(embed_W)
        self.lstm = TimeLSTM(lstm_Wx, lstm_Wh, lstm_b, stateful=True)  # Decoder이기 때문에 은닉 상태 유지!
        self.affine = TimeAffine(affine_W, affine_b)
        
        # 모든 계층 파라미터 취합
        self.params, self.grads = [], []
        for layer in (self.embed, self.lstm, self.affine):
            self.params += layer.params
            self.grads += layer.grads
        self.cache = None
        
        
    def forward(self, xs, h):
        """ Peeky Decoder 순전파 수행(학습 시))
        
        Args:
            xs: (batch_size, 전체 시계열 길이(T)) Decoder가 내뱉는 도착어. 학습 시이기 때문에 정답 시퀀스나 마찬가지
            h: (batch_size, 은닉상태 벡터 차원 수) Encoder가 전달하는 최종 은닉상태 벡터
        """
        N, T = xs.shape
        N, H = h.shape
        
        self.lstm.set_state(h) # Encoder가 전달하는 은닉상태 벡터 입력!
        
        # Embedding 순전파 후 concatenate
        out = self.embed.forward(xs)
        # np.repeat(array, cnt): array를 cnt번 복제
        hs = np.repeat(h, T, axis=0).reshape(N, T, H) # Encoder가 전달한 은닉상태(h)를 T길이 만큼 복제(다른 계층에도 전달하기 위해)
        out = np.concatenate((hs, out), axis=2)  # 마지막 차원(axis=0,axis=1,axis=2) 방향으로 concat
        
        # LSTM 순전파 후 concatenate
        out = self.lstm.forward(out)
        out = np.concatenate((hs, out), axis=2)
        
        # Affine 계층 순전파
        score = self.affine.forward(out)
        self.cache = H
        return score
    
    
    def backward(self, dscore):
        H = self.cache
        
        # Affine -> concatenate 역전파 수행
        dout = self.affine.backward(dscore)
        dhs0, dout = dout[:, :, :H], dout[:, :, H:]  # dhs0: Encoder에서 전달받은 h에 대한 기울기, dout: LSTM 계층으로 흘려보낼 기울기
        # LSTM -> concatenate 역전파 수행
        dout = self.lstm.backward(dout)
        dhs1, dembed = dout[:, :, :H], dout[:, :, H:]
        self.embed.backward(dembed)
        
        # 분기된 Encoder h값들에 대한 기울기 역전파하니까 sum!
        dhs = dhs0 + dhs1
        dh = self.lstm.dh + np.sum(dhs, axis=1)  # self.lstm.dh: TimeLSTM 계층에서 역전파 시의 마지막 dh가 캐싱되어 있도로 구현했었음!
        
        return dh
    
    
    def generate(self, h, start_id, sample_size):
        sampled = []
        char_id = start_id
        
        self.lstm.set_state(h)         # Encoder에서 전달한 은닉상태 입력!
        
        H = h.shape[1]                 # 은닉상태 벡터 차원 수
        peeky_h = h.reshape(1, 1, H)  # 이것으로 문장 생성(Test) 시, 다른 LSTM, Affine 계층들이 Encoder가 전달하는 정보 엿봄!
        for _ in range(sample_size):
            x = np.array([char_id]).reshape((1, 1))
            
            # Embediing & concatenate
            out = self.embed.forward(x)
            out = np.concatenate((peeky_h, out), axis=2)
            # LSTM & concatenate
            out = self.lstm.forward(out)
            out = np.concatenate((peeky_h, out), axis=2)
            # Affine
            score = self.affine.forward(out)
            
            # argmax
            char_id = np.argmax(score.flatten())
            sampled.append(char_id)
        
        return sampled

### PeekySeq2Seq

In [74]:
# Peeky Decoder 기반으로 하는 PeekySeq2Seq 클래스 구현
class PeekySeq2Seq(Seq2Seq):
    def __init__(self, vocab_size, wordvec_size, hidden_size):
        V, D, H = vocab_size, wordvec_size, hidden_size
        
        # Encoder - Decoder - Softmax 계층 설정
        self.encoder = Encoder(V, D, H)
        self.decoder = PeekyDecoder(V, D, H)
        self.loss_layer = TimeSoftmaxWithLoss()
        
        # 모든 계층 파라미터 취합
        self.params, self.grads = [], []
        for layer in (self.encoder, self.decoder):  # loss 계층에는 파라미터 X
            self.params += layer.params
            self.grads += layer.grads