In [6]:
#word_vec의 단점 보완

#1.임베딩 계층 구현
#Win 배열의 크기가 너무 커질 수 있기 때문에 MatMul의 기능, 즉, 행렬의 특정 행을 뽑아내는 것만 작동하게 함.
#즉, 단어 ID에 해당하는 행(벡터)를 추출하는 계층을 만든다.

#2.네거티브 샘플링 기법
#은닉층 뉴런과 가중치 행렬(Wout)의 곱 
#softmax 계층의 계산 



In [2]:
import numpy as np


In [3]:
W = np.arange(21).reshape(7, 3) #가중치 행렬 
W
#하나의 행을 추출
W[2]
W[5]
#여러 행을 추출
idx = np.array([1, 0, 3, 0]) #1, 0, 3, 0 번째를 한꺼번에 추출
W[idx]






array([[ 3,  4,  5],
       [ 0,  1,  2],
       [ 9, 10, 11],
       [ 0,  1,  2]])

In [5]:
class Embedding:
    def __init__(self, W):
        self.params = [W]
        self.grads = [np.zeros_like(W)]
        self.idx = None
        
    def forward(self, idx):
        W, = self.params
        self.idx = idx # idx에는 추출하는 행의 인덱스 (단어 ID)를 배열로 저장
        out = W[idx]
        return out
    
    def backward(self, dout):
        dW, = self.grads
        dW[...] = 0
        
        for i, word_id in enumerate(self.idx): # 같은 가중치가 여러번 추출되었을 경우 dW행렬에 더해서 더 강하게 학습시킴. 
            dW[word_id] += dout[i]
            
        return None
#역전파의 경우 Embedding 계층의 순전파는 가중치 W의 특정 행을 추출할 뿐이었음
#따라서 역전파에서는 앞 층으로부터 전해진 기울기를 가중치 기울기 dW의 특정행(idx 번째 행)에 설정한다. 

In [1]:
class EmbeddingDot:
    def __init__(self, W):
        self.embed = Embedding(W)
        self.params = self.embed.params
        self.grads = self.embed.grads
        self.cache = None
    
    def forward(self, h, idx):
        target_W = self.embed.forward(idx) # 각각의 행을 추출한 결과
        out = np.sum(target_W * h, axis = 1) # *는 행렬의 원소 곱이다. h는 Wout의 원하는 값의 열(1개의 열)을  
        #특정 단어별로 쪼개서 각각 행으로 쌓아 만든 은닉층 뉴런 행렬이다.   
        
        self.cache = (h, target_W)
        return out
    def backward(self, dout):
        h, target_W = self.cache
        dout = dout.reshape(dout.shape[0], 1)
        
        dtarget_W = dout * h
        self.embed.backward(dtarget_W)
        dh = dout * target_W
        return dh
    
        