# 4 word2vec 속도 개선

## 4.1 word2vec 개선 1

앞 장의 CBOW모델은 단어 2개를 맥락으로 사용해, 이를 바탕으로 하나의 단어를 추측한다. 이때 입력 측 가중치$W_{in}$와의 행렬 곱으로 은닉층이 계산되고, 다시 출력층 가중치$W_{out}$와의 행렬 곱으로 각 단어의 점수를 구한다. 그리고 이 점수에 소프트맥스 함수를 적용해 각 단어의 출현 확률을 얻고, 이 확률을 정답 레이블과 비교하여 손실을 구한다.

말뭉치가 거대해 지면 다음과 같은 문제가 발생한다.

* 입력층의 원핫 표현과 가중치 행렬$W_{in}$의 곱 계산이 너무 느리다.
* 출력층의 가중치 행렬$W_{out}$과의 곱, 소프트맥스 계산도 느리다.

### 4.1.1 Embedding 계층

* Embedding 계층은 단어 ID에 해당하는 행을 추출하는 계층이다.
* Embedding 계층을 사용하면 단어의 분산 표현을 얻을 수 있다.

### 4.1.2

In [7]:
import numpy as np

class Embedding:
  def __init__(self, W):
    self.params = [W]
    self.grads = [np.zeros_like(W)]
    self.idx = None
    
  def forward(self, idx):
    W = self.params
    self.idx = idx
    out = W[idx]
    return out
  
  def backward(self, dout):
    dW, = self.grads
    dW[...] = 0
    np.add.at(dW, self.idx, dout) # type: ignore
    return None