# W2V
- 기존 통계 기법의 단점을 커버하는 추론기법
- 맥락 정보를 입력받아 각 단어의 출현 확률을 구함
- 학습 결과로 얻어진 `가중치`를 `단어의 분산 표현`으로 이용

![process](img/process.png)

|특징| 통계 기법| 추론기법 |
|:--------|:--------|:--------|
|학습| 말뭉치 전체 통계로 1회 학습 | 말뭉치의 일부를 여러번 학습 |
|새로운 단어 추가| 처음부터 다시 계산 | 추가 학습 가능 |
|정밀도| 단어의 유사성 |유사성 + 단어 사이의 패턴|

## CBOW vs Skip-gram
- 주변 맥락을 통해 단어를 예측 vs 단어를 통해 주변 맥락을 예측
- Skip-gram이 학습에 더 오랜 시간이 걸리지만 성능이 더 좋음

![cbow_vs_skipgram](img/cbow_vs_skipgram.png)

### CBOW
![cbow](img/cbow.png)


### Skip-gram
![cbow](img/skipgram.png)

### W2V의 결과?
- 맥락을 통해 나올 단어를 예측
- $W_{in}$, $W_{out}$ 두 종류의 Weight 존재
- $W_{in}$는 각 행이 각 단어의 분산 표현
- $W_{out}$는 각 열이 각 단어의 분산 표현
- 보통 $W_{in}$이 단어의 분산 표현을 잘 나타냄

![weight](img/weight.png)


## 구현
- 순전파, 역전파를 위해 정형화된 클래스를 이용

### 입력층 - 은닉층
- 단어를 적절한 고정된 입력으로 변환해야 학습이 가능
- One-hot vector 사용
- 은닉층의 차원이 전체 단어의 차원보다 작아야 차원을 감소하며 단어의 분산을 얻음

![input1](img/input1.png)

![inpit3](img/input3.png)

![inpit4](img/input4.png)

In [7]:
import numpy as np

In [8]:
c = np.array([1, 0, 0, 0, 0, 0, 0])
W = np.random.randn(7, 3)
h = np.matmul(c, W)

print("c: 각 단어의 원핫 벡터")
print(c, "\n")

print("W: 모든 단어를 나타내는 가중치")
print(W, "\n")

print("h: 은닉층 결과(특정 단어의 가중치 추출)")
print(h)

c: 각 단어의 원핫 벡터
[1 0 0 0 0 0 0] 

W: 모든 단어를 나타내는 가중치
[[-0.75205386 -1.53891402 -0.12257136]
 [ 2.21352213 -0.77153767  2.34023862]
 [-1.08018893  0.38376832 -0.51920174]
 [-0.09751996  0.26537902 -1.21223167]
 [ 0.54591482  0.17679802 -0.90072075]
 [-1.58061226  0.30573001 -0.73536499]
 [-0.41475626  1.79854346 -0.3758167 ]] 

h: 은닉층 결과(특정 단어의 가중치 추출)
[-0.75205386 -1.53891402 -0.12257136]


### MatMul 계층 구현

In [9]:
class MatMul:
    def __init__(self, W):
        self.params = [W]  # 파라미터가 여러개일 수 있어서 리스트 사용
        self.grads = [np.zeros_like(W)]  # 역전파된 결과를 저장하기 위해 사용
        self.x = None  # 역전파시 필요

    # 순전파
    def forward(self, x):
        W, = self.params
        out = np.dot(x, W)
        self.x = x
        return out

    # 역전파
    def backward(self, dout):
        W, = self.params
        dx = np.dot(dout, W.T)
        dW = np.dot(self.x.T, dout)
        self.grads[0][...] = dW  # mutable한 데이터이기 때문에 같은 메모리를 가리키지 않도록 함
        return dx

### MatMul 확인
![cbow](img/skipgram.png)

In [12]:
# 샘플 맥락 데이터
c = np.array([[0, 0, 1, 0, 0, 0, 0]])

# 가중치 초기화
W_in = np.random.randn(7, 3)

# 계층 생성
in_layer = MatMul(W_in)

# 순전파
h = in_layer.forward(c)
print(h)

[[ 0.58107258 -0.11122237  0.37298207]]


### 은닉층 - 출력층
- 은닉층 - 출력층 사이의 $W_{out}$은 $W_{in}$를 전치한 shape을 가짐

In [13]:
# 샘플 맥락 데이터
c = np.array([[0, 0, 1, 0, 0, 0, 0]])

# 가중치 초기화
W_in = np.random.randn(7, 3)
W_out = np.random.randn(3, 7)

# 계층 생성
in_layer = MatMul(W_in)
out_layer = MatMul(W_out)

# 순전파
h = in_layer.forward(c)
s = out_layer.forward(h)
print(s)

[[-1.42881164 -1.65270976 -1.99194813 -1.37293306  0.23078604  0.35747227
  -0.47239193]]


### 출력층 - 확률(Softmax)
- 출력 결과를 확률로 만들기 위해 Softmax를 이용
- 오차를 구하기 위해 cross-entropy를 이용하며, 보통 합쳐서 Softmax with Loss 계층 사용
- 추론시에는 Softmax만 사용해야 함(주의)
- 오차는 출력과 정답의 차이

![softmax_with_loss](img/softmax_with_loss.png)

In [None]:
class SoftmaxWithLoss:
    def __init__(self):
        self.params, self.grads = [], []
        self.y = None  # softmax의 출력
        self.t = None  # 정답 레이블

    # 소프트맥스
    def softmax(self, x):
        if x.ndim == 2:
            x = x - x.max(axis=1, keepdims=True)
            x = np.exp(x)
            x /= x.sum(axis=1, keepdims=True)
        elif x.ndim == 1:
            x = x - np.max(x)
            x = np.exp(x) / np.sum(np.exp(x))

        return x

    # 크로스 엔트로피
    def cross_entropy_error(self, y, t):
        if y.ndim == 1:
            t = t.reshape(1, t.size)
            y = y.reshape(1, y.size)

        # 정답 데이터가 원핫 벡터일 경우 정답 레이블 인덱스로 변환
        if t.size == y.size:
            t = t.argmax(axis=1)

        batch_size = y.shape[0]

        return -np.sum(np.log(y[np.arange(batch_size), t] + 1e-7)) / batch_size

    def forward(self, x, t):
        self.t = t
        self.y = self.softmax(x)

        # 정답 레이블이 원핫 벡터일 경우 정답의 인덱스로 변환
        if self.t.size == self.y.size:
            self.t = self.t.argmax(axis=1)

        loss = self.cross_entropy_error(self.y, self.t)
        return loss

    def backward(self, dout=1):
        batch_size = self.t.shape[0]

        dx = self.y.copy()
        dx[np.arange(batch_size), self.t] -= 1
        dx *= dout
        dx = dx / batch_size

        return dx

In [None]:
class SimpleSkipGram:
    def __init__(self, vocab_size, hidden_size):
        V, H = vocab_size, hidden_size

        # 가중치 초기화
        W_in = 0.01 * np.random.randn(V, H).astype('f')
        W_out = 0.01 * np.random.randn(H, V).astype('f')

        # 계층 생성
        self.in_layer = MatMul(W_in)
        self.out_layer = MatMul(W_out)
        self.loss_layer1 = SoftmaxWithLoss()
        self.loss_layer2 = SoftmaxWithLoss()

        # 모든 가중치와 기울기를 리스트에 모은다.
        layers = [self.in_layer, self.out_layer]
        self.params, self.grads = [], []
        for layer in layers:
            self.params += layer.params
            self.grads += layer.grads

        # 인스턴스 변수에 단어의 분산 표현을 저장한다.
        self.word_vecs = W_in

    def forward(self, contexts, target):
        h = self.in_layer.forward(target)
        s = self.out_layer.forward(h)
        l1 = self.loss_layer1.forward(s, contexts[:, 0])
        l2 = self.loss_layer2.forward(s, contexts[:, 1])
        loss = l1 + l2
        return loss

    def backward(self, dout=1):
        dl1 = self.loss_layer1.backward(dout)
        dl2 = self.loss_layer2.backward(dout)
        ds = dl1 + dl2
        dh = self.out_layer.backward(ds)
        self.in_layer.backward(dh)
        return None


In [None]:
from common.trainer import Trainer
from common.optimizer import Adam
from common.util import preprocess, create_contexts_target, convert_one_hot

In [None]:
window_size = 1
hidden_size = 5
batch_size = 3
max_epoch = 1000

text = 'You say goodbye and I say hello.'
corpus, word_to_id, id_to_word = preprocess(text)

vocab_size = len(word_to_id)
contexts, target = create_contexts_target(corpus, window_size)
target = convert_one_hot(target, vocab_size)
contexts = convert_one_hot(contexts, vocab_size)

model = SimpleCBOW(vocab_size, hidden_size)
optimizer = Adam()
trainer = Trainer(model, optimizer)

trainer.fit(contexts, target, max_epoch, batch_size)
trainer.plot()

word_vecs = model.word_vecs
for word_id, word in id_to_word.items():
    print(word, word_vecs[word_id])
