# 단어의 분산 표현을 얻기위한 기법들
- 통계 기반 기법 (SVD)
    - 단어의 동시발생 행렬을 만들고, SVD를 적용하여 밀집벡터(분산표현)를 얻음
    - 학습데이터 전체를 한꺼번에 처리(배치). O(n^3)의 시간복잡도를 가져 현실적으로 사용하기 어려움
- 추론 기반 기법 (신경망, word2vec)
    - 주변 단어(맥락)가 주어졌을 때, 특정 위치에 어떤 단어가 들어갈 지 추론하여 단어의 분산표현을 얻음
    - 소량의 데이터(미니배치)를 반복 학습

In [None]:
import numpy as np
i = np.array([[1, 0, 0, 0, 0, 0, 0]]) # 입력 미니배치를 고려하여 2차원 (1, 7)
w = np.random.randn(7, 3) # 가중치 (7, 3)
h = np.matmul(i, w) # 히든 노드 출력 (1, 3)
print(h)

[[-0.38225036  0.68064813  0.34323021]]


In [None]:
# CBOW
# 맥락으로부터 타깃을 추론하는 word2vec 모델
# 학습이 완료된 후의 은닉층의 가중치 W가 단어의 분산표현
# 입력층 뉴런보다 은닉층 뉴런수를 적게 하는것이 중요. 정보를 간결하게 표현할 수 있음
# 단어의 분산표현은 일반적으로 입력측의 가중치 W_in만 사용함

from common.layers import MatMul

# 샘플 맥락 벡터
c0 = np.array([[1, 0, 0, 0, 0, 0, 0]])
c1 = np.array([[0, 0, 1, 0, 0, 0, 0]])

W_in = np.random.randn(7, 3)
W_out = np.random.randn(3, 7)

in_layer0 = MatMul(W_in)
in_layer1 = MatMul(W_in)
out_layer = MatMul(W_out)

h0 = in_layer0.forward(c0)
h1 = in_layer1.forward(c1)
h = 0.5 * (h0 + h1) # 입력 레이어 갯수 = 추론할 단어 갯수. 다음 계층으로 보낼땐 평균으로 보냄
s = out_layer.forward(h) # 추론 score

print(s)

[[ 0.75781553  0.50518457  0.56195553 -1.13262843 -0.75103649 -0.35895123
  -0.33900378]]


In [None]:
#