# word2vec

  
## 추론 기반 기법과 신경망
- 단어를 벡터로 표현하는 방법 중 성공적인 기법을 크게 두 분류로 나눌 수 있다.
    - 통계 기반 기법
    - 추론 기반 기법
    
    

### 통계 기반 기법의 문제점
- 통계 기반 기법에서는 주변 단어의 빈도를 기초로 단어를 표현함.
    - 구체적으로는 단어의 동시발생 행렬을 만들고, 그 행렬에 SVD를 적용하여 밀집벡터(단어의 분산 표현)를 얻었다.
    - 대규모 말뭉치를 다룰 때 문제가 발생
    - SVD를 적용하는 비용은 $O(n^{3})$
- 통계 기반 기법은 학습 데이터를 한꺼번에 처리한다.(배치 학습)
- 추론 기반 기법은 학습 데이터의 일부를 사용하야여 순차적으로 학습한다.(미니 배치학습)
- 추론 기반 기법을 사용할 경우 GPU를 통한 병렬 계산도 가능해져서 학습 속도를 높일 수 있다.

### 추론 기반 기법 개요
- 추론이란 주변 단어(맥락)가 주어졌을 때 ? 에 무엇이 들어가는지를 추측하는 작업이다.
- 추론 기반 기법도 통계 기반 기법처럼 분초 가설에 기초한다. 
- 분포 가설 : **단어의 의미는 주변 단어에 의해 형성된다.** 라는 가설

### 신경망에서의 단어 처리
- 대표적으로 사용하는 방법 : One-Hot 
- 총 어휘 수 만큼의 원소를 갖는 벡터를 준비하고 인덱스가 단어 ID와 같은 원소를 1, 나머지는 모두 0으로 설정


In [1]:
# 완전 연결 계층에 의한 변환
import numpy as np

c = np.array([[1, 0, 0, 0, 0, 0, 0]]) # 입력
W = np.random.randn(7, 3)             # 가중치
h = np.matmul(c, W)                   # 중간 노드
print(h)

[[-0.31845064 -0.16009545 -1.78884527]]


In [5]:
from common.layers import MatMul

In [6]:
layer = MatMul(W)

In [7]:
h = layer.forward(c)
print(h)

[[-0.31845064 -0.16009545 -1.78884527]]


## 단순한 word2vec
여기서 사용할 신경망은 word2vec에서 제안하는 CBOW(Continuous bag-of-words)모델이다.

### CBOW 모델의 추론 처리
- CBOW 모델: 맥락으로부터 target을 추축하는 용도의 신경망
    - target : 중앙 단어
    - 맥락 : 그 주변 단어
- CBOW 입력 : 맥락("you", "goodbye"같은 단어들의 목록)
    - 이 맥락을 one-hot 표현으로 변환하여 CBOW 모델이 처리할 수 있도록 준비

In [8]:
c0 = np.array([[1, 0, 0, 0, 0, 0, 0]])
c1 = np.array([[0, 0, 1, 0, 0, 0, 0]])

# weight init
W_in = np.random.randn(7, 3)
W_out = np.random.randn(3, 7)

# Make layer
in_layer0 = MatMul(W_in)
in_layer1 = MatMul(W_in)
out_layer = MatMul(W_out)

# forward propagation
h0 = in_layer0.forward(c0)
h1 = in_layer1.forward(c1)
h = 0.5 * (h0 + h1)
s = out_layer.forward(h)

print(s)

[[-0.84239791 -1.23082423  1.71134663 -3.04624015  0.09981363  0.13224306
   1.28770302]]
