앞서 원-핫 벡터는 단어 벡터 간 유의미한 유사도를 계산할 수 없다는 단점이 있음을 언급한 적이 있다. 그래서 **단어 벡터 간 유의미한 유사도를 반영할 수 있도록 단어의 의미를 수치화 할 수 있는 방법이 필요**하다. 이 방법으로 **워드투벡터(Word2Vec)**가 대표적으로 사용된다. Word2Vec의 개념을 설명하기 앞서 Word2Vec가 어떤 일을 할 수 있는지 알아보자. 아래에 재밌는 [사이트](http://w.elnn.kr/search/)가 있다.

![그림 1](images/section2/그림_1.png)


이 사이트는 한국어 단어로 벡터 연산을 해준다. 위 사이트에서는 단어들(실제로는 Word2Vec 벡터)로 더하기, 빼기 연산을 할 수 있다.

한국 - 서울 + 도쿄 = 일본

신기하게도 단어가 가지고 있는 의미들을 가지고 연산을 하고 있는 것처럼 보인다. 이런 연산이 가능한 이유는 **각 단어 벡터가 단어 벡터 간 유사도를 반영한 값을 가지고 있기 때문**이다.

<br/><br/>
# 1. 희소 표현(Sparse Representation)
---

section1에서 벡터 또는 행렬의 값이 대부분이 0이고 의미있는 값만 1로 표현되는 방법을 희소 표현(sparse representation)이라고 배웠다.하지만 희소 표현은 **각 단어 벡터간 유의미한 유사성을 표현할 수 없다는 단점**이 있었다.

단점을 보완하기 위해서 **단어의 의미를 다차원 공간에 벡터화하는 방법을 사용**하는데, 이러한 표현을 **분산 표현(distributed representation)** 이라고 한다. 그리고 **분산 표현을 이용하여 단어 간 의미적 유사성을 벡터화하는 작업을 워드 임베딩(embedding)**이라 부르며 이렇게 표현된 벡터를 **임베딩 벡터(embedding vector)**라고 합니다.

<br/><br/>
# 2. 분산 표현(Distributed Representation)
---

분산 표현(distributed representation) 방법은 기본적으로 **분포 가설(distributional hypothesis)이라는 가정 하에 만들어진 표현 방법**이다. 분포 가설이란, **비슷한 문맥에서 등장하는 단어들은 비슷한 의미를 가진다** 라는 가설이다. 강아지란 단어는 귀엽다, 예쁘다, 애교 등의 단어가 주로 함께 등장한다. **분포 가설에 따르면 이런 비슷한 의미를 지닌 텍스트의 단어들을 벡터화했을 때, 해당 단어 벡터들은 유사한 벡터값을 갖게 된다.** 분산 표현은 분포 가설을 이용하여 텍스트를 학습하고, 단어의 의미를 벡터의 여러 차원에 분산하여 표현한다.

이렇게 표현된 벡터들은 원-핫 벡터처럼 벡터의 차원이 단어 집합(vocabulary)의 크기일 필요가 없으므로, 벡터의 차원이 상대적으로 저차원으로 줄어든다. 예를 들어 갖고 있는 텍스트 데이터에 단어가 10,000개 있고 인덱스는 0부터 시작하며 강아지란 단어의 인덱스는 4였다면 강아지란 단어를 표현하는 원-핫 벡터는 다음과 같다.

```python
강아지 = [ 0 0 0 0 4 0 0 0 0 0 0 0 ... 중략 ... 0] # 길이가 10,000인 벡터
``` 

하지만 Word2Vec으로 임베딩 된 벡터는 굳이 벡터 차원이 단어 집합의 크기가 될 필요가 없다. 강아지란 단어를 표현하기 위해 사용자가 설정한 차원의 수(N)를 가지는 벡터가 되며 각 차원의 값은 실수값을 가진다.

```python
강아지 = [0.2 0.3 0.5 0.7 0.2 ... 중략 ... 0.2] # 길이가 N인 벡터
```

요약하면 희소 표현이 고차원에 각 차원이 분리된 표현 방법이었다면, 분산 표현은 저차원에 단어의 의미를 여러 차원에다가 분산하여 표현한다. 이런 표현 방법을 사용하면 **단어 벡터 간 유의미한 유사도를 계산**할 수 있다. 이를 위한 대표적인 학습 방법이 **Word2Vec**이다.

<BR/><BR/>
# 3. CBOW(Continuous Bag of Words)
---

Word2Vec의 학습 방식은 다음의 두 가지 방식이 있다. 
1. **CBOW(Continuous Bag of Words)**
    > 주변에 있는 단어들을 입력으로 중간에 있는 단어들을 예측하는 방법이다. 
    
2. **Skip-Gram**
    > 중간에 있는 단어들을 입력으로 주변 단어들을 예측하는 방법이다.
    
먼저 CBOW에 대해서 알아보자. 이해를 위해 매우 간소화 된 예시로 설명한다.

```python
예문 = "The fat cat sat on the mat"
```

예를 들어서 갖고 있는 코퍼스에 위와 같은 예문이 있다고 하자. ['The', 'fat', 'cat', 'on', 'the', 'mat']으로부터 sat을 예측하는 것은 CBOW가 하는 일이다. 이때 **예측해야하는 단어 sat을 중심 단어(center word)**라고 하고, **예측에 사용되는 단어들을 주변 단어(context word)**라고 한다.

중심 단어를 예측하기 위해서 **앞, 뒤로 몇 개의 단어를 볼지를 결정해야 하는데 이 범위를 윈도우(window)**라고 한다. 예를 들어보자.

* 윈도우 크기 = 2
* 중심 단어 = 'sat'

이라고 하면, 참고하려는 주변 단어는 ['fat','cat','on','the'] 가 입력이 된다. 

다른 중심단어들의 예시를 그림으로 살펴보자.


![그림 2](images/section2/그림_2.png)

크기가 고정된 윈도우가 옆으로 움직이면서 중심 단어에 따라 주변 단어들을 변경해가며 학습을 위한 데이터 셋을 만드는데, 이 방법을 **슬라이딩 윈도우(sliding window)**라고 한다.

위 그림은 좌측의 중심 단어와 주변 단어의 변화는 윈도우 크기가 2일때, 슬라이딩 윈도우가 어떤 식으로 이루어지면서 데이터 셋을 만드는지 보여준다. Word2Vec에서 입력은 모두 원-핫 벡터가 되어야 하는데, 우측 그림은 중심 단어와 주변 단어에 따라 각각 어떤 원-핫 벡터가 되는지를 보여준다. 

이제 CBOW의 인공 신경망 예시를 봐보자. 

![그림 3](images/section2/그림_3.png)

위에 예문에서 윈도우 크기가 2일 때 중심 단어가 'sat'인 경우의 모습이다. 입력으로 주변 단어들이 사용되고, 출력에서 중심 단어의 원-핫 벡터가 레이블로 필요하다. 

위 그림에서 알 수 있는 Word2Vec(CBOW)의 특징은 다음과 같다.

* 은닉층이 1개인 얕은 신경망(shallow neural network)이다. 
* Word2Vec의 은닉층은 활성화 함수가 존재하지 않는다.
* Word2Vec의 은닉층은 룩업 테이블이라는 연산을 담당하는 층으로 투사층(projection layer)이라고 부른다.

※ 투사층(projection layer)이란, 가중치 행렬 W와 원-핫 벡터들의 행렬 곱을 하게 되면, 원-핫 벡터의 1이 있는 row와 연관된 W의 column 요소들만이 벡터로 추출되어 마치 투사된 것처럼 표현되는 층을 얘기한다. 아래 그림의 위에 예시가 있다. CBOW의 인공 신경망을 좀 더 확대하여, 동작 메커니즘에 대해서 상세하게 알아보자. 

![그림 4](images/section2/그림_4.png)

이 그림에서 주목해야할 것은 두 가지이다. 

1. 투사층의 크기가 M이다. 

    CBOW에서 투사층의 크기 M은 임베딩 벡터의 차원이 된다. 위의 그림에서 투사층의 크기는 M=5이므로 CBOW를 수행하고나서 얻는 각 단어의 임베딩 벡터의 차원은 5가 된다. (행렬 곱 연산에 의해서) 각각의 단어들의 원-핫 벡터와 연관된 W의 행 벡터들의 평균이 투사층의 벡터가 된다.<br/>

2. 입력층과 투사층 사이의 가중치 W는 V × M 행렬이며, 투사층에서 출력층사이의 가중치 W'는 M × V 행렬이다.

    여기서 V는 단어 집합의 크기를 의미한다. 즉, 위의 그림처럼 원-핫 벡터의 차원이 7이고, M은 5라면 가중치 W는 7 × 5 행렬이고, W'는 5 × 7 행렬이 된다. 주의할 점은 이 두 행렬은 동일한 행렬을 전치(transpose)한 것이 아니라, **서로 다른 행렬이라는 점**이다. 인공 신경망의 훈련 전에 이 가중치 행렬 W와 W'는 랜덤 값으로 초기화 된다. 
    
    
**CBOW는 주변 단어로 중심 단어를 더 정확히 맞추기 위해 계속해서 W와 W'를 학습해가는 구조**이다. 가중치 행렬 W의 i번째 행벡터가 Word2Vec 학습 후에는 각 단어의 M차원의 임베딩 벡터로 간주되기 때문이다. 


![그림 5](images/section2/그림_5.png)

만약 윈도우 크기 n=2라면, 입력 벡터의 총 개수는 2n이므로 중간 단어를 예측하기 위해서는 총 4개가 입력 벡터로 사용된다. 그렇기 때문에 평균을 구할 때는 4개의 결과 벡터의 평균을 구하게 된다. 


![그림 6](images/section2/그림_6.png)

평균 벡터는 두번째 가중치 행렬 W'와 곱해진다. 곱셈의 결과로는 원-핫 벡터들과 차원이 V로 동일한 벡터가 나온다. 이 벡터는 소프트맥스(softmax) 함수를 지나서 각각의 요소 값들이 0~1의 확률 값을 갖게 된다. 값이 1이 되면 100%로 해당 단어가 예측됨을 의미한다. 그래서 CBOW의 목표는 label 원-핫 벡터 $y$와 예측 벡터$\hat{y}$를 같게 만드는 것이 된다. 이 때, 손실 함수는 cross-entropy를 사용한다. 식은 다음과 같다.

$$
L(\hat{y},y)=-\sum^V_{j=1}y_j\log(\hat{y}_j)
$$

역전파(Back Propagation)를 수행하면 W와 W'가 학습이 된다. 학습을 마치면 **M차원의 크기를 갖는 W의 행렬의 행을 각 단어의 임베딩 벡터로 사용하거나 W와 W' 행렬 두 가지 모두를 가지고 임베딩 벡터를 사용하기도 한다.** 

<BR/><BR/>
# 4. Skip-gram
---

Skip-gram은 **중심 단어에서 주변 단어를 예측**한다. CBOW와는 정반대의 상황이다. 앞서 언급한 예문에 대해서 동일하게 윈도우 크기가 2일 때, 데이터셋은 다음과 같이 구성된다.

![그림 7](images/section2/그림_7.png)

인공 신경망은 다음과 같다.

![그림 8](images/section2/그림_8.png)

중심 단어에 대해서 주변 단어를 예측하므로 CBOW와 달리 **투사층에서 벡터들의 평균을 구하는 과정은 없다.** 여러 논문에서 성능 비교를 진행했을 때 전반적으로 **Skip-gram이 CBOW보다 성능이 좋다고 알려져 있다.** 실제 실습은 섹션3에서 진행할 예정이다.

<br/><br/>
# 5. NNLM Vs. Word2Vec
---

![그림 9](images/section2/그림_9.png)

워드 임베딩의 개념 자체는 피드 포워드 신경망 언어 모델(NNLM)을 설명하며 이미 [학습한 적](https://github.com/yhyuntak/STUDY_AI/blob/main/Tensorflow/%E1%84%8E%E1%85%A2%E1%86%A8_%E1%84%83%E1%85%B5%E1%86%B8_%E1%84%85%E1%85%A5%E1%84%82%E1%85%B5%E1%86%BC%E1%84%8B%E1%85%B3%E1%86%AF_%E1%84%8B%E1%85%B5%E1%84%8B%E1%85%AD%E1%86%BC%E1%84%92%E1%85%A1%E1%86%AB_%E1%84%8C%E1%85%A1%E1%84%8B%E1%85%A7%E1%86%AB%E1%84%8B%E1%85%A5_%E1%84%8E%E1%85%A5%E1%84%85%E1%85%B5_%E1%84%8B%E1%85%B5%E1%86%B8%E1%84%86%E1%85%AE%E1%86%AB/CH7-1.%20%EC%BC%80%EB%9D%BC%EC%8A%A4%20%EA%B0%9C%EC%9A%94%20%EB%B0%8F%20NNLM/section11_%ED%94%BC%EB%93%9C%20%ED%8F%AC%EC%9B%8C%EB%93%9C%20%EC%8B%A0%EA%B2%BD%EB%A7%9D%20%EC%96%B8%EC%96%B4%20%EB%AA%A8%EB%8D%B8%20(NNLM).ipynb)이 있다. NNLM은 단어 벡터 간 유사도를 구할 수 있도록 워드 임베딩의 개념을 도입하였고, 워드 임베딩 자체에 집중하여 NNLM의 느린 학습 속도와 정확도를 개선하여 탄생한 것이 Word2Vec이다.

NNLM과 Word2Vec의 차이를 비교해자. 

|모델|NNLM|Word2Vec|
|:--:|:--:|:--:|
|예측 대상|다음 단어 예측|중심 단어 예측|
|참고 대상|예측 단어 이전 단어들|예측 단어의 전,후 단어들|
|구조의 차이점|은닉층 사용|은닉층 없음|

Word2Vec이 NNLM보다 학습 속도에서 강점을 가지는 이유는 **은닉층을 제거한 것뿐만 아니라 추가적으로 사용되는 기법들 덕분**이기도 하다. 대표적인 기법으로 계층적 소프트맥스(hierarchical softmax)와 네거티브 샘플링(negative sampling)이 있는데 이 책에서는 네거티브 샘플링에 대해서 설명한다. 이는 섹션 4에서 실습을 진행할 예정이다. 

Word2Vec과 NNLM의 연산량을 비교하여 학습 속도가 왜 차이나는지 이해해보자. 여기서 n은 입력 단어의 수이고, m은 가중치 행렬 W의 행의 차원이다.

입력층에서 투사층, 투사층에서 은닉층, 은닉층에서 출력층으로 향하며 발생하는 NNLM의 연산량은 다음과 같다.

* NNLM : $(n\times m)+(n\times m\times h)+(h\times V)$

추가적인 기법들까지 사용하였을 때 Word2Vec은 출력층에서의 연산에서 차원 V의 벡터와 W'의 연산량 V를 $\log(V)$로 바꿀 수 있다. 따라서 Word2Vec의 연산량은 아래와 같으며 이는 NNLM보다 훨씬 빠른 학습 속도를 가진다.

* Word2Vec : $(n\times m)+(m\times \log(V))$

