# 워드 임베딩(Word Embedding)

## 1. 희소 표현(Sparse Representiation)

- 원-핫 인코딩은 원-핫 벡터를 생성하며 표현하고자 하는 단어의 인덱스는 1로, 나머지 인덱스는 전부 0으로 표현되는 벡터 표현방법.
- 벡터 또는 행력의 값이 대부분ㅇ 0으로 표현되는 방법을 희소 표현(Sparse Representation)이라고 한다.
<br><br>
- 희소 벡터의 문제점은 단어의 개수가 늘어나면 벡터의 차원이 한 없이 커진다는 점. <br> 원-핫 벡터로 표현할 때는 갖고 있는 코퍼스에 단어가 10,000개 있다면 벡터의 차원은 10,000이어야 했으며 단어에 해당되는 부분만 1, 나머지는 0의 값을 가져야 했다. <br>
즉, 공간적 낭비가 발생한다.

## 2. 밀집 표현(Dense Representation)

- 벡터의 차원을 단어 집합의 크기로 상정하지 않는다. <br>
사용자가 설정한 값으로 모든 단어의 벡터 표현의 차원을 맞춘다.
- 이 과정에서 0과 1만을 가진 값이 아닌 실수값을 가지게 된다.

## 3. 워드 임베딩(Word Embedding)

- 단어를 밀집 벡터의 형태로 표현하는 방법을 <b>워드 임베딩(word embedding)</b>이라고 한다.
- 워드 임베딩 과정을 통해 나온 결과를 임베딩 벡터(embedding vector)라고 한다.
- 워드 임베딩 방법론으로는 LSA, FastText, Glove 등이 있다. <br>
keras.layers.Embedding()은 위 방법을 사용하지는 않지만 단어를 랜덤한 값을 가지는 밀집 벡터로 변환한 뒤에, 인공 신경망의 가중치를 학습하는 것과 같은 방식으로 단어 벡터를 학습하는 방법을 사용한다. <br><br>

- 원-핫 벡터와 임베딩 벡터의 차이
![image.png](attachment:image.png)

# Word2Vec

- 원-핫 벡터는 단어 간의 유사도를 계산할 수 없는 단점이 있다. <br>
그래서 단어 간 유사도를 반영 할 수 있도록 단어의 의미를 벡터화 할 수 있는 방법이 필요하다. <br> 이를 위해서 사용되는 대표적인 방법이 Word2Vec이다.

## 1. 분산 표현(Distributed Representation)

- 단어의 의미를 다차원 공간에 벡터화한다.
- 분산 표현의 방법은 기본적으로 분포 가설이라는 가정 하에 만들어진 표현 방법. <br>
이 가정은 <b>'비슷한 위치에서 등장하는 단어들은 비슷한 의미를 가진다</b>라는 가정이다. <br><br>
- 분산 표현은 분포 가설을 이용하여 단어들의 Set을 학습하고, <br> 벡터에 단어의 의미를 여러 차원에 분산하여 표현한다.
- 이렇게 표현된 벡터들은 원-핫 벡터처럼 벡터의 차원이 단어 집합(vocabulary)의 크기일 필요가 없으므로, 벡터의 차원이 상대적으로 저차원으로 줄어든다. <br><br>


- 요약하면 희소 표현이 고차원에 각 차원이 분리된 표현 방법이었다면, <br>
<h3>분산 표현은 저차원에 단어의 의미를 여러 차원에다가 분산하여 표현한다. <br>
이러한 표현 방법을 사용하면 단어 간 유사도를 계산할 수 있다.</h3> 


## CBOW(Continuous Bag of Words)

- Word2Vec에는 CBOW와 Skip-Gram 두 가지 방식이 있다. <br><br>
- CBOW는 주변에 있는 단어들을 통해 중간에 있는 단어들을 예측하는 방법이다. <br>
 Skip-Gram은 중간에 있는 단어로 주변 단어들을 예측하는 방법이다.

### CBOW 과정

![image-2.png](attachment:image-2.png)

- Word2Vec에서 입력은 모두 원-핫 벡터가 되어야 하는데, 위 그림은 주변 단어를 어떻게 선택하느냐에 따라 각각 어떤 원-핫 벡터가 되는지를 보여준다. <br><br>

- CBOW의 인공 신경망을 간단히 도식화

![image-3.png](attachment:image-3.png)

- 위 그림에서 Word2Vec은 딥 러닝 모델은 아니다는 것을 알 수 있다. <br>
(입력층과 출력층 사이에 하나의 은닉층만 존재한다.)
- 이렇게 은닉층이 1개인 경우에는 일반적으로 심층신경망(Deep Neural Network)이 아니라 얕은신경망(Shallow Neural Network)라고 부른다. <br><br>
- Word2Vec의 은닉층은 일반적인 은닉층과는 달리 활성화 함수가 존재하지 않으며 룩업 테이블이라는 연산을 담당하는 층으로 일반적인 은닉층과 구분하기 위해 투사층(projection layer)라고 부르기도 한다. <br><br>

- CBOW의 인공 신경망 확대

![image-4.png](attachment:image-4.png)

<b>1. 투사층의 크기가 M 이다.</b>
- CBOW에서 투사층의 크기 M은 임베딩 후 벡터의 차원이 된다.

<b>2. 입력층과 투사층 사이의 가중치 W는 V x M 행렬이며 투사층에서 출력층의 가중치 W'는 M x V 행렬이다.</b>
- V는 단어 집합의 크기.
- 위의 그림처럼 원-핫 벡터의 차원이 7이고 M은 5라면 가중치 W는 7 x 5 행렬이고 <br>
W'는 5 x 7 행렬이 될 것이다. <br> 주의할 점은 이 두행렬은 동일한 행렬을 전치한 것이 아니라 서로 다른 행렬이다.

### Lookup Table

![image.png](attachment:image.png)

<br><br>

- Window 크기가 2일 경우

![image-2.png](attachment:image-2.png)

<br><br>

- output

![image-3.png](attachment:image-3.png)

### Cross-entropy

![image.png](attachment:image.png)

## Skip-gram

- CBOW를 이해했다면 메커니즘 자체는 동일하므로 쉽게 이해할 수 있다.
- CBOW에서는 주변 단어를 통해 중심 단어를 예측했다면, <br>
 Skip-gram은 중심 단어에서 주변 단어를 예측한다. <br><br>
 
- window 크기가 2일 때의 예

![image.png](attachment:image.png)

<br><br>

- 인공 신경망으로 도식화

![image-2.png](attachment:image-2.png)

 <br><br>
 
- 중심 단어에 대해서 주변 단어를 예측하므로 투사층에서 벡터들의 평균을 구하는 과정은 없다.
- 여러 논문에서 성능 비교를 진행했을 때, 전반적으로 Skip-gram이 CBOW보다 성능이 좋다고 알려져 있다.

## NNLM vs Word2Vec

![image.png](attachment:image.png)

- NNLM은 단어 간 유사도를 구할 수 있도록 Word Embedding의 개념을 도입하였고, NNLM의 느린 학습 속도와 정확도를 개선하여 탄생한 것이 Word2Vec이다.

### NNLM과 Word2Vec의 차이

<b>1. 예측하는 대상이 달라짐.</b>
- NNLM은 언어 모델이므로 다음 단어를 예측하지만, <br>
Word2Vec(CBOW)는 워드 임베딩 자체가 목적이므로 다음 단어가 아닌 중심단어를 예측한다.
- 중심 단어를 예측하게 하므로서 NNLM이 예측 단어의 이전 단어들만을 참고하였던 것과는 달리, Word2Vec은 예측 단어의 전, 후 단어들을 모두 참고한다.

<br>

<b>2. 구조가 달라짐</b>
- 위의 그림은 <br>
 n을 학습에 사용하는 단어의 수<br>
 m을 임베딩 벡터의 차원<br>
 h를 은닉층의 크기<br>
 V를 단어 집합의 크기 라고 하였을 때 NNLM과 Word2Vec의 차이를 보여준다.
- Word2Vec은 우선 NNLM에 존재하던 활성화 함수가 있는 은닉층을 제거하였다. <br>
 이에 따라 투사층 다음에 바로 출력층이 연결되는 구조.
 
<br>

<b>3. 학습 속도</b>
- Word2Vec이 NNLM보다 학습 속도에서 강점을 가지는 이유는 은닉층을 제거한 것뿐만 아니라 추가적으로 사용되는 기법들 덕분이다.
- 대표적인 기법으로 계층적 소프트맥스(Hierarchical Softmax)와 네거티브 샘플링(Negative Sampling)이 있다.
<br>
- NNLM의 연산량 <br>
 입력층 to 투사층 to 은닉층 to 출력층
 
 ![image.png](attachment:image.png)

- Word2Vec의 연산량 <br>
 추가적인 기법들까지 사용시 Word2Vec은 출력층에서의 연산에서 V를 log(V)로 바꿀 수 있다. 이에 따라 Word2Vec의 연산량은 아래와 같고 NNLM보다 배는 빠른 학습 속도를 가진다.
 
 ![image-2.png](attachment:image-2.png)