<a href="https://colab.research.google.com/github/Namsik-Yoon/pytorch_basic/blob/master/8.%20%EB%8B%A8%EC%96%B4%EC%9D%98%20%ED%91%9C%ED%98%84%20%EB%B0%A9%EB%B2%95.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 8. 단어의 표현 방법

이번 챕터에서는 자연어 처리에서 필수적으로 사용되는 단어의 표현 방법인 원-핫 인코딩(One-hot encoding)과 워드 임베딩(Word Embedding)에 대해서 학습합니다.

## 8.1 NLP에서의 원-핫 인코딩(One-hot encoding)

컴퓨터 또는 기계는 문자보다는 숫자를 더 잘 처리 할 수 있습니다. 이를 위해 자연어 처리에서는 문자를 숫자로 바꾸는 여러가지 기법들이 있습니다. 원-핫 인코딩(One-hot encoding)은 그 많은 기법 중에서 단어를 표현하는 가장 기본적인 표현 방법이며, 머신 러닝, 딥 러닝을 하기 위해서는 반드시 배워야 하는 표현 방법입니다.

원-핫 인코딩에 대해서 배우기에 앞서 단어 집합(vocabulary)에 대해서 정의해보도록 하겠습니다. 어떤 분들은 사전(vocabulary)이라고도 부르지만, 저는 집합이라는 표현이 보다 명확하다고 생각하여 앞으로 단어 집합이라고 부르겠습니다. 단어 집합은 앞으로 자연어 처리에서 계속 나오는 개념이기 때문에 여기서 이해하고 가야합니다. 단어 집합은 서로 다른 단어들의 집합입니다. 여기서 혼동이 없도록 서로 다른 단어라는 정의에 대해서 좀 더 주목할 필요가 있습니다.

단어 집합(vocabulary)에서는 기본적으로 book과 books와 같이 단어의 변형 형태도 다른 단어로 간주합니다. 이 책에서는 앞으로 단어 집합에 있는 단어들을 가지고, 문자를 숫자(더 구체적으로는 벡터)로 바꾸는 원-핫 인코딩을 포함한 여러 방법에 대해서 배우게 됩니다.

원-핫 인코딩을 위해서 먼저 해야할 일은 단어 집합을 만드는 일입니다. 텍스트의 모든 단어를 중복을 허용하지 않고 모아놓으면 이를 단어 집합이라고 합니다. 그리고 이 단어 집합에 고유한 숫자를 부여하는 정수 인코딩을 진행합니다. 텍스트에 단어가 총 5,000개가 존재한다면, 단어 집합의 크기는 5,000입니다. 5,000개의 단어가 있는 이 단어 집합의 단어들마다 1번부터 5,000번까지 인덱스를 부여한다고 해보겠습니다. 가령, book은 150번, dog는 171번, love는 192번, books는 212번과 같이 부여할 수 있습니다.

이제 각 단어에 고유한 정수 인덱스를 부여하였다고 합시다. 이 숫자로 바뀐 단어들을 벡터로 다루고 싶다면 어떻게 하면 될까요?

### 8.1.1 원-핫 인코딩(One-hot encoding)이란?

원-핫 인코딩은 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식입니다. 이렇게 표현된 벡터를 원-핫 벡터(One-hot vector)라고 합니다.

원-핫 인코딩을 두 가지 과정으로 정리해보겠습니다.
(1) 각 단어에 고유한 인덱스를 부여합니다. (정수 인코딩)
(2) 표현하고 싶은 단어의 인덱스의 위치에 1을 부여하고, 다른 단어의 인덱스의 위치에는 0을 부여합니다.

이해를 돕기 위해서 한국어 문장을 예제로 원-핫 벡터를 만들어보겠습니다.
우선, 한국어 자연어 처리를 위해 코엔엘파이 패키지를 설치합니다.



```
pip install konlpy
```
문장 : 나는 자연어 처리를 배운다

위 문장에 대해서 원-핫 인코딩을 진행하는 코드는 아래와 같습니다.


In [0]:
!pip install konlpy



In [0]:
from konlpy.tag import Okt  
okt = Okt()  
token = okt.morphs("나는 자연어 처리를 배운다")  
print(token)

['나', '는', '자연어', '처리', '를', '배운다']


코엔엘파이의 Okt 형태소 분석기를 통해서 우선 문장에 대해서 토큰화를 수행하였습니다.

In [0]:
word2index = {}
for voca in token:
     if voca not in word2index.keys():
       word2index[voca] = len(word2index)
print(word2index)

{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}


각 토큰에 대해서 고유한 인덱스(index)를 부여하였습니다. 지금은 문장이 짧기 때문에 각 단어의 빈도수를 고려하지 않지만, 빈도수 순대로 단어를 정렬하여 고유한 인덱스를 부여하는 작업이 사용되기도 합니다. (정수 인코딩 챕터 참고)

In [0]:
def one_hot_encoding(word, word2index):
       one_hot_vector = [0]*(len(word2index))
       index = word2index[word]
       one_hot_vector[index] = 1
       return one_hot_vector

토큰을 입력하면 해당 토큰에 대한 원-핫 벡터를 만들어내는 함수를 만들었습니다.

In [0]:
one_hot_encoding("자연어",word2index)

[0, 0, 1, 0, 0, 0]

해당 함수에 '자연어'라는 토큰을 입력으로 넣어봤더니 [0, 0, 1, 0, 0, 0]라는 벡터가 나왔습니다. 자연어는 단어 집합에서 인덱스가 2이므로, 자연어를 표현하는 원-핫 벡터는 인덱스 2의 값이 1이며, 나머지 값은 0인 벡터가 나옵니다.

## 8.1.2 원-핫 인코딩(One-hot encoding)의 한계

이러한 표현 방식은 단어의 개수가 늘어날 수록, 벡터를 저장하기 위해 필요한 공간이 계속 늘어난다는 단점이 있습니다. 다른 말로는 벡터의 차원이 계속 늘어난다고도 표현합니다. 원 핫 벡터는 단어 집합의 크기가 곧 벡터의 차원 수가 됩니다. 가령, 단어가 1,000개인 코퍼스를 가지고 원 핫 벡터를 만들면, 모든 단어 각각은 모두 1,000개의 차원을 가진 벡터가 됩니다. 다시 말해 모든 단어 각각은 하나의 값만 1을 가지고, 999개의 값은 0의 값을 가지는 벡터가 되는데 이는 저장 공간 측면에서는 매우 비효율적인 표현 방법입니다.

또한 원-핫 벡터는 단어의 유사도를 표현하지 못한다는 단점이 있습니다. 예를 들어서 늑대, 호랑이, 강아지, 고양이라는 4개의 단어에 대해서 원-핫 인코딩을 해서 각각, [1, 0, 0, 0], [0, 1, 0, 0], [0, 0, 1, 0], [0, 0, 0, 1]이라는 원-핫 벡터를 부여받았다고 합시다. 이 때 원-핫 벡터로는 강아지와 늑대가 유사하고, 호랑이와 고양이가 유사하다는 것을 표현할 수가 없습니다. 좀 더 극단적으로는 강아지, 개, 냉장고라는 단어가 있을 때 강아지라는 단어가 개와 냉장고라는 단어 중 어떤 단어와 더 유사한지도 알 수 없습니다.

단어 간 유사성을 알 수 없다는 단점은 검색 시스템 등에서 심각한 문제입니다. 가령, 여행을 가려고 웹 검색창에 '삿포로 숙소'라는 단어를 검색한다고 합시다. 제대로 된 검색 시스템이라면, '삿포로 숙소'라는 검색어에 대해서 '삿포로 게스트 하우스', '삿포로 료칸', '삿포로 호텔'과 같은 유사 단어에 대한 결과도 함께 보여줄 수 있어야 합니다. 하지만 단어간 유사성을 계산할 수 없다면, '게스트 하우스'와 '료칸'과 '호텔'이라는 연관 검색어를 보여줄 수 없습니다.

## 8.2 워드 임베딩(Word Embedding)

워드 임베딩(Word Embedding)은 단어를 벡터로 표현하는 것을 말합니다. 워드 임베딩은 단어를 밀집 표현으로 변환하는 방법을 말합니다. 이번 챕터에서는 희소 표현, 밀집 표현, 그리고 워드 임베딩에 대한 개념을 이해합니다.

### 8.2.1 희소 표현(Sparse Representation)

앞서 원-핫 인코딩을 통해서 나온 원-핫 벡터들은 표현하고자 하는 단어의 인덱스의 값만 1이고, 나머지 인덱스에는 전부 0으로 표현되는 벡터 표현 방법이었습니다. 이렇게 벡터 또는 행렬(matrix)의 값이 대부분이 0으로 표현되는 방법을 희소 표현(sparse representation)이라고 합니다. 그러니까 원-핫 벡터는 희소 벡터(sparse vector)입니다.

이러한 희소 벡터의 문제점은 단어의 개수가 늘어나면 벡터의 차원이 한없이 커진다는 점입니다. 원-핫 벡터로 표현할 때는 갖고 있는 코퍼스에 단어가 10,000개였다면 벡터의 차원은 10,000이어야만 했습니다. 심지어 그 중에서 단어의 인덱스에 해당되는 부분만 1이고 나머지는 0의 값을 가져야만 했습니다. 단어 집합이 클수록 고차원의 벡터가 됩니다. 예를 들어 단어가 10,000개 있고 강아지란 단어의 인덱스는 5였다면 원 핫 벡터는 이렇게 표현되어야 했습니다.

Ex) 강아지 = [ 0 0 0 0 0 1 0 0 0 0 0 0 ... 중략 ... 0] # 이 때 1 뒤의 0의 수는 9994개.

이러한 벡터 표현은 공간적 낭비를 불러일으킵니다. 원-핫 벡터의 문제점은 단어 벡터 간 유사도를 표현할 수 없다는 점도 있습니다. 예를 들어보겠습니다. dog, cat, computer, netbook, book 이러한 단어가 5개에 대해서 원-핫 인코딩을 한다고 해봅시다. 우선 이 단어들에 0, 1, 2, 3, 4라는 고유한 정수를 부여합다. 그리고 나서 단어의 개수가 5개이므로 벡터의 차원으로 5로하고 부여된 각 고유한 정수를 인덱스로 하여 해당 인덱스에는 1, 나머지는 0의 값을 채워넣습니다. 이를 코드로 표현하면 아래와 같습니다.

In [0]:
import torch

# 원-핫 벡터 생성
dog = torch.FloatTensor([1, 0, 0, 0, 0])
cat = torch.FloatTensor([0, 1, 0, 0, 0])
computer = torch.FloatTensor([0, 0, 1, 0, 0])
netbook = torch.FloatTensor([0, 0, 0, 1, 0])
book = torch.FloatTensor([0, 0, 0, 0, 1])

이러한 원-핫 벡터간 코사인 유사도를 구해보겠습니다.

In [0]:
print(torch.cosine_similarity(dog, cat, dim=0))
print(torch.cosine_similarity(cat, computer, dim=0))
print(torch.cosine_similarity(computer, netbook, dim=0))
print(torch.cosine_similarity(netbook, book, dim=0))

tensor(0.)
tensor(0.)
tensor(0.)
tensor(0.)


사람이 생각하기에 강아지와 고양이라는 단어의 유사도는 고양이와 컴퓨터라는 단어의 유사도보다 높을 것이며, 컴퓨터와 넷북이라는 단어의 유사도는 넷북과 책이라는 단어의 유사도보다 높을 것 같지만 어떤 단어들을 선택해서 코사인 유사도를 구해도 유사도는 전부 동일합니다. 단어 간 의미적 유사도를 반영할 수 없다는 것은 자연어 처리에서 치명적입니다.

### 8.2.2 밀집 표현(Dense Representation)

이러한 희소 표현과 반대되는 표현이 있으니, 이를 밀집 표현(dense representation)이라고 합니다. 밀집 표현은 벡터의 차원을 단어 집합의 크기로 상정하지 않습니다. 사용자가 설정한 값으로 모든 단어의 벡터 표현의 차원을 맞춥니다. 또한, 이 과정에서 더 이상 0과 1만 가진 값이 아니라 실수값을 가지게 됩니다. 다시 희소 표현의 예를 가져와봅시다.

Ex) 강아지 = [ 0 0 0 0 1 0 0 0 0 0 0 0 ... 중략 ... 0] # 이 때 1 뒤의 0의 수는 9995개. 차원은 10,000

예를 들어 10,000개의 단어가 있을 때 강아지란 단어를 표현하기 위해서는 위와 같은 표현을 사용했습니다. 하지만 밀집 표현을 사용하고, 사용자가 밀집 표현의 차원을 128로 설정한다면, 모든 단어의 벡터 표현의 차원은 128로 바뀌면서 모든 값이 실수가 됩니다.

Ex) 강아지 = [0.2 1.8 1.1 -2.1 1.1 2.8 ... 중략 ...] # 이 벡터의 차원은 128

이 경우 벡터의 차원이 조밀해졌다고 하여 밀집 벡터(dense vector)라고 합니다.

### 8.2.3 워드 임베딩(Word Embedding)

단어를 밀집 벡터(dense vector)의 형태로 표현하는 방법을 **워드 임베딩(word embedding)**이라고 합니다. 그리고 이 밀집 벡터를 워드 임베딩 과정을 통해 나온 결과라고 하여 **임베딩 벡터(embedding vector)**라고도 합니다.

워드 임베딩 방법론으로는 LSA, Word2Vec, FastText, Glove 등이 있습니다. 파이토치에서 제공하는 도구인 nn.embedding()는 앞서 언급한 방법들을 사용하지는 않지만, 단어를 랜덤한 값을 가지는 밀집 벡터로 변환한 뒤에, 인공 신경망의 가중치를 학습하는 것과 같은 방식으로 단어 벡터를 학습하는 방법을 사용합니다. 아래의 표는 앞서 배운 원-핫 벡터와 지금 배우고 있는 임베딩 벡터의 차이를 보여줍니다.

|-|원-핫 벡터|임베딩 벡터|
|:----|:----|:----|
|차원|고차원(단어 집합의 크기)|저차원|
|다른 표현|희소 벡터의 일종|밀집 벡터의 일종|
|표현 방법|수동|훈련 데이터로부터 학습함|
|값의 타입|1과 0|실수|

## 8.3 워드투벡터(Word2Vec)

앞서 원-핫 인코딩 챕터에서 원-핫 벡터는 단어 간 유사도를 계산할 수 없다는 단점이 있음을 언급한 적이 있습니다. 그래서 단어 간 유사도를 반영할 수 있도록 단어의 의미를 벡터화 할 수 있는 방법이 필요합니다. 그리고 이를 위해서 사용되는 대표적인 방법이 워드투벡터(Word2Vec)입니다. Word2Vec의 개념을 설명하기에 앞서, Word2Vec가 어떤 일을 할 수 있는지 먼저 확인해보겠습니다.

![대체 텍스트](https://wikidocs.net/images/page/22660/word2vec.PNG)

http://w.elnn.kr/search/

위 사이트는 한국어 단어에 대해서 벡터 연산을 해볼 수 있는 사이트입니다. 위 사이트에서는 단어들(실제로는 Word2Vec 벡터)로 더하기, 빼기 연산을 할 수 있습니다. 예를 들어 아래의 식에서 좌변을 집어 넣으면, 우변의 답들이 나옵니다.

고양이 + 애교 = 강아지
한국 - 서울 + 도쿄 = 일본
박찬호 - 야구 + 축구 = 호나우두

신기하게도 단어가 가지고 있는 어떤 의미들을 가지고 연산을 하고 있는 것처럼 보입니다. 이런 연산이 가능한 이유는 각 단어 벡터가 단어 간 유사도를 반영한 값을 가지고 있기 때문입니다. 어떻게 이런 일이 가능한 것일까요?

### 8.3.1 희소 표현(Sparse Representation)

앞서 원-핫 인코딩을 통해서 나온 원-핫 벡터들은 표현하고자 하는 단어의 인덱스의 값만 1이고, 나머지 인덱스에는 전부 0으로 표현되는 벡터 표현 방법이었습니다. 이렇게 벡터 또는 행렬(matrix)의 값이 대부분이 0으로 표현되는 방법을 희소 표현(sparse representation)이라고 합니다. 그러니까 원-핫 벡터는 희소 벡터(sparse vector)입니다.

하지만 이러한 표현 방법은 각 단어간 유사성을 표현할 수 없다는 단점이 있었고, 이를 위한 대안으로 단어의 '의미'를 다차원 공간에 벡터화하는 방법을 찾게되는데, 이러한 표현 방법을 **분산 표현(distributed representation)**이라고 합니다. 그리고 이렇게 분산 표현을 이용하여 단어의 유사도를 벡터화하는 작업은 워드 임베딩(embedding) 작업에 속하기 때문에 이렇게 표현된 벡터 또한 임베딩 벡터(embedding vector)라고 하며, 저차원을 가지므로 바로 앞의 챕터에서 배운 밀집 벡터(dense vector)에도 속합니다.

### 8.3.2 분산 표현(Distributed Representation)

분산 표현(distributed representation) 방법은 기본적으로 분포 가설(distributional hypothesis)이라는 가정 하에 만들어진 표현 방법입니다. 이 가정은 '비슷한 위치에서 등장하는 단어들은 비슷한 의미를 가진다'라는 가정입니다. 강아지란 단어는 귀엽다, 예쁘다, 애교 등의 단어가 주로 함께 등장하는데 분포 가설에 따라서 저런 내용을 가진 텍스트를 벡터화한다면 저 단어들은 의미적으로 가까운 단어가 됩니다. 분산 표현은 분포 가설을 이용하여 단어들의 셋을 학습하고, 벡터에 단어의 의미를 여러 차원에 분산하여 표현합니다.

이렇게 표현된 벡터들은 원-핫 벡터처럼 벡터의 차원이 단어 집합(vocabulary)의 크기일 필요가 없으므로, 벡터의 차원이 상대적으로 저차원으로 줄어듭니다. 예를 들어 단어가 10,000개 있고 인덱스가 1부터 시작한다고 하였을 때 강아지란 단어의 인덱스는 5였다면 강아지란 단어를 표현하는 원-핫 벡터는 다음과 같았습니다.

Ex) 강아지 = [ 0 0 0 0 1 0 0 0 0 0 0 0 ... 중략 ... 0]

1이란 값 뒤에는 0이 9,995개가 있는 벡터가 됩니다. 하지만 Word2Vec로 임베딩 된 벡터는 굳이 벡터의 차원이 단어 집합의 크기가 될 필요가 없습니다. 강아지란 단어를 표현하기 위해 사용자가 설정한 차원을 가지는 벡터가 되면서 각 차원은 실수형의 값을 가집니다.

Ex) 강아지 = [0.2 0.3 0.5 0.7 0.2 ... 중략 ... 0.2]

요약하면 희소 표현이 고차원에 각 차원이 분리된 표현 방법이었다면, 분산 표현은 저차원에 단어의 의미를 여러 차원에다가 분산하여 표현합니다. 이런 표현 방법을 사용하면 단어 간 유사도를 계산할 수 있습니다.

이를 위한 학습 방법으로는 NNLM, RNNLM 등이 있으나 요즘에는 해당 방법들의 속도를 대폭 개선시킨 Word2Vec가 많이 쓰이고 있습니다.

### 8.3.3 CBOW(Continuous Bag of Words)

Word2Vec에는 CBOW(Continuous Bag of Words)와 Skip-Gram 두 가지 방식이 있습니다. CBOW는 주변에 있는 단어들을 가지고, 중간에 있는 단어들을 예측하는 방법입니다. 반대로, Skip-Gram은 중간에 있는 단어로 주변 단어들을 예측하는 방법입니다. 메커니즘 자체는 거의 동일하기 때문에 CBOW를 이해한다면 Skip-Gram도 손쉽게 이해 가능합니다. 우선 CBOW에 대해서 알아보도록 하겠습니다. 이해를 위해 매우 간소화 된 형태의 CBOW로 설명합니다.

예문 : "The fat cat sat on the mat"
예를 들어서 갖고 있는 코퍼스에 위와 같은 문장이 있다고 합시다. 가운데 단어를 예측하는 것이 CBOW라고 했습니다. {"The", "fat", "cat", "on", "the", "mat"}으로부터 sat을 예측하는 것은 CBOW가 하는 일입니다. 이 때 예측해야하는 단어 sat을 중심 단어(center word)라고 하고, 예측에 사용되는 단어들을 주변 단어(context word)라고 합니다.

중심 단어를 예측하기 위해서 앞, 뒤로 몇 개의 단어를 볼지를 결정했다면 이 범위를 윈도우(window)라고 합니다. 예를 들어서 윈도우 크기가 2이고, 예측하고자 하는 중심 단어가 sat이라고 한다면 앞의 두 단어인 fat와 cat, 그리고 뒤의 두 단어인 on, the를 참고합니다. 윈도우 크기가 n이라고 한다면, 실제 중심 단어를 예측하기 위해 참고하려고 하는 주변 단어의 개수는 2n이 될 것입니다.

![대체 텍스트](https://wikidocs.net/images/page/22660/%EB%8B%A8%EC%96%B4.PNG)

윈도우 크기를 정했다면, 윈도우를 계속 움직여서 주변 단어와 중심 단어 선택을 바꿔가며 학습을 위한 데이터 셋을 만들 수 있는데, 이 방법을 슬라이딩 윈도우(sliding window)라고 합니다.

위 그림에서 좌측의 중심 단어와 주변 단어의 변화는 윈도우 크기가 2일때, 슬라이딩 윈도우가 어떤 식으로 이루어지면서 데이터 셋을 만드는지 보여줍니다. 또한 Word2Vec에서 입력은 모두 원-핫 벡터가 되어야 하는데, 우측 그림은 중심 단어와 주변 단어를 어떻게 선택했을 때에 따라서 각각 어떤 원-핫 벡터가 되는지를 보여줍니다. 위 그림은 결국 CBOW를 위한 전체 데이터 셋을 보여주는 것입니다.

![대체 텍스트](https://wikidocs.net/images/page/22660/word2vec_renew_1.PNG)

CBOW의 인공 신경망을 간단히 도식화하면 위와 같습니다. 입력층(Input layer)의 입력으로서 앞, 뒤로 사용자가 정한 윈도우 크기 범위 안에 있는 주변 단어들의 원-핫 벡터가 들어가게 되고, 출력층(Output layer)에서 예측하고자 하는 중간 단어의 원-핫 벡터가 필요합니다. 뒤에서 설명하겠지만, Word2Vec의 학습을 위해서 이 중간 단어의 원-핫 벡터가 필요합니다.

또한 위 그림에서 알 수 있는 사실은, Word2Vec은 딥 러닝 모델(Deep Learning Model)은 아니라는 점입니다. 보통 딥 러닝이라함은, 입력층과 출력층 사이의 은닉층의 개수가 충분히 쌓인 신경망을 학습할 때를 말하는데 Word2Vec는 입력층과 출력층 사이에 하나의 은닉층만이 존재합니다. 이렇게 은닉층(hidden Layer)이 1개인 경우에는 일반적으로 심층신경망(Deep Neural Network)이 아니라 얕은신경망(Shallow Neural Network)이라고 부릅니다. 또한 Word2Vec의 은닉층은 일반적인 은닉층과는 달리 활성화 함수가 존재하지 않으며 룩업 테이블이라는 연산을 담당하는 층으로 일반적인 은닉층과 구분하기 위해 투사층(projection layer)이라고 부르기도 합니다.

![대체 텍스트](https://wikidocs.net/images/page/22660/word2vec_renew_2.PNG)

CBOW의 인공 신경망을 좀 더 확대하여, 동작 메커니즘에 대해서 상세하게 알아보도록 하겠습니다. 이 그림에서 주목해야할 것은 두 가지 입니다. 하나는 투사층의 크기가 M이라는 점입니다. CBOW에서 투사층의 크기 M은 임베딩하고 난 벡터의 차원이 됩니다. 다시 말해, 위의 그림에서 투사층의 크기는 M=5이기 때문에 CBOW를 수행하고나서 얻는 각 단어의 임베딩 벡터의 차원은 5가 될 것입니다.

두번째는 입력층과 투사층 사이의 가중치 W는 V × M 행렬이며, 투사층에서 출력층사이의 가중치 W'는 M × V 행렬이라는 점입니다. 여기서 V는 단어 집합의 크기를 의미합니다. 즉, 위의 그림처럼 원-핫 벡터의 차원이 7이고, M은 5라면 가중치 W는 7 × 5 행렬이고, W'는 5 × 7 행렬이 될 것입니다. 주의할 점은 이 두 행렬은 동일한 행렬을 전치(transpose)한 것이 아니라, 서로 다른 행렬이라는 점입니다. 인공 신경망의 훈련 전에 이 가중치 행렬 W와 W'는 대게 굉장히 작은 랜덤 값을 가지게 됩니다. CBOW는 주변 단어로 중심 단어를 더 정확히 맞추기 위해 계속해서 이 W와 W'를 학습해가는 구조입니다.

![대체 텍스트](https://wikidocs.net/images/page/22660/word2vec_renew_3.PNG)

입력으로 들어오는 주변 단어의 원-핫 벡터와 가중치 W 행렬의 곱이 어떻게 이루어지는지 보겠습니다. 위 그림에서는 각 주변 단어의 원-핫 벡터를 x로 표기하였습니다. 입력 벡터는 원-핫 벡터입니다. i번째 인덱스에 1이라는 값을 가지고 그 외의 0의 값을 가지는 입력 벡터와 가중치 W 행렬의 곱은 사실 W행렬의 i번째 행을 그대로 읽어오는 것과(lookup) 동일합니다. 그래서 이 작업을 룩업 테이블(lookup table)이라고 부릅니다. 앞서 CBOW의 목적은 W와 W'를 잘 훈련시키는 것이라고 언급한 적이 있는데, 사실 그 이유가 여기서 lookup해온 W의 각 행벡터가 사실 Word2Vec을 수행한 후의 각 단어의 M차원의 크기를 갖는 임베딩 벡터들이기 때문입니다.

![대체 텍스트](https://wikidocs.net/images/page/22660/word2vec_renew_4.PNG)

이렇게 각 주변 단어의 원-핫 벡터에 대해서 가중치 W가 곱해서 생겨진 결과 벡터들은 투사층에서 만나 이 벡터들의 평균인 벡터를 구하게 됩니다. 만약 윈도우 크기가 2라면, 입력 벡터의 총 개수는 2n이므로 중간 단어를 예측하기 위해서는 총 4개가 입력 벡터로 사용됩니다. 그렇기 때문에 평균을 구할 때는 4개의 결과 벡터에 대해서 평균을 구하게 됩니다. 투사층에서 벡터의 평균을 구하는 부분은 CBOW가 Skip-Gram과 다른 차이점이기도 합니다. 뒤에서 보게되겠지만, Skip-Gram은 입력이 중심 단어 하나이기때문에 투사층에서 벡터의 평균을 구하지 않습니다.

![대체 텍스트](https://wikidocs.net/images/page/22660/word2vec_renew_5.PNG)

이렇게 구해진 평균 벡터는 두번째 가중치 행렬 W'와 곱해집니다. 곱셈의 결과로는 원-핫 벡터들과 차원이 V로 동일한 벡터가 나옵니다. 만약 입력 벡터의 차원이 7이었다면 여기서 나오는 벡터도 마찬가지입니다.

이 벡터에 CBOW는 소프트맥스(softmax) 함수를 취하는데, 소프트맥스 함수로 인한 출력값은 0과 1사이의 실수로, 각 원소의 총 합은 1이 되는 상태로 바뀝니다. 이렇게 나온 벡터를 스코어 벡터(score vector)라고 합니다. 스코어 벡터의 각 차원 안에서의 값이 의미하는 것은 아래와 같습니다.

스코어 벡터의 j번째 인덱스가 가진 0과 1사이의 값은 j번째 단어가 중심 단어일 확률을 나타냅니다. 그리고 이 스코어 벡터는 우리가 실제로 값을 알고있는 벡터인 중심 단어 원-핫 벡터의 값에 가까워져야 합니다. 스코어 벡터를 $\^_{𝑦}$라고 하겠습니다. 중심 단어를 $y$로 했을 때, 이 두 벡터값의 오차를 줄이기위해 CBOW는 손실 함수(loss function)로 cross-entropy 함수를 사용합니다.

![대체 텍스트](https://wikidocs.net/images/page/22660/crossentrophy.PNG)

cross-entropy 함수에 실제 중심 단어인 원-핫 벡터와 스코어 벡터를 입력값으로 넣고, 이를 식으로 표현하면 위와 같습니다.

![대체 텍스트](https://wikidocs.net/images/page/22660/crossentrophy2.PNG)

그런데 y가 원-핫 벡터라는 점을 고려하면, 이 식은 위와 같이 간소화시킬 수 있습니다. 이 식이 왜 loss function으로 적합한지 알아보겠습니다. c를 중심 단어에서 1을 가진 차원의 값의 인덱스라고 한다면, ![대체 텍스트](https://wikidocs.net/images/page/22660/best.PNG)는  $\^_{𝑦}$가 $y$를 정확하게 예측한 경우가 됩니다. 이를 식에 대입해보면 -1 log(1) = 0이 되기 때문에, 결과적으로  $\^_{𝑦}$가 $y$를 정확하게 예측한 경우의 cross-entropy의 값은 0이 됩니다. 즉, ![대체 텍스트](https://wikidocs.net/images/page/22660/crossentrophy.PNG)이 값을 최소화하는 방향으로 학습해야 합니다.

이제 역전파(Back Propagation)를 수행하면 W와 W'가 학습이 되는데, 학습이 다 되었다면 M차원의 크기를 갖는 W의 행이나 W'의 열로부터 어떤 것을 임베딩 벡터로 사용할지를 결정하면 됩니다. 때로는 W와 W'의 평균치를 가지고 임베딩 벡터를 선택하기도 합니다.

### 8.3.4 Skip-gram

Skip-gram은 CBOW를 이해했다면, 메커니즘 자체는 동일하기 때문에 쉽게 이해할 수 있습니다. 앞서 CBOW에서는 주변 단어를 통해 중심 단어를 예측했다면, Skip-gram은 중심 단어에서 주변 단어를 예측하려고 합니다.

![대체 텍스트](https://wikidocs.net/images/page/22660/word2vec_renew_6.PNG)

앞서 언급한 동일한 예문에 대해서 인공 신경망을 도식화해보면 위와 같습니다. 이제 중심 단어에 대해서 주변 단어를 예측하기 때문에, 투사층에서 벡터들의 평균을 구하는 과정은 없습니다.

여러 논문에서 성능 비교를 진행했을 때, 전반적으로 Skip-gram이 CBOW보다 성능이 좋다고 알려져 있습니다.

### 8.3.5 네거티브 샘플링(Negative Sampling)

대체적으로 Word2Vec를 사용한다고 하면 SGNS(Skip-Gram with Negative Sampling)을 사용합니다. Skip-gram을 사용하는데, 네거티브 샘플링(Negative Sampling)이란 방법까지 추가로 사용한다는 겁니다. Skip-gram을 전제로 네거티브 샘플링에 대해서 알아봅시다.

위에서 배운 Word2Vec 모델에는 한 가지 문제점이 있습니다. 바로 속도입니다. Word2Vec의 마지막 단계를 주목해봅시다. 출력층에 있는 소프트맥스 함수는 단어 집합 크기의 벡터 내의 모든 값을 0과 1사이의 값이면서 모두 더하면 1이 되도록 바꾸는 작업을 수행합니다. 그리고 이에 대한 오차를 구하고 모든 단어에 대한 임베딩을 조정합니다. 그 단어가 중심 단어나 주변 단어와 전혀 상관없는 단어라도 마찬가지 입니다. 그런데 만약 단어 집합의 크기가 수백만에 달한다면 이 작업은 굉장히 무거운 작업입니다.

여기서 중요한 건 Word2Vec이 모든 단어 집합에 대해서 소프트맥스 함수를 수행하고, 역전파를 수행하므로 주변 단어와 상관 없는 모든 단어까지의 워드 임베딩 조정 작업을 수행한다는 겁니다. 만약 마지막 단계에서 '강아지'와 '고양이'와 같은 단어에 집중하고 있다면, Word2Vec은 사실 '돈가스'나 '컴퓨터'와 같은 연관 관계가 없는 수많은 단어의 임베딩을 조정할 필요가 없습니다.

이를 조금 더 효율적으로 할 수 있는 방법이 없을까요? 전체 단어 집합이 아니라 일부 단어 집합에 대해서만 고려하면 안 될까요? 이렇게 일부 단어 집합을 만들어봅시다. '강아지', '고양이', '애교'와 같은 주변 단어들을 가져옵니다. 그리고 여기에 '돈가스', '컴퓨터', '회의실'과 같은 랜덤으로 선택된 주변 단어가 아닌 상관없는 단어들을 일부만 갖고옵니다. 이렇게 전체 단어 집합보다 훨씬 작은 단어 집합을 만들어놓고 마지막 단계를 이진 분류 문제로 바꿔버리는 겁니다. 즉, Word2Vec은 주변 단어들을 긍정(positive)으로 두고 랜덤으로 샘플링 된 단어들을 부정(negative)으로 둔 다음에 이진 분류 문제를 수행합니다.

이는 기존의 다중 클래스 분류 문제를 이진 분류 문제로 바꾸면서도 연산량에 있어서 훨씬 효율적입니다.

다음 챕터에서 영어와 한국어 훈련 데이터에 대해서 Word2Vec 모델을 훈련시키는 실습을 진행해보겠습니다.

## 8.4 영어/한국어 Word2vec 훈련시키기

이번 챕터에서는 영어와 한국어 훈련 데이터에 대해서 Word2Vec을 학습해보겠습니다. gensim 패키지에서 Word2Vec은 이미 구현되어져 있으므로, 별도로 Word2Vec을 구현할 필요없이 손쉽게 훈련시킬 수 있습니다.

### 8.4.1 영어 Word2Vec 만들기

이번에는 영어 데이터를 다운로드 받아 직접 Word2Vec 작업을 진행해보도록 하겠습니다. 파이썬의 gensim 패키지에는 Word2Vec을 지원하고 있어, gensim 패키지를 이용하면 손쉽게 단어를 임베딩 벡터로 변환시킬 수 있습니다. 영어로 된 코퍼스를 다운받아 전처리를 수행하고, 전처리한 데이터를 바탕으로 Word2Vec 작업을 진행하겠습니다.

우선 필요한 도구들을 임포트합니다.

In [0]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [0]:
import urllib.request
import zipfile
from lxml import etree
import re
from nltk.tokenize import word_tokenize, sent_tokenize

1) 훈련 데이터 이해하기

[링크](https://wit3.fbk.eu/get.php?path=XML_releases/xml/ted_en-20160408.zip&filename=ted_en-20160408.zip)

위 위 zip 파일의 압축을 풀면 ted_en-20160408.xml이라는 파일을 얻을 수 있습니다. 여기서는 파이썬 코드를 통해 자동으로 xml 파일을 다운로드 받겠습니다.



In [0]:
urllib.request.urlretrieve("https://raw.githubusercontent.com/GaoleMeng/RNN-and-FFNN-textClassification/master/ted_en-20160408.xml", filename="ted_en-20160408.xml")
# 데이터 다운로드

('ted_en-20160408.xml', <http.client.HTTPMessage at 0x7f30470cc470>)

아래는 해당 xml 파일의 형식을 보여줍니다. 해당 파일은 xml 문법으로 작성되어 있어 자연어를 얻기 위해서는 전처리가 필요합니다. 얻고자 하는 실질적 데이터는 영어문장으로만 구성된 내용을 담고 있는 < content >와 < /content > 사이의 내용입니다. 전처리 작업을 통해 xml 문법들은 제거하고, 해당 데이터만 가져와야 합니다. 뿐만 아니라, < content >와 < /content > 사이의 내용 중에는 (Laughter)나 (Applause)와 같은 배경음을 나타내는 단어도 등장하는데 이 또한 제거해야 합니다.



```
<file id="1">
  <head>
<url>http://www.ted.com/talks/knut_haanaes_two_reasons_companies_fail_and_how_to_avoid_them</url>
       <pagesize>72832</pagesize>
... xml 문법 중략 ...
<content>
Here are two reasons companies fail: they only do more of the same, or they only do what's new.
To me the real, real solution to quality growth is figuring out the balance between two activities:
... content 내용 중략 ...
To me, the irony about the Facit story is hearing about the Facit engineers, who had bought cheap, small electronic calculators in Japan that they used to double-check their calculators.
(Laughter)
... content 내용 중략 ...
(Applause)
</content>
</file>
<file id="2">
    <head>
<url>http://www.ted.com/talks/lisa_nip_how_humans_could_evolve_to_survive_in_space<url>
... 이하 중략 ...
```



2) 훈련 데이터 전처리 하기

위 데이터를 위한 전처리 코드는 아래와 같습니다.

In [0]:
targetXML=open('ted_en-20160408.xml', 'r', encoding='UTF8')
# 저자의 경우 윈도우 바탕화면에서 작업하여서 'C:\Users\USER\Desktop\ted_en-20160408.xml'이 해당 파일의 경로.  
target_text = etree.parse(targetXML)
parse_text = '\n'.join(target_text.xpath('//content/text()'))
# xml 파일로부터 <content>와 </content> 사이의 내용만 가져온다.

content_text = re.sub(r'\([^)]*\)', '', parse_text)
# 정규 표현식의 sub 모듈을 통해 content 중간에 등장하는 (Audio), (Laughter) 등의 배경음 부분을 제거.
# 해당 코드는 괄호로 구성된 내용을 제거.

sent_text = sent_tokenize(content_text)
# 입력 코퍼스에 대해서 NLTK를 이용하여 문장 토큰화를 수행.

normalized_text = []
for string in sent_text:
     tokens = re.sub(r"[^a-z0-9]+", " ", string.lower())
     normalized_text.append(tokens)
# 각 문장에 대해서 구두점을 제거하고, 대문자를 소문자로 변환.

result = []
result = [word_tokenize(sentence) for sentence in normalized_text]
# 각 문장에 대해서 NLTK를 이용하여 단어 토큰화를 수행.

In [0]:
print('총 샘플의 개수 : {}'.format(len(result)))

총 샘플의 개수 : 273424


총 샘플의 개수는 약 27만 3천개입니다.

In [0]:
for line in result[:3]: # 샘플 3개만 출력
    print(line)

['here', 'are', 'two', 'reasons', 'companies', 'fail', 'they', 'only', 'do', 'more', 'of', 'the', 'same', 'or', 'they', 'only', 'do', 'what', 's', 'new']
['to', 'me', 'the', 'real', 'real', 'solution', 'to', 'quality', 'growth', 'is', 'figuring', 'out', 'the', 'balance', 'between', 'two', 'activities', 'exploration', 'and', 'exploitation']
['both', 'are', 'necessary', 'but', 'it', 'can', 'be', 'too', 'much', 'of', 'a', 'good', 'thing']


상위 3개 문장만 출력해보았는데 토큰화가 수행되었음을 볼 수 있습니다. 이제 Word2Vec 모델에 텍스트 데이터를 훈련시킵니다.

3) Word2Vec 훈련시키기

In [0]:
from gensim.models import Word2Vec
model = Word2Vec(sentences=result, size=100, window=5, min_count=5, workers=4, sg=0)

여기서 Word2Vec의 하이퍼파라미터값은 다음과 같습니다.
size = 워드 벡터의 특징 값. 즉, 임베딩 된 벡터의 차원.
window = 컨텍스트 윈도우 크기
min_count = 단어 최소 빈도 수 제한 (빈도가 적은 단어들은 학습하지 않는다.)
workers = 학습을 위한 프로세스 수
sg = 0은 CBOW, 1은 Skip-gram.

이제 Word2Vec에 대해서 학습을 진행하였습니다. Word2Vec는 입력한 단어에 대해서 가장 유사한 단어들을 출력하는 model.wv.most_similar을 지원합니다. man과 가장 유사한 단어들은 어떤 단어들일까요?

In [0]:
model_result = model.wv.most_similar("man")
print(model_result)

[('woman', 0.870580792427063), ('guy', 0.8103960156440735), ('lady', 0.7809352874755859), ('boy', 0.7655205726623535), ('girl', 0.7605165243148804), ('gentleman', 0.7197297811508179), ('soldier', 0.7110472917556763), ('poet', 0.6957777738571167), ('kid', 0.6827079653739929), ('friend', 0.650790810585022)]


  if np.issubdtype(vec.dtype, np.int):


man과 유사한 단어로 woman, guy, boy, lady, girl, gentleman, soldier, kid 등을 출력하는 것을 볼 수 있습니다. 이제 Word2Vec를 통해 단어의 유사도를 계산할 수 있게 되었습니다.

4) Word2Vec 모델 저장하고 로드하기

공들여 학습한 모델을 언제든 나중에 다시 사용할 수 있도록 컴퓨터 파일로 저장하고 다시 로드해보겠습니다. 이 모델을 가지고 시각화 챕터에서 시각화를 진행할 예정이므로 꼭 저장해주세요.

In [0]:
from gensim.models import KeyedVectors
model.wv.save_word2vec_format('./eng_w2v') # 모델 저장
loaded_model = KeyedVectors.load_word2vec_format("eng_w2v") # 모델 로드

  'See the migration notes for details: %s' % _MIGRATION_NOTES_URL


로드한 모델에 대해서 다시 man과 유사한 단어를 출력해보겠습니다.

In [0]:
model_result = loaded_model.most_similar("man")
print(model_result)

[('woman', 0.870580792427063), ('guy', 0.8103960156440735), ('lady', 0.7809352874755859), ('boy', 0.7655205726623535), ('girl', 0.7605165243148804), ('gentleman', 0.7197297811508179), ('soldier', 0.7110472917556763), ('poet', 0.6957777738571167), ('kid', 0.6827079653739929), ('friend', 0.650790810585022)]


  if np.issubdtype(vec.dtype, np.int):


### 8.4.2 한국어 Word2Vec 만들기

이번에는 위키피디아 한국어 덤프 파일을 다운받아서 한국어로 Word2Vec을 직접 진행해보도록 하겠습니다. 영어와 크게 다른 점은 없지만 한국어는 형태소 토큰화를 해야만 좋은 성능을 얻을 수 있습니다. 간단히 말해 형태소 분석기를 사용합니다.

1) 위키피디아 한국어 덤프 파일 다운로드

https://dumps.wikimedia.org/kowiki/latest/

![대체 텍스트](https://wikidocs.net/images/page/22660/bz2.PNG)

위 링크에는 많은 위키피디아 덤프 파일들이 존재합니다. 그 중에서 사용할 데이터는 kowiki-latest-pages-articles.xml.bz2 파일입니다. 해당 파일은 xml 파일므로, Word2Vec을 원활하게 진행하기 위해 파일 형식을 변환해줄 필요가 있습니다.

2) 위키피디아 익스트랙터 다운로드

해당 파일을 모두 다운로드 받았다면 위키피디아 덤프 파일을 텍스트 형식으로 변환시켜주는 오픈소스인 '위키피디아 익스트랙터'를 사용할 것입니다.

'위키피디아 익스트랙터'를 다운로드 받기 위해서는 윈도우의 명령 프롬프트나 MAC과 리눅스의 터미널에서 아래의 git clone 명령어를 통해 다운로드 받을 수 있습니다.





```
!git clone "https://github.com/attardi/wikiextractor.git"
```



다른 방법으로는 https://github.com/attardi/wikiextractor 위 링크로 직접 이동하여 zip 파일로 다운로드 하고 압축을 푼 뒤에, 윈도우의 명령 프롬프트나 MAC과 리눅스의 터미널에서 python setup.py install 명령어를 치면 '위키피디아 익스트랙터'가 다운로드 됩니다.

3) 위키피디아 한국어 덤프 파일 변환

위키피디아 익스트랙터와 위키피디아 한국어 덤프 파일을 동일한 디렉토리 경로에 두고, 아래 명령어를 실행하면 위키피디아 덤프 파일이 텍스트 파일로 변환됩니다. 컴퓨터마다 다르지만 보통 10분 내외의 시간이 걸립니다.

```
!wget https://dumps.wikimedia.org/kowiki/latest/kowiki-latest-pages-articles.xml.bz2
!python wikiextractor/WikiExtractor.py kowiki-latest-pages-articles.xml.bz2
```

텍스트 파일로 변환된 위키피디아 한국어 덤프는 총 6개의 디렉토리(2018년 10월 기준)로 구성되어져 있습니다. AA ~ AF의 디렉토리로 각 디렉토리 내에는 wiki_00 ~ wiki_90이라는 파일들이 들어있습니다. 각 파일들을 열어보면 이와 같은 구성이 반복되고 있습니다.



```
<doc id="문서 번호" url="실제 위키피디아 문서 주소" title="문서 제목">
내용
</doc>
```



예를 들어서 AA 디렉토리의 wiki_00 파일을 읽어보면, 지미 카터에 대한 내용이 나옵니다.



```
<doc id="5" url="https://ko.wikipedia.org/wiki?curid=5" title="지미 카터">
지미 카터
제임스 얼 "지미" 카터 주니어(, 1924년 10월 1일 ~ )는 민주당 출신 미국 39번째 대통령(1977년 ~ 1981년)이다.
지미 카터는 조지아 주 섬터 카운티 플레인스 마을에서 태어났다. 조지아 공과대학교를 졸업하였다. 그 후 해군에 들어가 전함·원자력·잠수함의 승무원으로 일하였다. 1953년 미국 해군 대
위로 예편하였고 이후 땅콩·면화 등을 가꿔 많은 돈을 벌었다.
... 이하 중략...
</doc>
```

이제 이 6개 AA ~ AF 디렉토리 안의 wiki00 ~ wiki90 파일들을 하나의 텍스트 파일로 통합하겠습니다. (만약, 더 간단히 하고 싶다면 모든 디렉토리 파일을 통합하지 않고, 하나의 디렉토리 내의 파일들에 대해서만 통합 작업을 진행하고 모델의 입력으로 사용할수도있습니다. 하지만 모델의 성능은 전체 파일에 대해서 진행한 경우보다 좋지 않을 수 있습니다.)

작업은 6개의 디렉토리 내 파일들에 대해서 각 하나의 파일로 통합 후, 6개의 파일을 다시 하나로 통합하는 순서로 진행합니다.


4) 훈련 데이터 만들기

우선 AA 디렉토리 안의 모든 파일인 wiki00 ~ wiki90에 대해서 wikiAA.txt로 통합해보도록 하겠습니다. 프롬프트에서 아래의 커맨드를 수행합니다. (윈도우 환경 기준)

(안되서 밑에 코드로 진행)



```
import os
wiki_data = open('wiki_data.txt','w')
for folder in os.listdir('text'):
    for file in os.listdir('text/'+folder):
        temp_file = open(f'text/{folder}/{file}')
        for line in temp_file:
            wiki_data.write(line)
```



In [0]:
!pip install wget
import wget



In [0]:
wget.download('https://www.dropbox.com/s/w9szzqqidxi8dgj/wiki_data.txt?dl=1')

'wiki_data (1).txt'

In [0]:
# !copy /content/text/AA/wiki* wikiAA.txt

해당 커맨드는 AA디렉토리 안의 wiki로 시작되는 모든 파일을 wikiAA.txt 파일에 전부 복사하라는 의미를 담고있습니다. 결과적으로 wiki00 ~ wiki90파일의 모든 내용은 wikiAA.txt 파일이라는 하나의 파일에 내용이 들어가게 됩니다.

각 디렉토리에 대해서도 동일하게 진행합니다.


In [0]:
# !copy /content/text/AB/wiki* wikiAB.txt
# !copy /content/text/AC/wiki* wikiAC.txt
# !copy /content/text/AD/wiki* wikiAD.txt
# !copy /content/text/AE/wiki* wikiAE.txt
# !copy /content/text/AF/wiki* wikiAF.txt

이렇게 되면 현재 경로에는 각 디렉토리의 파일들을 하나로 합친 wikiAA.txt 부터 wikiAF.txt라는 6개의 파일이 생깁니다. 그럼 이제 이 파일들에 대해서도 하나의 파일로 합치는 작업을 진행해보도록 하겠습니다.

In [0]:
# !copy /content/text/wikiA* wiki_data.txt

이제 모든 텍스트 파일을 하나로 만든 훈련 데이터가 완성되었습니다.

5) 훈련 데이터 전처리 하기

In [0]:
f = open('/content/wiki_data.txt', encoding="utf8")
# 예를 들어 위도우 바탕화면에서 작업한 저자의 경우
# f = open(r'C:\Users\USER\Desktop\wiki_data.txt', encoding="utf8")

우선 파일을 불러왔습니다. 파일이 정상적으로 저장되었는지 5개의 줄만 출력해보겠습니다.

In [0]:
i=0
while True:
    line = f.readline()
    if line != '\n':
        i=i+1
        print("%d번째 줄 :"%i + line)
    if i==5:
        break 
f.close()

1번째 줄 :<doc id="50324" url="https://ko.wikipedia.org/wiki?curid=50324" title="고영희 (1849년)">

2번째 줄 :고영희 (1849년)

3번째 줄 :고영희(高永喜, 1849년 12월 16일(음력 11월 2일) ~ 1916년 1월 24일)는 대한제국의 정치인으로 일제 강점기의 조선귀족이다. 정미칠적과 경술국적에 포함되었다. 자는 자중(子中), 본관은 제주(濟州), 본적은 경성 북부(北部) 옥동(玉洞) 15통 9호(1914년 당시 주소)이며 고진풍(高鎭豊)의 아들이다.

4번째 줄 :1866년 부사용(副司勇)이 되었다. 1876년 강화도 조약 체결 후 김기수가 수신사 대표로 일본에 갔을 때 그를 수행하였다. 그는 이런 기회를 통해 강화도 조약 체결 후 바로 일본의 문물을 접하면서 일찌감치 친일 개화파에 속하게 되었다. 귀국 후 일본의 발전 모습을 알리고, 원산항이 개항되어 통상항이 되자 사무관처리(事務官處理)가 되어 크게 공을 세웠다. 1881년 신사유람단으로 일본에 갔을 때 또 다시 김기수를 수행하였다. 1882년 일본공사 하나부사(花房義質)의 차비역관(差備譯官)이 되었고, 그 뒤 중용되어 인천조계획정(仁川租界劃定)의 사무를 맡았다. 이어서 참의교섭통상사무(參議交涉通商事務)·참의내무부사(參議內務府事)를 역임하였다.

5번째 줄 :1884년 갑신정변이 실패하면서 일시 몰락하여 간성·삭녕·고양 등의 군수직을 지낸 뒤 사직하고 일시 한거하다가 다시 복귀하여 1885년 이후 기기국방판(機器局幇辦)을 지냈다. 1894년 갑오경장에 참여하여 내부 참의, 학무아문 참의, 농상아문 협판을 지냈다.



정상적으로 출력되는 것을 볼 수 있습니다. 이제 본격적으로 Word2Vec을 위한 학습 데이터를 만들어보겠습니다.

(너무 많아서....일부만 읽어봅시다)

(다해서 공유드립니당)

```
from konlpy.tag import Okt  
okt=Okt()
fread = open('/content/wiki_data.txt', encoding="utf8")
# 파일을 다시 처음부터 읽음.
n=0
result = []

while True:
    if n==100000:break
    line = fread.readline() #한 줄씩 읽음.
    if not line: break # 모두 읽으면 while문 종료.
    n=n+1
    if n%5000==0: # 5,000의 배수로 While문이 실행될 때마다 몇 번째 While문 실행인지 출력.
        print("%d번째 While문."%n)
    tokenlist = okt.pos(line, stem=True, norm=True) # 단어 토큰화
    temp=[]
    for word in tokenlist:
        if word[1] in ["Noun"]: # 명사일 때만
            temp.append((word[0])) # 해당 단어를 저장함

    if temp: # 만약 이번에 읽은 데이터에 명사가 존재할 경우에만
      result.append(temp) # 결과에 저장
fread.close()
```

In [0]:
wget.download('https://www.dropbox.com/s/mprapavqcyfd4cf/wiki2vec.txt?dl=1')

'wiki2vec (1).txt'

In [0]:
import pickle
result = pickle.load(open('/content/wiki2vec.txt','rb'))

```
1번째 줄 :<doc id="50324" url="https://ko.wikipedia.org/wiki?curid=50324" title="고영희 (1849년)">

2번째 줄 :고영희 (1849년)

3번째 줄 :고영희(高永喜, 1849년 12월 16일(음력 11월 2일) ~ 1916년 1월 24일)는 대한제국의 정치인으로 일제 강점기의 조선귀족이다. 정미칠적과 경술국적에 포함되었다. 자는 자중(子中), 본관은 제주(濟州), 본적은 경성 북부(北部) 옥동(玉洞) 15통 9호(1914년 당시 주소)이며 고진풍(高鎭豊)의 아들이다.

4번째 줄 :1866년 부사용(副司勇)이 되었다. 1876년 강화도 조약 체결 후 김기수가 수신사 대표로 일본에 갔을 때 그를 수행하였다. 그는 이런 기회를 통해 강화도 조약 체결 후 바로 일본의 문물을 접하면서 일찌감치 친일 개화파에 속하게 되었다. 귀국 후 일본의 발전 모습을 알리고, 원산항이 개항되어 통상항이 되자 사무관처리(事務官處理)가 되어 크게 공을 세웠다. 1881년 신사유람단으로 일본에 갔을 때 또 다시 김기수를 수행하였다. 1882년 일본공사 하나부사(花房義質)의 차비역관(差備譯官)이 되었고, 그 뒤 중용되어 인천조계획정(仁川租界劃定)의 사무를 맡았다. 이어서 참의교섭통상사무(參議交涉通商事務)·참의내무부사(參議內務府事)를 역임하였다.

5번째 줄 :1884년 갑신정변이 실패하면서 일시 몰락하여 간성·삭녕·고양 등의 군수직을 지낸 뒤 사직하고 일시 한거하다가 다시 복귀하여 1885년 이후 기기국방판(機器局幇辦)을 지냈다. 1894년 갑오경장에 참여하여 내부 참의, 학무아문 참의, 농상아문 협판을 지냈다.
```

In [0]:
for i in range(5):
    print(result[i])

['고영희']
['고영희']
['고영희', '음력', '대한제국', '정치인', '일제', '강점', '기', '조선귀족', '정미칠적', '경술국적', '포함', '자중', '본관', '제주', '본적', '경성', '북부', '옥동', '통', '호', '당시', '주소', '고진', '의', '아들']
['부', '사용', '이', '강화도', '조약', '체결', '후', '김기수', '수신사', '대표', '일본', '때', '그', '수행', '그', '기회', '통해', '강화도', '조약', '체결', '후', '바로', '일본', '문물', '접', '찌', '감치', '친일', '개화파', '속', '귀국', '후', '일본', '발전', '모습', '알리', '원산항', '개항', '통상', '항', '사무관', '처리', '크게', '공', '신사유람단', '일본', '때', '또', '다시', '김기수', '수행', '일본', '공사', '하나', '부사', '의', '차비', '역관', '이', '그', '뒤', '중용', '인천', '계획', '정', '의', '사무', '교섭', '통상', '사무', '내무부', '사', '를', '역임']
['갑신정변', '일시', '간성', '삭녕', '고양', '등', '군', '수직', '뒤', '사직', '일시', '다시', '복귀', '이후', '기기', '국방', '판', '갑오경장', '참여', '내부', '학무', '아문', '농상아문', '협판']


여기서는 형태소 분석기로 KoNLPy의 Okt를 사용하여 명사만을 추출하여 훈련 데이터를 구성하겠습니다. 위 작업은 시간이 꽤 걸립니다. 훈련 데이터를 모두 만들었다면, 훈련 데이터의 길이를 확인해보겠습니다.

In [0]:
print('총 샘플의 개수 : {}'.format(len(result)))

총 샘플의 개수 : 2692525


약 240만여개의 줄(line)이 명사 토큰화가 되어 저장되어 있는 상태입니다. 이제 이를 Word2Vec으로 학습시킵니다.

6) Word2Vec 훈련시키기

In [0]:
from gensim.models import Word2Vec
model = Word2Vec(result, size=100, window=5, min_count=5, workers=4, sg=0)

학습을 다했다면 이제 임의의 입력 단어로부터 유사한 단어들을 구해봅시다.

In [0]:
model_result1=model.wv.most_similar("대한민국")
print(model_result1)

[('한국', 0.6665642261505127), ('조선민주주의인민공화국', 0.5238730907440186), ('이익선', 0.5167543888092041), ('우리나라', 0.5150511264801025), ('관세청', 0.5022948980331421), ('마달천', 0.4967738687992096), ('김성곤', 0.4882708191871643), ('정보통신부', 0.48787590861320496), ('국내', 0.48515522480010986), ('김정환', 0.4810255169868469)]


  if np.issubdtype(vec.dtype, np.int):


In [0]:
model_result2=model.wv.most_similar("게임")
print(model_result2)

[('리듬게임', 0.7526952028274536), ('아케이드', 0.7259476184844971), ('멀티플레이', 0.7007036805152893), ('게이머', 0.6978124380111694), ('롤플레잉', 0.6840250492095947), ('보드게임', 0.6820021867752075), ('닌텐도', 0.6792633533477783), ('플레이어', 0.6791287660598755), ('미니게임', 0.67817223072052), ('게임기', 0.6704295873641968)]


  if np.issubdtype(vec.dtype, np.int):


In [0]:
model_result3=model.wv.most_similar("반도체")
print(model_result3)

[('집적회로', 0.7772603631019592), ('전자부품', 0.7697145938873291), ('팹리스', 0.7524644732475281), ('태양전지', 0.7480493783950806), ('웨이퍼', 0.7478642463684082), ('트랜지스터', 0.7394347190856934), ('하이닉스', 0.7390322685241699), ('실리콘', 0.7303524017333984), ('마이크론', 0.7114006280899048), ('박막', 0.699568510055542)]


  if np.issubdtype(vec.dtype, np.int):


In [0]:
model_result4=model.wv.most_similar("문재인",topn=20)
print(model_result4)

[('박근혜', 0.9078432321548462), ('노무현', 0.9071457386016846), ('이명박', 0.9017692804336548), ('김대중', 0.8525968790054321), ('노태우', 0.822659969329834), ('김영삼', 0.7936534285545349), ('청와대', 0.7503615617752075), ('박정희', 0.7282388806343079), ('안철수', 0.7273688912391663), ('참여정부', 0.7205981016159058), ('이회창', 0.7148840427398682), ('홍준표', 0.7139714956283569), ('전두환', 0.7134056091308594), ('이해찬', 0.698532223701477), ('한나라당', 0.6960517168045044), ('안희정', 0.6933297514915466), ('햇볕정책', 0.6865298748016357), ('새누리당', 0.6861968636512756), ('이승만', 0.6848657131195068), ('황교안', 0.6827448606491089)]


  if np.issubdtype(vec.dtype, np.int):


### 8.4.3 사전 훈련된 Word2Vec 임베딩(Pre-trained Word2Vec embedding) 소개

자연어 처리 작업을 할때, 케라스의 Embedding()를 사용하여 갖고 있는 훈련 데이터로부터 처음부터 임베딩 벡터를 훈련시키기도 하지만, 위키피디아 등의 방대한 데이터로 사전에 훈련된 워드 임베딩(pre-trained word embedding vector)를 가지고 와서 해당 벡터들의 값을 원하는 작업에 사용 할 수도 있습니다.

예를 들어서 감성 분류 작업을 하는데 훈련 데이터의 양이 부족한 상황이라면, 다른 방대한 데이터를 Word2Vec이나 GloVe 등으로 사전에 학습시켜놓은 임베딩 벡터들을 가지고 와서 모델의 입력으로 사용하는 것이 때로는 더 좋은 성능을 얻을 수 있습니다.

여기서는 사전 훈련된 워드 임베딩을 가져와서 간단히 단어들의 유사도를 구해보는 실습을 해보겠습니다. 실제로 모델에 적용해보는 실습은 사전 훈련된 워드 임베딩 챕터에서 진행합니다.

1) 영어

이번에는 구글이 제공하는 사전 훈련된(미리 학습되어져 있는) Word2Vec 모델을 사용하는 방법에 대해서 알아보도록 하겠습니다. 구글은 사전 훈련된 3백만 개의 Word2Vec 단어 벡터들을 제공합니다. 각 임베딩 벡터의 차원은 300입니다. gensim을 통해서 이 모델을 불러오는 건 매우 간단합니다. 이 모델을 다운로드하고 파일 경로를 기재하면 됩니다.

모델 다운로드 경로 : https://drive.google.com/file/d/0B7XkCwpI5KDYNlNUTTlSS21pQmM/edit

압축 파일의 용량은 약 1.5GB이지만, 파일의 압축을 풀면 약 3.3GB의 파일이 나옵니다.

In [0]:
import wget
wget.download("https://s3.amazonaws.com/dl4j-distribution/GoogleNews-vectors-negative300.bin.gz")

'GoogleNews-vectors-negative300.bin (2).gz'

In [0]:
import gensim

# 구글의 사전 훈련된 Word2Vec 모델을 로드합니다.
model = gensim.models.KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin.gz', binary=True) 

  'See the migration notes for details: %s' % _MIGRATION_NOTES_URL


In [0]:
print(model.vectors.shape) # 모델의 크기 확인

(3000000, 300)


In [0]:
print (model.similarity('this', 'is')) # 두 단어의 유사도 계산하기
print (model.similarity('post', 'book'))

0.40797037
0.057204384


  if np.issubdtype(vec.dtype, np.int):


In [0]:
model_result=model.wv.most_similar("trump")
print(model_result)

  """Entry point for launching an IPython kernel.
  if np.issubdtype(vec.dtype, np.int):


[('trumps', 0.7198435068130493), ('trumping', 0.580585241317749), ('supersede', 0.5600422620773315), ('trumped', 0.5497318506240845), ('supercede', 0.5309919118881226), ('prevail', 0.487763375043869), ('outweigh', 0.4785327613353729), ('trample', 0.47142529487609863), ('overshadow', 0.47011539340019226), ('dictate', 0.46754562854766846)]


In [0]:
print(model['book']) # 단어 'book'의 벡터 출력

[ 0.11279297 -0.02612305 -0.04492188  0.06982422  0.140625    0.03039551
 -0.04370117  0.24511719  0.08740234 -0.05053711  0.23144531 -0.07470703
  0.21875     0.03466797 -0.14550781  0.05761719  0.00671387 -0.00701904
  0.13183594 -0.25390625  0.14355469 -0.140625   -0.03564453 -0.21289062
 -0.24804688  0.04980469 -0.09082031  0.14453125  0.05712891 -0.10400391
 -0.19628906 -0.20507812 -0.27539062  0.03063965  0.20117188  0.17382812
  0.09130859 -0.10107422  0.22851562 -0.04077148  0.02709961 -0.00106049
  0.02709961  0.34179688 -0.13183594 -0.078125    0.02197266 -0.18847656
 -0.17480469 -0.05566406 -0.20898438  0.04858398 -0.07617188 -0.15625
 -0.05419922  0.01672363 -0.02722168 -0.11132812 -0.03588867 -0.18359375
  0.28710938  0.01757812  0.02185059 -0.05664062 -0.01251221  0.01708984
 -0.21777344 -0.06787109  0.04711914 -0.00668335  0.08544922 -0.02209473
  0.31835938  0.01794434 -0.02246094 -0.03051758 -0.09570312  0.24414062
  0.20507812  0.05419922  0.29101562  0.03637695  0.04

2) 한국어

한국어의 미리 학습된 Word2Vec 모델은 박규병님의 깃허브 주소인 https://github.com/Kyubyong/wordvectors 에 공개되어져 있습니다. 박규병님이 공개한 직접적인 다운로드 링크는 아래와 같습니다.

모델 다운로드 경로 : https://drive.google.com/file/d/0B0ZXk88koS2KbDhXdWg1Q2RydlU/view

위의 링크로부터 77MB 크기의 ko.zip 파일을 다운로드 받아서 압축을 풀면 ko.bin이라는 50MB 크기의 파일이 있습니다. 이 파일을 로드하고 유사도를 계산해보도록 하겠습니다.

In [0]:
wget.download('https://www.dropbox.com/s/rx1r713xnnn441a/ko.bin?dl=1')

'ko.bin'

In [0]:
import gensim
model = gensim.models.Word2Vec.load('/content/ko.bin')

  'See the migration notes for details: %s' % _MIGRATION_NOTES_URL


In [0]:
result=model.wv.most_similar("강아지")
print(result)

[('고양이', 0.7290452718734741), ('거위', 0.7185635566711426), ('토끼', 0.7056223154067993), ('멧돼지', 0.6950401067733765), ('엄마', 0.6934334635734558), ('난쟁이', 0.6806551218032837), ('한마리', 0.6770296096801758), ('아가씨', 0.6750352382659912), ('아빠', 0.6729634404182434), ('목걸이', 0.6512460708618164)]


  if np.issubdtype(vec.dtype, np.int):


참고 : Word2vec 모델은 자연어 처리에서 단어를 밀집 벡터로 만들어주는 단어 임베딩 방법론이지만 최근에 들어서는 자연어 처리를 넘어서 추천 시스템에도 사용되고 있는 모델입니다. 우선 적당하게 데이터를 나열해주면 Word2vec은 위치가 근접한 데이터를 유사도가 높은 벡터를 만들어준다는 점에서 착안된 아이디어입니다.

링크 : https://brunch.co.kr/@goodvc78/16?fbclid=IwAR1QZZAeZe_tNWxnxVCRwl8PIouBPAaqSIJ1lBxJ-EKtfDfmLehi1MUV_Lk

위 링크에서 그림 10번을 보면 쉽게 이해할 수 있습니다.

## 8.5 임베딩 벡터의 시각화(Embedding Visualization)

구글은 임베딩 프로젝터(embedding projector)라는 데이터 시각화 도구를 지원합니다. 이번 챕터에서는 임베딩 프로젝터를 사용하여 학습한 임베딩 벡터들을 시각화해보겠습니다.

임베딩 프로젝터 논문 : https://arxiv.org/pdf/1611.05469v1.pdf

### 8.5.1 워드 임베딩 모델로부터 2개의 tsv 파일 생성하기

이번 실습에서는 학습한 임베딩 벡터들을 시각화해보겠습니다. 꼭 Word2Vec 등으로 학습해야하는 방법이 정해져있지는 없고, GloVe 등 다른 방법으로 훈련되어있어도 상관없습니다. 시각화를 위해서는 이미 모델을 학습하고, 파일로 저장되어져 있어야 합니다. 모델이 저장되어져 있다면 아래 커맨드를 통해 시각화에 필요한 파일들을 생성할 수 있습니다.



```
!python -m gensim.scripts.word2vec2tensor --input 모델이름 --output 모델이름
```

여기서는 편의를 위해 이전 챕터에서 학습하고 저장하는 실습까지 진행했던 영어 Word2Vec 모델인 'eng_w2v'를 재사용합니다. eng_w2v라는 Word2Vec 모델이 이미 존재한다는 가정 하에 주피터 노트북에서 아래 커맨드를 수행합니다.

```
!python -m gensim.scripts.word2vec2tensor --input eng_w2v --output eng_w2v
```

커맨드를 수행하면 주피터 노트북이 시작되는 경로에 기존에 있던 eng_w2v 외에도 두 개의 파일이 생깁니다.

![대체 텍스트](https://wikidocs.net/images/page/50704/eng_w2v.PNG)

새로 생긴 eng_w2v_metadata.tsv와 eng_w2v_tensor.tsv 이 두 개 파일이 임베딩 벡터 시각화를 위해 사용할 파일입니다. 만약 eng_w2v 모델 파일이 아니라 다른 모델 파일 이름으로 실습을 진행하고 있다면, '모델 이름_metadata.tsv'와 '모델 이름_tensor.tsv'라는 파일이 생성된다고 이해하면 되겠습니다.

### 8.5.2 임베딩 프로젝터를 사용하여 시각화하기

이제 구글의 임베딩 프로젝터를 사용해서 워드 임베딩 모델을 시각화해보겠습니다. 아래의 링크에 접속합니다.

링크 : https://projector.tensorflow.org/

사이트에 접속해서 좌측 상단을 보면 Load라는 버튼이 있습니다.

![대체 텍스트](https://wikidocs.net/images/page/50704/embedding_projector.PNG)

Load라는 버튼을 누르면 아래와 같은 창이 뜨는데 총 두 개의 Choose file 버튼이 있습니다.

![대체 텍스트](https://wikidocs.net/images/page/50704/embedding_projector2.PNG)

위에 있는 Choose file 버튼을 누르고 eng_w2v_tensor.tsv 파일을 업로드하고, 아래에 있는 Choose file 버튼을 누르고 eng_w2v_metadata.tsv 파일을 업로드합니다. 두 파일을 업로드하면 임베딩 프로젝터에 학습했던 워드 임베딩 모델이 시각화됩니다.

![대체 텍스트](https://wikidocs.net/images/page/50704/man.PNG)

그 후에는 임베딩 프로젝터의 다양한 기능을 사용할 수 있습니다. 예를 들어 임베딩 프로젝터는 복잡한 데이터를 차원을 축소하여 시각화 할 수 있도록 도와주는 PCA, t-SNE 등을 제공합니다. 여기서는 자세한 기능에 대한 설명은 생략하겠습니다. 위의 그림은 'man' 이라는 단어를 선택하고, 코사인 유사도를 기준으로 가장 유사한 상위 10개 벡터들을 표시해봤습니다.

## 8.6 글로브(GloVe)

글로브(Global Vectors for Word Representation, GloVe)는 카운트 기반과 예측 기반을 모두 사용하는 방법론으로 2014년에 미국 스탠포드대학에서 개발한 단어 임베딩 방법론입니다. 앞서 학습하였던 기존의 카운트 기반의 LSA(Latent Semantic Analysis)와 예측 기반의 Word2Vec의 단점을 지적하며 이를 보완한다는 목적으로 나왔고, 실제로도 Word2Vec만큼 뛰어난 성능을 보여줍니다. 현재까지의 연구에 따르면 단정적으로 Word2Vec와 GloVe 중에서 어떤 것이 더 뛰어나다고 말할 수는 없고, 이 두 가지 전부를 사용해보고 성능이 더 좋은 것을 사용하는 것이 바람직합니다.

### 8.6.1 기존 방법론에 대한 비판

LSA는 각 단어의 빈도수를 카운트 한 행렬이라는 전체적인 통계 정보를 입력으로 받아 차원을 축소(Truncated SVD)하여 잠재된 의미를 끌어내는 방법론입니다. 반면, Word2Vec는 실제값과 예측값에 대한 오차를 손실 함수를 통해 줄여나가며 학습하는 예측 기반의 방법론이었습니다. 서로 다른 방법을 사용하는 이 두 방법론은 각각 장, 단점이 있습니다.

LSA는 카운트 기반으로 코퍼스의 전체적인 통계 정보를 고려하기는 하지만, 왕:남자 = 여왕:? (정답은 여자)와 같은 단어 의미의 유추 작업(Analogy task)에는 성능이 떨어집니다. Word2Vec는 예측 기반으로 단어 간 유추 작업에는 LSA보다 뛰어나지만, 임베딩 벡터가 윈도우 크기 내에서만 주변 단어를 고려하기 때문에 코퍼스의 전체적인 통계 정보를 반영하지 못합니다. GloVe는 이러한 기존 방법론들의 각각의 한계를 지적하며, LSA의 메커니즘이었던 카운트 기반의 방법과 Word2Vec의 메커니즘이었던 예측 기반의 방법론 두 가지를 모두 사용합니다.

### 8.6.2 윈도우 기반 동시 등장 행렬(Window based Co-occurrence Matrix)

단어의 동시 등장 행렬은 행과 열을 전체 단어 집합의 단어들로 구성하고, i 단어의 윈도우 크기(Window Size) 내에서 k 단어가 등장한 횟수를 i행 k열에 기재한 행렬을 말합니다. 예제를 보면 어렵지 않습니다. 아래와 같은 텍스트가 있다고 해봅시다.

Ex)
I like deep learning
I like NLP
I enjoy flying

윈도우 크기가 N일 때는 좌, 우에 존재하는 N개의 단어만 참고하게 됩니다. 윈도우 크기가 1일 때, 위의 텍스트를 가지고 구성한 동시 등장 행렬은 다음과 같습니다.

|카운트|I|like|enjoy|deep|learning|NLP|flying|
|---|---|---|---|---|---|---|---|
|I|0|2|1|0|0|0|0|
|like|2|0|0|1|0|1|0|
|enjoy|1|0|0|0|0|0|1|
|deep|0|1|0|0|1|0|0|
|learning|0|0|0|1|0|0|0|
|NLP|0|1|0|0|0|0|0|
|flying|0|0|1|0|0|0|0|

위 행렬은 행렬을 전치(Transpose)해도 동일한 행렬이 된다는 특징이 있습니다. 그 이유는 i 단어의 윈도우 크기 내에서 k 단어가 등장한 빈도는 반대로 k 단어의 윈도우 크기 내에서 i 단어가 등장한 빈도와 동일하기 때문입니다.

위의 테이블은 스탠포드 대학교의 자연어 처리 강의를 참고하였습니다.
링크 : http://web.stanford.edu/class/cs224n/slides/cs224n-2019-lecture02-wordvecs2.pdf

### 8.6.3 동시 등장 확률(Co-occurrence Probability)

이제 동시 등장 행렬에 대해서 이해했으니, 동시 등장 확률에 대해서 이해해봅시다. 아래의 표는 어떤 동시 등장 행렬을 가지고 정리한 동시 등장 확률(Co-occurrence Probability)을 보여줍니다. 그렇다면, 동시 등장 확률이란 무엇일까요?

동시 등장 확률 P(k | i)는 동시 등장 행렬로부터 특정 단어 i의 전체 등장 횟수를 카운트하고, 특정 단어 i가 등장했을 때 어떤 단어 k가 등장한 횟수를 카운트하여 계산한 조건부 확률입니다.

P(k | i)에서 i를 중심 단어(Center Word), k를 주변 단어(Context Word)라고 했을 때, 위에서 배운 동시 등장 행렬에서 중심 단어 i의 행의 모든 값을 더한 값을 분모로 하고 i행 k열의 값을 분자로 한 값이라고 볼 수 있겠습니다. 다음은 GloVe의 제안 논문에서 가져온 동시 등장 확률을 표로 정리한 하나의 예입니다.

|동시 등장 확률과 크기 관계 비(ratio)|k=solid|k=gas|k=water|k=fashion|
|---|---|---|---|---|
|P(k l ice)|0.00019|0.000066|0.003|0.000017|
|P(k l scream)|0.000022|0.00078|0.0022|0.000018|
|P(k l ice) / P(k l steam)|8.9|0.085|1.36|0.96|

위의 표를 통해 알 수 있는 사실은 solid가 등장했을 때 ice가 등장할 확률 0.00019은 solid가 등장했을 때 steam이 등장할 확률인 0.000022보다 약 8.9배 크다는 겁니다. 그도 그럴 것이 solid는 '단단한'이라는 의미를 가졌으니까 '증기'라는 의미를 가지는 steam보다는 당연히 '얼음'이라는 의미를 가지는 ice라는 단어와 더 자주 등장할 겁니다.

수식적으로 다시 정리하여 언급하면 k가 solid일 때, P(solid l ice) / P(solid l steam)를 계산한 값은 8.9가 나옵니다. 이 값은 1보다는 매우 큰 값입니다. 왜냐면 P(solid | ice)의 값은 크고, P(solid | steam)의 값은 작기 때문입니다.

그런데 k를 solid가 아니라 gas로 바꾸면 얘기는 완전히 달라집니다. gas는 ice보다는 steam과 더 자주 등장하므로, P(gas l ice) / P(gas l steam)를 계산한 값은 1보다 훨씬 작은 값인 0.085가 나옵니다. 반면, k가 water인 경우에는 solid와 steam 두 단어 모두와 동시 등장하는 경우가 많으므로 1에 가까운 값이 나오고, k가 fasion인 경우에는 solid와 steam 두 단어 모두와 동시 등장하는 경우가 적으므로 1에 가까운 값이 나옵니다. 보기 쉽도록 조금 단순화해서 표현한 표는 다음과 같습니다.


|동시 등장 확률과 크기 관계 비(ratio)|k=solid|k=gas|k=water|k=fashion|
|---|---|---|---|---|
|P(k l ice)|큰 값|작은 값|큰 값|작은 값|
|P(k l scream)|작은 값|큰 값|큰 값|작은 값|
|P(k l ice) / P(k l steam)|큰 값|작은 값|1에 가까움|1에 가까움|

### 8.6.4 손실 함수(Loss function)

우선 손실 함수를 설명하기 전에 각 용어를 정리해보겠습니다.



*   $X$ : 동시 등장 행렬(Co-occurrence Matrix)
*   $X_{ij}$ : 중심 단어 i가 등장했을 때 윈도우 내 주변 단어 j가 등장하는 횟수
*   $X_{i} : \sum_j X_{ij}$ : 동시 등장 행렬에서 i행의 값을 모두 더한 값 
*   $P_{ik} : P(k\ |\ i) = \frac{X_{ik}}{X_{i}}$ : 중심 단어 i가 등장했을 때 윈도우 내 주변 단어 k가 등장할 확률
Ex) P(solid l ice) = 단어 ice가 등장했을 때 단어 solid가 등장할 확률
*   $\frac{P_{ik}}{P_{jk}} : P_{ik}를 P_{jk}$로 나눠준 값    Ex) P(solid l ice) / P(solid l steam) = 8.9
*   $w_{i}$ : 중심 단어 i의 임베딩 벡터
*  $\tilde{w_{k}}$ : 주변 단어 k의 임베딩 벡터


GloVe의 아이디어를 한 줄로 요약하면 '임베딩 된 중심 단어와 주변 단어 벡터의 내적이 전체 코퍼스에서의 동시 등장 확률이 되도록 만드는 것'입니다. 즉, 이를 만족하도록 임베딩 벡터를 만드는 것이 목표입니다. 이를 식으로 표현하면 다음과 같습니다.

$dot\ product(w_{i}\ \tilde{w_{k}}) \approx\ P(k\ |\ i) = P_{ik}$

뒤에서 보게되겠지만, 더 정확히는 GloVe는 아래와 같은 관계를 가지도록 임베딩 벡터를 설계합니다.

$dot\ product(w_{i}\ \tilde{w_{k}}) \approx\ logP(k\ |\ i) = log P_{ik}$

임베딩 벡터들을 만들기 위한 손실 함수를 처음부터 차근차근 설계해보겠습니다. 가장 중요한 것은 단어 간의 관계를 잘 표현하는 함수여야 한다는 겁니다. 이를 위해 앞서 배운 개념인 $P_{ik} / P_{jk}$ 를 식에 사용합니다. GloVe의 연구진들은 벡터 $w_{i}, w_{j}, \tilde{w_{k}}$ 를 가지고 어떤 함수 $F$를 수행하면, $P_{ik}/P_{jk}$가 나온다는 초기 식으로부터 전개를 시작합니다.

$F(w_{i},\ w_{j},\ \tilde{w_{k}}) = \frac{P_{ik}}{P_{jk}}$

아직 이 함수 $F$가 어떤 식을 가지고 있는지는 정해진 게 없습니다. 위의 목적에 맞게 근사할 수 있는 함수식은 무수히 많겠으나 최적의 식에 다가가기 위해서 차근, 차근 디테일을 추가해보겠습니다. 함수 F는 두 단어 사이의 동시 등장 확률의 크기 관계 비(ratio) 정보를 벡터 공간에 인코딩하는 것이 목적입니다. 이를 위해 GloVe 연구진들은 $w_i$와 $w_j$라는 두 벡터의 차이를 함수 $F$의 입력으로 사용하는 것을 제안합니다.

$F(w_{i} -\ w_{j},\ \tilde{w_{k}}) = \frac{P_{ik}}{P_{jk}}$

그런데 우변은 스칼라값이고 좌변은 벡터값입니다. 이를 성립하기 해주기 위해서 함수 $F$의 두 입력에 내적(Dot product)을 수행합니다.

$F((w_{i} -\ w_{j})^{T} \tilde{w_{k}}) = \frac{P_{ik}}{P_{jk}}$

그런데 우변은 스칼라값이고 좌변은 벡터값입니다. 이를 성립하기 해주기 위해서 함수 $F$의 두 입력에 내적(Dot product)을 수행합니다.

F((w_{i} -\ w_{j})^{T} \tilde{w_{k}}) = \frac{P_{ik}}{P_{jk}}

정리하면, 선형 공간(Linear space)에서 단어의 의미 관계를 표현하기 위해 뺄셈과 내적을 택했습니다.

여기서 함수 $F$가 만족해야 할 필수 조건이 있습니다. 중심 단어 $w$와 주변 단어 $\tilde{w}$라는 선택 기준은 실제로는 무작위 선택이므로 이 둘의 관계는 자유롭게 교환될 수 있도록 해야합니다. 이것이 성립되게 하기 위해서 GloVe 연구진은 함수 $F$가 실수의 덥셈과 양수의 곱셈에 대해서 준동형(Homomorphism)을 만족하도록 합니다. 생소한 용어라서 말이 어려워보이는데, 정리하면 $a$와 $b$에 대해서 함수 $F$가 $F(a+b)$가 $F(a)F(b)$와 같도록 만족시켜야 한다는 의미입니다.

식으로 나타내면 아래와 같습니다.

$F(a+b) = F(a)F(b),\ \forall a,\ b\in \mathbb{R}$

이제 이 준동형식을 현재 전개하던 GloVe 식에 적용할 수 있도록 조금씩 바꿔볼 겁니다. 전개하던 GloVe 식에 따르면, 함수 $F$는 결과값으로 스칼라 값$(\frac{P_{ik}}{P_{jk}})$ 이 나와야 합니다. 준동형식에서 $a$와 $b$가 각각 벡터값이라면 함수 $F$의 결과값으로는 스칼라 값이 나올 수 없지만, $a$와 $b$가 각각 사실 두 벡터의 내적값이라고 하면 결과값으로 스칼라 값이 나올 수 있습니다. 그러므로 위의 준동형식을 아래와 같이 바꿔보겠습니다. 여기서 $v_{1},\ v_{2},\ v_{3},\ v_{4}$는 각각 벡터값입니다. 아래의 $V$는 벡터를 의미합니다.

$F(v_{1}^{T}v_{2} + v_{3}^{T}v_{4}) = F(v_{1}^{T}v_{2})F(v_{3}^{T}v_{4}),\ \forall v_{1},\ v_{2},\ v_{3},\ v_{4}\in V$

그런데 앞서 작성한 GloVe 식에서는 $w_i$와 $w_j$라는 두 벡터의 차이를 함수 $F$의 입력으로 받았습니다. GloVe 식에 바로 적용을 위해 준동형 식을 이를 뺄셈에 대한 준동형식으로 변경합니다. 그렇게 되면 곱셈도 나눗셈으로 바뀝니다.

$F(v_{1}^{T}v_{2} - v_{3}^{T}v_{4}) = \frac{F(v_{1}^{T}v_{2})}{F(v_{3}^{T}v_{4})},\ \forall v_{1},\ v_{2},\ v_{3},\ v_{4}\in V$

이제 이 준동형 식을 GloVe 식에 적용해보겠습니다. 우선, 함수 $F$의 우변은 다음과 같이 바뀌어야 합니다.

$F((w_{i} -\ w_{j})^{T} \tilde{w_{k}}) = \frac{F(w_{i}^{T}\tilde{w_{k}})}{F(w_{j}^{T}\tilde{w_{k}})}$

그런데 이전의 식에 따르면 우변은 본래 $\frac{P_{ik}}{P_{jk}}$였으므로, 결과적으로 다음과 같습니다.

$\frac{P_{ik}}{P_{jk}} = \frac{F(w_{i}^{T}\tilde{w_{k}})}{F(w_{j}^{T}\tilde{w_{k}})}$

$F(w_{i}^{T}\tilde{w_{k}}) = P_{ik} = \frac{X_{ik}}{X_{i}}$

좌변을 풀어쓰면 다음과 같습니다.

$F(w_{i}^{T}\tilde{w_{k}}\ -\ w_{j}^{T}\tilde{w_{k}}) = \frac{F(w_{i}^{T}\tilde{w_{k}})}{F(w_{j}^{T}\tilde{w_{k}})}$

이는 뺄셈에 대한 준동형식의 형태와 정확히 일치합니다. 이제 이를 만족하는 함수 $F$를 찾아야 할 때입니다. 그리고 이를 정확하게 만족시키는 함수가 있는데 바로 지수 함수(Exponential function)입니다. $F$를 지수 함수 $exp$라고 해봅시다.

$exp(w_{i}^{T}\tilde{w_{k}}\ -\ w_{j}^{T}\tilde{w_{k}}) = \frac{exp(w_{i}^{T}\tilde{w_{k}})}{exp(w_{j}^{T}\tilde{w_{k}})}$

$exp(w_{i}^{T}\tilde{w_{k}}) = P_{ik} = \frac{X_{ik}}{X_{i}}$

위의 두번째 식으로부터 다음과 같은 식을 얻을 수 있습니다.

$w_{i}^{T}\tilde{w_{k}} = log\ P_{ik} = log\ (\frac{X_{ik}}{X_{i}}) = log\ X_{ik} - log\ X_{i}$

그런데 여기서 상기해야할 것은 앞서 언급했듯이, 사실 $w_i$와 $\tilde{w_{k}}$는 두 값의 위치를 서로 바꾸어도 식이 성립해야 합니다. $X_{ik}$의 정의를 생각해보면 $X_{ki}$와도 같습니다. 그런데 이게 성립되려면 위의 식에서 log Xi항이 걸림돌입니다. 이 부분만 없다면 이를 성립시킬 수 있습니다. 그래서 GloVe 연구팀은 이 $log\ X_{i}$항을 $w_{i}$에 대한 편향 $b_{i}$라는 상수항으로 대체하기로 합니다. 같은 이유로 $\tilde{w_{k}}$에 대한 편향 $\tilde{b_{k}}$를 추가합니다.

$w_{i}^{T}\tilde{w_{k}} + b_{i} + \tilde{b_{k}} = log\ X_{ik}$

이 식이 손실 함수의 핵심이 되는 식입니다. 우변의 값과의 차이를 최소화는 방향으로 좌변의 4개의 항은 학습을 통해 값이 바뀌는 변수들이 됩니다. 즉, 손실 함수는 다음과 같이 일반화될 수 있습니다.

$Loss\ function = \sum_{m, n=1}^{V}\ (w_{m}^{T}\tilde{w_{n}} + b_{m} + \tilde{b_{n}} - logX_{mn})^{2}$

여기서 $V$는 단어 집합의 크기를 의미합니다. 그런데 아직 최적의 손실 함수라기에는 부족합니다. GloVe 연구진은 $log\ X_{ik}$에서 $X_{ik}$값이 0이 될 수 있음을 지적합니다. 대안 중 하나는 $log\ X_{ik}$항을 $log\ (1 + X_{ik})$로 변경하는 것입니다. 하지만 이렇게 해도 여전히 해결되지 않는 문제가 있습니다.

바로 동시 등장 행렬 $X$는 마치 DTM처럼 희소 행렬(Sparse Matrix)일 가능성이 다분하다는 점입니다. 동시 등장 행렬 $X$에는 많은 값이 0이거나, 동시 등장 빈도가 적어서 많은 값이 작은 수치를 가지는 경우가 많습니다. 앞서 빈도수를 가지고 가중치를 주는 고민을 하는 TF-IDF나 LSA와 같은 몇 가지 방법들을 본 적이 있습니다. GloVe의 연구진은 동시 등장 행렬에서 동시 등장 빈도의 값 $X_{ik}$이 굉장히 낮은 경우에는 정보에 거의 도움이 되지 않는다고 판단합니다. 그래서 이에 대한 가중치를 주는 고민을 하게 되는데 GloVe 연구팀이 선택한 것은 바로 $X_{ik}$의 값에 영향을 받는 가중치 함수(Weighting function) $f(X_{ik})$를 손실 함수에 도입하는 것입니다.

GloVe에 도입되는 $f(X_{ik})$의 그래프를 보겠습니다.

![대체 텍스트](https://wikidocs.net/images/page/22885/%EA%B0%80%EC%A4%91%EC%B9%98.PNG)

$X_{ik}$의 값이 작으면 상대적으로 함수의 값은 작도록 하고, 값이 크면 함수의 값은 상대적으로 크도록 합니다. 하지만 $X_{ik}$가 지나치게 높다고해서 지나친 가중치를 주지 않기위해서 또한 함수의 최대값이 정해져 있습니다. (최대값은 1) 예를 들어 'It is'와 같은 불용어의 동시 등장 빈도수가 높다고해서 지나친 가중을 받아서는 안 됩니다. 이 함수의 값을 손실 함수에 곱해주면 가중치의 역할을 할 수 있습니다.

이 함수 $f(x)$의 식은 다음과 같이 정의됩니다.

$f(x) = min(1,\ (x/x_{max})^{3/4})$

최종적으로 다음과 같은 일반화 된 손실 함수를 얻어낼 수 있습니다.

$Loss\ function = \sum_{m, n=1}^{V}\ f(X_{mn})(w_{m}^{T}\tilde{w_{n}} + b_{m} + \tilde{b_{n}} - logX_{mn})^{2}$

이제 GloVe 패키지를 설치 및 실습하고 훈련 결과를 확인해보겠습니다.

### 8.6.5 GloVe 훈련시키기

실습을 위해 프롬프트에서 아래 커맨드로 GloVe 패키지를 설치합니다.

GloVe의 입력이 되는 훈련 데이터는 '영어와 한국어 Word2Vec 학습하기' 챕터에서 사용한 영어 데이터를 재사용합니다. 모든 동일한 전처리를 마치고 이전과 동일하게 result에 결과가 저장되어있다고 가정합니다.

In [0]:
pip install glove_python

Collecting glove_python
[?25l  Downloading https://files.pythonhosted.org/packages/3e/79/7e7e548dd9dcb741935d031117f4bed133276c2a047aadad42f1552d1771/glove_python-0.1.0.tar.gz (263kB)
[K     |█▎                              | 10kB 17.3MB/s eta 0:00:01[K     |██▌                             | 20kB 1.8MB/s eta 0:00:01[K     |███▊                            | 30kB 2.6MB/s eta 0:00:01[K     |█████                           | 40kB 3.4MB/s eta 0:00:01[K     |██████▎                         | 51kB 2.2MB/s eta 0:00:01[K     |███████▌                        | 61kB 2.5MB/s eta 0:00:01[K     |████████▊                       | 71kB 2.9MB/s eta 0:00:01[K     |██████████                      | 81kB 3.3MB/s eta 0:00:01[K     |███████████▏                    | 92kB 2.6MB/s eta 0:00:01[K     |████████████▌                   | 102kB 2.8MB/s eta 0:00:01[K     |█████████████▊                  | 112kB 2.8MB/s eta 0:00:01[K     |███████████████                 | 122kB 2.8MB/s eta 0:

In [0]:
from glove import Corpus, Glove

corpus = Corpus() 
corpus.fit(result, window=5)
# 훈련 데이터로부터 GloVe에서 사용할 동시 등장 행렬 생성

glove = Glove(no_components=100, learning_rate=0.05)
glove.fit(corpus.matrix, epochs=20, no_threads=4, verbose=True)
glove.add_dictionary(corpus.dictionary)
# 학습에 이용할 쓰레드의 개수는 4로 설정, 에포크는 20.

Performing 20 training epochs with 4 threads
Epoch 0
Epoch 1
Epoch 2
Epoch 3
Epoch 4
Epoch 5
Epoch 6
Epoch 7
Epoch 8
Epoch 9
Epoch 10
Epoch 11
Epoch 12
Epoch 13
Epoch 14
Epoch 15
Epoch 16
Epoch 17
Epoch 18
Epoch 19


이제 학습이 완료되었습니다. glove.most_similar()는 입력 단어의 가장 유사한 단어들의 리스트를 리턴합니다.

In [0]:
model_result1=glove.most_similar("man")
print(model_result1)

[('woman', 0.9629454776959908), ('guy', 0.8811763079214656), ('girl', 0.8540308664114352), ('young', 0.8515396597897965)]


In [0]:
model_result2=glove.most_similar("boy")
print(model_result2)

[('girl', 0.9468155529548188), ('woman', 0.8498999825659129), ('kid', 0.841426266952346), ('man', 0.823855357536209)]


In [0]:
model_result3=glove.most_similar("university")
print(model_result3)

[('harvard', 0.8829632717984627), ('mit', 0.8377451571288185), ('cambridge', 0.8344100707711267), ('stanford', 0.8306041959269022)]


In [0]:
model_result4=glove.most_similar("water")
print(model_result4)

[('air', 0.8363194702045516), ('fresh', 0.8324563870373354), ('clean', 0.8258053615442308), ('food', 0.825107765521016)]


In [0]:
model_result5=glove.most_similar("physics")
print(model_result5)

[('chemistry', 0.8929079380471691), ('economics', 0.8754193219294244), ('beauty', 0.8724470585827797), ('mathematics', 0.8712194624886714)]


In [0]:
model_result6=glove.most_similar("muscle")
print(model_result6)

[('tissue', 0.8496185635529798), ('nerve', 0.8281092176139146), ('channel', 0.7735373537144379), ('foreign', 0.7726288175430955)]


In [0]:
model_result7=glove.most_similar("clean")
print(model_result7)

[('fresh', 0.8389978236607665), ('heat', 0.8268865427260307), ('water', 0.8258053615442308), ('warm', 0.7949956682445967)]


사전 훈련된 GloVe를 사용하는 방법은 다음 챕터에서 다룹니다.

## 8.7 파이토치(PyTorch)의 nn.Embedding()

파이토치에서는 임베딩 벡터를 사용하는 방법이 크게 두 가지가 있습니다. 바로 임베딩 층(embedding layer)을 만들어 훈련 데이터로부터 처음부터 임베딩 벡터를 학습하는 방법과 미리 사전에 훈련된 임베딩 벡터(pre-trained word embedding)들을 가져와 사용하는 방법입니다. 이번 챕터에서는 전자에 해당되는 방법에 대해서 배웁니다. 파이토치에서는 이를 nn.Embedding()를 사용하여 구현합니다.

이와 대조되는 방법인 사전에 훈련된 임베딩 벡터(pre-trained word embedding)를 사용하는 방법은 다음 챕터에서 다룹니다.

### 8.7.1 임베딩 층은 룩업 테이블이다.

임베딩 층의 입력으로 사용하기 위해서 입력 시퀀스의 각 단어들은 모두 정수 인코딩이 되어있어야 합니다.

어떤 단어 → 단어에 부여된 고유한 정수값 → 임베딩 층 통과 → 밀집 벡터

임베딩 층은 입력 정수에 대해 밀집 벡터(dense vector)로 맵핑하고 이 밀집 벡터는 인공 신경망의 학습 과정에서 가중치가 학습되는 것과 같은 방식으로 훈련됩니다. 훈련 과정에서 단어는 모델이 풀고자하는 작업에 맞는 값으로 업데이트 됩니다. 그리고 이 밀집 벡터를 임베딩 벡터라고 부릅니다.

정수를 밀집 벡터 또는 임베딩 벡터로 맵핑한다는 것은 어떤 의미일까요? 특정 단어와 맵핑되는 정수를 인덱스로 가지는 테이블로부터 임베딩 벡터 값을 가져오는 룩업 테이블이라고 볼 수 있습니다. 그리고 이 테이블은 단어 집합의 크기만큼의 행을 가지므로 모든 단어는 고유한 임베딩 벡터를 가집니다.

![대체 텍스트](https://wikidocs.net/images/page/33793/lookup_table.PNG)

위의 그림은 단어 great이 정수 인코딩 된 후 테이블로부터 해당 인덱스에 위치한 임베딩 벡터를 꺼내오는 모습을 보여줍니다. 위의 그림에서는 임베딩 벡터의 차원이 4로 설정되어져 있습니다. 그리고 단어 great은 정수 인코딩 과정에서 1,918의 정수로 인코딩이 되었고 그에 따라 단어 집합의 크기만큼의 행을 가지는 테이블에서 인덱스 1,918번에 위치한 행을 단어 great의 임베딩 벡터로 사용합니다. 이 임베딩 벡터는 모델의 입력이 되고, 역전파 과정에서 단어 great의 임베딩 벡터값이 학습됩니다.

룩업 테이블의 개념을 이론적으로 우선 접하고, 처음 파이토치를 배울 때 어떤 분들은 임베딩 층의 입력이 원-핫 벡터가 아니어도 동작한다는 점에 헷갈려 합니다. 파이토치는 단어를 정수 인덱스로 바꾸고 원-핫 벡터로 한번 더 바꾸고나서 임베딩 층의 입력으로 사용하는 것이 아니라, 단어를 정수 인덱스로만 바꾼채로 임베딩 층의 입력으로 사용해도 룩업 테이블 된 결과인 임베딩 벡터를 리턴합니다.

룩업 테이블 과정을 nn.Embedding()을 사용하지 않고 구현해보면서 이해해보겠습니다.
우선 임의의 문장으로부터 단어 집합을 만들고 각 단어에 정수를 부여합니다.

In [0]:
train_data = 'you need to know how to code'
word_set = set(train_data.split()) # 중복을 제거한 단어들의 집합인 단어 집합 생성.
vocab = {word: i+2 for i, word in enumerate(word_set)}  # 단어 집합의 각 단어에 고유한 정수 맵핑.
vocab['<unk>'] = 0
vocab['<pad>'] = 1
print(vocab)

{'how': 2, 'to': 3, 'code': 4, 'know': 5, 'need': 6, 'you': 7, '<unk>': 0, '<pad>': 1}


이제 단어 집합의 크기를 행으로 가지는 임베딩 테이블을 구현합니다. 단, 여기서 임베딩 벡터의 차원은 3으로 정했습니다.

In [0]:
# 단어 집합의 크기만큼의 행을 가지는 테이블 생성.
import torch
embedding_table = torch.FloatTensor([
                               [ 0.0,  0.0,  0.0],
                               [ 0.0,  0.0,  0.0],
                               [ 0.2,  0.9,  0.3],
                               [ 0.1,  0.5,  0.7],
                               [ 0.2,  0.1,  0.8],
                               [ 0.4,  0.1,  0.1],
                               [ 0.1,  0.8,  0.9],
                               [ 0.6,  0.1,  0.1]])

이제 임의의 문장 'you need to run'에 대해서 룩업 테이블을 통해 임베딩 벡터들을 가져와보겠습니다.

In [0]:
# 임의의 샘플 문장
sample = 'you need to run'.split()
idxes=[]
# 각 단어를 정수로 변환
for word in sample:
  try:
    idxes.append(vocab[word])
  except KeyError: # 단어 집합에 없는 단어일 경우 <unk>로 대체된다.
    idxes.append(vocab['<unk>'])
idxes = torch.LongTensor(idxes)

# 룩업 테이블
lookup_result = embedding_table[idxes, :] # 각 정수를 인덱스로 임베딩 테이블에서 값을 가져온다.
print(lookup_result)

tensor([[0.6000, 0.1000, 0.1000],
        [0.1000, 0.8000, 0.9000],
        [0.1000, 0.5000, 0.7000],
        [0.0000, 0.0000, 0.0000]])


### 8.7.2 임베딩 층 사용하기

이제 nn.Embedding()으로 사용할 경우를 봅시다. 우선 전처리는 동일한 과정을 거칩니다.

In [0]:
train_data = 'you need to know how to code'
word_set = set(train_data.split()) # 중복을 제거한 단어들의 집합인 단어 집합 생성.
vocab = {tkn: i+2 for i, tkn in enumerate(word_set)}  # 단어 집합의 각 단어에 고유한 정수 맵핑.
vocab['<unk>'] = 0
vocab['<pad>'] = 1

이제 nn.Embedding()을 사용하여 학습가능한 임베딩 테이블을 만듭니다.

In [0]:
import torch.nn as nn
embedding_layer = nn.Embedding(num_embeddings = len(vocab), 
                               embedding_dim = 3,
                               padding_idx = 1)

nn.Embedding은 크게 두 가지 인자를 받는데 각각 num_embeddings과 embedding_dim입니다.

*   num_embeddings : 임베딩을 할 단어들의 개수. 다시 말해 단어 집합의 크기입니다.
*   embedding_dim : 임베딩 할 벡터의 차원입니다. 사용자가 정해주는 하이퍼파라미터입니다.
*   padding_idx : 선택적으로 사용하는 인자입니다. 패딩을 위한 토큰의 인덱스를 알려줍니다.


In [0]:
print(embedding_layer.weight)

Parameter containing:
tensor([[-0.1786, -0.5207, -0.0678],
        [ 0.0000,  0.0000,  0.0000],
        [ 0.9544,  0.7750, -0.2883],
        [ 0.6410, -0.3178, -1.8516],
        [ 2.8874,  1.8065,  0.7495],
        [ 2.6179,  0.2627,  2.3910],
        [-1.6480, -0.0181, -0.9542],
        [ 1.2147, -1.0540, -0.7667]], requires_grad=True)


앞선 예제와 마찬가지로 단어 집합의 크기의 행을 가지는 임베딩 테이블이 생성되었습니다.

## 8.8 사전 훈련된 워드 임베딩(Pretrained Word Embedding)

임베딩 벡터를 얻기 위해서 파이토치의 nn.Embedding()을 사용하기도 하지만, 때로는 이미 훈련되어져 있는 워드 임베딩을 불러서 이를 임베딩 벡터로 사용하기도 합니다. 훈련 데이터가 부족한 상황이라면 모델에 파이토치의 nn.Embedding()을 사용하는 것보다 다른 텍스트 데이터로 사전 훈련되어 있는 임베딩 벡터를 불러오는 것이 나은 선택일 수 있습니다.

훈련 데이터가 적다면 파이토치의 nn.Embedding()으로 해당 문제에 충분히 특화된 임베딩 벡터를 만들어내는 것이 쉽지 않습니다. 이 경우, 해당 문제에 특화된 것은 아니지만 보다 일반적이고 보다 많은 훈련 데이터로 이미 Word2Vec이나 GloVe 등으로 학습되어져 있는 임베딩 벡터들을 사용하는 것이 성능의 개선을 가져올 수 있습니다.

### 8.8.1 IMDB 리뷰 데이터를 훈련 데이터로 사용하기

실습을 위해서는 사전 훈련된 임베딩 벡터들을 맵핑시킬 대상인 훈련 데이터가 필요합니다. 여기서는 토치텍스트에서 제공하는 IMDB 리뷰 데이터를 다운받아 이를 사용하겠습니다.

In [0]:
from torchtext import data, datasets

토치텍스트를 통한 실습을 진행하기 위해 우선 두 개의 Field 객체를 정의합니다.

In [0]:
TEXT = data.Field(sequential=True, batch_first=True, lower=True)
LABEL = data.Field(sequential=False, batch_first=True)

필드를 정의했다면, 실습을 위해 필요한 데이터를 준비해야 합니다. torchtext.datasets은 IMDB, TREC(질문 분류), 언어 모델링(WikiText-2) 등 다른 여러 데이터셋을 제공합니다. torchtext.datasets을 사용해 IMDB 데이터셋을 다운로드하고, 이 데이터셋을 학습 데이터셋과 테스트 데이터셋으로 나눠보겠습니다.

In [0]:
trainset, testset = datasets.IMDB.splits(TEXT, LABEL)

aclImdb_v1.tar.gz:   0%|          | 0.00/84.1M [00:00<?, ?B/s]

downloading aclImdb_v1.tar.gz


aclImdb_v1.tar.gz: 100%|██████████| 84.1M/84.1M [00:04<00:00, 16.9MB/s]


현재 훈련 데이터(trainset)에는 샘플이 몇 개가 있는지 확인해보겠습니다.

In [0]:
print('훈련 데이터의 크기 : {}' .format(len(trainset)))

훈련 데이터의 크기 : 25000


총 25,000개의 샘플이 존재합니다. 그 중 첫번째 샘플을 출력해보겠습니다.

In [0]:
print(vars(trainset[0]))

{'text': ['"who', 'loves', 'the', 'sun"', 'works', 'its', 'way', 'through', 'some', 'prickly', 'subject', 'matter', 'with', 'enough', 'wit', 'and', 'grace', 'to', 'keep', 'the', 'story', 'not', 'only', 'engaging,', 'but', 'often', 'hilarious.', "it's", 'been', 'a', 'while', 'since', "i've", 'found', 'such', 'a', 'thoroughly', 'touching,', 'thoroughly', 'enjoyable', 'film.', '<br', '/><br', '/>the', 'film', 'is', 'gorgeous,', 'drawing', 'the', 'eye', 'with', 'beautiful', 'scenery', 'and', 'tranquil', 'landscapes.', 'the', 'peaceful', 'imagery', 'contrasts', 'wonderfully', 'with', 'the', 'tension', 'between', 'the', 'very', 'human,', 'very', 'flawed,', 'and', 'yet', 'very', 'likable', 'characters.', 'due', 'to', 'the', 'excellent', 'cast', 'all', 'five', 'of', 'the', 'major', 'players', 'are', 'wonderfully', 'interesting', 'and', 'dynamic.', '<br', '/><br', '/>i', 'recommend', '"who', 'loves', 'the', 'sun."', "it's", 'a', 'really', 'funny', 'movie', 'that', 'takes', 'a', 'poignant', 'loo

출력 결과가 길어서 지면의 한계로 여기서는 중략했습니다. 이런 샘플이 총 25,000개가 존재하는데 여기있는 단어들을 각각 사전 훈련된 임베딩 벡터들로 맵핑해서 값을 부여해보겠습니다.

토치텍스트의 Field 객체의 build_vocab을 통해 사전 훈련된 워드 임베딩을 사용할 수 있습니다. 여기서는 직접 훈련시킨 사전 훈련된 워드 임베딩을 사용하는 방법과 토치텍스트에서 제공하는 사전 훈련된 워드 임베딩을 사용하는 방법 두 가지를 다룹니다.

### 8.8.2 토치텍스트를 사용한 사전 훈련된 워드 임베딩

이번에는 토치텍스트를 사용해서 외부에서 가져온 사전 훈련된 워드 임베딩을 사용해봅시다.

1) 사전 훈련된 Word2Vec 모델 확인하기

여기서는 앞서 '영어/한국어 Word2Vec 훈련하기 챕터'에서 만들어두었던 'eng_w2v' 모델을 사용합니다. 우선 'eng_w2v' 모델을 로드하여 저자가 임의로 선택한 영어 단어 'this'와 'self-indulgent'의 임베딩 벡터값을 확인해보겠습니다.

In [0]:
from gensim.models import KeyedVectors
word2vec_model = KeyedVectors.load_word2vec_format('eng_w2v')

  'See the migration notes for details: %s' % _MIGRATION_NOTES_URL


In [0]:
print(word2vec_model['this']) # 영어 단어 'this'의 임베딩 벡터값 출력

[-0.09277881 -1.0684662  -0.9617371  -1.2521578   0.07385583  0.17419109
  1.7759012  -1.5023748  -1.5532686  -0.82953507  1.1891056  -1.7400415
 -0.57300395 -1.6362454  -0.25796664  1.0465689  -0.91498715 -1.5664382
 -0.26287875  0.70824236  0.36621875 -0.7551629  -0.7772609   0.9395058
 -0.15252599 -1.2123917  -1.0630585  -1.7203158  -2.3558362  -0.71035475
  2.070346   -2.4913995  -0.7958865  -1.7156069  -0.497188    0.28914073
  0.2881453   0.5022582   1.8706399  -0.8941623   1.7069905  -2.1914465
 -0.09763958  0.24146174 -1.6001132  -0.8042857  -0.11260699 -0.8359921
  0.31493858  0.95127296  0.20191313  0.7746194   1.660053   -0.28393894
 -1.6358131  -0.62649745  0.24098279 -0.5844465  -0.50610346  0.48796067
  1.788955   -0.33748642  1.6938901   0.34994218 -0.29259458  0.5392385
 -1.4071912  -0.46444532  0.7922063  -0.05028255  0.65693927 -0.13166086
  0.03087788  0.50798607 -0.15872073 -0.4680903  -1.0446734  -0.5067857
  1.8631467  -1.5755849  -0.65205276  1.5052865   1.678387

영어 단어 'this'의 임베딩 벡터값이 정상적으로 출력됩니다.

In [0]:
print(word2vec_model['self-indulgent']) # 영어 단어 'self-indulgent'의 임베딩 벡터값 출력

KeyError: ignored

영어 단어 'self-indulgent'의 경우에는 "word 'self-indulgent' not in vocabulary" 라는 에러가 발생합니다. 이는 Word2Vec 학습시에 존재하지 않았던 단어이므로 'self-indulgent'의 임베딩 벡터값을 갖고 있지 않다는 에러입니다.

2) 사전 훈련된 Word2Vec을 초기 임베딩으로 사용하기

이제 이 임베딩 벡터들을 IMDB 리뷰 데이터의 단어들에 맵핑해보겠습니다.

In [0]:
import torch
import torch.nn as nn
from torchtext.vocab import Vectors

vectors = Vectors(name="eng_w2v") # 사전 훈련된 Word2Vec 모델을 vectors에 저장

Field 객체의 build_vocab을 통해 훈련 데이터의 단어 집합(vocabulary)를 만드는 것과 동시에 임베딩 벡터값들을 초기화할 수 있습니다.

In [0]:
TEXT.build_vocab(trainset, vectors=vectors, max_size=10000, min_freq=10) # Word2Vec 모델을 임베딩 벡터값으로 초기화

builc_vocab의 인자들을 보겠습니다. 우선, max_size와 min_freq는 몇 개의 단어들만을 가지고 단어 집합을 생성할 것인지를 정합니다. max_size는 단어 집합의 크기를 제한하고, min_freq=10은 등장 빈도수가 10번 이상인 단어만 허용하는 것한다는 의미입니다. vectors=vectors는 만들어진 단어 집합의 각 단어의 임베딩 벡터값으로 env_w2v에 저장되어져 있던 임베딩 벡터값들로 초기화합니다.

단어 집합을 만들었다면, TEXT.vocab.stoi를 통해서 현재 단어 집합의 단어와 맵핑된 고유한 정수를 출력할 수 있습니다.

In [0]:
print(TEXT.vocab.stoi)



총 0번 단어부터 10,001 단어까지 총 10,002개의 단어가 존재합니다. 단, < unk >와 < pad >는 실제 단어가 아니라 특별 토큰이므로 실제 훈련 데이터의 단어는 10,000개만 존재합니다. 이 10,002개의 단어의 임베딩 벡터값들은 TEXT.vocab.vectors에 저장되어져 있습니다. TEXT.vocab.vectors의 크기를 봅시다.

In [0]:
print('임베딩 벡터의 개수와 차원 : {} '.format(TEXT.vocab.vectors.shape))

임베딩 벡터의 개수와 차원 : torch.Size([10002, 100]) 


임베딩 벡터는 총 10,002개가 존재하며 각 벡터는 100차원을 가집니다. print(TEXT.vocab.stoi)로 확인한 결과에서 각 단어의 고유한 정수 인덱스를 기억한다면, TEXT.vocab.vectors[인덱스]를 통해서 각 단어의 임베딩 벡터값을 출력할 수 있습니다. '< unk >'와 '< pad >', 'this', 그리고 'self-indulgent'의 임베딩 벡터값을 확인해보겠습니다. 우선 < unk >의 임베딩 벡터값을 확인해봅시다.

In [0]:
print(TEXT.vocab.vectors[0]) # <unk>의 임베딩 벡터값

tensor([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0.])


< unk >의 임베딩 벡터값은 0으로 초기화 된 상태입니다. < pad >의 임베딩 벡터값은 어떨까요?

In [0]:
print(TEXT.vocab.vectors[1]) # <pad>의 임베딩 벡터값

tensor([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0.])


마찬가지로 < pad >의 임베딩 벡터값 또한 0으로 초기화 된 상태입니다. < unk >와 < pad >는 실제 단어가 아닌 특별 토큰이기 때문입니다. 단어 'this'의 임베딩 벡터값을 확인해봅시다.

In [0]:
print(TEXT.vocab.vectors[10]) # this의 임베딩 벡터값

tensor([-0.0928, -1.0685, -0.9617, -1.2522,  0.0739,  0.1742,  1.7759, -1.5024,
        -1.5533, -0.8295,  1.1891, -1.7400, -0.5730, -1.6362, -0.2580,  1.0466,
        -0.9150, -1.5664, -0.2629,  0.7082,  0.3662, -0.7552, -0.7773,  0.9395,
        -0.1525, -1.2124, -1.0631, -1.7203, -2.3558, -0.7104,  2.0703, -2.4914,
        -0.7959, -1.7156, -0.4972,  0.2891,  0.2881,  0.5023,  1.8706, -0.8942,
         1.7070, -2.1914, -0.0976,  0.2415, -1.6001, -0.8043, -0.1126, -0.8360,
         0.3149,  0.9513,  0.2019,  0.7746,  1.6601, -0.2839, -1.6358, -0.6265,
         0.2410, -0.5844, -0.5061,  0.4880,  1.7890, -0.3375,  1.6939,  0.3499,
        -0.2926,  0.5392, -1.4072, -0.4644,  0.7922, -0.0503,  0.6569, -0.1317,
         0.0309,  0.5080, -0.1587, -0.4681, -1.0447, -0.5068,  1.8631, -1.5756,
        -0.6521,  1.5053,  1.6784, -0.2517, -0.6527,  2.1916,  0.4648, -1.0222,
        -0.8564, -0.5663, -2.6214, -0.4995, -0.5221, -0.7988,  0.3222, -0.6812,
        -0.1488,  1.2841, -0.8947,  0.96

위에 출력된 단어 'this'의 임베딩 벡터값은 앞서 eng_w2v에 저장되어져 있던 단어 'this'의 임베딩 벡터값과 동일함을 알 수 있습니다. eng_w2v에 존재하지 않았던 단어인 'self-indulgent'의 임베딩 벡터값은 어떨까요?

In [0]:
print(TEXT.vocab.vectors[10000]) # 단어 'self-indulgent'의 임베딩 벡터값

tensor([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0.])


기존의 env_w2v에 단어 ''self-indulgent'의 임베딩 벡터값이 존재하지 않았기 때문에 'self-indulgent'의 임베딩 벡터값은 0으로 초기화 되었습니다. 이제 이 임베딩 벡터들을 nn.Embedding()의 초기화 입력으로 사용합니다.

In [0]:
embedding_layer = nn.Embedding.from_pretrained(TEXT.vocab.vectors, freeze=False)

In [0]:
print(embedding_layer(torch.LongTensor([10]))) # 단어 this의 임베딩 벡터값

tensor([[-0.0928, -1.0685, -0.9617, -1.2522,  0.0739,  0.1742,  1.7759, -1.5024,
         -1.5533, -0.8295,  1.1891, -1.7400, -0.5730, -1.6362, -0.2580,  1.0466,
         -0.9150, -1.5664, -0.2629,  0.7082,  0.3662, -0.7552, -0.7773,  0.9395,
         -0.1525, -1.2124, -1.0631, -1.7203, -2.3558, -0.7104,  2.0703, -2.4914,
         -0.7959, -1.7156, -0.4972,  0.2891,  0.2881,  0.5023,  1.8706, -0.8942,
          1.7070, -2.1914, -0.0976,  0.2415, -1.6001, -0.8043, -0.1126, -0.8360,
          0.3149,  0.9513,  0.2019,  0.7746,  1.6601, -0.2839, -1.6358, -0.6265,
          0.2410, -0.5844, -0.5061,  0.4880,  1.7890, -0.3375,  1.6939,  0.3499,
         -0.2926,  0.5392, -1.4072, -0.4644,  0.7922, -0.0503,  0.6569, -0.1317,
          0.0309,  0.5080, -0.1587, -0.4681, -1.0447, -0.5068,  1.8631, -1.5756,
         -0.6521,  1.5053,  1.6784, -0.2517, -0.6527,  2.1916,  0.4648, -1.0222,
         -0.8564, -0.5663, -2.6214, -0.4995, -0.5221, -0.7988,  0.3222, -0.6812,
         -0.1488,  1.2841, -

### 8.8.3 토치텍스트에서 제공하는 사전 훈련된 워드 임베딩

토치텍스트는 영어 단어들의 사전 훈련된 임베딩 벡터를 제공하고 있습니다. 다음은 제공되는 임베딩 벡터 리스트의 일부입니다.

*  fasttext.en.300d
*  fasttext.simple.300d
*  glove.42B.300d
*  glove.840B.300d
*  glove.twitter.27B.25d
*  glove.twitter.27B.50d
*  .twitter.27B.100d
*  glove.twitter.27B.200d
*  glove.6B.50d
*  glove.6B.100d
*  glove.6B.200d
*  glove.6B.300d <= 이걸 사용해볼 겁니다.

IMDB 리뷰 데이터에 존재하는 단어들을 토치텍스트가 제공하는 사전 훈련된 임베딩 벡터들의 값으로 초기화해봅시다.

In [0]:
from torchtext.vocab import GloVe

Field 객체의 build_vocab을 통해 토치텍스트가 제공하는 사전 훈련된 임베딩 벡터를 다운받을 수 있습니다.

In [0]:
TEXT.build_vocab(trainset, vectors=GloVe(name='6B', dim=300), max_size=10000, min_freq=10)
LABEL.build_vocab(trainset)

.vector_cache/glove.6B.zip: 862MB [06:28, 2.22MB/s]                           
100%|█████████▉| 399914/400000 [00:43<00:00, 9236.93it/s]

위 코드는 GloVe의 300차원의 임베딩 벡터들을 다운로드 받아 임베딩 벡터 초기화에 사용합니다. 다른 인자들은 IMDB 리뷰 데이터에 있는 단어들을 몇 개만 남길 것인지를 정합니다. max_size는 단어 집합의 크기를 제한하고, min_freq=10은 등장 빈도수가 10번 이상인 단어만 허용합니다. 앞에서 한 것과 동일하게 TEXT.vocab.stoi를 통해서 현재 단어 집합의 단어와 맵핑된 고유한 정수를 출력해봅시다.

In [0]:
print(TEXT.vocab.stoi)



TEXT.vocab.vectors의 크기를 확인하여 임베딩 벡터의 개수와 각 벡터의 차원을 확인해봅시다.

In [0]:
print('임베딩 벡터의 개수와 차원 : {} '.format(TEXT.vocab.vectors.shape))

임베딩 벡터의 개수와 차원 : torch.Size([10002, 300]) 


현재 임베딩 벡터는 총 10,002개가 존재하며 각 단어는 300차원을 가집니다. 앞선 예와 동일하게 TEXT.vocab.vectors[인덱스]를 통해서 각 단어의 임베딩 벡터값을 출력해봅시다. '< unk >', '< pad >', 'this', 그리고 'self-indulgent'의 임베딩 벡터를 확인해보겠습니다. 우선 < unk >의 임베딩 벡터값을 확인해봅시다.

In [0]:
print(TEXT.vocab.vectors[0]) # <unk>의 임베딩 벡터값

tensor([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 

< unk >의 임베딩 벡터값은 0으로 초기화 된 상태입니다.

In [0]:
print(TEXT.vocab.vectors[1]) # <pad>의 임베딩 벡터값

tensor([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 

마찬가지로 < pad >의 임베딩 벡터값 또한 0으로 초기화 된 상태입니다. < unk >와 < pad >는 실제 단어가 아닌 특별 토큰이기 때문입니다. 단어 'this'의 임베딩 벡터값을 확인해봅시다.

In [0]:
print(TEXT.vocab.vectors[10]) # this의 임베딩 벡터값

tensor([-2.0437e-01,  1.6431e-01,  4.1794e-02, -1.3708e-01, -2.9779e-01,
         3.3440e-01, -6.9955e-02, -6.8036e-02,  1.0604e-01, -2.0337e+00,
         1.7977e-01, -7.7403e-02, -1.9518e-01,  1.8324e-01,  3.0017e-02,
        -5.4762e-02, -4.5725e-01, -2.4509e-02,  5.7387e-02, -3.4878e-01,
         3.9696e-02,  4.4826e-01, -5.8462e-02,  4.1181e-01, -3.5411e-02,
        -1.4722e-01,  1.0740e-01, -2.5896e-01, -1.1658e-01,  1.9822e-01,
         3.2850e-01,  2.4177e-01, -5.7177e-01, -5.6442e-02, -9.6437e-01,
         3.4482e-01,  5.4639e-02,  2.3828e-01, -1.9139e-01,  3.0899e-01,
         2.8044e-01, -3.3814e-02, -2.5436e-01,  1.5373e-02,  1.6341e-01,
         2.6352e-01,  1.5812e-01,  3.2044e-01, -2.3082e-01,  2.6050e-01,
         2.0606e-01, -8.9769e-02, -1.0055e-01,  7.0378e-02, -2.7452e-02,
         2.7959e-01, -9.5862e-02,  2.0574e-01,  2.9522e-01, -1.2285e-02,
         1.1164e-01, -5.1373e-02,  4.6106e-01,  2.3014e-02, -3.7141e-01,
        -2.4166e-01,  3.3773e-02,  3.6827e-02,  1.6

단어 'this'의 임베딩 벡터의 300개의 차원에는 모두 어떤 실수값이 들어가있습니다. 이는 이번에 다운로드 받은 단어 'this'의 사전 훈련된 임베딩 벡터값입니다. 'self-indulgent'의 임베딩 벡터값을 확인해보겠습니다.

In [0]:
print(TEXT.vocab.vectors[9999]) # seeing의 임베딩 벡터값

tensor([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 

'self-indulgent'의 임베딩 벡터값은 0으로 초기화 된 상태입니다. 이는 이번에 다운로드받은 사전 훈련된 임베딩 벡터의 단어장에 단어 'self-indulgent'이 존재하지 않았기 때문입니다. 이제 이 임베딩 벡터들이 저장되어져 있는 TEXT.vocab.vectors를 nn.Embedding()의 초기화 입력으로 사용합니다.

In [0]:
embedding_layer = nn.Embedding.from_pretrained(TEXT.vocab.vectors, freeze=False)

In [0]:
embedding_layer(torch.LongTensor([10])) # 단어 this의 임베딩 벡터값

tensor([[-2.0437e-01,  1.6431e-01,  4.1794e-02, -1.3708e-01, -2.9779e-01,
          3.3440e-01, -6.9955e-02, -6.8036e-02,  1.0604e-01, -2.0337e+00,
          1.7977e-01, -7.7403e-02, -1.9518e-01,  1.8324e-01,  3.0017e-02,
         -5.4762e-02, -4.5725e-01, -2.4509e-02,  5.7387e-02, -3.4878e-01,
          3.9696e-02,  4.4826e-01, -5.8462e-02,  4.1181e-01, -3.5411e-02,
         -1.4722e-01,  1.0740e-01, -2.5896e-01, -1.1658e-01,  1.9822e-01,
          3.2850e-01,  2.4177e-01, -5.7177e-01, -5.6442e-02, -9.6437e-01,
          3.4482e-01,  5.4639e-02,  2.3828e-01, -1.9139e-01,  3.0899e-01,
          2.8044e-01, -3.3814e-02, -2.5436e-01,  1.5373e-02,  1.6341e-01,
          2.6352e-01,  1.5812e-01,  3.2044e-01, -2.3082e-01,  2.6050e-01,
          2.0606e-01, -8.9769e-02, -1.0055e-01,  7.0378e-02, -2.7452e-02,
          2.7959e-01, -9.5862e-02,  2.0574e-01,  2.9522e-01, -1.2285e-02,
          1.1164e-01, -5.1373e-02,  4.6106e-01,  2.3014e-02, -3.7141e-01,
         -2.4166e-01,  3.3773e-02,  3.