단어 집합(vocabulary)에 있는 단어들을 가지고 정수 인코딩을 진행한 뒤 벡터로 바꾸는 방법
- 원-핫 인코딩
- 워드 임베딩

# 원-핫 인코딩(One-hot encoding)이란?

원-핫 인코딩: 단어 집합의 크기를 벡터의 차원으로 하고 표현하고 싶은 단어의 인덱스에 1의 값을 부여하는 단어의 벡터 표현 방식

In [1]:
# 토큰화
from konlpy.tag import Okt  
okt = Okt()  
token = okt.morphs("나는 자연어 처리를 배운다")  
print(token)

['나', '는', '자연어', '처리', '를', '배운다']


In [2]:
# 정수 인코딩
word2index = {}
for voca in token:
     if voca not in word2index.keys():
       word2index[voca] = len(word2index)
print(word2index)
{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}  

{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}


{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}

In [3]:
def one_hot_encoding(word, word2index):
       one_hot_vector = [0]*(len(word2index))
       index = word2index[word]
       one_hot_vector[index] = 1
       return one_hot_vector

In [4]:
one_hot_encoding("자연어",word2index)

[0, 0, 1, 0, 0, 0]

# 원-핫 인코딩(One-hot encoding)의 한계

- 저장 공간 측면에서 비효율적(단어 집합의 크기가 벡터의 차원 수이므로 단어의 개수가 늘어날 수록 벡터의 차원이 계속 늘어난다)
- 단어의 유사도를 표현하지 못한다(특히 검색 시스템에서 심각한 문제)

In [1]:
# 단어의 유사도 반영할 수 없다
import torch

dog = torch.FloatTensor([1, 0, 0, 0, 0])
cat = torch.FloatTensor([0, 1, 0, 0, 0])
computer = torch.FloatTensor([0, 0, 1, 0, 0])
netbook = torch.FloatTensor([0, 0, 0, 1, 0])
book = torch.FloatTensor([0, 0, 0, 0, 1])

print(torch.cosine_similarity(dog, cat, dim=0))
print(torch.cosine_similarity(cat, computer, dim=0))
print(torch.cosine_similarity(computer, netbook, dim=0))
print(torch.cosine_similarity(netbook, book, dim=0))

tensor(0.)
tensor(0.)
tensor(0.)
tensor(0.)
