## 원-핫 인코딩(One-hot encoding)

문자를 숫자로 변환하는 방법 중 하나, 가장 기본적인 표현 방법

단어 집합(vocabulary)은 서로 다른 단어들의 집합, 원-핫 인코딩 수행전 가장 먼저 만들어야 함

텍스트의 모든 단어를 중복을 허용하지 않고 모아놓으면 이를 단어 집합이라 함

단어 집합에 고유한 숫자를 부여하는 정수 인코딩을 진행

표현하고 싶은 단어의 인덱스의 위치에 1을 부여하고, 다른 단어의 인덱스의 위치에는 0을 부여하여 원-핫 벡터를 구할 수 있음

In [2]:
from konlpy.tag import Okt
okt = Okt()

In [3]:
token = okt.morphs("나는 자연어 처리를 배운다")
print(token)

['나', '는', '자연어', '처리', '를', '배운다']


In [4]:
word2index = {}
for voca in token:
     if voca not in word2index.keys():
       word2index[voca] = len(word2index)
print(word2index)

{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}


In [5]:
def one_hot_encoding(word, word2index):
    one_hot_vector = [0]*(len(word2index))
    index = word2index[word]
    one_hot_vector[index] = 1
    return one_hot_vector

In [6]:
one_hot_encoding("자연어", word2index)

[0, 0, 1, 0, 0, 0]

원-핫 인코딩은 단어의 개수가 늘어날 수록, 벡터를 저장하기 위해 필요한 공간, 죽 벡터의 차원이 계속 늘어난다는 단점이 존재

따라서 단어 집합의 크기가 곧 벡터의 차원 수

이 중에서 하나의 값만 1이고 나머진 0인 값을 가지므로 저장 공간 측면에서는 매우 비효율적인 표현 방법

원-핫 벡터는 단어의 유사도를 표현하지 못함, 이는 검색 시스템 등에서 심각한 문제

## 희소 표현(Sparse Representation)

희소 표현(Sparse Representation)은 벡터 또는 행렬(matrix)의 값이 대부분이 0으로 표현되는 방법을 뜻함

대표적으로 원-핫 벡터가 희소 표현임, 즉 원-핫 벡터는 희소 벡터(sparse vector)라 할 수 있음

희소 벡터의 문제점은 단어의 개수가 늘어나면 벡터의 차원이 한없이 커진다는 점, 즉 단어 집합이 클수록 고차원의 벡터

이러한 벡터 표현은 공간적 낭비와 단어 벡터 간 유사도를 표현할 수 없다는 단점이 있음

단어 간 의미적 유사도를 반영할 수 없다는 것은 자연어 처리에서 치명적

## 밀집 표현(Dense Representation)

밀집 표현(dense representation)은 희소 표현과 반대되는 표현

밀집 표현은 벡터의 차원을 단어 집합의 크기로 상정하지 않음

사용자가 설정한 값으로 모든 단어의 벡터 표현의 차원을 맞춤, 해당 과정에서 값이 0,1 이 아닌 실수값을 가지게 됨

사용자가 밀집 표현의 차원을 128로 설정한다면, 모든 단어의 벡터 표현의 차원은 128로 바뀌면서 모든 값이 실수가 됨

예를 들어 like라는 단어를 예로 들면

희소 표현 [ 0 0 0 0 1 0 0 0 0 0 0 0 ... 0]

밀집 표현 [0.2 1.8 1.1 -2.1 1.1 2.8 ... ]

이러한 밀집 표현의 벡터를 밀집 벡터(dense vector)라 함

## 워드 임베딩(Word Embedding)

단어를 밀집 벡터(dense vector)의 형태로 표현하는 방법을 워드 임베딩(word embedding)

워드 임베딩 과정을 통해 나온 결과 밀집 벡터를 임베딩 벡터(embedding vector)라 함

워드 임베딩 방법론으로는 LSA, Word2Vec, FastText, Glove 등이 있음

. | 원-핫 벡터 | 임베딩 벡터
---|---|---
차원 | 고차원 | 저차원
다른 표현 | 희소 벡터의 일종 | 밀집 벡터의 일종
표현 방법 | 수동 | 훈련 데이터로부터 학습
타입 | 0, 1 | 실수