# 1. 원-핫 인코딩(One-Hot Encoding)이란?
단어 집합의 크기를 벡터의 차원으로 해서 표현   
단어 집합(vocabulary): 단어의 변형 형태를 포함한 서로 다른 단어들의 집합    
1. 정수 인코딩: 각 단어에 고유 인덱스 부여
2. 이후 원-핫 인코딩: 표현할 단어 인덱스에는 1, 다른 인덱스에는 0 부여

In [1]:
from konlpy.tag import Okt
okt = Okt()
token = okt.morphs("나는 자연어 처리를 배운다")
print(token)

['나', '는', '자연어', '처리', '를', '배운다']


In [2]:
word2index = {}
for voca in token:
    if voca not in word2index.keys():
        word2index[voca] = len(word2index)
print(word2index)

{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}


In [3]:
def one_hot_encoding(word, word2index):
    one_hot_vector = [0] * (len(word2index))
    index = word2index[word]
    one_hot_vector[index] = 1
    return one_hot_vector

In [4]:
one_hot_encoding("자연어", word2index)

[0, 0, 1, 0, 0, 0]

# 2. 케라스(Keras)를 이용한 원-핫 인코딩(One-Hot Encoding)

In [5]:
text = "나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

In [6]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

t = Tokenizer()
t.fit_on_texts([text])
print(t.word_index)

{'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


In [7]:
sub_text = "점심 먹으러 갈래 메뉴는 햄버거 최고야"
encoded = t.texts_to_sequences([sub_text])[0]
print(encoded)

[2, 5, 1, 6, 3, 7]


In [8]:
# to_categorical()은 인코딩된 결과로부터 원-핫 인코딩 수행
one_hot = to_categorical(encoded)
print(one_hot)

[[0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]


# 3. 원-핫 인코딩(One-Hot Encoding)의 한계
단어 개수가 늘수록 벡터 저장을 위해 필요한 공간(벡터의 차원)이 계속 늘어남   
단어의 유사도를 표현하지 못하며, 이는 검색 시스템에서 문제 야기   

이를 해결하고자 단어의 잠재 의미를 반영해 다차원 공간에 벡터화 하는 기법
1. 카운트 기반 벡터화하는 LSA, HAL
2. 예측 기반 벡터화하는 NNLM, RNNLM, Word2Vec, FastText
3. 카운트와 예측 기반 모두를 사용하는 GloVe