### One-Hot Encoding
- 단어 집합(사전) 크기를 벡터의 차원으로 하고, 단어를 숫자 형태로 바꾸는 여러 기법 중 하나.
    - 1. 단어의 집합 또는 사전에 있는 단어들에 고유한 숫자를 부여하여 바꾸는 방식.(정수 인코딩)
    - 2. 표현하고 싶은 단어 인덱스 위치에 1을 부여하고 다른 단어의 인덱스 위치에는 0을 부여하는 방식.

#### One-Hot Encoding 한계
- 단어의 개수가 증가할 수록, 벡터를 저장하기 위한 공간도 증가.(벡터의 차원이 증가) -> 저장 공간 측면 차원에서 비효율적.
- 단어의 유사도를 표현하지 못한다는 점.
- 한계점을 해결하기 위한 방안.
    - 1. 카운트 기반의 벡터화 방법. ex) LSA, HAL 등
    - 2. 예측 기반의 벡터화 방법. ex) NNLM, RNNLM, Word2Vec, FastText 등

In [1]:
from konlpy.tag import Okt
from tensorflow.keras.utils import to_categorical
from tensorflow.keras.preprocessing.text import Tokenizer

In [2]:
okt = Okt()
token = okt.morphs('나는 자연어 처리를 배운다')
# print(token)

# 단어에 고유한 인덱스를 부여하기 위한 딕셔너리 생성.
word_to_index = {}
for i in token :
    if i not in word_to_index.keys() :
        word_to_index[i] = len(word_to_index)

print(word_to_index)

{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}


In [3]:
# One-Hot Vector function.
def One_Hot_Encoding(word, word_to_index) :
    OneHotVector = [0] * (len(word_to_index))
    index = word_to_index[word]
    OneHotVector[index] = 1
    return OneHotVector

One_Hot_Encoding('자연어', word_to_index)

[0, 0, 1, 0, 0, 0]

In [4]:
# keras -> one-hot encoding.
text2 = '나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야'
token2 = Tokenizer()
token2.fit_on_texts([text2])

# 각 단어에 대한 인코딩 결과 출력.
print(token2.word_index)

# text2에 있는 단어들로만 구성되어 있는 text3를 구성.
text3 = '점심 먹으러 갈래 메뉴는 햄버거 최고야'
encoded = token2.texts_to_sequences([text3])[0]
print(encoded)
print()

# 정수 인코딩된 결과를 토대로 0ne-Hot Encoding.
OneHot = to_categorical(encoded)
print(OneHot)

{'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}
[2, 5, 1, 6, 3, 7]

[[0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]
