# One-Hot Encoding(원-핫 인코딩)
단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식
이렇게 표현된 벡터를 원-핫 벡터라고 함

In [1]:
'''
1. 정수 인코딩 후
2. 표현하고 싶은 단어의 인덱스 위치에 1을 부여, 다른 단어의 인덱스 위치에 0 부여
 ex) 1. {one: 1, hot:2, encode:3}
     2. one = [1, 0, 0]
        hot = [0, 1, 0]??
'''

'\n1. 정수 인코딩 후\n2. 표현하고 싶은 단어의 인덱스 위치에 1을 부여, 다른 단어의 인덱스 위치에 0 부여\n ex) 1. {one: 1, hot:2, encode:3}\n     2. one = [1, 0, 0]\n        hot = [0, 1, 0]??\n'

In [2]:
from konlpy.tag import Okt
okt = Okt()
token = okt.morphs('나는 자연어 처리를 배운다')
print(token)

['나', '는', '자연어', '처리', '를', '배운다']


In [4]:
#각 토큰에 인덱스 부여
#단어가 짧아서 단어의 빈도수는 고려 안하기로 하고 간단하게 인코딩함
word2index = {}
for voca in token:
    if voca not in word2index.keys():
        word2index[voca] = len(word2index)
print(word2index)

{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}


In [6]:
def one_hot_encoding(word, word2index):
    one_hot_vector = [0]*(len(word2index))
    index = word2index[word]
    one_hot_vector[index]=1
    return one_hot_vector

In [8]:
one_hot_encoding('처리', word2index)

[0, 0, 0, 1, 0, 0]

Keras를 이용한 원-핫 인코딩

In [9]:
#keras에 to_categorical()

In [10]:
text = '나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야'

In [11]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

t = Tokenizer()
t.fit_on_texts([text]) 
print(t.word_index) #text에 인코딩 매핑

{'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


In [17]:
#sub_text 만들어서 확인
sub_text = '점심 먹으러 갈래 메뉴는 햄버거 최고야'
encoded = t.texts_to_sequences([sub_text])[0]
encoded

[2, 5, 1, 6, 3, 7]

In [18]:
one_hot = to_categorical(encoded)
print(one_hot)

[[0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]
