# One-Hot Encoding
---

## basic

In [1]:
from konlpy.tag import Okt
okt = Okt()
tokens = okt.morphs('행복은 자기 자신이 만든다')
print(tokens)

['행복', '은', '자기', '자신', '이', '만든다']


In [2]:
word_to_index = {word : index for index, word in enumerate(tokens)}
print('단어 집합: ', word_to_index)

단어 집합:  {'행복': 0, '은': 1, '자기': 2, '자신': 3, '이': 4, '만든다': 5}


In [3]:
def one_hot_encoding(word, word_to_index):
    one_hot_vector = [0]*(len(word_to_index))   # 0으로 채운 벡터(placeholder)
    index = word_to_index[word]                 # 0으로 채운 벡터 자리에 새로운 숫자 지정할 위치 필터링
    one_hot_vector[index]=1                     # 필터링한 위치에 1 채우기
    return one_hot_vector

one_hot_encoding('행복', word_to_index)


[1, 0, 0, 0, 0, 0]

In [4]:
one_hot_encoding('만든다',word_to_index)

[0, 0, 0, 0, 0, 1]

## Keras one-hot encoding

In [2]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

text = '삶이 삶이 그대를 속일지라도 슬퍼하거나 노하지 말라'

tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])  # tokenizer에는 파라미터로 리스트가 들어가야 한다.
print('단어 집합: ', tokenizer.word_index)

단어 집합:  {'삶이': 1, '그대를': 2, '속일지라도': 3, '슬퍼하거나': 4, '노하지': 5, '말라': 6}


In [4]:
sub_text = '노하지 말라 삶이 그대를 속일지라도'
encoded = tokenizer.texts_to_sequences([sub_text])[0]
encoded

[5, 6, 1, 2, 3]

In [5]:
one_hot = to_categorical(encoded)
print(one_hot)

# one-hot encoding의 문제: 
# 1.데이터가 희소해서 공간 낭비를 가져옴
# 2.단어간의 유사성이 표현되지 않음
#
# 해결 -> 단어의 정제 의미를 파악해서 다차원 공간에 벡터화
# 1. 카운트 기반 벡터화: LSA(잠재 이미 분석),HAL
# 2. 예측 기반 벡터화: MNLM, RMNLM, wordZVec, FastText
# 3. 카운트 기반 + 예측 기반 벡터화: Glove

[[0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 0. 1.]
 [0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0.]]
