In [1]:
from konlpy.tag import Okt

In [2]:
okt = Okt()
corpus = "나는 자연어 처리를 배운다"
tokens = okt.morphs(corpus)

tokens



['나', '는', '자연어', '처리', '를', '배운다']

In [5]:
word_to_idx = {word: idx for idx, word in enumerate(tokens)}

word_to_idx # 단어 집합

{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}

In [8]:
def one_hot_encoding(word, word_to_index):
    one_hot_vector = [0] * len(word_to_idx)
    idx = word_to_idx[word]
    one_hot_vector[idx] = 1
    return one_hot_vector

one_hot_encoding("자연어", word_to_idx)

[0, 0, 1, 0, 0, 0]

In [14]:
# Keras을 사용한 OHE
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

text = "나랑 점심 먹으러 갈래? 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야!"

tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])

tokenizer.word_index # 단어 집합

{'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}

In [18]:
sub_text = "점심 먹으러 갈래? 메뉴는 햄버거 최고야!"
encoded = sum(tokenizer.texts_to_sequences([sub_text]), [])

encoded

[2, 5, 1, 6, 3, 7]

In [19]:
one_hot = to_categorical(encoded)

one_hot

array([[0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1.]], dtype=float32)

하지만 이와 같은 방법은 데이터의 크기가 커질 수록 차원의 수가 증가하여 비효율적인 면이 있음. 이에 대한 대안으로 다음과 같은 방법들이 있음.
1. 카운트 기반의 벡터화 방법
    - LSA
    - HAL
2. 예측 기반의 벡터화 방법
    - NNLM
    - RNNLM
    - Word2Vec
    - FastText
3. 위의 두 가지를 모두 사용하는 방법
    - GloVe