### 케라스를 사용한 단어 수준의 원-핫 인코딩

In [12]:
from keras.preprocessing.text import Tokenizer

samples = ['The cat sat on the mat.', 'The dog ate my homework.']

# 가장 빈도가 높은 1,000개의 단어만 선택하도록 Tokenizer 객체를 만듭니다.
tokenizer = Tokenizer(num_words=1000)
# 단어 인덱스를 구축합니다.
tokenizer.fit_on_texts(samples)

In [13]:
# 계산된 단어 인덱스를 구합니다.
word_index = tokenizer.word_index
print('Found %s unique tokens.' % len(word_index))

Found 9 unique tokens.


In [14]:
print(type(word_index))
word_index.keys()

<class 'dict'>


dict_keys(['the', 'cat', 'sat', 'on', 'mat', 'dog', 'ate', 'my', 'homework'])

In [15]:
word_index.items()

dict_items([('the', 1), ('cat', 2), ('sat', 3), ('on', 4), ('mat', 5), ('dog', 6), ('ate', 7), ('my', 8), ('homework', 9)])

In [16]:
# 문자열을 정수 인덱스의 리스트로 변환합니다.
sequences = tokenizer.texts_to_sequences(samples)

sequences

[[1, 2, 3, 4, 1, 5], [1, 6, 7, 8, 9]]

In [17]:
tokenizer.sequences_to_texts(sequences)

['the cat sat on the mat', 'the dog ate my homework']

In [18]:
# 직접 원-핫 이진 벡터 표현을 얻을 수 있습니다.
# 원-핫 인코딩 외에 다른 벡터화 방법들도 제공합니다!
one_hot_results = tokenizer.texts_to_matrix(samples, mode='binary')

In [19]:
print(one_hot_results.shape)

one_hot_results

(2, 1000)


array([[0., 1., 1., ..., 0., 0., 0.],
       [0., 1., 0., ..., 0., 0., 0.]])