In [1]:
from tensorflow import keras
from tensorflow.keras.preprocessing.text import Tokenizer

keras.__version__

'2.2.4-tf'

In [2]:
samples = ['The cat sat on the mat.', 'The dog ate my homework.']

# 가장 빈도가 높은 1,000개의 단어만 선택하도록 Tokenizer 객체를 만듭니다.
tokenizer = Tokenizer(num_words=1000)

# 단어 인덱스를 구축합니다.
tokenizer.fit_on_texts(samples)

# 계산된 단어 인덱스를 구합니다.
tokenizer.word_index

{'the': 1,
 'cat': 2,
 'sat': 3,
 'on': 4,
 'mat': 5,
 'dog': 6,
 'ate': 7,
 'my': 8,
 'homework': 9}

In [3]:
# 문자열을 정수 인덱스의 리스트로 변환합니다.
sequences = tokenizer.texts_to_sequences(samples)
sequences

[[1, 2, 3, 4, 1, 5], [1, 6, 7, 8, 9]]

In [4]:
# 다른 문자열 리스트에 적용해보기
test_sequences = tokenizer.texts_to_sequences(['My name is sam', 'My Cat ate my apple'])
sequences

[[1, 2, 3, 4, 1, 5], [1, 6, 7, 8, 9]]

In [5]:
# 직접 원-핫 이진 벡터 표현을 얻을 수 있습니다.
# 원-핫 인코딩 외에 다른 벡터화 방법들도 제공합니다!
one_hot_results = tokenizer.texts_to_matrix(samples, mode='binary')
for idx, vec in enumerate(one_hot_results) :
    print(f'\n>>>>> vec {idx+1}')
    print(type(vec), vec.shape)
    print(vec[:15])


>>>>> vec 1
<class 'numpy.ndarray'> (1000,)
[0. 1. 1. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]

>>>>> vec 2
<class 'numpy.ndarray'> (1000,)
[0. 1. 0. 0. 0. 0. 1. 1. 1. 1. 0. 0. 0. 0. 0.]


In [6]:
# 한글 텍스트에 적용해보기
samples = ['나는 방에 들어간다', '그가 방에 책을 두었다']

tokenizer = Tokenizer(num_words=1000)
tokenizer.fit_on_texts(samples)
tokenizer.word_index

{'방에': 1, '나는': 2, '들어간다': 3, '그가': 4, '책을': 5, '두었다': 6}