##### 토큰화 작업 수행하기

In [1]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

In [38]:
texts = ['You are the Best', 'You are the Nice']

In [39]:
tokenizer = Tokenizer(num_words=10, oov_token='<OOV>')  # num_words : maximum number of vocabulary
tokenizer.fit_on_texts(texts)

In [40]:
print(dir(tokenizer))

['__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_keras_api_names', '_keras_api_names_v1', 'analyzer', 'char_level', 'document_count', 'filters', 'fit_on_sequences', 'fit_on_texts', 'get_config', 'index_docs', 'index_word', 'lower', 'num_words', 'oov_token', 'sequences_to_matrix', 'sequences_to_texts', 'sequences_to_texts_generator', 'split', 'texts_to_matrix', 'texts_to_sequences', 'texts_to_sequences_generator', 'to_json', 'word_counts', 'word_docs', 'word_index']


In [42]:
tokenizer_json = tokenizer.to_json().replace('false', 'False')
tokenizer_json = tokenizer_json.replace('true', 'True')
print(tokenizer_json)

{"class_name": "Tokenizer", "config": {"num_words": 10, "filters": "!\"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n", "lower": True, "split": " ", "char_level": False, "oov_token": "<OOV>", "document_count": 2, "word_counts": "{\"you\": 2, \"are\": 2, \"the\": 2, \"best\": 1, \"nice\": 1}", "word_docs": "{\"are\": 2, \"best\": 1, \"the\": 2, \"you\": 2, \"nice\": 1}", "index_docs": "{\"3\": 2, \"5\": 1, \"4\": 2, \"2\": 2, \"6\": 1}", "index_word": "{\"1\": \"<OOV>\", \"2\": \"you\", \"3\": \"are\", \"4\": \"the\", \"5\": \"best\", \"6\": \"nice\"}", "word_index": "{\"<OOV>\": 1, \"you\": 2, \"are\": 3, \"the\": 4, \"best\": 5, \"nice\": 6}"}}


In [55]:
for key, value in eval(tokenizer_json).items():
    if key == "class_name":
        print(key + " : " + value)
        print()
    else:
        print(key)
        for val_key, val_value in value.items():
            print(str(val_key) + " : " + str(val_value))
    

class_name : Tokenizer

config
num_words : 10
filters : !"#$%&()*+,-./:;<=>?@[\]^_`{|}~	

lower : True
split :  
char_level : False
oov_token : <OOV>
document_count : 2
word_counts : {"you": 2, "are": 2, "the": 2, "best": 1, "nice": 1}
word_docs : {"are": 2, "best": 1, "the": 2, "you": 2, "nice": 1}
index_docs : {"3": 2, "5": 1, "4": 2, "2": 2, "6": 1}
index_word : {"1": "<OOV>", "2": "you", "3": "are", "4": "the", "5": "best", "6": "nice"}
word_index : {"<OOV>": 1, "you": 2, "are": 3, "the": 4, "best": 5, "nice": 6}


In [66]:
print(f"word counts : {tokenizer.word_counts}")
print(f"word docs   : {tokenizer.word_docs}")
print(f"index docs  : {tokenizer.index_docs}")
print(f"index word  : {tokenizer.index_word}")
print(f"word index  : {tokenizer.word_index}")

word counts : OrderedDict([('you', 2), ('are', 2), ('the', 2), ('best', 1), ('nice', 1)])
word docs   : defaultdict(<class 'int'>, {'are': 2, 'best': 1, 'the': 2, 'you': 2, 'nice': 1})
index docs  : defaultdict(<class 'int'>, {3: 2, 5: 1, 4: 2, 2: 2, 6: 1})
index word  : {1: '<OOV>', 2: 'you', 3: 'are', 4: 'the', 5: 'best', 6: 'nice'}
word index  : {'<OOV>': 1, 'you': 2, 'are': 3, 'the': 4, 'best': 5, 'nice': 6}


In [68]:
# vocabulary를 index로 변환하기 위해 texts_to_sequence()함수를 이용한다.
sequences = tokenizer.texts_to_sequences(texts)
print(texts)
print(sequences)

['You are the Best', 'You are the Nice']
[[2, 3, 4, 5], [2, 3, 4, 6]]


In [69]:
# binary형태로 인코딩한다.
binary_results = tokenizer.sequences_to_matrix(sequences, mode='binary')
print(binary_results)

[[0. 0. 1. 1. 1. 1. 0. 0. 0. 0.]
 [0. 0. 1. 1. 1. 0. 1. 0. 0. 0.]]


In [71]:
# one-hot encoding형태로 변환하면 그 결과로 sparse matrix를 반환한다.
# 존재하는 단어의 인덱스를 제외하고 전부 0으로 표현하고 고차원에 해당하고 단어간의 similarity를 표현할 수 없다.
# 학습에 부정적인 영향을 끼치는 고차원 행렬은 불필요한 계산이 추가되며 Curse of Dimensionality를 야기한다.
# 이에 반해  Dense Matrix는 각 단어의 관계를 실수로 표현하며 저차원 행렬이다. 행렬의 각 실수값들은 0과 1이 아니라
# 데이터를 기반으로 조정된다. 학습이 적절하게 진행된다면 유사한 의미를 갖는 단어들은 비슷한 공간에 위치하게 될 것이다.
one_hot_results = to_categorical(sequences)
print(one_hot_results)  # 원핫인코딩한 결과로 희소행렬(sparse matrix)를 반환한다.

[[[0. 0. 1. 0. 0. 0. 0.]
  [0. 0. 0. 1. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0. 0.]
  [0. 0. 0. 0. 0. 1. 0.]]

 [[0. 0. 1. 0. 0. 0. 0.]
  [0. 0. 0. 1. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0. 0.]
  [0. 0. 0. 0. 0. 0. 1.]]]


In [73]:
test_text = ['You are the One']
test_seq = tokenizer.texts_to_sequences(test_text)

# 기존문자에 존재하지 않은 단어임으로 One을 <OOV>로 처리하고 있다.
print(f"텍스트는 {test_text}일때 시퀀스는 {test_seq}이다.")  

텍스트는 ['You are the One']일때 시퀀스는 [[2, 3, 4, 1]]이다.
