## tf.keras.preprocessing.text.text_to_word_sequence

* input_text

    : Input text (string).
* filters

    : list (or concatenation) of characters to filter out, such as punctuation. Default: '!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\\t\\n', includes basic punctuation, tabs, and newlines.
* lower

    : boolean. Whether to convert the input to lowercase.
* split

    : str. Separator for word splitting.

tf.keras.preprocessing.text.text_to_word_sequence(
    input_text,
    filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n',
    lower=True,
    split=' '
)

In [2]:
import numpy as np
import tensorflow as tf
from numpy import array
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten, Embedding

In [3]:
# 주어진 문장을 '단어'로 토큰화 하기
# keras의 텍스트 전처리와 관련한 함수 중 text_to_word_sequence 함수를 불러오기
from tensorflow.keras.preprocessing.text import text_to_word_sequence

# 전처리할 텍스트 정하기
text = '해보지 않으면 해낼 수 없다'

# 해당 텍스트를 토큰화
result = text_to_word_sequence(text)
print('\n원문 : \n', text)
print('\n토큰화 : \n', result)


원문 : 
 해보지 않으면 해낼 수 없다

토큰화 : 
 ['해보지', '않으면', '해낼', '수', '없다']


## tf.keras.preprocessing.text.Tokenizer

* num_words (None)
    
    : the maximum number of words to keep, based on word frequency. Only the most common num_words-1 words will be kept.
* filters
    
    : a string where each element is a character that will be filtered from the texts. The default is all punctuation, plus tabs and line breaks, minus the ' character.
* lower (True)
    
    : boolean. Whether to convert the texts to lowercase.
* split (' ')

    : str. Separator for word splitting.
* char_level (False)

    : if True, every character will be treated as a token.
* oov_token (None)

    : if given, it will be added to word_index and used to replace out-of-vocabulary words during text_to_sequence calls
* analyzer (None)

    : function. Custom analyzer to split the text. The default analyzer is text_to_word_sequence

In [4]:
# 단어 빈도수 세기
# 전처리 하려는 세개의 문장을 정한다
docs = ['먼저 텍스트의 각 단어를 나누어 토큰화 합니다.',
        '텍스트의 단어로 토큰화 해야 딥러닝에서 인식됩니다.',
        '토큰화 한 결과는 딥러닝에서 사용 할 수 있습니다.']

In [5]:
# 토큰화 함수를 이용해 전처리 하는 과정
token = Tokenizer()         # 토큰화 함수 지정
token.fit_on_texts(docs)    # 토큰화 함수에 문장 적용

# 단어의 빈도수를 계산한 결과를 각 옵션에 맞추어 출력
print('\n단어 카운트 : \n', token.word_counts)
# Tokenizer()의 word_counts 함수는 순서를 기억하는 OrderedDict 클래스를 사용

# 출력되는 순서는 랜덤
print('\n문장 카운트 : ', token.document_count)
print('\n각 단어가 몇개의 문장에 포함되어 있는가 : \n', token.word_docs)
print('\n각 단어에 매겨진 인덱스 값 : \n', token.word_index)


단어 카운트 : 
 OrderedDict([('먼저', 1), ('텍스트의', 2), ('각', 1), ('단어를', 1), ('나누어', 1), ('토큰화', 3), ('합니다', 1), ('단어로', 1), ('해야', 1), ('딥러닝에서', 2), ('인식됩니다', 1), ('한', 1), ('결과는', 1), ('사용', 1), ('할', 1), ('수', 1), ('있습니다', 1)])

문장 카운트 :  3

각 단어가 몇개의 문장에 포함되어 있는가 : 
 defaultdict(<class 'int'>, {'토큰화': 3, '나누어': 1, '텍스트의': 2, '단어를': 1, '합니다': 1, '먼저': 1, '각': 1, '단어로': 1, '딥러닝에서': 2, '해야': 1, '인식됩니다': 1, '있습니다': 1, '사용': 1, '결과는': 1, '수': 1, '한': 1, '할': 1})

각 단어에 매겨진 인덱스 값 : 
 {'토큰화': 1, '텍스트의': 2, '딥러닝에서': 3, '먼저': 4, '각': 5, '단어를': 6, '나누어': 7, '합니다': 8, '단어로': 9, '해야': 10, '인식됩니다': 11, '한': 12, '결과는': 13, '사용': 14, '할': 15, '수': 16, '있습니다': 17}


In [10]:
# 문장의 원-핫 인코딩
from tensorflow.keras.preprocessing.text import Tokenizer

text = '오랫동안 꿈꾸는 자는 그 꿈을 닮아간다'

token = Tokenizer()
token.fit_on_texts([text])
print('문장의 토큰화 : ', token.word_index)

# 각 단어의 숫자화
x = token.texts_to_sequences([text])
print('문장의 숫자화 : ', x)

# 원-핫 인코딩 방식으로 표현하면
from keras.utils import to_categorical

word_size = len(token.word_index) + 1
x = to_categorical(x, num_classes=word_size)
print('문장의 원-핫 인코딩 : \n', x)

문장의 토큰화 :  {'오랫동안': 1, '꿈꾸는': 2, '자는': 3, '그': 4, '꿈을': 5, '닮아간다': 6}
문장의 숫자화 :  [[1, 2, 3, 4, 5, 6]]
문장의 원-핫 인코딩 : 
 [[[0. 1. 0. 0. 0. 0. 0.]
  [0. 0. 1. 0. 0. 0. 0.]
  [0. 0. 0. 1. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0. 0.]
  [0. 0. 0. 0. 0. 1. 0.]
  [0. 0. 0. 0. 0. 0. 1.]]]


## tf.keras.layers.Embedding

* input_dim
    
    : Integer. Size of the vocabulary, i.e. maximum integer index + 1.
* output_dim

    : Integer. Dimension of the dense embedding.
* embeddings_initializer ('uniform')

    : Initializer for the embeddings matrix (see keras.initializers).
* embeddings_regularizer (None)

    : Regularizer function applied to the embeddings matrix (see keras.regularizers).
* embeddings_constraint (None)

    : Constraint function applied to the embeddings matrix (see keras.constraints).
* mask_zero (False)

    : Boolean, whether or not the input value 0 is a special "padding" value that should be masked out. This is useful when using recurrent layers which may take variable length input. If this is True, then all subsequent layers in the model need to support masking or an exception will be raised. If mask_zero is set to True, as a consequence, index 0 cannot be used in the vocabulary (input_dim should equal size of vocabulary + 1).
* input_length (None)

    : Length of input sequences, when it is constant. This argument is required if you are going to connect Flatten then Dense layers upstream (without it, the shape of the dense outputs cannot be computed).
* sparse (False)

    : If True, calling this layer returns a tf.SparseTensor. If False, the layer returns a dense tf.Tensor. For an entry with no features in a sparse tensor (entry with value 0), the embedding vector of index 0 is returned by default.


In [15]:
# 텍스트 리뷰 10개 샘플을 지정
docs = ['너무 재밌네요', '최고예요', '참 잘 만든 영화예요', '추천하고 싶은 영화입니다',
        '한번 더 보고싶네요', '글쎄요', '별로예요', '생각보다 지루하네요',
        '연기가 어색해요', '재미없어요']

# 긍정 리뷰는 1, 부정 리뷰는 0으로 클래스를 지정
classes = array([1, 1, 1, 1, 1, 0, 0, 0, 0, 0])

# 토큰화
token = Tokenizer()
token.fit_on_texts(docs)
print(token.word_index)
x = token.texts_to_sequences(docs)
print('\n리뷰 텍스트, 토큰화 결과 : \n', x)

# 패딩, 서로 다른 길이의 데이터를 4로 맞추어 준다
padded_x = pad_sequences(x, 4)
print('\n패딩 결과 : \n', padded_x)

# 딥러닝 모델
print('\n딥러닝 모델 시작 : ')

# 임베딩에 입력될 단어의 수를 지정
word_size = len(token.word_index) + 1

# 단어 임베딩을 포함하여 딥러닝 모델을 만들고 결과를 출력
model = Sequential()
model.add(Embedding(word_size, 8, input_length = 4))
model.add(Flatten())
# model.add(Dense(16, activation='relu')) # 딥러닝 해보려고 추가
model.add(Dense(1, activation='sigmoid'))
model.compile(optimizer='adam',
              loss='binary_crossentropy',
              metrics=['accuracy'])
model.fit(padded_x, classes, epochs=20)
print('\n Accuracy : %.4f' % (model.evaluate(padded_x, classes)[1]))

{'너무': 1, '재밌네요': 2, '최고예요': 3, '참': 4, '잘': 5, '만든': 6, '영화예요': 7, '추천하고': 8, '싶은': 9, '영화입니다': 10, '한번': 11, '더': 12, '보고싶네요': 13, '글쎄요': 14, '별로예요': 15, '생각보다': 16, '지루하네요': 17, '연기가': 18, '어색해요': 19, '재미없어요': 20}

리뷰 텍스트, 토큰화 결과 : 
 [[1, 2], [3], [4, 5, 6, 7], [8, 9, 10], [11, 12, 13], [14], [15], [16, 17], [18, 19], [20]]

패딩 결과 : 
 [[ 0  0  1  2]
 [ 0  0  0  3]
 [ 4  5  6  7]
 [ 0  8  9 10]
 [ 0 11 12 13]
 [ 0  0  0 14]
 [ 0  0  0 15]
 [ 0  0 16 17]
 [ 0  0 18 19]
 [ 0  0  0 20]]

딥러닝 모델 시작 : 
Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20

 Accuracy : 0.9000
