## 자연어 처리(NLP)
    - Natural Language Processing
    - 음성이나 텍스트를 컴퓨터가 인식하고 처리하는 것(숫자로 바꾸기!)
    - 토큰(token) : 텍스트를 단어,문장,형태소별로 나눌 수 있는데 이렇게 나눠진 단위
    - 토큰화(tokenization) : 입력된 텍스트를 잘게 나누는 과정
    - keras-> text_to_word_sequence()
    - Bag-of-Words : 단어의 빈도 확인

- 순서
    - 크롤링
    - 레이블링
    - 토큰화
    - 레이블링
    - 패딩
    - 임배딩

### tf.keras.preprocessing.text.text_to_word_sequence
    - (
        input_text,
        filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n',
        lower=True,
        split=' '

    )

In [71]:
import numpy 
import tensorflow as tf
from numpy import array
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense,Flatten,Embedding

# 주어진 문장을 '단어'로 토큰화 하기
# 케라스의 텍스트 전처리와 관련한 함수중 text_to_word_sequence 함수를 불러 옵니다.
from tensorflow.keras.preprocessing.text import text_to_word_sequence

# 전처리할 텍스트를 정합니다.
text= '해보지 않으면 해낼 수 없다 !' 

result =text_to_word_sequence(text)
print('\n 원본\n', text)
print('\n 토큰화\n', result)


 원본
 해보지 않으면 해낼 수 없다 !

 토큰화
 ['해보지', '않으면', '해낼', '수', '없다']


### tf.keras.preprocessing.text.Tokenizer
    - tf.keras.preprocessing.text.Tokenizer(
        num_words=None,
        filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n',
        lower=True,
        split=' ',
        char_level=False,
        oov_token=None,
        analyzer=None,
        **kwargs
    )

In [72]:
docs=['먼저 텍스트의 각 단어를 나누어 토큰화 합니다.',
      '텍스트의 단어로 토큰화 해야 딥러닝에서 인식됩니다.',
      '토큰화 한 결과는 딥러닝에서 사용 할 수 있습니다.']

In [73]:
token =Tokenizer()
token.fit_on_texts(docs)

print('\n 단어 카운트:\n', token.word_counts)

print('\n 문장 카운트:\n', token.document_count)
print('\n 각 단어가 몇개의 문장에 포함되어 있는가:\n', token.word_docs)
print('\n 각 단어에 매겨진 인덱스 값:\n', token.word_index)


 단어 카운트:
 OrderedDict([('먼저', 1), ('텍스트의', 2), ('각', 1), ('단어를', 1), ('나누어', 1), ('토큰화', 3), ('합니다', 1), ('단어로', 1), ('해야', 1), ('딥러닝에서', 2), ('인식됩니다', 1), ('한', 1), ('결과는', 1), ('사용', 1), ('할', 1), ('수', 1), ('있습니다', 1)])

 문장 카운트:
 3

 각 단어가 몇개의 문장에 포함되어 있는가:
 defaultdict(<class 'int'>, {'각': 1, '먼저': 1, '텍스트의': 2, '나누어': 1, '단어를': 1, '토큰화': 3, '합니다': 1, '딥러닝에서': 2, '단어로': 1, '인식됩니다': 1, '해야': 1, '결과는': 1, '할': 1, '한': 1, '사용': 1, '수': 1, '있습니다': 1})

 각 단어에 매겨진 인덱스 값:
 {'토큰화': 1, '텍스트의': 2, '딥러닝에서': 3, '먼저': 4, '각': 5, '단어를': 6, '나누어': 7, '합니다': 8, '단어로': 9, '해야': 10, '인식됩니다': 11, '한': 12, '결과는': 13, '사용': 14, '할': 15, '수': 16, '있습니다': 17}


In [74]:
from tensorflow.keras.preprocessing.text import Tokenizer
text = '오랜동안 꿈꾸는 자는 그 꿈을 닮아간다'
token = Tokenizer()
token.fit_on_texts([text])
print('문장의 토근화:',token.word_index)
x = token.texts_to_sequences([text])
print('문장 숫자화:',x)
from keras.utils import to_categorical

word_size = len(token.word_index) +1
x = to_categorical(x,num_classes=word_size)
print('문장의 원핫 인코딩:\n',x)

문장의 토근화: {'오랜동안': 1, '꿈꾸는': 2, '자는': 3, '그': 4, '꿈을': 5, '닮아간다': 6}
문장 숫자화: [[1, 2, 3, 4, 5, 6]]
문장의 원핫 인코딩:
 [[[0. 1. 0. 0. 0. 0. 0.]
  [0. 0. 1. 0. 0. 0. 0.]
  [0. 0. 0. 1. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0. 0.]
  [0. 0. 0. 0. 0. 1. 0.]
  [0. 0. 0. 0. 0. 0. 1.]]]


### tf.keras.layers.Embedding
    - tf.keras.layers.Embedding(
        input_dim, : 몇번째까지 단어를 임배딩할건가
        output_dim, : 몇차원으로 단어를 임배딩할건가
        embeddings_initializer='uniform',
        embeddings_regularizer=None,
        activity_regularizer=None,
        embeddings_constraint=None,
        mask_zero=False,
        input_length=None,: 매번 몇개를 넣을 것인가
        sparse=False,
        **kwargs
    )

### tf.keras.utils.pad_sequences
    - tf.keras.utils.pad_sequences(
        sequences,
        maxlen=None,
        dtype='int32',
        padding='pre',
        truncating='pre',
        value=0.0
    )

In [75]:
# 텍스트 리뷰 자료 지정
docs = ["너무 재밌네요", "최고예요", "참 잘 만든 영화예요", "추천하고 싶은 영화입니다.", "한 번 더 보고싶네요", "글쎼요", "별로예요", "생각보다 지루하네요", "연기가 어색해요", "재미없어요"]

# 긍정 리뷰는 1, 부정 리뷰는 0으로 클래스 지정
classes = array([1,1,1,1,1,0,0,0,0,0])

In [76]:
# 토큰화
token = Tokenizer()
token.fit_on_texts(docs)
print(token.word_index)

{'너무': 1, '재밌네요': 2, '최고예요': 3, '참': 4, '잘': 5, '만든': 6, '영화예요': 7, '추천하고': 8, '싶은': 9, '영화입니다': 10, '한': 11, '번': 12, '더': 13, '보고싶네요': 14, '글쎼요': 15, '별로예요': 16, '생각보다': 17, '지루하네요': 18, '연기가': 19, '어색해요': 20, '재미없어요': 21}


In [77]:
x= token.texts_to_sequences(docs)
print(x)

[[1, 2], [3], [4, 5, 6, 7], [8, 9, 10], [11, 12, 13, 14], [15], [16], [17, 18], [19, 20], [21]]


In [78]:
# 패딩 서로 다른 길이의 데이터를 4로 맞추어 춥니다.
padded_x = pad_sequences(x,4)
print('\n패딩 결과:\n', padded_x)


패딩 결과:
 [[ 0  0  1  2]
 [ 0  0  0  3]
 [ 4  5  6  7]
 [ 0  8  9 10]
 [11 12 13 14]
 [ 0  0  0 15]
 [ 0  0  0 16]
 [ 0  0 17 18]
 [ 0  0 19 20]
 [ 0  0  0 21]]


In [79]:
word_size =len(token.word_index)+1

In [80]:
Embedding(word_size, 8, input_length=4)

<keras.layers.core.embedding.Embedding at 0x215c4531690>

In [81]:
model=Sequential()
model.add(Embedding(word_size,8,input_length=4))
model.add(Flatten())
model.add(Dense(16, activation='relu'))
model.add(Dense(1,activation='sigmoid'))
model.compile(optimizer='adam',
              loss='binary_crossentropy',
              metrics=['accuracy'])
model.fit(padded_x,classes,epochs=20)
print('\n Accuracy: %.4f' %(model.evaluate(padded_x,classes)[1]))

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20

 Accuracy: 0.9000
