# Kears를 이용한 전처리
## 텍스트 토근화

In [8]:
import numpy as np

import tensorflow as tf
from tensorflow import keras  
from tensorflow.keras.models import Sequential
from tensorflow.keras.preprocessing import sequence
from tensorflow.keras.preprocessing.text import text_to_word_sequence
from tensorflow.keras.preprocessing.text import Tokenizer
from keras.utils import to_categorical

In [45]:
text="텍스트의 단어로 토큰화해야 텍스트의 토큰화한 결과는 딥러닝에서 사용할 수 있습니다."
text_to_word_sequence(text)

['텍스트의', '단어로', '토큰화해야', '텍스트의', '토큰화한', '결과는', '딥러닝에서', '사용할', '수', '있습니다']

In [12]:
token=Tokenizer()
token.fit_on_texts([text])
token.word_counts       #  단어의 빈도수를 계산

OrderedDict([('텍스트의', 2),
             ('단어로', 1),
             ('토큰화해야', 1),
             ('토큰화한', 1),
             ('결과는', 1),
             ('딥러닝에서', 1),
             ('사용할', 1),
             ('수', 1),
             ('있습니다', 1)])

In [14]:
token.word_index    # 빈도수를 기반으로 index 값 부여

{'텍스트의': 1,
 '단어로': 2,
 '토큰화해야': 3,
 '토큰화한': 4,
 '결과는': 5,
 '딥러닝에서': 6,
 '사용할': 7,
 '수': 8,
 '있습니다': 9}

## 정수 인코딩
- 빈도수 기반으로 정수 인코딩 위 내용 참조

In [17]:
seq=token.texts_to_sequences([text])
seq

[[1, 2, 3, 1, 4, 5, 6, 7, 8, 9]]

## 원핫 인코딩

In [20]:
one_hot_encode=to_categorical(seq)
one_hot_encode

array([[[0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
        [0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 1.]]])

## 단어 임베딩
- word embedding

In [23]:
# 텍스트 리뷰 자료를 지정합니다.
docs=['너무 재밌네요',
      '최고예요',
      '참 잘 만든 영화예요',
      '추천하고 싶은 영화입니다.',
      '한 번 더 보고싶네요',
      '글쎄요',
      '별로예요',
      '생각보다 지루하네요',
      '연기가 어색해요',
      '재미없어요']

# 긍정 리뷰는 1, 부정 리뷰는 0으로 클래스를 지정합니다.
labels=np.array([1,1,1,1,1,0,0,0,0,0])

In [25]:
# 토큰화
token=Tokenizer()
token.fit_on_texts(docs)
print(token.word_index)     # 빈도수를 기반으로 index 값 부여

{'너무': 1, '재밌네요': 2, '최고예요': 3, '참': 4, '잘': 5, '만든': 6, '영화예요': 7, '추천하고': 8, '싶은': 9, '영화입니다': 10, '한': 11, '번': 12, '더': 13, '보고싶네요': 14, '글쎄요': 15, '별로예요': 16, '생각보다': 17, '지루하네요': 18, '연기가': 19, '어색해요': 20, '재미없어요': 21}


In [27]:
# 정수 인덱싱
seq=token.texts_to_sequences(docs)
print(seq)

[[1, 2], [3], [4, 5, 6, 7], [8, 9, 10], [11, 12, 13, 14], [15], [16], [17, 18], [19, 20], [21]]


## 샘플의 패딩
- sequences=패딩이 수행되는 시퀀스 데이터
- maxlen=샘플의 최대 길이
- padding=‘pre’이면 앞에 0을 채우고 ‘post’이면 뒤에 0을 채운다.

In [30]:
pad_docs=sequence.pad_sequences(seq, maxlen=4)     # padding='post'
pad_docs

array([[ 0,  0,  1,  2],
       [ 0,  0,  0,  3],
       [ 4,  5,  6,  7],
       [ 0,  8,  9, 10],
       [11, 12, 13, 14],
       [ 0,  0,  0, 15],
       [ 0,  0,  0, 16],
       [ 0,  0, 17, 18],
       [ 0,  0, 19, 20],
       [ 0,  0,  0, 21]])

In [32]:
# 임베딩에 입력될 단어의 수를 지정
word_size=len(token.word_index) + 1
word_size

22

In [242]:
model=Sequential()
model.add(keras.layers.Input(shape=(4, )))  # 입력 : 시퀀스의 길이 

model.add(keras.layers.Embedding(input_dim=word_size, output_dim=8))     # 전체단어크기, 임베딩벡터시퀀스
model.add(keras.layers.Flatten())
model.add(keras.layers.Dense(1, activation='sigmoid'))
model.summary()

In [238]:
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
model.fit(pad_docs, labels, epochs=10)

Epoch 1/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 1s/step - accuracy: 0.9000 - loss: 0.6583
Epoch 2/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 95ms/step - accuracy: 0.9000 - loss: 0.6565
Epoch 3/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 87ms/step - accuracy: 0.9000 - loss: 0.6546
Epoch 4/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 99ms/step - accuracy: 0.9000 - loss: 0.6527
Epoch 5/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 105ms/step - accuracy: 0.9000 - loss: 0.6508
Epoch 6/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 90ms/step - accuracy: 0.9000 - loss: 0.6489
Epoch 7/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 91ms/step - accuracy: 0.9000 - loss: 0.6470
Epoch 8/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 103ms/step - accuracy: 0.9000 - loss: 0.6451
Epoch 9/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [

<keras.src.callbacks.history.History at 0x1ab40adfd10>

In [240]:
loss, accuracy=model.evaluate(pad_docs, labels)

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 322ms/step - accuracy: 0.9000 - loss: 0.6393
