### 자연어 처리에 필요한 초기 토큰 추가하기

In [160]:
from keras.preprocessing.text import text_to_word_sequence

### 토큰화 진행하는 라이브러리 사용

In [161]:
text = '나는 천천히 진행하는 중이다.'
result = text_to_word_sequence(text)
print(result)

['나는', '천천히', '진행하는', '중이다']


### 토큰화 진행 후 할 수 있는 과정
1. 단어가 몇번 쓰였는지
2. 단어가 몇번 사용되었는지 알면, text안에 키워드 파악 가능

### 토큰의 갯수를 파악한다.

In [162]:
text1 = '먼저 텍스트의 각 단어를 나누어 토큰화합니다.'
text2 = '텍스트의 단어를 토큰화해야 딥러닝에서 인식됩니다.'
text3 = '토큰화 한 결과는 딥러닝에서 사용할 수 있습니다.'

from keras.preprocessing.text import Tokenizer

docs = [
    text1, text2, text3
]

token = Tokenizer()
token.fit_on_texts(docs)
print(f"단어 카운트 \n: {token.word_counts}")

단어 카운트 
: OrderedDict([('먼저', 1), ('텍스트의', 2), ('각', 1), ('단어를', 2), ('나누어', 1), ('토큰화합니다', 1), ('토큰화해야', 1), ('딥러닝에서', 2), ('인식됩니다', 1), ('토큰화', 1), ('한', 1), ('결과는', 1), ('사용할', 1), ('수', 1), ('있습니다', 1)])


### 문장의 갯수를 파악하는 것!

In [163]:
print(f"문장 카운트: {token.document_count}")

문장 카운트: 3


### 각 단어들이 몇 개의 문장에 나오는가를 세어주는 메소드

In [164]:
print(f"각 단어가 몇개의 문장에 포함되어 있는가 \n: {token.word_docs}")

각 단어가 몇개의 문장에 포함되어 있는가 
: defaultdict(<class 'int'>, {'먼저': 1, '단어를': 2, '텍스트의': 2, '토큰화합니다': 1, '나누어': 1, '각': 1, '딥러닝에서': 2, '인식됩니다': 1, '토큰화해야': 1, '한': 1, '토큰화': 1, '결과는': 1, '사용할': 1, '수': 1, '있습니다': 1})


### 단어의 인덱스 값을 출력합니다.

In [165]:
print(f"각 단어에 매겨진 인덱스 값 \n: {token.word_index}")

각 단어에 매겨진 인덱스 값 
: {'텍스트의': 1, '단어를': 2, '딥러닝에서': 3, '먼저': 4, '각': 5, '나누어': 6, '토큰화합니다': 7, '토큰화해야': 8, '인식됩니다': 9, '토큰화': 10, '한': 11, '결과는': 12, '사용할': 13, '수': 14, '있습니다': 15}


## 2.단어의 원-핫 인코딩

In [166]:
text = '오랫동안 꿈꾸는 이는 그 꿈을 닮아간다.'

from keras.preprocessing.text import Tokenizer

token = Tokenizer()
token.fit_on_texts([text])
print(token.word_index)

{'오랫동안': 1, '꿈꾸는': 2, '이는': 3, '그': 4, '꿈을': 5, '닮아간다': 6}


In [167]:
x = token.texts_to_sequences([text])
print(x)

[[1, 2, 3, 4, 5, 6]]


In [168]:
from keras.utils import to_categorical

word_size = len(token.word_index)
y = to_categorical(x, num_classes=7)
#y = to_categorical(x)

In [169]:
y

array([[[0., 1., 0., 0., 0., 0., 0.],
        [0., 0., 1., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0.],
        [0., 0., 0., 0., 1., 0., 0.],
        [0., 0., 0., 0., 0., 1., 0.],
        [0., 0., 0., 0., 0., 0., 1.]]], dtype=float32)

## 단어 임베딩
    원-핫인코딩 단점은 메모리 자리를 많이 차지한다.
    그것을 해결하기 위한 방법은 단어 임베딩이다.
    단어 임베딩은 주어진 배열을 정해진 길이로 압축을 시킨다


### 동작원리는 유사도를 가지고 2차원 형식으로 표시한다.
    Embedding() 함수를 사용해 구현한다.

In [170]:
from keras.layers import Embedding, Input, Flatten, Dense
from keras.models import Model, Sequential
model = Sequential()
model.add(Embedding(16,4))

## 텍스트를 읽고 긍정, 부정 예측하기

In [171]:
docs = [
    '너무 재밌네요', '최고예요','참 잘 만든 영화예요', '추천하고 싶은 영화입니다.',
    '한 번 더 보고싶네요', '별로 예요', '생각보다 지루하네요','연기가 어색합니다,', '재미없어요'
]
label = [1,1,1,1,1, 0,0,0,0]

In [172]:
token = Tokenizer()
token.fit_on_texts(docs)
token.word_index

{'너무': 1,
 '재밌네요': 2,
 '최고예요': 3,
 '참': 4,
 '잘': 5,
 '만든': 6,
 '영화예요': 7,
 '추천하고': 8,
 '싶은': 9,
 '영화입니다': 10,
 '한': 11,
 '번': 12,
 '더': 13,
 '보고싶네요': 14,
 '별로': 15,
 '예요': 16,
 '생각보다': 17,
 '지루하네요': 18,
 '연기가': 19,
 '어색합니다': 20,
 '재미없어요': 21}

In [173]:
x = token.texts_to_sequences(docs)
print(x)

[[1, 2], [3], [4, 5, 6, 7], [8, 9, 10], [11, 12, 13, 14], [15, 16], [17, 18], [19, 20], [21]]


### 토큰의 길이를 다 맞추기!!

In [174]:
from keras.utils import pad_sequences
padded_x = pad_sequences(x, 4)

In [175]:
len(padded_x)

9

In [176]:
word_size = len(token.word_index)+1

In [177]:
Embedding(word_size, 8, input_length=4)

word_size

22

In [178]:
inputs = Input(4,)
#inputs = Input()
embedding = Embedding(word_size, 8, input_length=4)(inputs)
flatten = Flatten()(embedding)
output = Dense(1, activation='sigmoid')(flatten)

model = Model(inputs, output)

model.summary()

Model: "model_5"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 input_7 (InputLayer)        [(None, 4)]               0         
                                                                 
 embedding_20 (Embedding)    (None, 4, 8)              176       
                                                                 
 flatten_8 (Flatten)         (None, 32)                0         
                                                                 
 dense_7 (Dense)             (None, 1)                 33        
                                                                 
Total params: 209
Trainable params: 209
Non-trainable params: 0
_________________________________________________________________


In [179]:

model = Sequential()
model.add(Embedding(word_size, 8, input_length=4))
model.add(Flatten())
model.add(Dense(1, activation='sigmoid'))

model.summary()

Model: "sequential_8"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding_21 (Embedding)    (None, 4, 8)              176       
                                                                 
 flatten_9 (Flatten)         (None, 32)                0         
                                                                 
 dense_8 (Dense)             (None, 1)                 33        
                                                                 
Total params: 209
Trainable params: 209
Non-trainable params: 0
_________________________________________________________________


In [180]:
import numpy as np

label = np.array(label)
label.shape

(9,)

In [187]:
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['acc'])
model.fit(padded_x, label, epochs=20)

Epoch 1/20
Epoch 2/20
Epoch 3/20


2022-08-10 16:22:23.387291: I tensorflow/core/grappler/optimizers/custom_graph_optimizer_registry.cc:113] Plugin optimizer for device_type GPU is enabled.


Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


<keras.callbacks.History at 0x1775e0490>

In [188]:
model.evaluate(padded_x, label)



2022-08-10 16:22:23.818207: I tensorflow/core/grappler/optimizers/custom_graph_optimizer_registry.cc:113] Plugin optimizer for device_type GPU is enabled.


[0.6163121461868286, 1.0]