# 딥러닝을 이용한 자연어 처리

In [1]:
# 모든 문장을 단어로 토큰화

from tensorflow.keras.preprocessing.text import text_to_word_sequence

text = '해보지 않으면 해낼 수 없다'

result = text_to_word_sequence(text)
print('원문 : ', text)
print('토큰화 : ', result)

원문 :  해보지 않으면 해낼 수 없다
토큰화 :  ['해보지', '않으면', '해낼', '수', '없다']


In [3]:
# Tokenizer class를 활용하여 문장을 토큰화 한 후 단어의 갯수를 샐 수 있음(bag of word)
from tensorflow.keras.preprocessing.text import Tokenizer

doc = ['먼저 텍스트의 각 단어를 토큰화 합니다.',
      '텍스트의 단어로 토큰화해야 딥러닝에서 인식됩니다.',
      '토큰화한 결과는 딥러닝에서 사용할 수 있습니다.']
token = Tokenizer()
token.fit_on_texts(doc)

In [7]:
print(token.word_counts)     # 토큰화한 각 단어의 출현 빈도 수 
print()
print(token.document_count)  # 문장의 수
print()
print(token.word_docs)       # 단어가 나온 문장의 수
print()
print(token.index_word)      # 단어의 인덱스

OrderedDict([('먼저', 1), ('텍스트의', 2), ('각', 1), ('단어를', 1), ('토큰화', 1), ('합니다', 1), ('단어로', 1), ('토큰화해야', 1), ('딥러닝에서', 2), ('인식됩니다', 1), ('토큰화한', 1), ('결과는', 1), ('사용할', 1), ('수', 1), ('있습니다', 1)])

3

defaultdict(<class 'int'>, {'각': 1, '텍스트의': 2, '먼저': 1, '토큰화': 1, '합니다': 1, '단어를': 1, '토큰화해야': 1, '딥러닝에서': 2, '인식됩니다': 1, '단어로': 1, '토큰화한': 1, '수': 1, '있습니다': 1, '결과는': 1, '사용할': 1})

{1: '텍스트의', 2: '딥러닝에서', 3: '먼저', 4: '각', 5: '단어를', 6: '토큰화', 7: '합니다', 8: '단어로', 9: '토큰화해야', 10: '인식됩니다', 11: '토큰화한', 12: '결과는', 13: '사용할', 14: '수', 15: '있습니다'}


In [9]:
# 단어의 원핫인코딩
# 1. 문장을 토크나이징
# 2. 단어의 인덱스 확인 ->변수 추가
# 3. 단어의 인덱스를 원핫 인코딩 -> 인덱스 + 1 to_categorical()
text = '오랫동안 꿈꾸는 이는 그 꿈을 닮아간다'

token = Tokenizer()
token.fit_on_texts([text])
print(token.word_index)                  # 토크나이징한 단어의 인덱스
print(token.texts_to_sequences([text]))  # 단어의 인덱스만 리스트로 반환

{'오랫동안': 1, '꿈꾸는': 2, '이는': 3, '그': 4, '꿈을': 5, '닮아간다': 6}
[[1, 2, 3, 4, 5, 6]]


In [11]:
x_index = token.texts_to_sequences([text]) # == np.array(list(token.word_index.values())).reshape(1, -1)
# x_index에 대해 원핫 인코딩
from tensorflow.keras.utils import to_categorical

to_categorical(x_index, num_classes=len(token.word_index) + 1)

array([[[0., 1., 0., 0., 0., 0., 0.],
        [0., 0., 1., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0.],
        [0., 0., 0., 0., 1., 0., 0.],
        [0., 0., 0., 0., 0., 1., 0.],
        [0., 0., 0., 0., 0., 0., 1.]]], dtype=float32)

### 딥러닝을 활용한 자연어 처리

In [14]:
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten, Embedding
from numpy import array

docs=['너무 재미있네요', '최고예요', '참 잘 만든 영화예요', '추천하고 싶은 영화 입니다', '한번 더 보고싶네요', '글쎄요', '별로예요', '생각보다 지루하네요', '연기가 어색하네요', '재미없어요']
classes = array([1,1,1,1,1,0,0,0,0,0])

token = Tokenizer()
token.fit_on_texts(docs)
print(token.word_index)

{'너무': 1, '재미있네요': 2, '최고예요': 3, '참': 4, '잘': 5, '만든': 6, '영화예요': 7, '추천하고': 8, '싶은': 9, '영화': 10, '입니다': 11, '한번': 12, '더': 13, '보고싶네요': 14, '글쎄요': 15, '별로예요': 16, '생각보다': 17, '지루하네요': 18, '연기가': 19, '어색하네요': 20, '재미없어요': 21}


In [15]:
x = token.texts_to_sequences(docs)
print("리뷰텍스트 토큰화 : ", x)

리뷰텍스트 토큰화 :  [[1, 2], [3], [4, 5, 6, 7], [8, 9, 10, 11], [12, 13, 14], [15], [16], [17, 18], [19, 20], [21]]


In [16]:
padded_x = pad_sequences(x, 4)
print('패딩 결과 : ', padded_x)

패딩 결과 :  [[ 0  0  1  2]
 [ 0  0  0  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [ 0 12 13 14]
 [ 0  0  0 15]
 [ 0  0  0 16]
 [ 0  0 17 18]
 [ 0  0 19 20]
 [ 0  0  0 21]]


In [17]:
word_size = len(token.word_index) + 1

In [20]:
model = Sequential()
model.add(Embedding(word_size, 8, input_length=4))
model.add(Flatten())
model.add(Dense(1, activation='sigmoid'))
model.summary()

Model: "sequential_2"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding_1 (Embedding)     (None, 4, 8)              176       
                                                                 
 flatten_1 (Flatten)         (None, 32)                0         
                                                                 
 dense_1 (Dense)             (None, 1)                 33        
                                                                 
Total params: 209
Trainable params: 209
Non-trainable params: 0
_________________________________________________________________


In [21]:
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
model.fit(padded_x, classes, epochs=20)
print('Accuracy: %.4f' % (model.evaluate(padded_x, classes)[1]))

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
Accuracy: 0.9000


In [26]:
model.predict(padded_x[3].reshape(1, -1))



array([[0.5356389]], dtype=float32)