## 딥러닝 활용(3)
### : 시퀀스 배열로 다루는 순환 신경망 ( RNN : Recurrent Neural Network )
* 여러 개의 데이터가 순서대로 입력됐을 때 앞서 입력받은 데이터를 잠시 기억해 놓는 방법
* 그 중에서도 LSTM(Long Short Term Memory)를 가장 널리 사용함

### >> LSTM을 이용한 로이터 뉴스 카테고리 분류하기
-> 긴 텍스트를 읽고 이 데이터가 어떤 의미를 가졌는지 카테고리로 분류하기

In [2]:
#데이터 준비하기
from keras.datasets import reuters

(X_train, Y_train),(X_test, Y_test) = reuters.load_data(num_words=1000, test_split=0.2)

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/reuters.npz


In [4]:
#데이터 확인
import numpy as np
category = np.max(Y_train)+1
print(category,"카테고리")
print(len(X_train),'학습용 뉴스 기사')
print(len(X_test),'테스트용 뉴스 기사')
print(X_train[0])

46 카테고리
8982 학습용 뉴스 기사
2246 테스트용 뉴스 기사
[1, 2, 2, 8, 43, 10, 447, 5, 25, 207, 270, 5, 2, 111, 16, 369, 186, 90, 67, 7, 89, 5, 19, 102, 6, 19, 124, 15, 90, 67, 84, 22, 482, 26, 7, 48, 4, 49, 8, 864, 39, 209, 154, 6, 151, 6, 83, 11, 15, 22, 155, 11, 15, 7, 48, 9, 2, 2, 504, 6, 258, 6, 272, 11, 15, 22, 134, 44, 11, 15, 16, 8, 197, 2, 90, 67, 52, 29, 209, 30, 32, 132, 6, 109, 15, 17, 12]


In [6]:
#각 기사의 단어 수 맞추기 
from keras.preprocessing import sequence
from keras.utils import np_utils

x_train = sequence.pad_sequences(X_train, maxlen=100)
x_test = sequence.pad_sequences(X_test, maxlen=100)

y_train = np_utils.to_categorical(Y_train)
y_test = np_utils.to_categorical(Y_test)

In [10]:
#모델의 설정
from keras.models import Sequential
from keras.layers import Dense, LSTM, Embedding

model = Sequential()
model.add(Embedding(1000,100))
model.add(LSTM(100,activation='tanh'))
model.add(Dense(46, activation = 'softmax'))

#모델 컴파일
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

#모델 실행
history = model.fit(x_train, y_train, batch_size = 100, epochs=20, validation_data = (x_test, y_test))

print("\nTest Accuracy: %.4f"%(model.evaluate(x_test,y_test)[1]))

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20

Test Accuracy: 0.7110


### LSTM과 CNN의 조합으로 영화리뷰 분류하기

In [15]:
from keras.preprocessing import sequence
from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation, Embedding, LSTM, Conv1D, MaxPooling1D
from keras.datasets import imdb

import numpy as np
import tensorflow as tf
import matplotlib.pyplot as plt

#seed값 설정
seed = 0
np.random.seed(seed)
tf.random.set_seed(3)

#학습, 테스트 데이터 준비 및 전처리
(x_train, y_train),(x_test, y_test) = imdb.load_data(num_words=5000)

x_train = sequence.pad_sequences(x_train, maxlen=100)
x_test = sequence.pad_sequences(x_test, maxlen=100)

#모델 설정 밑 컴파일
model = Sequential()
model.add(Embedding(5000,100))
model.add(Dropout(0.5))
model.add(Conv1D(64, 5, padding='valid', activation='relu', strides=1))
model.add(MaxPooling1D(pool_size=4))
model.add(LSTM(55))
model.add(Dense(1))
model.add(Activation('sigmoid'))

model.compile(loss='binary_crossentropy', optimizer='adam',metrics=['accuracy'])

#모델 실행
history=model.fit(x_train, y_train, batch_size=100, epochs=5, validation_data=(x_test, y_test))

print('\n Test Accuracy: %.4f'%(model.evaluate(x_test, y_test)[1]))

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5

 Test Accuracy: 0.8555
