#1. RNN(Recurrent Neural Network)


**뉴스 분류하기**

로이터 뉴스 데이터는, 총 11,258개의 뉴스기사를 46개의 카테고리로 나누었습니다.


reuters.load_data() 함수를 이용해 기사 데이터를 불러 왔습니다.
test_split 에 0.2를 할당해 20%에 해당하는 데이터를 테스트셋으로 사용하게 했습니다.
num_words에 1000을 할당한 것은 기사에 존재하는 단어들 중 빈도수가 1~1000등인 단어만 선택해서 불러오게 하기 위함입니다.

여기서 잠깐 주의할 점은 각 기사마다 단어 수가 다르므로 Normalize를 해야 합니다.
이때는 데이터 전처리 함수 sequence를 사용합니다.

In [None]:
import numpy as np

from sklearn.metrics import accuracy_score
from keras.datasets import reuters
from keras.preprocessing.sequence import pad_sequences
from keras.utils import to_categorical

num_words = 30000
maxlen = 50       #문장당 최대단어수
test_split = 0.3  #테스트 데이터 비율

(X_train, y_train), (X_test, y_test) = reuters.load_data(num_words = num_words, maxlen = maxlen, test_split = test_split)

# 독립변수 데이터 전처리
X_train = pad_sequences(X_train, padding = 'post')
X_test = pad_sequences(X_test, padding = 'post')

X_train = np.array(X_train).reshape((X_train.shape[0], X_train.shape[1], 1))
X_test = np.array(X_test).reshape((X_test.shape[0], X_test.shape[1], 1))

#종속변수 전처리
y_data = np.concatenate((y_train, y_test))
y_data = to_categorical(y_data)

y_train = y_data[:1395]
y_test = y_data[1395:]


Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/reuters.npz


In [None]:
# 데이터의 모양 출력하기
print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

print(X_train[0])
print(y_train[0])

(1395, 49, 1)
(599, 49, 1)
(1395, 46)
(599, 46)
[[   1]
 [ 245]
 [ 273]
 [ 207]
 [ 156]
 [  53]
 [  74]
 [ 160]
 [  26]
 [  14]
 [  46]
 [ 296]
 [  26]
 [  39]
 [  74]
 [2979]
 [3554]
 [  14]
 [  46]
 [4689]
 [4329]
 [  86]
 [  61]
 [3499]
 [4795]
 [  14]
 [  61]
 [ 451]
 [4329]
 [  17]
 [  12]
 [   0]
 [   0]
 [   0]
 [   0]
 [   0]
 [   0]
 [   0]
 [   0]
 [   0]
 [   0]
 [   0]
 [   0]
 [   0]
 [   0]
 [   0]
 [   0]
 [   0]
 [   0]]
[0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]


In [None]:
word_index = reuters.get_word_index()
print(word_index)



In [None]:
index_to_word = {}
for key, value in word_index.items():
    index_to_word[value] = key
print(index_to_word)



In [None]:
from keras.models import Sequential
from keras.layers import Dense, SimpleRNN, Activation
from keras import optimizers
from keras.wrappers.scikit_learn import KerasClassifier

# 기본 RNN 모델을 구현하기 위한 함수
def stacked_vanilla_rnn():
    model = Sequential()
    model.add(SimpleRNN(50, input_shape = (49,1), return_sequences = True))   # return_sequences parameter has to be set True to stack
    model.add(SimpleRNN(50, return_sequences = False))
    model.add(Dense(46))
    model.add(Activation('softmax'))
    
    adam = optimizers.Adam(lr = 0.001)
    model.compile(loss = 'categorical_crossentropy', optimizer = adam, metrics = ['accuracy'])
    
    return model

In [None]:
model = KerasClassifier(build_fn = stacked_vanilla_rnn, epochs = 200, batch_size = 50, verbose = 1)
model.fit(X_train, y_train)

In [None]:
y_pred = model.predict(X_test)
y_test_ = np.argmax(y_test, axis = 1)
print(accuracy_score(y_pred, y_test_))

0.6994991652754591


#2. LSTM(Long short term Memory)

Embedding 층은 데이터 전처리 과정을 통해 입력된 값을 받아 다음 층이 알아들을 수 있는 형태로 변환하는 역할을 합니다.
여기서는 Embedding('불러온 단어의 총 개수', '기사 당 단어수') 형식으로 사용합니다. 모델 설정 부분의 맨 처음에 있어야 합니다.
LSTM(기사당 단어 수, 활성함수) 형태입니다. 활성화 함수로 Tanh를 사용했습니다.

주의할 점은 각 기사마다 단어 수가 다르므로 Normalize를 해야 합니다.
이때는 데이터 전처리 함수 sequence를 사용합니다.

maxlen = 100은 단어수를 100개로 맞추라는 뜻입니다. 즉 단어수가 100개보다 크면 100개 까지 맞추고 100개보다 작으면 모자라는 부분을 0으로 채웁니다.

In [None]:
import numpy as np

from sklearn.metrics import accuracy_score
from keras.datasets import reuters
from keras.preprocessing.sequence import pad_sequences
from keras.utils import to_categorical
from keras.models import Sequential
from keras.layers import Dense, LSTM, Activation
from keras import optimizers
from keras.wrappers.scikit_learn import KerasClassifier

# parameters for data load
num_words = 30000
maxlen = 50
test_split = 0.3

(X_train, y_train), (X_test, y_test) = reuters.load_data(num_words = num_words, maxlen = maxlen, test_split = test_split)

# pad the sequences with zeros 
# padding parameter is set to 'post' => 0's are appended to end of sequences
X_train = pad_sequences(X_train, padding = 'post')
X_test = pad_sequences(X_test, padding = 'post')

X_train = np.array(X_train).reshape((X_train.shape[0], X_train.shape[1], 1))
X_test = np.array(X_test).reshape((X_test.shape[0], X_test.shape[1], 1))

y_data = np.concatenate((y_train, y_test))
y_data = to_categorical(y_data)
y_train = y_data[:1395]
y_test = y_data[1395:]

def lstm():
    model = Sequential()
    model.add(LSTM(50, input_shape = (49,1), return_sequences = False))
    model.add(Dense(46))
    model.add(Activation('softmax'))
    
    adam = optimizers.Adam(lr = 0.001)
    model.compile(loss = 'categorical_crossentropy', optimizer = adam, metrics = ['accuracy'])
    
    return model

model = KerasClassifier(build_fn = lstm, epochs = 200, batch_size = 50, verbose = 1)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
y_test_ = np.argmax(y_test, axis = 1)

print(accuracy_score(y_pred, y_test_))

In [None]:
y_pred = model.predict(X_test)
y_test_ = np.argmax(y_test, axis = 1)
print(accuracy_score(y_pred, y_test_))

0.8397328881469115
