In [None]:
from keras.datasets import reuters
(X_train, y_train), (X_test, y_test) = reuters.load_data(num_words=None, test_split=0.2)

In [None]:
print('훈련용 뉴스 기사: {}'.format(len(X_train)))
print('테스트용 뉴스 기사: {}'.format(len(X_test)))
num_classes = max(y_train) + 1
print('카테고리: {}'.format(num_classes))

In [None]:
print(X_train[0]) # 첫번째 훈련용 뉴스 기사
print(y_train[0]) # 첫번째 훈련용 뉴스 기사의 레이블

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt

print('뉴스 기사의 최대 길이 :',max(len(l) for l in X_train))
print('뉴스 기사의 평균 길이 :',sum(map(len, X_train))/len(X_train))

plt.hist([len(s) for s in X_train], bins=50)
plt.xlabel('length of Data')
plt.ylabel('number of Data')
plt.show()

In [None]:
import seaborn as sns
fig, axe=plt.subplots(ncols=1)
fig.set_size_inches(12,5)
sns.countplot(y_train)

In [None]:
import numpy as np
unique_elements, counts_elements = np.unique(y_train, return_counts=True)
print("각 레이블에 대한 빈도수:")
print(np.asarray((unique_elements, counts_elements)))
# label_cnt=dict(zip(unique_elements, counts_elements))
# 아래의 출력 결과가 보기 불편하여 병렬로 보고싶다면 위의 label_cnt를 출력

In [None]:
word_index = reuters.get_word_index()
print(word_index)

In [None]:
index_to_word={}
for key, value in word_index.items():
    index_to_word[value] = key

In [None]:
print(index_to_word[28842])

In [None]:
print(index_to_word[1])

In [None]:
print(' '.join([index_to_word[X] for X in X_train[0]]))

## LSTM으로 로이터 뉴스 분류하기

In [None]:
from keras.datasets import reuters
from keras.models import Sequential
from keras.layers import Dense, LSTM, Embedding
from keras.preprocessing import sequence
from keras.utils import np_utils

In [None]:
(X_train, y_train), (X_test, y_test) = reuters.load_data(num_words=1000, test_split=0.2)

In [None]:
max_len=100
X_train = sequence.pad_sequences(X_train, maxlen=max_len) # 훈련용 뉴스 기사 패딩
X_test = sequence.pad_sequences(X_test, maxlen=max_len) # 테스트용 뉴스 기사 패딩

In [None]:
y_train = np_utils.to_categorical(y_train) # 훈련용 뉴스 기사 레이블의 원-핫 인코딩
y_test = np_utils.to_categorical(y_test) # 테스트용 뉴스 기사 레이블의 원-핫 인코딩

In [None]:
model = Sequential()
model.add(Embedding(1000, 120))
model.add(LSTM(120))
model.add(Dense(46, activation='softmax'))

In [None]:
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

In [None]:
history = model.fit(X_train, y_train, batch_size=100, epochs=20, validation_data=(X_test,y_test))

In [None]:
print("\n 테스트 정확도: %.4f" % (model.evaluate(X_test, y_test)[1]))

In [None]:
epochs = range(1, len(history.history['acc']) + 1)
plt.plot(epochs, history.history['loss'])
plt.plot(epochs, history.history['val_loss'])
plt.title('model loss')
plt.ylabel('loss')
plt.xlabel('epoch')
plt.legend(['train', 'test'], loc='upper left')
plt.show()