# 다중분류 (뉴스 기사 분류 문제)
이전 섹션에서 본 예제는 벡터 입력을 받아서 두개의 클래스로 분류하는 문제였다.  
두개 이상의 클래스(종류,분류)로 나위어 질 경우 다중분류라는 방식을 사용한다.  
로이터 뉴스를 46개의 토픽으로 분류하는 예제를 통해 다중분류에 대해 확인해보자.  

## 로이터 데이터 셋
 - 1986년에 로이터에서 공개한 짧은 뉴스 기사와 토픽의 집합인 로이터 데이터셋을 사용.
 - 텍스트 분류를 위해 널리 사용되는 간단한 데이터셋이다.
 - 46개의 토픽이 있으며 어떤 토픽은 다른 것에 비해 데이터가 많다. 각 토픽은 훈련 세트에 최소한 10개의 샘플을 가지고 있다.  
 
## 데이터셋 로드

In [1]:
from keras.datasets import reuters

(train_data, train_labels), (test_data, test_labels) = reuters.load_data(num_words=1000)
len(train_data)
len(test_data)
train_data[10]

Using TensorFlow backend.


Downloading data from https://s3.amazonaws.com/text-datasets/reuters.npz


[1,
 245,
 273,
 207,
 156,
 53,
 74,
 160,
 26,
 14,
 46,
 296,
 26,
 39,
 74,
 2,
 2,
 14,
 46,
 2,
 2,
 86,
 61,
 2,
 2,
 14,
 61,
 451,
 2,
 17,
 12]

## reuters 객체의 함수로 index list를 가져와보자
reuters객체의 get_word_index()함수를 통해서 dictionary타입의 word_index를 가져올 수 있다.  
word_index는 (value, key) 형태로 되어있다. 이를 key, value 형태로 바꿔보자.  

In [30]:
# word_index : (value, key), reverse_word_index : (key, value)
word_index = reuters.get_word_index()
# print('word_index: \n{0}'.format(word_index))
reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])
# print('reverse_word_index: \n{0}'.format(reverse_word_index))
print('word_index, reverse_word_index type: {0}, {1}\n'.format(type(word_index), type(reverse_word_index)))

word_index, reverse_word_index type: <class 'dict'>, <class 'dict'>



In [31]:
'''
train_data[0]의 0, 1, 2는 '패딩', '문서 시작', '사전에 없음'을 위한 인덱스이므로 3을 뺀다.
dictionary의 get()메소드의 2번째 인자로 '?'와 같은 값을 넣어주면, 키에 대한 값이 없을 경우 '?'를 출력한다.
결국 패딩, 문서시작, 사전에 없음이 나올때마다 '?'와 같은 구분자가 출력되게 된다.
'''
for i in train_data[0]: print(i)
print('Remove padding(0,1,2), separator: ?:')
decoded_newswire = ' '.join([reverse_word_index.get(i - 3, '?') for i in train_data[0]])
print('{0}\n'.format(decoded_newswire))

print('Remove padding(0,1,2), separator: ##:')
decoded_newswire = ' '.join([reverse_word_index.get(i - 3, '##') for i in train_data[0]])
print('{0}\n'.format(decoded_newswire))

print('Not Remove padding, separator: ##:')
decoded_newswire = ' '.join([reverse_word_index.get(i, '##') for i in train_data[0]])
print('{0}\n'.format(decoded_newswire))

1
2
2
8
43
10
447
5
25
207
270
5
2
111
16
369
186
90
67
7
89
5
19
102
6
19
124
15
90
67
84
22
482
26
7
48
4
49
8
864
39
209
154
6
151
6
83
11
15
22
155
11
15
7
48
9
2
2
504
6
258
6
272
11
15
22
134
44
11
15
16
8
197
2
90
67
52
29
209
30
32
132
6
109
15
17
12
Remove padding(0,1,2), separator: ?:
? ? ? said as a result of its december acquisition of ? co it expects earnings per share in 1987 of 1 15 to 1 30 dlrs per share up from 70 cts in 1986 the company said pretax net should rise to nine to 10 mln dlrs from six mln dlrs in 1986 and ? ? revenues to 19 to 22 mln dlrs from 12 5 mln dlrs it said cash ? per share this year should be 2 50 to three dlrs reuter 3

Remove padding(0,1,2), separator: ##:
## ## ## said as a result of its december acquisition of ## co it expects earnings per share in 1987 of 1 15 to 1 30 dlrs per share up from 70 cts in 1986 the company said pretax net should rise to nine to 10 mln dlrs from six mln dlrs in 1986 and ## ## revenues to 19 to 22 mln dlrs from 12 5 m

## 데이터셋 준비


In [33]:
import numpy as np

def vectorize_sequences(sequences, dimension=1000):
    results = np.zeros((len(sequences), dimension))
    for i, sequence in enumerate(sequences):
        results[i, sequence] = 1.
    return results

# 훈련 데이터 벡터 변환
x_train = vectorize_sequences(train_data)
# 테스트 데이터 벡터 변환
x_test = vectorize_sequences(test_data)

레이블을 벡터로 바꾸는 방법은 두 가지이다. 
 - 그 중 하나는 레이블의 리스트를 정수 텐서로 변환하는 것과 원-핫 인코딩을 사용하는 것이다. 
 - 원-핫 인코딩이 범주형 데이터에 널리 사용되기 때문에 범주형 인코딩이라고도 부른다.
 - 원-핫 인코딩에 대한 자세한 설명은 6.1절을 참고하자. 
 - 이 경우 레이블의 원-핫 인코딩은 각 레이블의 인덱스 자리는 1이고 나머지는 모두 0인 벡터이다.

In [34]:
def to_one_hot(labels, dimension=46):
    results = np.zeros((len(labels), dimension))
    for i, label in enumerate(labels):
        results[i, label] = 1.
    return results

# 훈련 레이블 벡터 변환
one_hot_train_labels = to_one_hot(train_labels)
# 테스트 레이블 벡터 변환
one_hot_test_labels = to_one_hot(test_labels)

이미 케라스에는 이를 위한 내장 함수가 있다.

In [35]:
from keras.utils.np_utils import to_categorical

one_hot_train_labels = to_categorical(train_labels)
one_hot_test_labels = to_categorical(test_labels)

## 모델 구성
### 클래스의 갯수 증가.. 출력공간의 차원의 증가( 2 -> 46 )
이 토픽 분류 문제는 이전의 영화 리뷰 분류처럼 두 경우 모두 짧은 텍스트를 분류하는 것이다.  
여기에서는 새로운 제약 사항이 추가되었다. 바로 출력 클래스의 개수가 2에서 46개로 늘어난 점이다.  
그래서 출력 공간의 차원이 훨씬 커졌다.

### 출력공간 차원의 증가로 중간층의 차원의 변경이 필요하다..(정보의 누락, 병목현상을 피하기 위해)
이전에 사용했던 것처럼 Dense 층을 쌓으면 각 층은 이전 층의 출력에서 제공한 정보만 사용할 수 있다.  
한 층이 분류 문제에 필요한 일부 정보를 누락하면 그 다음 층에서 이를 복원할 방법이 없다.  
각 층은 잠재적으로 정보의 병목이 될 수 있다. 이전 예제에서 16차원을 가진 중간층을 사용했지만 16차원 공간은 46개의 클래스를 구분하기에 너무 제약이 많을 것 같다. 이렇게 규모가 작은 층은 유용한 정보를 완전히 잃게 되는 정보의 병목 지점처럼 동작할 수 있다.

이런 이유로 좀 더 규모가 큰 층을 사용하자. 64개의 유닛을 사용해 보자

In [36]:
from keras import models
from keras import layers

model = models.Sequential()
model.add(layers.Dense(64, activation='relu', input_shape=(1000,)))
model.add(layers.Dense(64, activation='relu'))
model.add(layers.Dense(46, activation='softmax'))

이 구조에서 주목해야 할 점이 두 가지 있습니다:
  
- 마지막 Dense 층의 크기가 46입니다. 각 입력 샘플에 대해서 46차원의 벡터를 출력한다는 뜻입니다. 이 벡터의 각 원소(각 차원)은 각기 다른 출력 클래스가 인코딩된 것입니다.
- 마지막 층에 softmax 활성화 함수가 사용되었습니다. MNIST 예제에서 이런 방식을 보았습니다. 각 입력 샘플마다 46개의 출력 클래스에 대한 확률 분포를 출력합니다. 즉, 46차원의 출력 벡터를 만들며 output[i]는 어떤 샘플이 클래스 i에 속할 확률입니다. 46개의 값을 모두 더하면 1이 됩니다.
  
이런 문제에 사용할 최선의 손실 함수는 categorical_crossentropy입니다. 이 함수는 두 확률 분포의 사이의 거리를 측정합니다. 여기에서는 네트워크가 출력한 확률 분포와 진짜 레이블의 분포 사이의 거리입니다. 두 분포 사이의 거리를 최소화하면 진짜 레이블에 가능한 가까운 출력을 내도록 모델을 훈련하게 됩니다.