# 뉴스 기사 분류: 다중 분류 문제

> 이전 섹션에서 완전 연결된 신경망을 사용해 벡터 입력을 어떻게 두 개의 클래스로 분류하는지 보았다.

> 이번 세션에서는 로이터 뉴스를 46개의 상호 배타적인 토픽으로 분류하는 신경망을 만들어 보겠다. 클래스가 많기 때문에 이 문제는 다중 분류의 예이다. 

## 로이터 데이터셋

> 1986년에 로이터에서 공개한 짧은 뉴스 기사와 토픽의 집합인 로이터 데이터셋을 사용한다. 
- 46개의 토픽이 있으며 어떤 토픽은 다른 것에 비해 데이터가 많다. 
- 각 토픽은 훈련 세트에 최소한 10개의 샘플을 가지고 있다.

#1. 데이터셋 얻기

> IMDB 데이터셋에서처럼 num_words=10000 매개변수는 데이터에서 가장 자주 등장하는 단어 10,000개로 제한한다.

> 여기에는 8,982개의 훈련 샘플과 2,246개의 테스트 샘플이 있다.

> IMDB 리뷰처럼 각 샘플은 정수 리스트이다.

#2. 데이터 확인

##2.1 리뷰 확인

> 위와 같이 간단하게 첫 번째 뉴스를 확인할 수 있다.

##2.2 labels 확인

> 3, 4번 토픽이 많은 내용을 차지하고 있는 것을 볼 수 있다.

#3. 데이터 준비

> 이전의 예제와 동일한 코드를 사용해서 데이터를 벡터로 변환할 수 있다.

> labels 정보도 46개가 존재하여 to_categorical 함수를 이용해 one_hot encoding 처리 했다.

#4. 모델 구성

> 이 토픽 분류 문제는 이전의 영화 리뷰 분류 문제와 비슷해 보인다. 두 경우 모두 짧은 텍스트를 분류하는 것이지만 출력 클래스의 개수가 2에서 46개로 늘어난 점이 다르다.

> 이전에 사용했던 것처럼 `Dense` 층을 쌓으면 각 층은 이전 층의 출력에서 제공한 정보만 사용할 수 있다. 한 층이 분류 문제에 필요한 일부 정보를 누락하면 그 다음 층에서 이를 복원할 방법이 없다. 이전 예제에서 16차원을 가진 중간층을 사용했지만 16차원 공간은 46개의 클래스를 구분하기에 너무 작다. 이렇게 규모가 작은 층은 유용한 정보를 완전히 잃게 되는 정보의 병목 지점처럼 동작할 수 있다. 이런 이유로 좀 더 규모가 큰 층을 사용하기 위해 64개의 유닛을 사용했다.

#5. 훈련 검증

##5.1 데이터 분리

이제 20번의 에포크로 모델을 훈련시킵니다:

##5.2 학습 및 검증

##5.3 차트를 통한 결과 확인

> 모델 컴파일 시 metrics를 accuracy로 지정하여 이전과 다르게 acc가 아닌 accuracy로 나타남.

> 검증 데이터가 8까지는 계속 줄다가 9에서 살짝 올라가고 10에서 살짝 내려갔다가 다시 차츰 올라가고 있다.

> 이 모델은 9번째 에포크 이후에 과대적합이 시작되는 것으로 보인다. 

> 따라서 손실함수에서 8, 정확도에서는 9가 적당한 에포크로 보이며 여기서는 9를 에포크로 사용해 보도록 하겠다.

#6. 모델 다시 만들기

> 대략 79%의 정확도를 달성했다. 보통 균형 잡힌 이진 분류 문제에서 완전히 무작위로 분류하면 50%의 정확도를 달성한다. 여기에 비하면 이 결과는 꽤 좋은 편이다.

#7. 새로운 데이터에 대해 예측하기

> 모델 인스턴스의 `predict` 메서드는 46개 토픽에 대한 확률 분포를 반환한다. 테스트 데이터 전체에 대한 토픽을 예측해 보자.

> X_test를 이용하여 예측한 결과 위와 같이 나타난다. 너무 많은 정보를 가지고 있어 확인하기가 어렵다. 첫 번째 데이터만 확인해 보자.

> 우선 데이터는 총 46개로 이루어져 있다. softmax는 46개의 데이터를 각각 확률 값으로 반환하는 함수이다.

> 이 벡터의 원소 합은 1이다. 46개를 확률로 표현한 것이므로 당연히 1이 나와야 한다.

> 가장 큰 값이 예측 클래스가 된다. 즉, 첫 번째 예측값은 3이다.

>y_test는 원핫 인코딩으로 되어 있어 argmax를 이용하거나 최초 데이터인 test_labels를 이용하여 결과를 확인할 수 있다.