# 영화 리뷰 분류 : 이진 분류 예제
* IMDB 데이터 셋을 영화 리뷰 긍정 & 부정으로 분류 한다.
***

## 1. IMBD 데이터셋 로드

In [2]:
from keras.datasets import imdb

(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)

> __num_words=10000__ 은 훈련 데이터에서 가장 자주 나타나는 단어 1만개를 사용하겠다는 뜻이다.   

* train_data, test_data : 리뷰의 목록으로 각 리뷰는 단어 인덱스의 리스트이다.
* train_labels, test_labels : __부정__ 을 나타내는 0과 __긍정__ 을 나타내는 1의 리스트이다.

## 2. 데이터 준비
> 신경망에 숫자 __리스트__ 를 주입할 수 는 없다. 리스트를 텐서로 바꾸는 두가지 방법이 있다.

* 같은 길이가 되게 리스트에 패딩을 추가하고 (samples, sequence_length)크기의 정수 텐서로 변환, 그 다음 이 정수 텐서를 다룰 수 있는 층을 신경망의 첫 번째 층으로 사용한다.
* 리스트를 원-핫 인코딩하여 0과 1의 벡터로 변환, 부동 소수 벡터 데이터를 다룰 수 있는 __Dense__ 층을 신경망의 첫번째 층으로 사용한다.
> 두번째 방식을 이용한다

In [6]:
import numpy as np

def vectorize_sequences(sequences, dimension=10000):
    results = np.zeros((len(sequences), dimension))  # 크기가 (len(sequences), dimension)이고 모든 원소가 0인 행렬을 만든다
    for i, sequence in enumerate(sequences) :
        results[i, sequence] = 1.                    # results[i]에서 특정 인덱스의 위치를 1로 만든다
    return results

x_train = vectorize_sequences(train_data)           # 훈련 데이터를 벡터로 변환
t_test = vectorize_sequences(test_data)             # 테스트 데이터를 벡터로 변환합니다

In [8]:
# 레이블도 벡터로 변환

y_train = np.asarray(train_labels).astype('float32')
y_test = np.asarray(test_labels).astype('float32')

## 3. 신경망 모델 만들기

> 입력 데이터가 벡터고 레이블은 스칼라(1 or 0)이다. 

* 이 문제에 맞는 네트워크 종류는 __relu__ 활성화 함수를 사용한 완전 연결 층(즉 Dense(16, activation='relu'))을 쌓은것
    > Dense층에 전달한 매개변수(16)은 은닉 유닛의 개수이다.

#### Dense 층을 쌓을 때 두가지 중요한 구조상의 결정이 필요하다.
* 얼마나 많은 층을 사용할 것인가?
* 각 층에 얼마나 많은 은닉 유닛을 둘 것인가?

### 활성화 함수 결정
* 중간 은닉 층 : relu를 활성화 함수로 사용한다
* 마지막 층 : 1~0 사이의 점수로 확률을 울력하기 위해 시그모이드를 활성화 함수로 사용한다.

In [10]:
from keras import models
from keras import layers

model = models.Sequential() # Sequential(순차모델) : 순차적으로 레이어 층을 더해 모델을 만든다
model.add(layers.Dense(16, activation='relu', input_shape=(10000,)))
model.add(layers.Dense(16, activation='relu'))
model.add(layers.Dense(1, activation='sigmoid'))

### 손실 함수와 옵티마이저
> 이진 분류 문제에 출력이 확률이기 때문에 __binary_crossentropy(또는 mean_squared_error)__ 손실이 적합하다

* __확률을 출력하는 모델은 솔실 함수로 크로스 엔트로피가 최선이다__ 
* __크로스엔트로피__ : 정보 이론 분야에서 온 개념으로 확률 분포 간의 차이를 측정한다.(원본 분포와 예측 분포 사이를 측정한다)

> 옵티마이저 : rmsprop

In [13]:
model.compile(optimizer='rmsprop',
             loss='binary_crossentropy',
             metrics=['accuracy']) # 측정 지표

## 4. 훈련 검증