In [None]:
import tensorflow as tf
from tensorflow import keras

import numpy as np

In [None]:
print(tf.__version__)

## IMDB DataSet 다운로드

In [None]:
imdb = keras.datasets.imdb

(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)

## Data 탐색

In [None]:
print("훈련 샘플: {}, 레이블: {}".format(len(train_data), len(train_labels)))

In [None]:
print(train_data[0])
# 어휘 사전의 특정 단어를 나타내는 정수로 변환되어 있음

In [None]:
print("0번째 데이터 길이 {} | 1번째 데이터 길이 {}".format(len(train_data[0]),len(train_data[1])))
# 신경망에 같은 길이의 데이터가 들어가야되기 때문에 후에 문제해결

## 정수를 단어로 다시 전환

In [None]:
# 단어와 정수 인덱스를 매핑한 딕셔너리
word_index = imdb.get_word_index()

# 처음 몇 개 인덱스는 사전에 정의되어 있습니다
word_index = {k:(v+3) for k,v in word_index.items()}
word_index["<PAD>"] = 0
word_index["<START>"] = 1
word_index["<UNK>"] = 2  # unknown
word_index["<UNUSED>"] = 3

reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])

def decode_review(text):
    return ' '.join([reverse_word_index.get(i, '?') for i in text])

In [None]:
word_index

## 길이를 맞추기 위한 패딩넣기

In [None]:
train_data = keras.preprocessing.sequence.pad_sequences(train_data,
                                                        value=word_index["<PAD>"],
                                                        padding='post',
                                                        maxlen=256)

test_data = keras.preprocessing.sequence.pad_sequences(test_data,
                                                        value=word_index["<PAD>"],
                                                        padding='post',
                                                        maxlen=256)

In [None]:
len(train_data[0]), len(train_data[1])

In [None]:
print(train_data[0])

## 모델 구성

In [None]:
vocab_size = 10000

model = keras.Sequential()
model.add(keras.layers.Embedding(vocab_size, 16, input_shape=(None,)))
model.add(keras.layers.GlobalAveragePooling1D())
model.add(keras.layers.Dense(16, activation='relu'))
model.add(keras.layers.Dense(1, activation='sigmoid'))

model.summary()

In [None]:
model.compile(optimizer='adam',
              loss='binary_crossentropy',
              metrics=['accuracy'])

## 검증 세트 만들기

In [None]:
x_val = train_data[:10000]
partial_x_train = train_data[10000:]

y_val = train_labels[:10000]
partial_y_train = train_labels[10000:]

## 모델 훈련

In [None]:
history = model.fit(partial_x_train,
                    partial_y_train,
                    epochs=40,
                    batch_size=512,
                    validation_data=(x_val, y_val),
                    verbose=1)