## 접근법 최적화를 위한 주요 개념 이해
    1. 종속 라이브러리 가져오기
        - 케라스 라이브러리 사용
    2. IMDb 데이터셋 내려받기 및 적재하기
        - IMDb 데이터셋을 내려받고 케라스 API를 사용하여 데이터 적재
    3. 흔한 단어 및 최대 텍스트 길이 선택
        - 워드 임베딩 단계에서 사용할 수 있는 어휘의 값을 설정
    4. 워드 임베딩 구현
        - 케라스의 기본 포함 기술을 사용하고 길이가 300인 단어 벡터를 생성
    5. CNN 구축
        - 첫 번째 계층에 64개 뉴런이 있고 두 번째 계츠에 32개 뉴런, 마지막 계층에 16개 뉴런이 있는 3계층 신경망 생성
        - 시그모이드 활성화 함수 사용
    6. 훈련 및 정확도 획득
        - 모델을 훈련하고 정확도 점수 생성
        - 에포크 값을 3으로 설정하고 Adam을 최적화 함수로 설정, 손실 함수로 binary_crossentropy를 사용

## 개선 접근법 구현

***Import dependencies***

In [1]:
import numpy as np
from keras.datasets import imdb
from keras.models import Sequential
from keras.layers import Dense
from keras.layers import LSTM, Convolution1D, Flatten, Dropout
from keras.layers.embeddings import Embedding
from keras.preprocessing import sequence
from keras.callbacks import TensorBoard

***Load datset and Load top 10000 words from idbm dataset***

In [2]:
# Using keras to load the datset with the top_words
top_words = 10000
(X_train, y_train), (X_test, y_test) = imdb.load_data(nb_words=top_words)



***Set the maximum movie review length***

In [6]:
# Pad the sequence to the same length
max_review_length = 1600
X_train = sequence.pad_sequences(X_train, maxlen=max_review_length)
X_test = sequence.pad_sequences(X_test, maxlen=max_review_length)

***Default Word embedding based on word2vec***

In [7]:
# Using embedding from Keras
embedding_vecor_length = 300
model = Sequential()
model.add(Embedding(top_words, embedding_vecor_length, input_length=max_review_length))

***Build Convolution Neural Net (CNN)***

In [10]:
# Convoluetion model (3x conv, flatten, 2x dense)
model.add(Convolution1D(64, 3, padding='same'))
model.add(Convolution1D(32, 3, padding='same'))
model.add(Convolution1D(16, 3, padding='same'))
model.add(Flatten())
model.add(Dropout(0.2))
model.add(Dense(180, activation='sigmoid'))
model.add(Dropout(0.2))
model.add(Dense(1, activation='sigmoid'))

***Train on Training dataset***

In [12]:
# Log to tensorboard
tensorBoardCallback = TensorBoard(log_dir='./logs', write_graph=True)
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

model.fit(X_train, y_train, epochs=3, callbacks=[tensorBoardCallback], batch_size=64)

Epoch 1/3
Instructions for updating:
use `tf.profiler.experimental.stop` instead.
Epoch 2/3
Epoch 3/3


<tensorflow.python.keras.callbacks.History at 0x1dabf935dc0>

***Obtain training accuracy score***

In [15]:
# Evaluation on the train set
scores = model.evaluate(X_train, y_train, verbose=0)
print('Accuracy: {:.2f}%'.format(scores[1]*100))

Accuracy: 98.94%


***Obtain testing accuracy score***

In [16]:
# Evaluation on the test set
scores = model.evaluate(X_test, y_test, verbose=0)
print('Accuracy: {:.2f}%'.format(scores[1]*100))

Accuracy: 86.58%


## 개선 접근법의 문제점 이해
    - 사전 훈련 Word2Vec 또는 GloVe(global word vector, 전역 단어 모델) 모델을 사용해 단어 벡터를 생성할 수 있다
    - LSTM을 사용하는 반복적인 신경망을 사용해 더 나은 결과를 얻어야 한다