## 初始準備

In [62]:
%env KERAS_BACKEND=tensorflow

env: KERAS_BACKEND=tensorflow


In [63]:
%matplotlib inline

import numpy as np
import matplotlib.pyplot as plt

## 讀入 IMDB 電影數據庫

In [64]:
from keras.datasets import imdb

In [65]:
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=10000)

要注意這裡我們限制只選「最常用」1 萬字, 也就是超過這範圍的就當不存在。這是文字分析常會做的事。

In [66]:
print('訓練總筆數:', len(x_train))
print('測試總筆數:', len(x_test))

訓練總筆數: 25000
測試總筆數: 25000


### 送入神經網路的輸入處理

雖然 RNN 是可以處理不同長度的輸入, 在寫程式時我們還是要

* 設輸入文字長度的上限
* 把每段文字都弄成一樣長, 太短的後面補上 0

In [67]:
from keras.preprocessing import sequence

In [68]:
x_train = sequence.pad_sequences(x_train, maxlen=150)
x_test = sequence.pad_sequences(x_test, maxlen=150)

In [69]:
x_train.shape

(25000, 150)

## 以LSTM打造RNN

### 決定神經網路架構

* 先將 10000 維的文字壓到 N 維
* 然後用 K 個 LSTM 神經元做隱藏層
* 最後一個 output, 直接用 sigmoid 送出

### 建構神經網路

文字我們用 1-hot 表示是很標準的方式, 不過要注意的是, 因為我們指定要 1 萬個字, 所以每個字是用 1 萬維的向量表示! 這一來很浪費記憶空間, 二來字和字間基本上是沒有關係的。我們可以用某種「合理」的方式, 把字壓到比較小的維度, 這些向量又代表某些意思 (比如說兩個字代表的向量角度小表相關程度大) 等等。

這聽來很複雜的事叫 "word embedding", 而事實上 Keras 會幫我們做。我們只需告訴 Keras 原來最大的數字是多少 (10000), 還有我們打算壓到幾維 (N)。

In [165]:
from keras.models import Sequential
from keras.layers import Dense, Embedding
from keras.layers import LSTM
from keras.layers import Dropout

In [182]:
N = 7 # 文字要壓到 N 維
K = 50 # LSTM 有 K 個神經元

In [183]:
model = Sequential()

In [184]:
model.add(Embedding(10000, N))

LSTM 層, 我們做 K 個 LSTM Cells。

In [185]:
model.add(Dropout(0.2))
model.add(LSTM(K))

單純透過 sigmoid 輸出。

In [None]:
model.add(Dense(1, activation='sigmoid'))

### 組裝

這次我們用 binary_crossentropy 做我們的 loss function, 另外用一個很潮的 Adam 學習法。

In [None]:
model.compile(loss='binary_crossentropy',
             optimizer='adam',
             metrics=['accuracy'])

In [None]:
model.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_13 (Embedding)     (None, None, 7)           70000     
_________________________________________________________________
dropout_2 (Dropout)          (None, None, 7)           0         
_________________________________________________________________
lstm_18 (LSTM)               (None, 50)                11600     
_________________________________________________________________
dense_16 (Dense)             (None, 1)                 51        
Total params: 81,651
Trainable params: 81,651
Non-trainable params: 0
_________________________________________________________________


## 訓練

In [None]:
model.fit(x_train, y_train,
         batch_size=24,
         epochs=3)

Epoch 1/3

## 檢視結果

### 分數

我們照例來看看測試資料的分數。

In [None]:
score = model.evaluate(x_test, y_test)

In [None]:
print(f'測試資料的 loss = {score[0]}')
print(f'測試資正確率 = {score[1]}')

### 儲存結果



In [None]:
model_json = model.to_json()
open('imdb_model_arch.json',
     'w').write(model_json)
model.save_weights('imdb_model_weights.h5')