# RNN

RNN 是一種有記憶的神經網路，非常適合時間序列，或是不定長度的輸入資料。

這次來用RNN做情意分析

In [1]:
%env KERAS_BACKEND = tensorflow

env: KERAS_BACKEND=tensorflow


In [2]:
%matplotlib inline

import numpy as mp
import matplotlib.pyplot as plt

# 讀入 IMDB 電影數據庫
評 IMDB 電影數據庫影評

In [3]:
from keras.datasets import imdb

  from ._conv import register_converters as _register_converters
Using TensorFlow backend.


In [4]:
(x_train, y_train),(x_test,y_test) = imdb.load_data(num_words=10000)

注意這裡我們限制只選最常用的一萬字，也就是超過這個範圍就當不存在。這是文字分析常會做的事。

## 輸入資料部分
看一下輸入長什麼樣子

In [5]:
print("Training data:",len(x_train))
print("Testing data:",len(x_test))

Training data: 25000
Testing data: 25000


In [6]:
x_train[24999]

[1,
 17,
 6,
 194,
 337,
 7,
 4,
 204,
 22,
 45,
 254,
 8,
 106,
 14,
 123,
 4,
 2,
 270,
 2,
 5,
 2,
 2,
 732,
 2098,
 101,
 405,
 39,
 14,
 1034,
 4,
 1310,
 9,
 115,
 50,
 305,
 12,
 47,
 4,
 168,
 5,
 235,
 7,
 38,
 111,
 699,
 102,
 7,
 4,
 4039,
 9245,
 9,
 24,
 6,
 78,
 1099,
 17,
 2345,
 2,
 21,
 27,
 9685,
 6139,
 5,
 2,
 1603,
 92,
 1183,
 4,
 1310,
 7,
 4,
 204,
 42,
 97,
 90,
 35,
 221,
 109,
 29,
 127,
 27,
 118,
 8,
 97,
 12,
 157,
 21,
 6789,
 2,
 9,
 6,
 66,
 78,
 1099,
 4,
 631,
 1191,
 5,
 2642,
 272,
 191,
 1070,
 6,
 7585,
 8,
 2197,
 2,
 2,
 544,
 5,
 383,
 1271,
 848,
 1468,
 2,
 497,
 2,
 8,
 1597,
 8778,
 2,
 21,
 60,
 27,
 239,
 9,
 43,
 8368,
 209,
 405,
 10,
 10,
 12,
 764,
 40,
 4,
 248,
 20,
 12,
 16,
 5,
 174,
 1791,
 72,
 7,
 51,
 6,
 1739,
 22,
 4,
 204,
 131,
 9]

這是一個list而非array，因為每筆資料(影評)長度是不一樣的，我們來檢查一下前10筆資料的長度。

In [7]:
for i in range(10):
    print(f'第{i+1}筆資料長度:',len(x_train[i]))

第1筆資料長度: 218
第2筆資料長度: 189
第3筆資料長度: 141
第4筆資料長度: 550
第5筆資料長度: 147
第6筆資料長度: 43
第7筆資料長度: 123
第8筆資料長度: 562
第9筆資料長度: 233
第10筆資料長度: 130


最後要說的是，每筆輸入資料的數字都代表英文的一個單字，編號方式是資料庫裡所有文字的排序，出現頻率越高的字，數字代碼越小
## 輸出資料部分
輸出方面比較簡單，結果就是正評(1)與負評(0)

In [8]:
y_train[:10]

array([1, 0, 0, 1, 0, 0, 1, 0, 1, 0], dtype=int64)

## 送入神經網路的輸入處理
雖然RNN可以處理不同長度的輸入，在寫程式時我們還是要
* 設定輸入文字的長度上限
* 把每段文字都弄成一樣長，太短的後面補0，太長的截斷

因為長度一定才能將資料轉換成array的結構，方便訓練

In [9]:
from keras.preprocessing import sequence

In [10]:
x_train = sequence.pad_sequences(x_train, maxlen=150)
x_test = sequence.pad_sequences(x_test, maxlen=150)

In [11]:
x_train.shape

(25000, 150)

# 開始打造RNN
這裡選用LSTM，基本上用哪種RNN寫法都是差不多的!
## 決定神經網路架構
* 先將10000維的文字壓縮到N維
* 然後用K個LSTM神經元座隱藏層
* 最後一個output用sigmoid送出



## 建構神經網路
文字用 1-hot 表示是很標準的方式，不過要注意的是，因為我們指定要一萬個字，所以每個字是用一萬維的向量表示!

這樣一來很浪費記憶空間，二來字與字間基本上是沒關係的。因此我們可以用某種合理的方式，把字壓到比較小的維度，這些向量又逮表某些意思(比如兩個字代表的向量角度小表示相關程度大)

這叫做"word embedding"，keras會幫我們做。我們只需要告訴keras原來最大的數字是多少(10000)，以及要壓縮到幾維(N)。

In [12]:
N = 3 # 壓縮到 N 維
K = 4 # LSTM 的神經元數量

In [13]:
from keras.models import Sequential
from keras.layers import Dense, Embedding
from keras.layers import LSTM

In [14]:
model = Sequential()

In [15]:
model.add(Embedding(10000,N))

LSTM 層，我們做 K 個 LSTM Cells.

In [16]:
model.add(LSTM(K))

單純透過 sigmoid 輸出

In [17]:
model.add(Dense(1, activation='sigmoid'))

## 組裝
這次我們用 binary_crossentropy 做我們的 loss function，再加上 Adam 學習法

In [18]:
model.compile(loss = 'binary_crossentropy',
             optimizer='adam',
             metrics=['accuracy'])

In [19]:
model.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_1 (Embedding)      (None, None, 3)           30000     
_________________________________________________________________
lstm_1 (LSTM)                (None, 4)                 128       
_________________________________________________________________
dense_1 (Dense)              (None, 1)                 5         
Total params: 30,133
Trainable params: 30,133
Non-trainable params: 0
_________________________________________________________________


LSTM parameters = 128 = (4*7+4(bias))*(K=4)

一個LSTM Neural裡面，有4個子神經元，一個做標準神經元的輸出，其他三個是管控輸出的閘門，控制閥的標準型是 sigmoid 。

每個LSTM cell 有 3+4 個 input(N+隱藏層)

## 訓練
Embedding 會被 batch_size 影響輸入，輸入的shape是(batch_size, 每筆上限)
也就是(32,150)的輸出是(32,150,128)，其中128是我們決定要壓成幾維的向量。

In [21]:
model.fit(x_train,y_train,
         batch_size=32,
         epochs=5)  # epochs 是訓練次數

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x1502ec9e278>

In [22]:
score = model.evaluate(x_test,y_test)



In [23]:
print('loss:',score[0])
print('accuracy',score[1])

loss: 0.3757927942562103
accuracy 0.85552
