### RNN做情意分析

In [1]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

### 1.讀入深度學習套件

In [24]:
from tensorflow.keras.preprocessing import sequence
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Embedding
from tensorflow.keras.layers import LSTM
from tensorflow.keras.datasets import imdb

### 2.讀入數據

In [3]:
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=10000) 
#NLP:先讓電腦決定要學的「常用字」數量 (*這個數量可更改)

In [4]:
len(x_train)

25000

In [5]:
len(x_test)

25000

In [6]:
x_train[0] 
#第0筆資料(代表一則評論)，每個數字代表「一個字」，1號字代表他最常出現(frequency最高)

[1,
 14,
 22,
 16,
 43,
 530,
 973,
 1622,
 1385,
 65,
 458,
 4468,
 66,
 3941,
 4,
 173,
 36,
 256,
 5,
 25,
 100,
 43,
 838,
 112,
 50,
 670,
 2,
 9,
 35,
 480,
 284,
 5,
 150,
 4,
 172,
 112,
 167,
 2,
 336,
 385,
 39,
 4,
 172,
 4536,
 1111,
 17,
 546,
 38,
 13,
 447,
 4,
 192,
 50,
 16,
 6,
 147,
 2025,
 19,
 14,
 22,
 4,
 1920,
 4613,
 469,
 4,
 22,
 71,
 87,
 12,
 16,
 43,
 530,
 38,
 76,
 15,
 13,
 1247,
 4,
 22,
 17,
 515,
 17,
 12,
 16,
 626,
 18,
 2,
 5,
 62,
 386,
 12,
 8,
 316,
 8,
 106,
 5,
 4,
 2223,
 5244,
 16,
 480,
 66,
 3785,
 33,
 4,
 130,
 12,
 16,
 38,
 619,
 5,
 25,
 124,
 51,
 36,
 135,
 48,
 25,
 1415,
 33,
 6,
 22,
 12,
 215,
 28,
 77,
 52,
 5,
 14,
 407,
 16,
 82,
 2,
 8,
 4,
 107,
 117,
 5952,
 15,
 256,
 4,
 2,
 7,
 3766,
 5,
 723,
 36,
 71,
 43,
 530,
 476,
 26,
 400,
 317,
 46,
 7,
 4,
 2,
 1029,
 13,
 104,
 88,
 4,
 381,
 15,
 297,
 98,
 32,
 2071,
 56,
 26,
 141,
 6,
 194,
 7486,
 18,
 4,
 226,
 22,
 21,
 134,
 476,
 26,
 480,
 5,
 144,
 30,
 5535,
 18,

In [7]:
len(x_train[0]) #表示這一則評論總共有218個字

218

In [8]:
len(x_train[1]) #在此發現第二個人說的話和第一個人長度「不同」；RNN的能力

189

In [9]:
y_train[0] #1表示第一筆資料是「正評」

1

In [10]:
y_train[1] #0表第二筆資料是「負評」

0

### 3.資料處理

In [11]:
x_train = sequence.pad_sequences(x_train, maxlen=100) #讓大家變成一樣長 (數字可修改)
x_test = sequence.pad_sequences(x_test, maxlen=100) 
#RNN(ex.對話機器人)雖然可以不定長度輸入、輸出，但是numpy的array無法接受每個資料長度不同，因此需要把大家調整成一樣長

### 4. Step01:打造一個函數學習機

In [18]:
model = Sequential()

In [19]:
model.add(Embedding(10000, 128)) #(可以改) Embedding是一種layer->將10000維壓成128維(希望把資料量壓小)

In [20]:
model.add(LSTM(128, dropout=0.2, recurrent_dropout=0.2)) #LSTM層128的數字可以改(*和上面那個無關!)
#tanh, gate那些都不用改，所以不用寫出來
#深度學習技巧:dropout (想像成要避免一群人分配誰特別學習哪一道題目<在可能考題已知情況下>，每個人都只會做一題，到最後大家都能會)
#  神經網路也會有這種類型的背答案方法
#dropout就是設定每次學習時，有若干百分比的同學「不可以參加」；是隨機的，無法確定說最後是誰要進來參與回答問題，逼著大家都要認真學習

In [21]:
model.add(Dense(1, activation='sigmoid')) #學習、輸出「一個」0-1之間的數字就可以->sigmoid

In [22]:
model.compile(loss='binary_crossentropy', #分類型問題可以使用此loss function(只有0跟1)
             optimizer='adam', #變數和momentum的改善都有
             metrics=['accuracy'])

In [23]:
model.summary()

Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_1 (Embedding)      (None, None, 128)         1280000   
_________________________________________________________________
lstm_1 (LSTM)                (None, 128)               131584    
_________________________________________________________________
dense_1 (Dense)              (None, 1)                 129       
Total params: 1,411,713
Trainable params: 1,411,713
Non-trainable params: 0
_________________________________________________________________


In [1]:
(128+128+1)*4*128
#(1個LSTM的小神經元要調的參數量*4個小神經元<3個gate和C-telta那個>)再*128個LSTM
### *不要把壓縮的維度和LSTM神經元數量設成一樣會比較好理解

#LSTM層有128個，亦即hidden state有128個(自己回傳的和其他127個分享的)，加上原本的input在embedding被我們壓成128維
#因此每個「總輸入」有128+128+1(bias)->1個LSTM層裡面的1個gate要做的事! 再一起乘上4 (3個gate+ C-telta=像4個小神經元，都包在LSTM裡) 

131584

### 5.Step02:訓練

In [40]:
model.fit(x_train, y_train, batch_size=32, epochs=10,
         validation_data=(x_test, y_test)) 
#validation: 告訴我目前的誤差、用測試資料去算誤差(沒有參與訓練)。依測試資料的狀況，可幫助看什麼時候要調整。
# 不用擔心洩題，因為測試資料沒有參與

Train on 25000 samples, validate on 25000 samples
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x2150b369f48>

In [41]:
model_json = model.to_json()
open('imdb_model_architecture.json', 'w').write(model_json)
model.save_weights('imdb_model_weights.h5') #存取權重