>**訳注**：このnotebookは，Udacityの[Deep learning nanodegreeの公開教材](https://github.com/udacity/deep-learning)を和訳するプロジェクトの一環として，[Sentiment analysis with RNN](https://github.com/haltaro/deep-learning-in-japanese/blob/master/sentiment-rnn/Sentiment_RNN_Solution.ipynb)を翻訳したものです（**Exercise**は翻訳対象外です）．本プロジェクトのnotebook一覧は[こちら](https://haltaro.github.io/deep-learning-in-japanese/)．

# RNNで評判分析

このnotebookでは，recurrent neural network（RNN）を実装して評判分析を行います．単なるfeedfoward networkに比べて，RNNは単語の**連続性**に関する情報を保持できるため，より優れた性能が期待できます．ここでは，ラベル付きの映画レビューをデータセットとして用います．

>**訳注**：feedfoward networkを用いた評判分析については，[TFLearnで評判分析](https://github.com/haltaro/deep-learning-in-japanese/blob/master/intro-to-tflearn/TFLearn_Sentiment_Analysis_Solution_j.ipynb)（[Sentiment analysis with TFLearn](https://github.com/haltaro/deep-learning-in-japanese/blob/master/intro-to-tflearn/TFLearn_Sentiment_Analysis_Solution.ipynb)）をご参照ください．

下図は，ネットワークの構造を示します．

![network_diagram](assets/network_diagram.png)

ご覧のように，単語を埋め込み層（embedding layer）に入力しています．今回は大量の単語を処理する必要があるため，one-hot encodingより遥かに効率的な単語表現が可能な，埋め込み層が必要なのです．埋め込み層については，[Skip-gram word2vec](https://github.com/haltaro/deep-learning-in-japanese/blob/master/embeddings/Skip-Grams-Solution_j.ipynb)（[Skip-gram word2vec](https://github.com/haltaro/deep-learning-in-japanese/blob/master/embeddings/Skip-Grams-Solution.ipynb)）をご参照ください．実際，word2vecで埋め込み層を訓練したあとで，評判分析に使うことができます．しかし，事前訓練無しで埋め込み層を利用しても，十分な性能が得られます．

埋め込み層は，処理済みの単語情報をLSTMセルに渡します．再帰的接続を内包するLSTMセルにより，ネットワークは単語の連続性に関する情報を保持できるようになります．最後に，LSTMセルを出力層に接続します．今回の目的はレビューの`positive`/`negative`予測ですので，sigmoidを活性化関数として用います．よって出力層は，sigmoidで活性される，ただ一つのユニットからなります．

最後のノード以外は必要ないので，出力層の他のノードの出力は無視します．訓練用ラベルと最後の出力をもとに，コストを計算します．

In [29]:
import numpy as np
import tensorflow as tf

In [30]:
with open('../sentiment-network/reviews.txt', 'r') as f:
    reviews = f.read()
with open('../sentiment-network/labels.txt', 'r') as f:
    labels = f.read()

In [31]:
reviews[:2000]

'bromwell high is a cartoon comedy . it ran at the same time as some other programs about school life  such as  teachers  . my   years in the teaching profession lead me to believe that bromwell high  s satire is much closer to reality than is  teachers  . the scramble to survive financially  the insightful students who can see right through their pathetic teachers  pomp  the pettiness of the whole situation  all remind me of the schools i knew and their students . when i saw the episode in which a student repeatedly tried to burn down the school  i immediately recalled . . . . . . . . . at . . . . . . . . . . high . a classic line inspector i  m here to sack one of your teachers . student welcome to bromwell high . i expect that many adults of my age think that bromwell high is far fetched . what a pity that it isn  t   \nstory of a man who has unnatural feelings for a pig . starts out with a opening scene that is a terrific example of absurd comedy . a formal orchestra audience is tu

## 前処理

ニューラルネットワークのモデル構築における最初のステップは，データを適切なフォーマットに変換することです．埋め込み層に入力するため，各単語を整数値に変換する必要があります．加えて，多少データを整形します．

上記は，レビューデータの例です．まず，ピリオドを取り除く必要がありそうです．また，`\n`による改行で，レビュー同士が区切られていることにお気づきでしょう．そこで，`\n`をデリミタとして個別のレビューに分解します．次に，全てのレビューを結合し，一つの大きな文字列を作成します．

まず，全ての句読点を削除します．次に，全ての改行を削除し，単語ごとに分解します．

In [32]:
from string import punctuation
all_text = ''.join([c for c in reviews if c not in punctuation])
reviews = all_text.split('\n')

all_text = ' '.join(reviews)
words = all_text.split()

In [33]:
all_text[:2000]

'bromwell high is a cartoon comedy  it ran at the same time as some other programs about school life  such as  teachers   my   years in the teaching profession lead me to believe that bromwell high  s satire is much closer to reality than is  teachers   the scramble to survive financially  the insightful students who can see right through their pathetic teachers  pomp  the pettiness of the whole situation  all remind me of the schools i knew and their students  when i saw the episode in which a student repeatedly tried to burn down the school  i immediately recalled          at           high  a classic line inspector i  m here to sack one of your teachers  student welcome to bromwell high  i expect that many adults of my age think that bromwell high is far fetched  what a pity that it isn  t    story of a man who has unnatural feelings for a pig  starts out with a opening scene that is a terrific example of absurd comedy  a formal orchestra audience is turned into an insane  violent m

In [34]:
words[:100]

['bromwell',
 'high',
 'is',
 'a',
 'cartoon',
 'comedy',
 'it',
 'ran',
 'at',
 'the',
 'same',
 'time',
 'as',
 'some',
 'other',
 'programs',
 'about',
 'school',
 'life',
 'such',
 'as',
 'teachers',
 'my',
 'years',
 'in',
 'the',
 'teaching',
 'profession',
 'lead',
 'me',
 'to',
 'believe',
 'that',
 'bromwell',
 'high',
 's',
 'satire',
 'is',
 'much',
 'closer',
 'to',
 'reality',
 'than',
 'is',
 'teachers',
 'the',
 'scramble',
 'to',
 'survive',
 'financially',
 'the',
 'insightful',
 'students',
 'who',
 'can',
 'see',
 'right',
 'through',
 'their',
 'pathetic',
 'teachers',
 'pomp',
 'the',
 'pettiness',
 'of',
 'the',
 'whole',
 'situation',
 'all',
 'remind',
 'me',
 'of',
 'the',
 'schools',
 'i',
 'knew',
 'and',
 'their',
 'students',
 'when',
 'i',
 'saw',
 'the',
 'episode',
 'in',
 'which',
 'a',
 'student',
 'repeatedly',
 'tried',
 'to',
 'burn',
 'down',
 'the',
 'school',
 'i',
 'immediately',
 'recalled',
 'at',
 'high']

### 単語の変換

埋め込み層には，単語を整数として入力する必要があります．最も簡単な方法は，vocabulary中の単語と整数を紐付ける辞書型を作成することです．これにより，レビューデータを整数列に変換し，ネットワークに入力することができます．

In [35]:
from collections import Counter
counts = Counter(words)
vocab = sorted(counts, key=counts.get, reverse=True)
vocab_to_int = {word: ii for ii, word in enumerate(vocab, 1)}

reviews_ints = []
for each in reviews:
    reviews_ints.append([vocab_to_int[word] for word in each.split()])

### ラベルの変換

データセットのラベルは，`positive`と`negative`です．ネットワークで使うためには，これらを0と1に変換する必要があります．

In [36]:
labels = labels.split('\n')
labels = np.array([1 if each == 'positive' else 0 for each in labels])

In [37]:
review_lens = Counter([len(x) for x in reviews_ints])
print("Zero-length reviews: {}".format(review_lens[0]))
print("Maximum review length: {}".format(max(review_lens)))

Zero-length reviews: 1
Maximum review length: 2514


むむむ．長さ0のレビューがある一方で，RNNに入力するにはあまりに長いレビューもあります．長さを200に統一しましょう．200以下の長さのレビューは，不足分を0で埋めましょう．200以上の長さのレビューは，最初の200単語のみ利用しましょう．

In [38]:
non_zero_idx = [ii for ii, review in enumerate(reviews_ints) if len(review) != 0]
len(non_zero_idx)

25000

In [41]:
reviews_ints[-1]

[]

最後のレビューの長さが0であることがわかりました．たまたまかもしれませんので，汎用性のある方法で対処しましょう．

In [42]:
reviews_ints = [reviews_ints[ii] for ii in non_zero_idx]
labels = np.array([labels[ii] for ii in non_zero_idx])

> **Excersize**：さて，入力データを格納する配列`features`を作成しましょう．単語そのものではなく整数値を利用したいので，`review_ints`をもとに入力データを整形します．各列の長さは200です．200単語以下のレビューは，0を左側に詰めましょう．例えば，レビューが`['best', 'movie', 'ever']`で，整数列で表すと`[117, 18, 128]`の場合は，当該列は`[0, 0, 0, ..., 0, 117, 18, 128]`のようになります．200単語以上のレビューは，最初の200単語のみを入力データとして利用しましょう．

これは簡単な仕事ではありませんし，様々な実装がありえます．しかし，もしあなたが独自のdeep learning networkを構築したいのであれば，データ整形は避けては通れません．

> **訳注**：今回は構成上必要だったので翻訳しましたが，基本的に**Excercise**は翻訳対象外です（大変なので）．

In [1]:
seq_len = 200
features = np.zeros((len(reviews_ints), seq_len), dtype=int)
for i, row in enumerate(reviews_ints):
    features[i, -len(row):] = np.array(row)[:seq_len]

NameError: name 'np' is not defined

In [47]:
features[:10,:100]

array([[    0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0, 21025,   308,     6,
            3,  1050,   207,     8,  2138,    32,     1,   171,    57,
           15,    49,    81,  5785,    44,   382,   110,   140,    15,
         5194,    60,   154,     9,     1,  4975,  5852,   475,    71,
            5,   260,    12, 21025,   308,    13,  1978,     6,    74,
         2395],
       [    0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     0,     0,
            0,     0,     0,     0,     0,     0,     0,     

## 訓練，検証，テスト

整形が終わったら，データを訓練用と検証用とテスト用に分割しましょう．

In [48]:
split_frac = 0.8
split_idx = int(len(features)*0.8)
train_x, val_x = features[:split_idx], features[split_idx:]
train_y, val_y = labels[:split_idx], labels[split_idx:]

test_idx = int(len(val_x)*0.5)
val_x, test_x = val_x[:test_idx], val_x[test_idx:]
val_y, test_y = val_y[:test_idx], val_y[test_idx:]

print("\t\t\tFeature Shapes:")
print("Train set: \t\t{}".format(train_x.shape), 
      "\nValidation set: \t{}".format(val_x.shape),
      "\nTest set: \t\t{}".format(test_x.shape))

			Feature Shapes:
Train set: 		(20000, 200) 
Validation set: 	(2500, 200) 
Test set: 		(2500, 200)


訓練用，検証用，テスト用に0.8，0.1，0.1の割合で分割すると，最終的には以下のような形になります．

```
                    Feature Shapes:
Train set: 		 (20000, 200) 
Validation set: 	(2500, 200) 
Test set: 		  (2500, 200)
```

## グラフ構築

ここでは，グラフを構築します．まず，ハイパーパラメータを定義します．

* `lstm_size`：LSTM層のユニット数です．大きいほど性能が良くなります．128，256，512等がよく使われます．
* `lstm_layers`：LSTM層の層数です．1からはじめ，過学習する直前まで増加させます．
* `batch_size`：1回の訓練で入力するレビュー数です．メモリを使い果たさない程度に大きくしましょう．
* `learning_rate`：学習率です．

In [31]:
lstm_size = 256
lstm_layers = 1
batch_size = 500
learning_rate = 0.001

各バッチでは，要素数200のword vectorを`batch_size`個まとめてネットワークに入力します．LSTM層でドロップアウトを使うので，keep probabilityを保持するplaceholderが必要です．

In [32]:
n_words = len(vocab_to_int)

# Create the graph object
graph = tf.Graph()
# Add nodes to the graph
with graph.as_default():
    inputs_ = tf.placeholder(tf.int32, [None, None], name='inputs')
    labels_ = tf.placeholder(tf.int32, [None, None], name='labels')
    keep_prob = tf.placeholder(tf.float32, name='keep_prob')

### 埋め込み

まず，埋め込み層を作成します．前述したように，今回は大量の単語を処理する必要があるため，one-hot encodingより遥かに効率的な単語表現が可能な，埋め込み層が必要なのです．埋め込み層については，[Skip-gram word2vec](https://github.com/haltaro/deep-learning-in-japanese/blob/master/embeddings/Skip-Grams-Solution_j.ipynb)（[Skip-gram word2vec](https://github.com/haltaro/deep-learning-in-japanese/blob/master/embeddings/Skip-Grams-Solution.ipynb)）をご参照ください．word2vecで埋め込み層を訓練したあとで，評判分析に使うことができます．しかし，事前訓練無しで埋め込み層を利用しても，十分な性能が得られます．

In [33]:
# Size of the embedding vectors (number of units in the embedding layer)
embed_size = 300 

with graph.as_default():
    embedding = tf.Variable(tf.random_uniform((n_words, embed_size), -1, 1))
    embed = tf.nn.embedding_lookup(embedding, inputs_)

### LSTM cell

![network_diagram](assets/network_diagram.png)

次に，recurrent network（[TensorFlow documentation](https://www.tensorflow.org/api_docs/python/tf/contrib/rnn)）でお馴染みのLSTMセルを作成します．
実際には，グラフを構築するというより，グラフに組み込むセルのタイプを指定するだけです．

`tf.contrib.rnn.BasicLSTMCell`により，基本的なLSTMセルを作成することができます．ドキュメントによると，以下のようなパラメータを持ちます．

```
tf.contrib.rnn.BasicLSTMCell(num_units, forget_bias=1.0, input_size=None, state_is_tuple=True, activation=<function tanh at 0x109f1ef28>)
```

パラメータ`num_units`は，セル中のユニット数であり，今回の実装では`lstm_size`に該当します．例えば，`num_units`個のユニットを持つLSTMセルを作成したい場合は，以下のように書くことができます．

```
lstm = tf.contrib.rnn.BasicLSTMCell(num_units)
```

次は，`tf.contrib.rnn.DropoutWrapper`でドロップアウトを追加します．入力および/あるいは出力へのドロップアウトの追加を，簡単に実装できます．ほとんど労力をかけずに性能向上が可能な，とても便利な仕組みです！例えば，以下のように書くことができます．

```
drop = tf.contrib.rnn.DropoutWrapper(cell, output_keep_prob=keep_prob)
```

ほとんどの場合，層数が多いほどネットワークの性能は良くなります．これはまさにDeep learningの真髄ですが，層数を追加することで，非常に複雑な関係を学習可能になるのです．`tf.contrib.rnn.MultiRNNCell`を使えば，簡単に複数のLSTM層を作成できます．

```
cell = tf.contrib.rnn.MultiRNNCell([drop] * lstm_layers)
```

ここで，`[drop] * lstm_layers`は，長さ`lstm_layers`のセル（`drop`）リストを作成します．ラッパー`MultiRNNCell`はリスト中の各セルを結合し，複数層のRNNセルを作成します．

> **訳注**：上記だとエラーがでることがあります．[stack overflow](https://stackoverflow.com/questions/43957967/tensorflow-v1-1-0-multi-rnn-basiclstmcell-error-reuse-parameter-python-3-5)を参考に，下記のように書き換えるとうまく行きました．

```python3
def lstm_cell(num_units, keep_prob):
    cell = tf.contrib.rnn.BasicLSTMCell(num_units)
    return tf.contrib.rnn.DropoutWrapper(cell, output_keep_prob=keep_prob)

cell = tf.contrib.rnn.MultiRNNCell(
    [lstm_cell(num_units, keep_prob) for _ in range(lstm_layers)],
```

したがって，あなたが最終的に利用するのは，複数層（あるいは単層）のドロップアウト付きのLSTMセルです．しかし，これは，LSTMセル内部の複雑なグラフ構造を忠実に再現します．

> **訳注**：上記は「So the final cell you're using in the network is actually multiple (or just one) LSTM cells with dropout. But it all works the same from an achitectural viewpoint, just a more complicated graph in the cell.」の訳ですが，自信がないです…．なんのこっちゃ．

[a tutorial on building RNNs](https://www.tensorflow.org/tutorials/recurrent)は，実装の良いヒントとなるでしょう．

In [34]:
with graph.as_default():
    # Your basic LSTM cell
    lstm = tf.contrib.rnn.BasicLSTMCell(lstm_size)
    
    # Add dropout to the cell
    drop = tf.contrib.rnn.DropoutWrapper(lstm, output_keep_prob=keep_prob)
    
    # Stack up multiple LSTM layers, for deep learning
    cell = tf.contrib.rnn.MultiRNNCell([drop] * lstm_layers)
    
    # Getting an initial state of all zeros
    initial_state = cell.zero_state(batch_size, tf.float32)

### RNN順伝播

![network_diagram](assets/network_diagram.png)

さあ，[`tf.nn.dynamic_rnn`](https://www.tensorflow.org/api_docs/python/tf/nn/dynamic_rnn)を使って，実際にRNNにデータを流してみましょう．引数として，RNNセル（例えば複数層のLSTMセルである`cell`）と，ネットワークへの入力を渡します．

```
outputs, final_state = tf.nn.dynamic_rnn(cell, inputs, initial_state=initial_state)
```

ここでは，直前の隠れ層の状態`initial_state`を引数として渡します．`tf.nn.dynamic_rnn`は，ほとんど全てのことをやってくれます．`tf.nn.dynamic_rnn`は現在の出力値と，隠れ層の状態を返します．

In [35]:
with graph.as_default():
    outputs, final_state = tf.nn.dynamic_rnn(cell, embed,
                                             initial_state=initial_state)

### 出力

評判分析に必要なのは，最後のユニットの出力のみです．よって，`outputs[:, -1]`で出力値を取得し，`labels_`と比較してコストを計算します．

In [36]:
with graph.as_default():
    predictions = tf.contrib.layers.fully_connected(outputs[:, -1], 1, activation_fn=tf.sigmoid)
    cost = tf.losses.mean_squared_error(labels_, predictions)
    
    optimizer = tf.train.AdamOptimizer(learning_rate).minimize(cost)

### 検証精度（Validation accuracy）

ここでは，検証精度の評価に必要なノードを追加します．

In [37]:
with graph.as_default():
    correct_pred = tf.equal(tf.cast(tf.round(predictions), tf.int32), labels_)
    accuracy = tf.reduce_mean(tf.cast(correct_pred, tf.float32))

### バッチ生成

以下は，バッチ生成のための簡単な関数です．まず，全てのバッチのサイズが`batch_size`となるよう，不要なデータを除外します．次に，配列`x`および`y`について，逐次`[batch_size]`個の要素をスライスして返します．

In [38]:
def get_batches(x, y, batch_size=100):
    
    n_batches = len(x)//batch_size
    x, y = x[:n_batches*batch_size], y[:n_batches*batch_size]
    for ii in range(0, len(x), batch_size):
        yield x[ii:ii+batch_size], y[ii:ii+batch_size]

## 訓練

以下は，典型的な訓練用のコードです．もしお望みであれば，以下を全部削除してゼロから書き直して構いません．実行する前に，`checkpoints`ディレクトリが存在することを確認してください．

In [None]:
epochs = 10

with graph.as_default():
    saver = tf.train.Saver()

with tf.Session(graph=graph) as sess:
    sess.run(tf.global_variables_initializer())
    iteration = 1
    for e in range(epochs):
        state = sess.run(initial_state)
        
        for ii, (x, y) in enumerate(get_batches(train_x, train_y, batch_size), 1):
            feed = {inputs_: x,
                    labels_: y[:, None],
                    keep_prob: 0.5,
                    initial_state: state}
            loss, state, _ = sess.run([cost, final_state, optimizer], feed_dict=feed)
            
            if iteration%5==0:
                print("Epoch: {}/{}".format(e, epochs),
                      "Iteration: {}".format(iteration),
                      "Train loss: {:.3f}".format(loss))

            if iteration%25==0:
                val_acc = []
                val_state = sess.run(cell.zero_state(batch_size, tf.float32))
                for x, y in get_batches(val_x, val_y, batch_size):
                    feed = {inputs_: x,
                            labels_: y[:, None],
                            keep_prob: 1,
                            initial_state: val_state}
                    batch_acc, val_state = sess.run([accuracy, final_state], feed_dict=feed)
                    val_acc.append(batch_acc)
                print("Val acc: {:.3f}".format(np.mean(val_acc)))
            iteration +=1
    saver.save(sess, "checkpoints/sentiment.ckpt")

## テスト

In [47]:
test_acc = []
with tf.Session(graph=graph) as sess:
    saver.restore(sess, tf.train.latest_checkpoint('checkpoints'))
    test_state = sess.run(cell.zero_state(batch_size, tf.float32))
    for ii, (x, y) in enumerate(get_batches(test_x, test_y, batch_size), 1):
        feed = {inputs_: x,
                labels_: y[:, None],
                keep_prob: 1,
                initial_state: test_state}
        batch_acc, test_state = sess.run([accuracy, final_state], feed_dict=feed)
        test_acc.append(batch_acc)
    print("Test accuracy: {:.3f}".format(np.mean(test_acc)))

Test accuracy: 0.830
