### データセットのインポート

In [11]:
import pyprind
import pandas as pd
from string import punctuation
import re
import numpy as np

df = pd.read_csv('movie_data.csv', encoding='utf-8')
print(df.head(3))

                                              review  sentiment
0  I went and saw this movie last night after bei...          1
1  Actor turned director Bill Paxton follows up h...          1
2  As a recreational golfer with some knowledge o...          1


### テキストを一連の整数に変換する

In [20]:
from collections import Counter

# 単語に分割して各単語の出現回数をカウント
# punctuationが入っていれば前後の文字も1つの単語としてカウント
# punctuation :: !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~.
counts = Counter()

for i,review in enumerate(df['review']):
    text = ''.join([c if c not in punctuation else ''+c+'' for c in review]).lower()
    df.loc[i, 'review'] = text
    counts.update(text.split())

In [49]:
# カウンタークラスの検証
c = Counter()
c.update(['a','b','c'])
print(c)
c.update(['a','b','c'])
print(c)

Counter({'a': 1, 'b': 1, 'c': 1})
Counter({'a': 2, 'b': 2, 'c': 2})


In [63]:
# マッピングを作成
# 一意な単語をそれぞれ整数にマッピング

# カウンタを多い順にソート
word_counts = sorted(counts, key=counts.get, reverse=True)
print(word_counts[:5])

# 出現数が多いものから順番に1～インデックスをはる
# 辞書型
word_to_int = {word: ii for ii, word in enumerate(word_counts, 1)} # インデックスの取得を1から
print(word_to_int["and"])

# REVIEWの文章に単語の出現順位をマップしていく
mapped_reviews = []

for review in df['review']:
    mapped_reviews.append([word_to_int[word] for word in review.split()])

['the', 'a', 'and', 'of', 'to']
3


### 長さを整える

In [65]:
# RNNは入力が同じ長さでないとだめ
# sequence_length以下の場合 :: 左側を0パディング
# sequence_length以上の場合 :: 左の数字を省略
sequence_length = 200
sequences = np.zeros((len(mapped_reviews), sequence_length), dtype=int)
for i, row in enumerate(mapped_reviews):
    review_arr = np.array(row)
    sequences[i, -len(row):] = review_arr[-sequence_length:] # 後ろから〇〇個の要素を取得

### データ

In [68]:
# データを訓練用とテスト用に分ける
X_train = sequences[:25000, :]
y_train = df.loc[:25000, 'sentiment'].values
X_test = sequences[25000:, :]
y_test = df.loc[25000:, 'sentiment'].values

### ミニバッチ

In [70]:
# ミニバッチ用の関数を定義
def create_batch_generator(x, y=None, batch_size=64):
    # 整数の商を取得
    n_batches = len(x)//batch_size
    
    # 対象の数字までをスライス
    x= x[:n_batches*batch_size]
    
    if y is not None:
        y = y[:n_batches*batch_size]
    for ii in range(0, len(x), batch_size):
        if y is not None:
            yield x[ii:ii+batch_size], y[ii:ii+batch_size]
        else:
            yield x[ii:ii+batch_size]

### 埋め込み(一意な単語をベクトルで表現)

In [75]:
# 埋め込み(一意な単語をベクトルで表現)
embedding = tf.Variable(
    tf.random_uniform(shape=(n_words, embedding_size),minval=1,maxval=1))
# 一意な単語に対応するベクトルを特定
embed_x = tf.nn.embedding_lookup(embedding, tf_x)

### RNNモデルの構築

In [73]:
import tensorflow.compat.v1 as tf
tf.disable_v2_behavior()
import numpy as np

Instructions for updating:
non-resource variables are not supported in the long term


In [None]:
### 構成は以下 ###
# コンストラクタ
# buildメソッド
# trainメソッド
# predictメソッド

class SentimentRNN(object):
    def __init__(self
                 , n_words
                 , seq_len=200
                 ,lstm_size=256
                 , num_layers=1
                 , batch_size=64
                 ,learning_rate=0.0001
                 , embed_size=200):
            
        self.n_words = n_words              # 一意な単語の数
        self.seq_len = seq_len              # sequenceの長さ
        self.lstm_size = lstm_size          # 隠れユニットの個数
        self.num_layers = num_layers        # レイヤー数
        self.batch_size = batch_size        # バッチサイズ
        self.learning_rate = learning_rate  # 学習率
        self.embed_size = embed_size        # 一意な単語を表現するためのベクトルの箱数

        # 計算グラフを作成
        self.g = tf.Graph()
        with self.g.as_default():
            tf.set_random_seed(123)
            self.build()
            self.saver = tf.train.Saver()
            self.init_op = tf.global_variables_initializer()
    
    def build(self):
        # 各プレースホルダーを定義
        # 入力データ
        tf_x = tf.placeholder(
            tf.int32
            ,shape=(self.batch_size, self.seq_len)
            ,name='tf_x')
        # 入力ラベル
        tf_y = tf.placeholder(
            tf.float32
            ,shape=(self.batch_size)
            ,name='tf_y')
        # ドロップアウトのキープ率
        tf_keepprob = tf.placeholder(
            tf.float32
            ,name='tf_keepprob')
        
        # 埋め込み層を作成
        embedding = tf.Variable(
                    tf.random_uniform(
                        (self.n_words, self.embed_size),
                        minval=-1, maxval=1),
                    name='embedding')
        embed_x = tf.nn.embedding_lookup(
                    embedding, tf_x, 
                    name='embeded_x')
        
        # LSTMセル(長短期記憶)を定義し、積み上げる
        cells = tf.contrib.rnn.MultiRNNCell(
                [tf.contrib.rnn.DropoutWrapper(
                   tf.contrib.rnn.BasicLSTMCell(self.lstm_size),
                   output_keep_prob=tf_keepprob)
                 for i in range(self.num_layers)])
        
        # LSTMの初期状態を定義(全て0を設定)
        self.initial_state = cells.zero_state(self.batch_size, tf.float32)
        print('  << initial state >> ', self.initial_state)
        
        # LSTMのアウトプットと最終状態
        lstm_outputs, self.final_state = tf.nn.dynamic_rnn(
            cells
            ,embed_x
            ,initial_state=self.initial_state)
        
        print('\n  << lstm_output   >> ', lstm_outputs)      # バッチサイズ,最大時間,アウトプットサイズ
        print('\n  << final state   >> ', self.final_state)
        
        # RNNの出力後に全結合層を適用