IMDB映画レビュー感情分類
===
肯定/否定を分類するナイーブベイズをベースとしたモデルの構築を目指す．  
参照：https://keras.io/ja/datasets/  

## IMDBデータセットについて
感情 (肯定/否定) のラベル付けをされた，25,000のIMDB映画レビューのデータセット．  
レビューは前処理済みで，各レビューは単語のインデックス（整数）のシーケンスとしてエンコードされています．  
便宜上，単語はデータセットにおいての出現頻度によってインデックスされています．  
そのため例えば，整数"3"はデータの中で3番目に頻度が多い単語にエンコードされます．  
これによって"上位20個の頻出語を除いた，上位10,000個の頻出語についてのみ考える"というようなフィルタリング作業を高速に行うことができます．  
慣例として，"0"は特定の単語を表さずに，未知語にエンコードされます．

### メモ
* num_words: 出現頻度が上位num_wordsの単語のみをデータとして用いる
* oov_char: 置換対象の単語をoov_charで置き換える

In [1]:
from sklearn.naive_bayes import BernoulliNB, MultinomialNB
from keras.datasets import imdb
import numpy as np

  from ._conv import register_converters as _register_converters
Using TensorFlow backend.


## one-hot encodingについて
ある文中で，1万語収録の辞書に登録されている単語があれば，該当の単語番号に1を立てる．  

In [2]:
# one-hot encoding
def OneHotEncoding(sequence, dimension=10000):
    temp = np.zeros((len(sequence), dimension))
    for i, j in enumerate(sequence):
        temp[i, j] = 1.
    return temp

In [3]:
if __name__ == '__main__':
    (x_train, y_train), (x_test, y_test) = imdb.load_data(path="imdb.npz",
        num_words=10000, skip_top=0, maxlen=None, start_char=1, oov_char=2, index_from=3)
    # One-Hot Encoding
    x_train = OneHotEncoding(x_train, 10000)
    x_test = OneHotEncoding(x_test, 10000)
    # convert to numpy arrays
    y_train = np.asarray(y_train).astype('float32')
    y_test = np.asarray(y_test).astype('float32')

## scikit-learnのナイーブベイズ系関数について
ナイーブベイズでは，求めたい確率分布がどのような分布になるかによって，いくつかの種類がある．  
つまり，事前分布を決めなくてはならないということである．3種類あるので，以下に示す．
1. ガウス分布
2. ベルヌーイ分布
3. 多項式分布  

通常，文書分類では入力データが多次元となり，各要素自体も実数値で表現されるので，3の多項式分布が用いられる．  
しかしながら，今回はすでにone-hot encodingを済ませているので，ベルヌーイ分布を仮定する．

In [4]:
    model = BernoulliNB()
    model.fit(x_train, y_train)
    print('Train accuracy: {:.3f}'.format(model.score(x_train, y_train)))
    print('Test accuracy: {:.3f}'.format(model.score(x_test, y_test)))

Train accuracy: 0.868
Test accuracy: 0.840


## 総評
なかなかの結果がでましたね．