以下では、自然言語処理の一部である感情分析を取り上げる。<br>
そして、機械学習のアルゴリズムを使用することで、極性に基づいてドキュメントを分類する方法を学ぶ<br>

<ul>
<li>テキストデータのクレンジングと準備</li>
<li>テキストドキュメントからの特徴ベクトルの構築</li>
<li>映画レビューを肯定的な文と否定的な文に分類する機械学習のモデルのトレーニング</li>
<li>アウトオブコア学習に基づく大規模なテキストデータセットの処理</li>
</ul>

## <font color='blue'>IMDbの映画レビューデータセットの取得</font>

In [17]:
import pandas as pd
import numpy as np
df = pd.read_csv('./movie_data.csv')
df.head(3)

Unnamed: 0,review,sentiment
0,"In 1974, the teenager Martha Moxley (Maggie Gr...",1
1,OK... so... I really like Kris Kristofferson a...,0
2,"***SPOILER*** Do not read this, if you think a...",0


## <font color='blue'>BOWモデルの紹介</font>

### <font color='blue'>単語を特徴ベクトルに変換する</font>

In [18]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer

count = CountVectorizer()
docs = np.array([
        'The sun is shining',
        'The weather is sweet',
        'The sun is shining, the weather is sweet, and one and one is two'])
bag = count.fit_transform(docs)

In [19]:
print(count.vocabulary_)

{'two': 7, 'sweet': 5, 'sun': 4, 'shining': 3, 'weather': 8, 'and': 0, 'is': 1, 'one': 2, 'the': 6}


In [20]:
print(bag.toarray())

[[0 1 0 1 1 0 1 0 0]
 [0 1 0 0 0 1 1 0 1]
 [2 3 2 1 1 1 2 1 1]]


### <font color='blue'>TF-IDFを使って単語の関連性を評価</font>

In [21]:
from sklearn.feature_extraction.text import TfidfTransformer

tfidf = TfidfTransformer(use_idf=True, norm='l2', smooth_idf=True)
print(tfidf.fit_transform(count.fit_transform(docs)).toarray())

[[ 0.          0.43370786  0.          0.55847784  0.55847784  0.
   0.43370786  0.          0.        ]
 [ 0.          0.43370786  0.          0.          0.          0.55847784
   0.43370786  0.          0.55847784]
 [ 0.50238645  0.44507629  0.50238645  0.19103892  0.19103892  0.19103892
   0.29671753  0.25119322  0.19103892]]


### <font color='blue'>テキストデータのクレンジング</font>

不要な文字をすべて取り除くことにより、テキストデータをクレンジングすることが最初のステップになる。<br>
シャッフルした映画レビューデータセットの１つ目のドキュメントから、最後の５０文字を抜き出す。<br>

In [22]:
df.loc[0, 'review'][-50:]

'is seven.<br /><br />Title (Brazil): Not Available'

上記を見るとテキストにHTMLマークアップに加えて、句読点やその他の非英字文字が含まれている。<br>
以下では感情分析に役立つものだけを残すことを前提にしてクレンジングする。<br>

In [23]:
import re
def preprocessor(text):
    text = re.sub('<[^>]*>', '', text)
    emoticons = re.findall('(?::|;|=)(?:-)?(?:\)|\(|D|P)', text)
    text = re.sub('[\W]+', ' ', text.lower()) +\
        ' '.join(emoticons).replace('-', '')
    return text

上記のコードでは顔文字を残していることに注意する。<br>

下記ではpreprocessor関数が動作していることを確かめている。<br>

In [24]:
preprocessor(df.loc[0, 'review'][-50:])

'is seven title brazil not available'

In [25]:
preprocessor("</a>This :) is :( a test :-)!")

'this is a test :) :( :)'

以下ではDataFrameオブジェクトに含まれている全ての映画レビューにpreprocessor関数を適用する。<br>

In [26]:
df['review'] = df['review'].apply(preprocessor)

### <font color='blue'>ドキュメントをトークン化する</font>

In [27]:
def tokenizer(text):
    return text.split()

In [28]:
tokenizer('runners like running and thus they run')

['runners', 'like', 'running', 'and', 'thus', 'they', 'run']

トークン化の手法の１つに、ワードステミング(word stemming)が存在する。<br>
ワードステミングは単語を原形に変換することで、関連する単語を同じ語幹にマッピングできるようにするプロセスである。<br>

In [29]:
from nltk.stem.porter import PorterStemmer
porter = PorterStemmer()
def tokenizer_porter(text):
    return [porter.stem(word) for word in text.split()]

tokenizer_porter('runners like running and thus they run')

['runner', 'like', 'run', 'and', 'thu', 'they', 'run']

### <font color='blue'>ストップワードの除去</font>

In [30]:
from nltk.corpus import stopwords
stop = stopwords.words('english')
[w for w in tokenizer_porter('a runner likes running and run a lot')[-10:] if w not in stop]

['runner', 'like', 'run', 'run', 'lot']

## <font color='blue'>ドキュメントを分類するロジスティック回帰モデルのトレーニング</font>

以下では、ロジスティック回帰モデルをトレーニングすることで、映画レビューを肯定的なレビューと否定的なレビューに分類する。<br>

まず、25,000個のトレーニング用のドキュメントと25,000個のテスト用のドキュメントに分割する。<br>

In [31]:
X_train = df.loc[:25000, 'review'].values
y_train = df.loc[:25000, 'sentiment'].values
X_test = df.loc[:25000, 'review'].values
y_test = df.loc[:25000, 'sentiment'].values

GridSearchCVオブジェクトを使って、ロジスティック回帰モデルの最適なパラメータ集合を求める。<br>

In [32]:
from sklearn.grid_search import GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression

tfidf = TfidfVectorizer(strip_accents=None, lowercase=False, preprocessor=None)

param_grid = [{'vect__ngram_range': [(1, 1)],
               'vect__stop_words': [stop, None],
               'vect__tokenizer': [tokenizer, tokenizer_porter],
               'clf__penalty': ['l1', 'l2'],
               'clf__C': [1.0, 10.0, 100.0]},
              {'vect__ngram_range': [(1, 1)],
               'vect__stop_words': [stop, None],
               'vect__tokenizer': [tokenizer, tokenizer_porter],
               'vect__use_idf':[False],
               'vect__norm':[None],
               'clf__penalty': ['l1', 'l2'],
               'clf__C': [1.0, 10.0, 100.0]},
              ]

lr_tfidf = Pipeline([('vect', tfidf),
                     ('clf', LogisticRegression(random_state=0))])

gs_lr_tfidf = GridSearchCV(lr_tfidf, param_grid,
                           scoring='accuracy',
                           cv=5,
                           verbose=1,
                           n_jobs=-1)
gs_lr_tfidf.fit(X_train, y_train)

Fitting 5 folds for each of 48 candidates, totalling 240 fits


[Parallel(n_jobs=-1)]: Done  42 tasks      | elapsed: 21.4min
[Parallel(n_jobs=-1)]: Done 192 tasks      | elapsed: 101.9min
[Parallel(n_jobs=-1)]: Done 240 out of 240 | elapsed: 131.2min finished


GridSearchCV(cv=5, error_score='raise',
       estimator=Pipeline(steps=[('vect', TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=False, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), norm='l2', preprocessor=None, smooth_idf=True,
 ...nalty='l2', random_state=0, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False))]),
       fit_params={}, iid=True, n_jobs=-1,
       param_grid=[{'clf__penalty': ['l1', 'l2'], 'vect__ngram_range': [(1, 1)], 'clf__C': [1.0, 10.0, 100.0], 'vect__tokenizer': [<function tokenizer at 0x10c5c0950>, <function tokenizer_porter at 0x10c5c0bf8>], 'vect__stop_words': [['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', 'you...0950>, <function tokenizer_porter at 0x10c5c0bf8>], 'vect__use_idf': [False], 'vect__norm': [None]}],
       pre_dispatch='2*n_jobs', refit=True, scoring='accuracy', verbose=1

上記のGridSearchCVの設定を見ると<br>
1つ目のディクショナリでは、TF-IDFを使って計算している。<br>
2つ目のディクショナリでは、出現頻度についてモデルをトレーニングしている。<br>

また、ロジスティック回帰分類器については、penaltyパラメータを通じてモデルのトレーニングに<br>
L1/L2正則化を使用している。また、逆正則化パラメータCの値の範囲を定義することで、様々な正則化の強さを比較している。<br>

グリッドサーチが完了した後に、性能指標がもっとも高くなるパラメータセットを出力

In [34]:
print('Best parameter set: %s ' % gs_lr_tfidf.best_params_)

Best parameter set: {'clf__C': 10.0, 'clf__penalty': 'l2', 'vect__tokenizer': <function tokenizer at 0x10c5c0950>, 'vect__stop_words': None, 'vect__ngram_range': (1, 1)} 


上記のように標準的なトークナイザを使用し、C=10.0の強さのL2正則化に基づくロジスティック回帰分類器と<br>
TF-IDFを組み合わせることで、グリッドサーチにより性能指標がもっとも高くなる結果が得られることがわかる。<br>
<font color='red'>ここでは、Porterステミングもストップワードも使用していないということに注意。<br></font>

グリッドサーチによって得られた最良のモデルを使用して<br>
トレーニングデータセットでの５分割交差検証の正解率の平均と、テストデータの正解率を出力<br>

In [35]:
print('CV Accuracy: %.3f' % gs_lr_tfidf.best_score_)

CV Accuracy: 0.897


In [37]:
clf = gs_lr_tfidf.best_estimator_
print('Test Accuracy: %.3f' % clf.score(X_test, y_test))

Test Accuracy: 0.988


## <font color='blue'>さらに大規模なデータの処理:オンラインアルゴリズムとアウトオブコア学習</font>

大規模なデータセットの処理を可能にするアウトオブコア学習という手法を適用する。<br>

ここでは、scikit-learnのSGDClassifierクラスのpartial_fitメソッドを使用することで<br>
ローカルドライブからドキュメントを直接ストリーミングし、ドキュメントの小さなミニバッチを使ってロジスティック回帰モデルをトレーニング<br>

まず、tokenizer関数を定義<br>
この関数はファイル未処理のテキストデータをクレンジングまたストップワードを除去しながら単語をトークンに分割<br>

In [40]:
import numpy as np
import re
from nltk.corpus import stopwords
stop = stopwords.words('english')
def tokenizer(text):
    text = re.sub('<[^>]*>', '', text)
    emoticons = re.findall('(?::|;|=)(?:-)?(?:\)|\(|D|P)', text.lower())
    text = re.sub('[\W]+', ' ', text.lower()) +\
        ' '.join(emoticons).replace('-', '')
    tokenized = [w for w in text.split() if w not in stop]
    return tokenized    

ジェネレータ関数stream_docsを定義<br>
この関数は、ドキュメントを１つずつ読み込んで返す<br>

In [58]:
def stream_docs(path):
    with open(path, 'r', encoding='utf-8') as csv:
        next(csv)  # skip header
        for line in csv:
            text, label = line[:-3], int(line[-2])
            yield text, label

steam_docs関数の確認

In [59]:
next(stream_docs(path='./movie_data.csv'))

('"In 1974, the teenager Martha Moxley (Maggie Grace) moves to the high-class area of Belle Haven, Greenwich, Connecticut. On the Mischief Night, eve of Halloween, she was murdered in the backyard of her house and her murder remained unsolved. Twenty-two years later, the writer Mark Fuhrman (Christopher Meloni), who is a former LA detective that has fallen in disgrace for perjury in O.J. Simpson trial and moved to Idaho, decides to investigate the case with his partner Stephen Weeks (Andrew Mitchell) with the purpose of writing a book. The locals squirm and do not welcome them, but with the support of the retired detective Steve Carroll (Robert Forster) that was in charge of the investigation in the 70\'s, they discover the criminal and a net of power and money to cover the murder.<br /><br />""Murder in Greenwich"" is a good TV movie, with the true story of a murder of a fifteen years old girl that was committed by a wealthy teenager whose mother was a Kennedy. The powerful and rich f

get_minibatch関数の定義<br>
この関数は、steam_docs関数からドキュメントストリームを受け取り、size引数によって定義された個数のドキュメントを返す。<br>

In [60]:
def get_minibatch(doc_stream, size):
    docs, y = [], []
    try:
        for _ in range(size):
            text, label = next(doc_stream)
            docs.append(text)
            y.append(label)
    except StopIteration:
        return None, None
    return docs, y

In [61]:
from sklearn.feature_extraction.text import HashingVectorizer
from sklearn.linear_model import SGDClassifier

vect = HashingVectorizer(decode_error='ignore', 
                         n_features=2**21,
                         preprocessor=None, 
                         tokenizer=tokenizer)

# pklで保存するclf
clf = SGDClassifier(loss='log', random_state=1, n_iter=1)
doc_stream = stream_docs(path='./movie_data.csv')

上記のコードは、HashingVectorizerをtokenizer関数で初期化し、特徴量の個数を$2^{21}$に設定している。<br>
さらに、SGDClassifierのloss引数を'log'に設定することで、ロジスティック回帰を初期化している。<br>

アウトオブコア学習の開始

In [62]:
import pyprind
pbar = pyprind.ProgBar(45)

classes = np.array([0, 1])
for _ in range(45):
    X_train, y_train = get_minibatch(doc_stream, size=1000)
    if not X_train:
        break
    X_train = vect.transform(X_train)
    clf.partial_fit(X_train, y_train, classes=classes)
    pbar.update()

0% [##############################] 100% | ETA: 00:00:00
Total time elapsed: 00:00:27


逐次的な学習プロセスが完了したら、最後の5,000個のドキュメントを使ってモデルの性能を評価する。<br>

In [63]:
X_test, y_test = get_minibatch(doc_stream, size=5000)
X_test = vect.transform(X_test)
print('Accuracy: %.3f' % clf.score(X_test, y_test))

Accuracy: 0.867


アウトオブコア学習はメモリ効率が非常によく、完了するのに1分もかからない<br>
<font color='red'>さらに、最後の5000個のドキュメントを使ってモデルを更新できる。<br></font>

In [65]:
clf = clf.partial_fit(X_test, y_test)

In [66]:
import pickle
import os

# movieclassfierディレクトリを作成し、pkl_objectsサブフォルダを作成
dest = os.path.join('movieclassifier', 'pkl_objects')
if not os.path.exists(dest):
    os.makedirs(dest)

# pkl_objectsサブフォルダに学習済みのstopwordsとclassifierのpklの保存
pickle.dump(stop, open(os.path.join(dest, 'stopwords.pkl'), 'wb'), protocol=4)   
pickle.dump(clf, open(os.path.join(dest, 'classifier.pkl'), 'wb'), protocol=4)