以下では、自然言語処理の一部である感情分析を取り上げる。<br>
そして、機械学習のアルゴリズムを使用することで、極性に基づいてドキュメントを分類する方法を学ぶ<br>

<ul>
<li>テキストデータのクレンジングと準備</li>
<li>テキストドキュメントからの特徴ベクトルの構築</li>
<li>映画レビューを肯定的な文と否定的な文に分類する機械学習のモデルのトレーニング</li>
<li>アウトオブコア学習に基づく大規模なテキストデータセットの処理</li>
</ul>

## <font color='blue'>IMDbの映画レビューデータセットの取得</font>

In [7]:
import pandas as pd
import numpy as np
df = pd.read_csv('./movie_data.csv')
df.head(3)

Unnamed: 0,review,sentiment
0,"In 1974, the teenager Martha Moxley (Maggie Gr...",1
1,OK... so... I really like Kris Kristofferson a...,0
2,"***SPOILER*** Do not read this, if you think a...",0


## <font color='blue'>BOWモデルの紹介</font>

### <font color='blue'>単語を特徴ベクトルに変換する</font>

In [8]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer

count = CountVectorizer()
docs = np.array([
        'The sun is shining',
        'The weather is sweet',
        'The sun is shining, the weather is sweet, and one and one is two'])
bag = count.fit_transform(docs)

In [10]:
print(count.vocabulary_)

{'is': 1, 'the': 6, 'one': 2, 'sweet': 5, 'and': 0, 'sun': 4, 'shining': 3, 'weather': 8, 'two': 7}


In [11]:
print(bag.toarray())

[[0 1 0 1 1 0 1 0 0]
 [0 1 0 0 0 1 1 0 1]
 [2 3 2 1 1 1 2 1 1]]


### <font color='blue'>TF-IDFを使って単語の関連性を評価</font>

In [12]:
from sklearn.feature_extraction.text import TfidfTransformer

tfidf = TfidfTransformer(use_idf=True, norm='l2', smooth_idf=True)
print(tfidf.fit_transform(count.fit_transform(docs)).toarray())

[[ 0.          0.43370786  0.          0.55847784  0.55847784  0.
   0.43370786  0.          0.        ]
 [ 0.          0.43370786  0.          0.          0.          0.55847784
   0.43370786  0.          0.55847784]
 [ 0.50238645  0.44507629  0.50238645  0.19103892  0.19103892  0.19103892
   0.29671753  0.25119322  0.19103892]]


### <font color='blue'>テキストデータのクレンジング</font>

不要な文字をすべて取り除くことにより、テキストデータをクレンジングすることが最初のステップになる。<br>
シャッフルした映画レビューデータセットの１つ目のドキュメントから、最後の５０文字を抜き出す。<br>

In [13]:
df.loc[0, 'review'][-50:]

'is seven.<br /><br />Title (Brazil): Not Available'

上記を見るとテキストにHTMLマークアップに加えて、句読点やその他の非英字文字が含まれている。<br>
以下では感情分析に役立つものだけを残すことを前提にしてクレンジングする。<br>

In [14]:
import re
def preprocessor(text):
    text = re.sub('<[^>]*>', '', text)
    emoticons = re.findall('(?::|;|=)(?:-)?(?:\)|\(|D|P)', text)
    text = re.sub('[\W]+', ' ', text.lower()) +\
        ' '.join(emoticons).replace('-', '')
    return text

上記のコードでは顔文字を残していることに注意する。<br>

下記ではpreprocessor関数が動作していることを確かめている。<br>

In [15]:
preprocessor(df.loc[0, 'review'][-50:])

'is seven title brazil not available'

In [16]:
preprocessor("</a>This :) is :( a test :-)!")

'this is a test :) :( :)'

以下ではDataFrameオブジェクトに含まれている全ての映画レビューにpreprocessor関数を適用する。<br>

In [17]:
df['review'] = df['review'].apply(preprocessor)

### <font color='blue'>ドキュメントをトークン化する</font>

In [18]:
def tokenizer(text):
    return text.split()

In [19]:
tokenizer('runners like running and thus they run')

['runners', 'like', 'running', 'and', 'thus', 'they', 'run']

トークン化の手法の１つに、ワードステミング(word stemming)が存在する。<br>
ワードステミングは単語を原形に変換することで、関連する単語を同じ語幹にマッピングできるようにするプロセスである。<br>

In [20]:
from nltk.stem.porter import PorterStemmer
porter = PorterStemmer()
def tokenizer_porter(text):
    return [porter.stem(word) for word in text.split()]

tokenizer_porter('runners like running and thus they run')

['runner', 'like', 'run', 'and', 'thu', 'they', 'run']

### <font color='blue'>ストップワードの除去</font>

In [21]:
from nltk.corpus import stopwords
stop = stopwords.words('english')
[w for w in tokenizer_porter('a runner likes running and run a lot')[-10:] if w not in stop]

['runner', 'like', 'run', 'run', 'lot']

## <font color='blue'>ドキュメントを分類するロジスティック回帰モデルのトレーニング</font>

以下では、ロジスティック回帰モデルをトレーニングすることで、映画レビューを肯定的なレビューと否定的なレビューに分類する。<br>

まず、25,000個のトレーニング用のドキュメントと25,000個のテスト用のドキュメントに分割する。<br>

In [22]:
X_train = df.loc[:25000, 'review'].values
y_train = df.loc[:25000, 'sentiment'].values
X_test = df.loc[:25000, 'review'].values
y_test = df.loc[:25000, 'sentiment'].values

GridSearchCVオブジェクトを使って、ロジスティック回帰モデルの最適なパラメータ集合を求める。<br>

In [24]:
from sklearn.grid_search import GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression

tfidf = TfidfVectorizer(strip_accents=None, lowercase=False, preprocessor=None)

param_grid = [{'vect__ngram_range': [(1, 1)],
               'vect__stop_words': [stop, None],
               'vect__tokenizer': [tokenizer, tokenizer_porter],
               'clf__penalty': ['l1', 'l2'],
               'clf__C': [1.0, 10.0, 100.0]},
              {'vect__ngram_range': [(1, 1)],
               'vect__stop_words': [stop, None],
               'vect__tokenizer': [tokenizer, tokenizer_porter],
               'vect__use_idf':[False],
               'vect__norm':[None],
               'clf__penalty': ['l1', 'l2'],
               'clf__C': [1.0, 10.0, 100.0]},
              ]

lr_tfidf = Pipeline([('vect', tfidf),
                     ('clf', LogisticRegression(random_state=0))])

gs_lr_tfidf = GridSearchCV(lr_tfidf, param_grid,
                           scoring='accuracy',
                           cv=5,
                           verbose=1,
                           n_jobs=-1)
gs_lr_tfidf.fit(X_train, y_train)

Fitting 5 folds for each of 48 candidates, totalling 240 fits


[Parallel(n_jobs=-1)]: Done  42 tasks      | elapsed: 21.1min


KeyboardInterrupt: 