自然言語処理の一分野である、感情分析を取り上げる。<br>
IMDBの5,000件の映画レビューで構成されたデータセットを操作し、<br>
肯定的または否定的なレビューを分類できる予測器を構築する。<br>

ここでは次の内容を取り上げる。<br>

<ul>
    <li>テキストデータのクレンジングと準備</li>
    <li>テキスト文書からの特徴ベクトルの構築</li>
    <li>映画レビューを肯定的な文と否定的な文に分類する機械学習モデルのトレーニング</li>
    <li>アウトオブコア学習にもとづく大規模なデータセットの処理</li>
    <li>文章コレクションからカテゴリのトピックを推定</li>
<ul>

### 以下、映画レビューデータセットで肯定的、否定的を判断する。

### 映画データセットをより扱いやすい形式に変換する。

In [1]:
"""
import pyprind
import pandas as pd
import os
basepath = '../../../Downloads/aclImdb'
labels = {'pos':1, 'neg':0}
pbar = pyprind.ProgBar(5000)
df = pd.DataFrame()
for s in ('test', 'train'):
    for l in ('pos', 'neg'):
        path = os.path.join(basepath, s, l)
        for file in os.listdir(path):
            with open(os.path.join(path, file), 'r', encoding='utf-8') as infile:
                txt = infile.read()
            df = df.append([[txt, labels[l]]], ignore_index = True)
            pbar.update()

df.columns = ['review', 'sentiment']
"""

0% [##############################] 100% | ETA: 00:00:00
Total time elapsed: 00:00:10


In [2]:
"""
import numpy as np
np.random.seed(0)
df = df.reindex(np.random.permutation(df.index))
"""

In [3]:
# df.to_csv('movie_data.csv', index=False, encoding='utf-8')

In [4]:
df = pd.read_csv('movie_data.csv', encoding='utf-8')
df.head(3)

Unnamed: 0,review,sentiment
0,My family and I normally do not watch local mo...,1
1,"Believe it or not, this was at one time the wo...",0
2,"After some internet surfing, I found the ""Home...",0


### BoWモデルの紹介

In [6]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
count = CountVectorizer()
docs = np.array([
    'The sun is shining',
    'The weather is sweet',
    'The sun is shining, the weather is sweet, and one and one is two'
])
bag = count.fit_transform(docs)

In [11]:
print(count.vocabulary_)

{'the': 6, 'sun': 4, 'is': 1, 'shining': 3, 'weather': 8, 'sweet': 5, 'and': 0, 'one': 2, 'two': 7}


In [12]:
print(bag.toarray())

[[0 1 0 1 1 0 1 0 0]
 [0 1 0 0 0 1 1 0 1]
 [2 3 2 1 1 1 2 1 1]]


### TF-IDFを使って単語の関連性を評価する

In [13]:
from sklearn.feature_extraction.text import TfidfTransformer
tfidf = TfidfTransformer(use_idf=True, norm='l2', smooth_idf=True)
np.set_printoptions(precision=2)
print(tfidf.fit_transform(count.fit_transform(docs)).toarray())

[[0.   0.43 0.   0.56 0.56 0.   0.43 0.   0.  ]
 [0.   0.43 0.   0.   0.   0.56 0.43 0.   0.56]
 [0.5  0.45 0.5  0.19 0.19 0.19 0.3  0.25 0.19]]


### テキストデータのクレンジング

In [14]:
import re
def preprocessor(text):
    text = re.sub('<[^>]*>', '', text)
    emoticons = re.findall('(?::|;|=)(?:-)?(?:\)|\(|D|P)',
                           text)
    text = (re.sub('[\W]+', ' ', text.lower()) +
            ' '.join(emoticons).replace('-', ''))
    return text

In [15]:
df['review'] = df['review'].apply(preprocessor)

### 文章をトークン化する