In [1]:
import pandas as pd
df = pd.read_csv('./movie_data.csv')
df.head(3)

Unnamed: 0,review,sentiment
0,I went to the cinema to watch a preview of thi...,0
1,"Considering it's basically low-budget cast, th...",1
2,i watched this movie 10 years ago. and have wa...,1


# 8.2 BoWモデルの紹介
- テキストを数値の特徴ベクトルとして表現できるBoWモデルを紹介する。

1.ドキュメントの集合全体から、例えば単語という一意なトークンからなる語彙を作成する。

2.各ドキュメントでの各単語の出現回数を含んだ特徴ベクトルを構築する。

- 各ドキュメントにおいて一意な単語は、BoWの語彙を構成しているすべての単語の一部にすぎない。この時特徴ベクトルの大半の成分は0となるため疎ベクトルと呼ばれる。

# 8.2.1 単語を特徴ベクトルに変換する。
- BoWモデルを構築するには、scikit-learnに実装されているCountVectorizerクラスを使用できる。このクラスはテキストデータの配列を入力として、BoWモデルを自動的に生成する。

In [2]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
count = CountVectorizer()#nグラム指定可能
docs = np.array(['The sun is shining',
                'The weather is sweet',
                'The sun is shining, the weather is sweet, and one and one is two'])
bag = count.fit_transform(docs)

In [3]:
#語彙はディクショナリに格納されている。
print(count.vocabulary_)

{u'and': 0, u'sun': 4, u'is': 1, u'two': 7, u'one': 2, u'weather': 8, u'sweet': 5, u'the': 6, u'shining': 3}


In [4]:
#特徴ベクトルを出力する
print(bag.toarray())

[[0 1 0 1 1 0 1 0 0]
 [0 1 0 0 0 1 1 0 1]
 [2 3 2 1 1 1 2 1 1]]


- この特徴ベクトルの各要素のインデックスは、ディクショナリの整数値に対応している。
- 特徴ベクトルの各成分はナマの出現頻度と呼ばれ、$tf(t,d)$で表さられる。これはドキュメント$d$における単語$t$の出現回数を表す。

# 8.2.2 TF-IDFを使って単語の関連性を評価する。

- 複数のドキュメントに同じ単語が出現することがよくある。頻繁に出現する単語は、たいてい、意味のある情報や識別情報を含んでない。
- TF-IDFという便利な方法がある。この手法を利用すれば、特徴ベクトルに頻繁に出現する単語の重みを減らすことができる。
- TF（単語の出現頻度）とIDF（逆文書頻度）の積として定義される。
$$tf-idf(t,d) = tf(t,d)\times idf(t,d)$$
- ここで、tf(t,d)は単語の出現頻度。逆文書頻度idf(t,d)は以下の方法で求める。
$$idf(t,d) = log\frac{n_{d}}{1+df(t,d)}$$
- $n_{d}$はドキュメントの総数、$df(t,d)$は単語tを含んでいるドキュメントdの個数を表す。
- scikit-learnには、TfidfTransformerクラスという変換器も実装されている。
- このクラスはCountVectrizerのfit_transformメソッドから「ナマの単語の出現頻度」を入力として受け取り、変換する。

In [9]:
from sklearn.feature_extraction.text import TfidfTransformer
tfidf = TfidfTransformer(use_idf=True,norm='l2',smooth_idf=True)
np.set_printoptions(precision=2)
print(tfidf.fit_transform(count.fit_transform(docs))).toarray()

[[ 0.    0.43  0.    0.56  0.56  0.    0.43  0.    0.  ]
 [ 0.    0.43  0.    0.    0.    0.56  0.43  0.    0.56]
 [ 0.5   0.45  0.5   0.19  0.19  0.19  0.3   0.25  0.19]]


- TfidfTransformerと標準的な定義式は異なる。scikit-learnに実装されているIDFとTF-IDFの式は以下の通り。
$$idf(t,d) = log \frac{1+n_{d}}{1+df(t,d)}$$
$$tf-idf(t,d) = tf(t,d)\times(idf(t,d)+1)$$
- TF-IDFを計算する前に「生の単語の出現頻度」を正則化するのがより一般的である。
- ただし、TfidfTransformerはTF-IDFを正則化する。
- デフォルトではscikit-learnのTfidftransformerはL2正則化を適用する。
$$\nu_{norm} = \frac{\vec{\nu}}{\| \vec{\nu} \|_{2}} = \frac{\vec{\nu}}{\sqrt{\nu^{2}_{1}+{\nu}^{2}_{2} + \cdots + \nu^{2}_{n}}} = \frac{\vec{\nu}}{(\Sigma^{n}_{i=1} \nu^{2}_{i})^{1/2}}$$

# 8.2.3 テキストデータのクレンジング
- テキストデータをクレンジングすることが最初の重要なステップとなる。

In [37]:
#1つ目のドキュメントから、最後の50文字を出力してみる。
df.loc[90,'review'][-50:]

'rgiving and deeply involving plot in this picture.'

- テキストにはHTMLマークアップに加えて、句読点やその他の非英字文字が含まれている。
- 文脈によっては句読点は有益な追加情報を表すことがある。
- ここでは簡単なために、感情分析に確実に役立つ":)"のような顔文字だけを残し、それ以外の句読点はすべて削除する。
- これにはpythonの正規表現ライブラリであるreを使用する。

In [29]:
import re
def preprocessor(text):
    text = re.sub('<[^>]*>','',text)
    emotions = re.findall('(?::|;|=)(?:-)?(?:\)|\(|D|P)',text)
    text = re.sub('[\W]+',' ',text.lower()) + ''.join(emotions).replace('-','')
    return text

- このコードでは、１つ目の正規表現<[^>]*>を使用することで、映画レビューに含まれているHTMLマークアップを完全に削除しようとしている。
- 多くのプログラマは概してHTMLの解析に正規表現を使用しないように勧めている。
- 正規表現について学ぶ場合は以下のサイトがおすすめ
https://developers.google.com/edu/python/regular-expressions

In [35]:
preprocessor(df.loc[90,'review'][-50:0])

''

In [34]:
preprocessor("</a>This :) is :( a test :-)!")

'this is a test :):(:)'

In [38]:
df['review'] = df['review'].apply(preprocessor)

# 8.2.4 ドキュメントをトークン化する
- テキストデータを分析するためにテキストコーパスを個々の要素に分割する方法について考える必要がある。
- ドキュメントをトークン化する方法の１つは、クレンジングしたドキュメントを空白文字で区切ることで、個々の単語に分割する。

In [50]:
def tokenizer(text):
    return text.split()

tokenizer('runers like running and thus they run')

['runers', 'like', 'running', 'and', 'thus', 'they', 'run']

- トークン化の便利な手法の一つにワードステミングがある。
- ワードステミングは、単語を原型に変換することで、関連する単語を同じ語幹にマッピングできるようにするプロセスである。

In [53]:
from nltk.stem.porter import PorterStemmer
porter = PorterStemmer()
def tokenizer_porter(text):
    return [porter.stem(word) for word in text.split()]

tokenizer_porter('runners like running and thus they run')

[u'runner', u'like', u'run', u'and', u'thu', u'they', u'run']

- runningが原型のrunにステミングされている。
- thusがthuという存在しない単語にステミングされている。
- 他にもLancasterステマーやSnowballステマーなどが存在する。

- ストップワードとは、あらゆる種類のテキストで見られるごくありふれた単語のこと。
- ストップワードは様々なクラスのドキュメントの区別に有益となる情報をまったく含んでいないとみなされる。
- すトプワードの除去が役立つのは、TF-IDFではなく、ナマの単語の出現頻度が正規化された単語の出現頻度を扱っている場合である。TF-IDFは、頻繁に出現する単語の重みを減らしているため。

In [56]:
#ストップワードの除去
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /home/kyohei/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [57]:
from nltk.corpus import stopwords
stop = stopwords.words('english')
[w for w in tokenizer_porter('a runner likes running and runs a lot')[-10:] if w not in stop]

[u'runner', u'like', u'run', u'run', u'lot']

# 8.2.5 ドキュメントを分類するロジスティック回帰モデルのトレーニング

In [60]:
#テストデータとトレーニングデータに分割
X_train = df.loc[:25000,'review'].values
y_train = df.loc[:25000,'sentiment'].values
X_test = df.loc[25000:,'review'].values
y_test = df.loc[25000:,'sentiment'].values

In [62]:
#GredSearchCVオブジェクトを使ってロジスティック回帰モデルの最適なパラメータ集合を求める。
from sklearn.grid_search import GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer(strip_accents=None,lowercase=False,preprocessor=None)
param_grid = [{'vect__ngram_range':[(1,1)],
              'vect__stop_words':[stop,None],
             'vect__tokenizer':[tokenizer,tokenizer_porter],
             'clf__penalty':['l1','l2'],
             'clf__C':[1.0,10.0,100.0]},
              {'vect__ngram_range':[(1,1)],
              'vect__stop_words':[stop,None],
              'vect__tokenizer':[tokenizer,tokenizer_porter],
              'vect__use_idf':[False],
              'vect__norm':[None],
              'clf__penalty':['l1','l2'],
              'clf__C':[1.0,10.0,100.0]}]

lr_tfidf = Pipeline([('vect',tfidf),('clf',LogisticRegression(random_state=0))])
gs_lr_tfidf = GridSearchCV(lr_tfidf,param_grid,scoring='accuracy',cv=5,verbose=1,n_jobs=-1)
gs_lr_tfidf.fit(X_train,y_train)

Fitting 5 folds for each of 48 candidates, totalling 240 fits


[Parallel(n_jobs=-1)]: Done  46 tasks      | elapsed: 17.6min
[Parallel(n_jobs=-1)]: Done 196 tasks      | elapsed: 82.7min
[Parallel(n_jobs=-1)]: Done 240 out of 240 | elapsed: 105.6min finished


GridSearchCV(cv=5, error_score='raise',
       estimator=Pipeline(steps=[('vect', TfidfVectorizer(analyzer=u'word', binary=False, decode_error=u'strict',
        dtype=<type 'numpy.int64'>, encoding=u'utf-8', input=u'content',
        lowercase=False, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), norm=u'l2', preprocessor=None, smooth_idf=Tru...nalty='l2', random_state=0, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False))]),
       fit_params={}, iid=True, n_jobs=-1,
       param_grid=[{'vect__ngram_range': [(1, 1)], 'vect__tokenizer': [<function tokenizer at 0x7fe99c90e140>, <function tokenizer_porter at 0x7fe99c90e410>], 'clf__penalty': ['l1', 'l2'], 'clf__C': [1.0, 10.0, 100.0], 'vect__stop_words': [[u'i', u'me', u'my', u'myself', u'we', u'our', u'ours', u'ourselves...e99c90e410>], 'vect__use_idf': [False], 'clf__C': [1.0, 10.0, 100.0], 'clf__penalty': ['l1', 'l2']}],
       pre_dispatch='2*n_jobs', refit=True, scoring='accuracy', verbose=1

- CountVectrizerとTfidfTransformerを置き換え、２つの変換オブジェクト組み合わせたTfidfVectorizerに変更している。
- params_gridは２つのパラメータディクショナリで構成されている。
- 1つ目のディクショナリーでは、デフォルト設定use_idf=True,smooth_idf=True,norm=l2のTfidfVectorizerを使ってTF-IDFを計算している。
- 2つ目のディクショナリでは、生の単語の出現頻度に基づいてモデルをトレーニングするために、それらのパラメータをuse_idf=False,norm=Noneに設定している。
- ロジスティック回帰分類器自体については、penaltyパラメータを通じてモデルのトレーニングにL2/L1正則化を使用している。

In [64]:
print('Best parameter set: %s') % gs_lr_tfidf.best_params_

Best parameter set: {'vect__ngram_range': (1, 1), 'vect__tokenizer': <function tokenizer at 0x7fe99c90e140>, 'clf__penalty': 'l2', 'clf__C': 10.0, 'vect__stop_words': None}


In [65]:
#グリッドサーチによって得られた最良のモデルを使用して、トレーニングデータセットでの
#5分割交差検証の正解率と平均と、テストデータセットの正解率を出力してみる。
print('CV Accuracy: %3.f')%gs_lr_tfidf.best_score_

CV Accuracy:   1


In [67]:
clf = gs_lr_tfidf.best_estimator_
print('Tset Accuracy: %.3f') %clf.score(X_test,y_test)

Tset Accuracy: 0.899
