07 1単語よりも大きい単位のBag-of-Words(n-グラム)
=========================================

* `BoW表現`の問題は、単語の順番が完全に失われること

    * 正反対の意味を持つ言葉が全く同じ表現になってしまう
    
    * 単語の前に"not"が来る場合は、コンテクストが意味に影響する一例に過ぎない
    
* BoWを用いてコンテクストを捉える手法が知られている

    * テキストに現れる単一のトークンだけを考えるのではなく、2つもしくは3つの連続するトークンの列を考える
    
    * 2つのトークンを**バイグラム**、3つのトークンを**トリグラム**と呼ぶ
    
* 一般にトークンの列を`n-グラム`と呼ぶ

    * 特徴量と考えるトークン列の長さを変更するには、`CountVectorizer`や`TfidVectorizer`の`ngram_range`パラメータを設定する
    
    * このパラメータはタプルで、特徴量とするトークン列の長さの最小長と最大長を指定する

In [1]:
bards_words =["The fool doth think he is wise,",
              "but the wise man knows himself to be a fool"]
print("bards_words:\n{}".format(bards_words))

bards_words:
['The fool doth think he is wise,', 'but the wise man knows himself to be a fool']


* デフォルトでは、特徴量とするトークン列の長さは最小1、最大1となっている

    * つまり、個々のトークンが特徴量となる
    
    > トークン1つを**ユニグラム**と呼ぶ

In [2]:
from sklearn.feature_extraction.text import CountVectorizer
cv = CountVectorizer(ngram_range=(1, 1)).fit(bards_words)
print("Vocabulary size: {}".format(len(cv.vocabulary_)))
print("Vocabulary:\n{}".format(cv.get_feature_names()))

Vocabulary size: 13
Vocabulary:
['be', 'but', 'doth', 'fool', 'he', 'himself', 'is', 'knows', 'man', 'the', 'think', 'to', 'wise']


* バイグラム、つまり連続する2つのトークンだけをみるには、`ngram_range`を`(2, 2)`に設定すれば良い

In [3]:
cv = CountVectorizer(ngram_range=(2, 2)).fit(bards_words)
print("Vocabulary size: {}".format(len(cv.vocabulary_)))
print("Vocabulary:\n{}".format(cv.get_feature_names()))

Vocabulary size: 14
Vocabulary:
['be fool', 'but the', 'doth think', 'fool doth', 'he is', 'himself to', 'is wise', 'knows himself', 'man knows', 'the fool', 'the wise', 'think he', 'to be', 'wise man']


* 対象とするトークン列の長さを長くすると特徴量の数が増大し、特定的な特徴量となる

    * `bard_words`の2つのフレーズには共通したバイグラムがない

In [4]:
print("Transformed data (dense):\n{}".format(cv.transform(bards_words).toarray()))

Transformed data (dense):
[[0 0 1 1 1 0 1 0 0 1 0 1 0 0]
 [1 1 0 0 0 1 0 1 1 0 1 0 1 1]]


* ほとんどのアプリケーションでは、トークン列の最小長は1にした方が良い

    * 1つの単語だけでも相当な意味を持つことが多い
    
    * ほとんどの場合バイグラムを加えると性能が向上する
    
    * 5-グラムくらいまでは性能向上に繋がる可能性があるが、特徴量の数が爆発するし、特定的な特徴量が増えるため、過剰適合の可能性も高くなる
    
    * 原理的には、バイグラムの数は最大でユニグラムの数の2乗になり、トリグラムの数は最大でユニグラムの数の3乗となる
    
        * このため、特徴量空間は膨大なものとなる
        
    * 実際には、言語の構造により、データ中に現れるn-グラムの数ははるかに少ないが、それでも膨大である

* ユニグラム、バイグラム、トリグラムを`bards_words`に適用してみる

In [5]:
cv = CountVectorizer(ngram_range=(1, 3)).fit(bards_words)
print("Vocabulary size: {}".format(len(cv.vocabulary_)))
print("Vocabulary:\n{}".format(cv.get_feature_names()))

Vocabulary size: 39
Vocabulary:
['be', 'be fool', 'but', 'but the', 'but the wise', 'doth', 'doth think', 'doth think he', 'fool', 'fool doth', 'fool doth think', 'he', 'he is', 'he is wise', 'himself', 'himself to', 'himself to be', 'is', 'is wise', 'knows', 'knows himself', 'knows himself to', 'man', 'man knows', 'man knows himself', 'the', 'the fool', 'the fool doth', 'the wise', 'the wise man', 'think', 'think he', 'think he is', 'to', 'to be', 'to be fool', 'wise', 'wise man', 'wise man knows']


* グリッドサーチを用いて、IMDb映画レビューデータに対して`TfidVectorizer`を用いてn-グラムのレンジの最良値を探索してみる

In [6]:
from sklearn.datasets import load_files

reviews_train = load_files("/Users/MacUser/data/aclImdb/train/")
text_train, y_train = reviews_train.data, reviews_train.target
text_train = [doc.replace(b"<br />", b" ") for doc in text_train]
reviews_test = load_files("/Users/MacUser/data/aclImdb/test/")
text_test, y_test = reviews_test.data, reviews_test.target
text_test = [doc.replace(b"<br />", b" ") for doc in text_test]

from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer().fit(text_train)
X_train = vect.transform(text_train)

import numpy as np
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
scores = cross_val_score(LogisticRegression(), X_train, y_train, cv=5)

from sklearn.model_selection import GridSearchCV
param_grid = {'C': [0.001, 0.01, 0.1, 1, 10]}
grid = GridSearchCV(LogisticRegression(), param_grid, cv=5)
grid.fit(X_train, y_train)

X_test = vect.transform(text_test)

vect = CountVectorizer(min_df=5).fit(text_train)
X_train = vect.transform(text_train)
grid = GridSearchCV(LogisticRegression(), param_grid, cv=5)
grid.fit(X_train, y_train)

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import make_pipeline
pipe = make_pipeline(TfidfVectorizer(min_df=5, norm=None),
                     LogisticRegression())
param_grid = {'logisticregression__C': [0.001, 0.01, 0.1, 1, 10]}

grid = GridSearchCV(pipe, param_grid, cv=5)
grid.fit(text_train, y_train)

vectorizer = grid.best_estimator_.named_steps["tfidfvectorizer"]
# 訓練データセットを変換
X_train = vectorizer.transform(text_train)
# それぞれの特徴量のデータセット中での最大値を見つける
max_value = X_train.max(axis=0).toarray().ravel()
sorted_by_tfidf = max_value.argsort()
# 特徴量名を取得
feature_names = np.array(vectorizer.get_feature_names())
sorted_by_idf = np.argsort(vectorizer.idf_)



In [7]:
pipe = make_pipeline(TfidfVectorizer(min_df=5), LogisticRegression())
# グリッドが比較的大きい上、トリグラムが含まれているので、このグリッドサーチにはかなり時間がかかる
param_grid = {'logisticregression__C': [0.001, 0.01, 0.1, 1, 10, 100],
              "tfidfvectorizer__ngram_range": [(1, 1), (1, 2), (1, 3)]}

grid = GridSearchCV(pipe, param_grid, cv=5)
grid.fit(text_train, y_train)
print("Best cross-validation score: {:.2f}".format(grid.best_score_))
print("Best parameters:\n{}".format(grid.best_params_))



KeyboardInterrupt: 

* 結果からわかるように、バイグラム特徴量とトリグラム特徴量を加えることで、1%以上性能が向上している

    * 交差検証をパラメータ`ngram_range`と`C`の関数としてヒートマップで表示することができる

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
# グリッドサーチのスコアを取り出す
scores = grid.cv_results_['mean_test_score'].reshape(-1, 3).T
# ヒートマップとして可視化
heatmap = mglearn.tools.heatmap(
    scores, xlabel="C", ylabel="ngram_range", cmap="viridis", fmt="%.3f",
    xticklabels=param_grid['logisticregression__C'],
    yticklabels=param_grid['tfidfvectorizer__ngram_range'])
plt.colorbar(heatmap)

* このヒートマップから。バイグラムを追加することで性能はかなり向上するが、トリグラムを追加しても精度の面ではごくわずかな向上しか得られないことがわかる

    * モデルの改善点を理解するために、ユニグラム、バイグラム、トリグラムを含む最良のモデルに対して、重要な係数を可視化してみる

In [None]:
# 特徴量の名前と係数を取り出す
vect = grid.best_estimator_.named_steps['tfidfvectorizer']
feature_names = np.array(vect.get_feature_names())
coef = grid.best_estimator_.named_steps['logisticregression'].coef_
mglearn.tools.visualize_coefficients(coef, feature_names, n_top_features=40)
plt.ylim(-22, 22)

* 特に興味深いのは、「worth」という単語

    * "not worth"：否定的な意味
    
    * "well worth"：肯定的な意味
    
* 次は、トリグラムだけを可視化して、トリグラム特徴量が有効な理由を調べてみる

    * これらは、ユニグラム特徴量と比べると限定的である

In [None]:
# トリグラム特徴量を見つける
mask = np.array([len(feature.split(" ")) for feature in feature_names]) == 3
# トリグラム特徴量だけを可視化
mglearn.tools.visualize_coefficients(coef.ravel()[mask],
                                     feature_names[mask], n_top_features=40)
plt.ylim(-22, 22)

| 版   | 年/月/日   |
| ---- | ---------- |
| 初版 | 2019/04/06 |