## Bag of N-Grams

one-hotエンコーディングやBoW、TF-IDFは、単語を独立した単位として扱います。そのため、フレーズや単語の順序は考慮しません。Bag of Ngrams（BoN）アプローチはこの問題の解決を試みます。このアプローチでは、テキストをn個の連続する単語やトークンからなるチャンクに分割します。これにより、以前のアプローチでは実現できなかった文脈の考慮が可能になります。先の例で使用したのと同じコーパスを使って、このアプローチがどのように機能するか見てみましょう。

In [1]:
documents = [
    "Dog bites man.",
    "Man bites dog.",
    "Dog eats meat.",
    "Man eats food."
]
processed_docs = [doc.lower().replace(".", "") for doc in documents]
processed_docs

['dog bites man', 'man bites dog', 'dog eats meat', 'man eats food']

先の例では、CountVectorizerをBoWを作るために利用しましたが、ngram_range引数を設定すると、Bag of N-gramsの表現を得るのに使えます。以下のコードはその方法を示しています。

In [2]:
from sklearn.feature_extraction.text import CountVectorizer

# CountVectorizerを用いてnグラム（n=1, 2, 3）のベクトル化
count_vect = CountVectorizer(ngram_range=(1,3))

# BoN表現の構築
bow_rep = count_vect.fit_transform(processed_docs)

# ボキャブラリの確認
print("Our vocabulary: ", count_vect.vocabulary_)

# 最初の2つの文書に対するBoNの確認
print("BoW representation for 'dog bites man': ", bow_rep[0].toarray())
print("BoW representation for 'man bites dog': ", bow_rep[1].toarray())

# 新しいテキストに対するBoNの確認
temp = count_vect.transform(["dog and dog are friends"])
print("Bow representation for 'dog and dog are friends':", temp.toarray())

Our vocabulary:  {'dog': 3, 'bites': 0, 'man': 12, 'dog bites': 4, 'bites man': 2, 'dog bites man': 5, 'man bites': 13, 'bites dog': 1, 'man bites dog': 14, 'eats': 8, 'meat': 17, 'dog eats': 6, 'eats meat': 10, 'dog eats meat': 7, 'food': 11, 'man eats': 15, 'eats food': 9, 'man eats food': 16}
BoW representation for 'dog bites man':  [[1 0 1 1 1 1 0 0 0 0 0 0 1 0 0 0 0 0]]
BoW representation for 'man bites dog':  [[1 1 0 1 0 0 0 0 0 0 0 0 1 1 1 0 0 0]]
Bow representation for 'dog and dog are friends': [[0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0]]


特徴数が増えて、その結果として特徴ベクトルのサイズが大きくなっていることに注意してください。