## Bag of Words

1つ前のノートブックでは、one-hotエンコーディングを取得する方法を紹介しました。このノートブックでは、bag of wordsを使う方法について確認します。

In [1]:
documents = [
    "Dog bites man.",
    "Man bites dog.",
    "Dog eats meat.",
    "Man eats food."
]
processed_docs = [doc.lower().replace(".", "") for doc in documents]
processed_docs

['dog bites man', 'man bites dog', 'dog eats meat', 'man eats food']

scikit-learnのCountVectorizerを使うと、bag of wordsを簡単に作れます。

In [2]:
from sklearn.feature_extraction.text import CountVectorizer

# 文書のリストを確認
print("Our corpus: ", processed_docs)

count_vect = CountVectorizer()
# BoW表現の構築
bow_rep = count_vect.fit_transform(processed_docs)

# ボキャブラリの確認
print("Our vocabulary: ", count_vect.vocabulary_)

# 最初の2つの文書に対するBoWを確認
print("BoW representation for 'dog bites man': ", bow_rep[0].toarray())
print("BoW representation for 'man bites dog': ", bow_rep[1].toarray())

# 新しいテキストに対するBoWを取得
temp = count_vect.transform(["dog and dog are friends"])
print("BoW representation for 'dog and dog are friends': ", temp.toarray())

Our corpus:  ['dog bites man', 'man bites dog', 'dog eats meat', 'man eats food']
Our vocabulary:  {'dog': 1, 'bites': 0, 'man': 4, 'eats': 2, 'meat': 5, 'food': 3}
BoW representation for 'dog bites man':  [[1 1 0 0 1 0]]
BoW representation for 'man bites dog':  [[1 1 0 0 1 0]]
BoW representation for 'dog and dog are friends':  [[0 2 0 0 0 0]]


上のコードでは、単語の頻度を考慮してテキストを表現しています。しかし、頻度を気にせず、ある単語がテキストに出現するかどうかだけを知りたい場合もあります。その場合、各文書は0と1のベクトルで表されます。このようなベクトルは、CountVectorizerのオプションであるbinary=Trueを使うことで作成できます。

In [3]:
# 2値ベクトルによるBoW
count_vect = CountVectorizer(binary=True)
bow_rep_bin = count_vect.fit_transform(processed_docs)
temp = count_vect.transform(["dog and dog are friends"])
print("Bow representation for 'dog and dog are friends': ", temp.toarray())

Bow representation for 'dog and dog are friends':  [[0 1 0 0 0 0]]


テキスト分類に対してBoW表現を使う方法は、第４章で紹介します。