<a href="https://colab.research.google.com/github/psy-phy-org/NLP/blob/main/bag_of_words.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# bag-of-words
Bag of Words（Bag-of-words / BoW）とは、文書中に出現する単語を数え、その数を特徴（数値表現）とするシンプルな手法です。<br>このときBag of Wordsでは、文書における出現順序は考慮しません。<br>
Bag-of-wordsでは、単語の出現順序が考慮されず、同様の単語が使われていれば同じ表現になってしまう。また、意味的な表現を学習することがないため、ベクトル表現上では同じ出現回数の単語間のは同等である。

In [None]:
!pip install janome

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting janome
  Downloading Janome-0.4.2-py2.py3-none-any.whl (19.7 MB)
[K     |████████████████████████████████| 19.7 MB 1.3 MB/s 
[?25hInstalling collected packages: janome
Successfully installed janome-0.4.2


In [None]:
from janome.tokenizer import Tokenizer

In [None]:
import pandas as pd
# ユーザー辞書を作成
# 1列目に単語、2列目に品詞、3列目にカナでの読み方のデータフレームを作成する
df_dict = pd.DataFrame([['自然言語処理', 'カスタム名詞', 'シゼンゲンゴショリ'],
                        ['機械学習', 'カスタム名詞', 'キカイガクシュウ']])
display(df_dict)
# csvを保存する
df_dict.to_csv('user_dict.csv', encoding='utf-8', index=False)

Unnamed: 0,0,1,2
0,自然言語処理,カスタム名詞,シゼンゲンゴショリ
1,機械学習,カスタム名詞,キカイガクシュウ


In [None]:
doc_list = ['私は自然言語処理について勉強しています。', '私は、機械学習について勉強しています']
# ユーザー辞書を使ってトークナイズ実行
t = Tokenizer('user_dict.csv', udic_type='simpledic')
# joinメソッドを用いることで、分かち書きにする
word_list = [' '.join([word.surface for word in t.tokenize(doc)]) for doc in doc_list]
print(word_list)

['私 は 自然言語処理 について 勉強 し て い ます 。', '私 は 、 機械学習 について 勉強 し て い ます']


分かち書きされたリストは、次の手順で bag-of-words に変換できる<br>
1. インスタンス名= CountVectorizer()
2. インスタンス.fit(分かち書きした文章を要素に持つリスト)
3. インスタンス.transform(分かち書きした文章を要素に持つリスト)

In [None]:
# 単語のリストを bag-of-words に変換するためのクラスのインポート
from sklearn.feature_extraction.text import CountVectorizer
# インスタンスを生成
bow_vectorizer = CountVectorizer()
# bag-of-words への変換
bow_vectorizer.fit(word_list)
bow = bow_vectorizer.transform(word_list)
bow

<2x5 sparse matrix of type '<class 'numpy.int64'>'
	with 8 stored elements in Compressed Sparse Row format>

In [None]:
print(bow)
# 配列に変換
print(bow.toarray())

  (0, 0)	1
  (0, 1)	1
  (0, 2)	1
  (0, 4)	1
  (1, 0)	1
  (1, 1)	1
  (1, 2)	1
  (1, 3)	1
[[1 1 1 0 1]
 [1 1 1 1 0]]


In [None]:
# 各次元に対応する単語を表示
print(bow_vectorizer.get_feature_names_out())
# データフレームで表示
pd.DataFrame(bow.toarray(), columns=bow_vectorizer.get_feature_names_out())

['について' 'ます' '勉強' '機械学習' '自然言語処理']


Unnamed: 0,について,ます,勉強,機械学習,自然言語処理
0,1,1,1,0,1
1,1,1,1,1,0
