# お勉強
Bag of Words (BoW) モデルを使ってテキストデータを数値ベクトルに変換する方法と、コサイン類似度を計測する方法を整理してみました。  
慣れるまで略さない方が良い気がするので、長いけど Bag of Words って表現しています。  
コードでも意図的に省略しないようにしているので、冗長だと感じることがあると思います。

## Bag of Words とは？  
Bag of Words モデルは、テキストデータを数値ベクトルに変換するための手法の一つみたいです。  
各文書を単語の出現頻度で表現し、文書内の単語の順序や文法構造は無視するっぽいです。  

## コサイン類似度とは？  
コサイン類似度は、二つのベクトルの間の角度を基に類似度を計算する指標で、特にテキストデータの類似度を計算するのに有効らしいです。  
コサイン類似度は -1 から 1 までの値を取り、1 に近いほど類似度が高いことを示します。
  
## 1. セットアップ  
必要なライブラリをインポートします。

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import pandas as pd

## 2. データの準備  
サンプルデータを用意します。  
自分の好きなように適当にいじってみるとよりわかりやすくなるかもです。

In [None]:
sample_log1 = "This is the first log"
sample_log2 = "This is the second log"
sample_log3 = "Pen pineapple apple pen"

sample_logs = [sample_log1, sample_log2, sample_log3]

## 3. Bag of Words モデルの作成  
CountVectorizer を使って、ログデータを Bag of Words ベクトルに変換します。

In [None]:
count_vectorizer = CountVectorizer()
bag_of_words_matrix = count_vectorizer.fit_transform(sample_logs)

## 4. 特徴単語の表示  
BoW モデルによって抽出された特徴単語を表示します。

In [None]:
feature_names = count_vectorizer.get_feature_names_out()
feature_names

## 5. BoW ベクトルの表示  
BoW 行列をデータフレームに変換し、各単語の出現回数を表示してみます。  
データフレームへの変換は見やすくする目的しかないです。

In [None]:
bag_of_words_data_frame = pd.DataFrame(
    bag_of_words_matrix.toarray(),
    columns=feature_names,
    index=["log1", "log2", "log3"],
)
bag_of_words_data_frame

## 6. コサイン類似度の計算  
各データ間のコサイン類似度を計算し、類似度行列を表示します。  
結果からもわかるように、データの1, 2はめっちゃ似ていますが、3番目のデータは明後日の方向を向いた内容なので類似度が低いですね。

In [None]:
cosine_similarity = cosine_similarity(bag_of_words_matrix)

similarity_data_frame = pd.DataFrame(
    cosine_similarity,
    index=["log1", "log2", "log3"],
    columns=["log1", "log2", "log3"],
)
similarity_data_frame