### ベクトル空間モデルにおけるTF-IDF法とcos類似度

In [1]:
### リスト1 ###

# TF-IDFの計算
# TF: Term Frequency (単語の出現頻度)
# IDF: Inverse Document Frequency (逆文書頻度)  

import math

# 全文書数を10と設定
N = 10 

# 文書aにおける各単語の頻度（term frequency, TF）
doc_a = {'大阪':0, '京都':3, '奈良':1, '交通':2, '観光':1, '経済':0, '宿泊':1, '歴史':1, '公園':1, 'みやげ':1}

# 全文書集合において、各単語が出現する文書数 (document frequency, DF)
df = {'大阪':3, '京都':8, '奈良':5, '交通':8, '観光':7, '経済':4, '宿泊':8, '歴史':6, '公園':4, 'みやげ':3}

# TF-IDFの値を初期化
tf_idf = {}

# TF-IDFの計算
def compute_tf_idf(term): 
    return doc_a[term] * compute_idf(term)

# IDFの計算
def compute_idf(term):
    return math.log(N / df[term])

# 各単語のTF-IDF を計算し、表示
for term, value in list(doc_a.items()):
    tf_idf[term] = compute_tf_idf(term)
    print(term, ':', tf_idf[term])

大阪 : 0.0
京都 : 0.6694306539426294
奈良 : 0.6931471805599453
交通 : 0.44628710262841953
観光 : 0.3566749439387324
経済 : 0.0
宿泊 : 0.22314355131420976
歴史 : 0.5108256237659907
公園 : 0.9162907318741551
みやげ : 1.2039728043259361


In [2]:
### リスト2 ###

# cos類似度 (cosine similarity) の計算 

from collections import Counter
import math

def cosine_similarity(query, document):
    # クエリとドキュメントをCounterに変換して、操作を容易にする
    query_counter = Counter(query)
    document_counter = Counter(document)
    
    # 内積を計算する
    dot_product = sum(query_counter[word] * document_counter.get(word, 0) for word in query_counter)
    
    # 両ベクトルの距離（ノルム）を計算する
    query_norm = math.sqrt(sum(value ** 2 for value in query_counter.values()))
    document_norm = math.sqrt(sum(value ** 2 for value in document_counter.values()))
    
    # cos類似度を計算する
    if query_norm == 0 or document_norm == 0:
        # ゼロで除算することを避ける
        return 0
    else:
        return dot_product / (query_norm * document_norm)

# クエリベクトルと文書ベクトルを定義する---(1)
query_vector = {'大阪': 1, '観光': 1}
document_vector = {'大阪':0, '京都':3, '奈良':1, '交通':2, '観光':1, '経済':0, '宿泊':1, '歴史':1, '公園':1, 'みやげ':1}

# cos類似度を計算する---(1)
cos_sim = cosine_similarity(query_vector, document_vector)
print("(1) Cosine similarity:", cos_sim)


# クエリベクトルと文書ベクトルを定義する---(2)
query_vector = {'京都': 1, '宿泊': 1}
document_vector = {'大阪':0, '京都':3, '奈良':1, '交通':2, '観光':1, '経済':0, '宿泊':1, '歴史':1, '公園':1, 'みやげ':1}

# cos類似度を計算する---(2)
cos_sim = cosine_similarity(query_vector, document_vector)
print("(2) Cosine similarity:", cos_sim)

(1) Cosine similarity: 0.16222142113076252
(2) Cosine similarity: 0.6488856845230501
