### ベクトル空間モデルにおけるTF-IDF法とcos類似度

In [1]:
### リスト1 ###

# TF-IDFの計算 

import math

tf_dic = {'大阪':1, '京都':2, '奈良':1, '交通':2, '観光':1, '経済':1, '宿泊':1, '歴史':1, '公園':1, 'みやげ':1}
df_dic = {'大阪':3, '京都':8, '奈良':5, '交通':8, '観光':7, '経済':4, '宿泊':8, '歴史':1, '公園':4, 'みやげ':3}

tf_idf_dic = {}
N = 10

def compute_tf_idf(term): 
    return tf_dic[term] * compute_idf(term)

def compute_idf(term):
    return math.log(N / df_dic[term]) + 1

for term, value in list(tf_dic.items()):
    tf_idf_dic[term] = compute_tf_idf(term)
    print(term, ':', tf_idf_dic[term])

大阪 : 2.203972804325936
京都 : 2.4462871026284194
奈良 : 1.6931471805599454
交通 : 2.4462871026284194
観光 : 1.3566749439387324
経済 : 1.916290731874155
宿泊 : 1.2231435513142097
歴史 : 3.302585092994046
公園 : 1.916290731874155
みやげ : 2.203972804325936


In [3]:
### リスト2 ###

# cos類似度 (cosine similarity) の計算 

from collections import Counter
import math

def cosine_similarity(query, document):
    # クエリとドキュメントをCounterに変換して、操作を容易にする
    query_counter = Counter(query)
    document_counter = Counter(document)
    
    # 内積を計算する
    dot_product = sum(query_counter[word] * document_counter.get(word, 0) for word in query_counter)
    
    # 両ベクトルのノルム（大きさ）を計算する
    query_norm = math.sqrt(sum(value ** 2 for value in query_counter.values()))
    document_norm = math.sqrt(sum(value ** 2 for value in document_counter.values()))
    
    # コサイン類似度を計算する
    if query_norm == 0 or document_norm == 0:
        # ゼロ除算を避ける
        return 0
    else:
        return dot_product / (query_norm * document_norm)

# クエリベクトルと文書ベクトルを定義する
query_vector = {'大阪': 1, '観光': 1}
document_vector = {'大阪':1, '京都':2, '奈良':1, '交通':2, '観光':1, '経済':1, '宿泊':1, '歴史':1, '公園':1, 'みやげ':1}

# コサイン類似度を計算する
cos_sim = cosine_similarity(query_vector, document_vector)
print("The cosine similarity:", cos_sim)

The cosine similarity: 0.35355339059327373
