# Chapter 4 文書のランキング

In [17]:
import common_func as cf

## 4.1 特徴語集合の類似性

In [19]:
# jaccard関数
# X,Yはiterative
def jaccard(X,Y):
    x = set(X)
    y = set(Y)
    a = len(x.intersection(y))
    b = len(x.union(y))
    if b == 0:
        return 0
    else:
        return a / b
    

In [18]:
# ランキングの計算
# 紹介文を読み込む
book_texts = [cf.get_string_from_file('irpb-files/data/ch04/%d.txt' % i) for i in range(10)]

# 各紹介文の語の重みを計算する
# 補助的なコーパスとして青空文庫を使用する
tfidf_model,dic,book_weights = cf.get_tfidfmodel_and_weights(book_texts)

# 書籍ごとに上位10の特徴語(のID)リストを作成する
# book_weightsには、IDとTF・IDFの値が組になっている
# そこからIDだけをぬきだす
keyword_lists = [[x[0] for x in w[:10]] for w in book_weights]

# resultsの要素は(i,i番目の書籍との類似度)
# 「定理のつくりかた」の番号は9(9.txt)
results = [(x,jaccard(keyword_lists[9],keyword_lists[x])) for x in range(9)]

# 類似度で降順にソート
results.sort(key=lambda x: x[1],reverse=True)

# 書籍のタイトルを読み込む。i番目の書籍のタイトルはtitles[i]
with open('irpb-files/data/ch04/book-titles.txt',encoding='UTF-8') as f:
    titles = f.read().strip().split('\n')
    
# ランキング結果を表示する
for x in range(9):
    print('%s %.4f' % (titles[results[x][0]],results[x][1]))


ブラックホールと時空の方程式 0.1111
逆数学 0.1111
64の事例からわかる金属腐食の対策 0.0526
Coq/SSReflect/MathCompによる定理証明 0.0526
基礎からわかる高分子材料 0.0000
ゼロからはじめるVisual_C#入門 0.0000
実践_地域・まちづくりワーク 0.0000
応用数学問題集 0.0000
生態系生態学(第2版) 0.0000


## 4.2 ベクトル空間モデル

In [20]:
# 語の重みの計算
from gensim import corpora,models

texts = ['花より団子・とにかく団子。','みたらしよりあんこ、あんこよりきなこ。']
words = [cf.get_words(text,keep_pos=['名詞']) for text in texts]
dic = corpora.Dictionary(words)

# 辞書の中身を列挙する
for i in range(len(dic)):
    print('dic[%d] = %s' % (i,dic[i]))
    
bows = [dic.doc2bow(w) for w in words]
tfidf = models.TfidfModel(bows)

# 1番目の文書の語とその重みを取得する。
weights = tfidf[bows[1]]

# 説明の都合上、小数点以下4位より下のけたを丸める
weights = [(i,round(j,4)) for i,j in weights]

# 1番目の文書の語とその重みを表示する
print('weights = ',weights)

dic[0] = 団子
dic[1] = 花
dic[2] = あんこ
dic[3] = きなこ
dic[4] = みたらし
weights =  [(2, 0.8165), (3, 0.4082), (4, 0.4082)]


In [21]:
# コサイン類似度を計算するvsm_search関数

from gensim.similarities import MatrixSimilarity

def vsm_search(texts,query):
    tfidf_model,dic,text_weights = cf.get_tfidfmodel_and_weights(texts)
    
    index = MatrixSimilarity(text_weights,num_features=len(dic))
    
    # queryのbag-of-wordsを作成し、重みを計算
    query_bows = cf.get_bows([query],dic)
    query_weights = cf.get_weights(query_bows,dic,tfidf_model)
    
    # 類似度計算
    sims = index[query_weights[0]]
    
    # 類似度で降順にソートする
    return sorted(enumerate(sims),key=lambda x: x[1],reverse=True)

# ファイルに保存されているリストを読みだす
def get_list_from_file(file_name):
    with open(file_name,'r',encoding='UTF-8') as f:
        return f.read().split()
    


In [22]:
# vsm_searchによるランキング

# 書籍紹介文のデータを読み込む。
book_texts = [cf.get_string_from_file('irpb-files/data/ch04/%d.txt' % i) for i in range(10)]

# 書籍のタイトルを読み込む
titles = get_list_from_file('irpb-files/data/ch04/book-titles.txt')

# 類似度の計算とランキング
# book_texts[9]は「定理のつくりかた」。book_texts[:-1]はそれ以外
result = vsm_search(book_texts[:-1],book_texts[9])

# 文書番号をタイトルに変換して出力する
for x in range(9):
    print('%s %.4f' % (titles[result[x][0]],result[x][1]))

逆数学 0.4204
ブラックホールと時空の方程式 0.2737
Coq/SSReflect/MathCompによる定理証明 0.1746
応用数学問題集 0.1195
64の事例からわかる金属腐食の対策 0.0660
実践_地域・まちづくりワーク 0.0381
ゼロからはじめるVisual_C#入門 0.0262
生態系生態学(第2版) 0.0259
基礎からわかる高分子材料 0.0243


In [26]:
# ベクトル空間モデルに基づく検索
texts = [cf.get_string_from_file('irpb-files/data/ch04/%d.txt' % i) for i in range(10)]
titles = get_list_from_file('irpb-files/data/ch04/book-titles.txt')
query = '解説'
result = vsm_search(texts,query)
for x in range(len(result)):
    print('%s %.4f' % (titles[result[x][0]],result[x][1]))


64の事例からわかる金属腐食の対策 0.1283
ゼロからはじめるVisual_C#入門 0.1269
逆数学 0.1059
定理のつくりかた 0.0729
生態系生態学(第2版) 0.0662
実践_地域・まちづくりワーク 0.0612
応用数学問題集 0.0476
ブラックホールと時空の方程式 0.0393
Coq/SSReflect/MathCompによる定理証明 0.0344
基礎からわかる高分子材料 0.0000
