# Chapter 4 文書のランキング

## 4.1 特徴語集合の類似性

In [37]:
#import chapter3_func as c3f
from gensim import corpora 
from gensim import models

In [4]:
#!pip install gensim
#!pip install janome

In [19]:
#jaccard関数

#X,Yはiterative
def jaccard(X,Y):
    x = set(X)
    y = set(Y)
    a = len(x.intersection(y))
    b = len(x.union(y))
    if b == 0:
        return 0
    else:
        return a / b

In [26]:
def load_dictionary_and_corpus(dic_files,corpus_file):
    dic = corpora.Dictionary.load(dic_files)
    bows = list(corpora.MmCorpus(corpus_file))
    if not hasattr(dic,'cfs'):
        dic.cfs = c3f.bows_to_cfs(bows)
    return dic,bows

In [34]:
from gensim import corpora

#get_tfidfmodel_and_weights関数
def translate_bows(bows,table):
    return [[tuple([table[j[0]],j[1]]) for j in i if j[0] in table] for i in bows]

def get_tfidfmodel_and_weights(texts,use_aozora=True,pos=['名詞']):
    if use_aozora:
        dic,bows = load_aozora_corpus()
    else:
        dic = corpora.Dictionary()
        bows = []
    text_docs = [get_words(text,keep_pos=pos) for text in texts]
    text_bows = [dic.doc2bow(d,allow_update=True) for d in text_docs]
    bows.extend(text_bows)
    
    # textsに現れる語のidとtoken(表層形)のリストを作成
    text_ids = list(set([text_bows[i][j][0] for i in range(len(text_bows)) for j in range(len(text_bows[i]))]))
    text_tokens = [dic[i] for i in text_ids]
    
    # text_bowsにない語を削除
    dic.filter_tokens(good_ids=text_ids)
    # 削除前後のID対応付け
    # Y = id2id[X]として古いid Xから新しいid Yが得られるようになる。
    id2id = dict()
    for i in range(len(text_ids)):
        id2id[text_ids[i]] = dic.token2id[text_tokens[i]]
        
    # 語のIDが振り直されたのにあわせてbowを変換
    bows = translate_bows(bows,id2id)
    text_bows = translate_bows(text_bows,id2id)
    
    # TF・IDFモデルを作成
    tfidf_model = models.TfidfModel(bows,normalize=True)
    # モデルに基づいて重みを計算
    text_weights = get_weights(text_bows,dic,tfidf_model)
    
    return tfidf_model,dic,text_weights


In [35]:
# get_words関数
from janome.analyzer import Analyzer
from janome.tokenfilter import ExtractAttributeFilter
from janome.tokenfilter import POSStopFilter
from janome.tokenfilter import POSKeepFilter

def get_words(string,keep_pos=None):
    filters = []
    if keep_pos is None:
        filters.append(POSStopFilter(['記号'])) #記号を除外
    else:
        filters.append(POSKeepFilter(keep_pos)) #指定品詞を抽出
    filters.append(ExtractAttributeFilter('surface'))
    a = Analyzer(token_filters=filters) #後処理を指定
    return list(a.analyze(string))


In [39]:
def get_weights(bows,dic,tfidf_model,surface=False,N=1000):
    # TF・IDFを計算
    weights = tfidf_model[bows]
    # TF・IDFの値を基準に降順にソート、最大でN個を抽出
    weights = [sorted(w,key=lambda x:x[1],reverse=True)[:N] for w in weights]
    if surface:
        return [[(dic[x[0]],x[1]) for x in w] for w in weights]
    else:
        return weights

In [42]:
# TF・IDFの計算
from gensim import models

# コーパス作成のための関数
def load_aozora_corpus():
    return load_dictionary_and_corpus('./irpb-files/data/aozora/aozora.dic','./irpb-files/data/aozora/aozora.mm')

def get_bows(texts,dic,allow_update=False):
    bows = []
    for text in texts:
        words = get_words(text,keep_pos=['名詞'])
        bow = dic.doc2bow(words,allow_update=allow_update)
        bows.append(bow)
    return bows


In [50]:
# ランキングの計算

#from gensim import corpora

# 紹介文を読み込む。i番目の書籍の紹介文はtexts[i]
book_texts = [c3f.get_string_from_file('irpb-files/data/ch04/%d.txt' % i) for i in range(10)]

# 各紹介分の語の重みを計算する
# 補助的なコーパスとして青空文庫を利用する
tfidf_model,dic,book_weights = get_tfidfmodel_and_weights(book_texts)

# 書籍ごとに上位10の特徴語(のID)のリストを作成
# book_weightsにはIDとTF・IDFの値が組になっている
# そこからIDだけをぬきだす
keyword_lists = [[x[0] for x in w[:10]] for w in book_weights]
#print(keyword_lists)

# resultsの要素は(i,i番目の書籍との類似度)
# 「定理のつくりかた」の番号は9(9.txt)
results = [(x,jaccard(keyword_lists[9],keyword_lists[x])) for x in range(9)]
#print(results)

# 類似度で降順にソート
results.sort(key=lambda x: x[1],reverse=True)

# 書籍のタイトルを読み込む。i番目の書籍のタイトルはtitles[i]
with open('irpb-files/data/ch04/book-titles.txt',encoding='UTF-8') as f:
    titles = f.read().strip().split('\n')
    
# ランキング結果を表示
for x in range(9):
    print('%s %.4f' % (titles[results[x][0]],results[x][1]))
    

ブラックホールと時空の方程式 0.1111
逆数学 0.1111
64の事例からわかる金属腐食の対策 0.0526
Coq/SSReflect/MathCompによる定理証明 0.0526
基礎からわかる高分子材料 0.0000
ゼロからはじめるVisual_C#入門 0.0000
実践_地域・まちづくりワーク 0.0000
応用数学問題集 0.0000
生態系生態学(第2版) 0.0000


## 4.2 ベクトル空間モデル

In [59]:
# エンコーディングに応じて適切に読み込むget_string_from_file関数
import chardet

def get_string_from_file(filename):
    with open(filename,'rb') as f:
        d = f.read()
        e = chardet.detect(d)['encoding']
        # 推定できなかったときはUTF-8を設定する
        if e == None:
            e = 'UTF-8'
        return d.decode(e)

In [56]:
# 語の重みの計算
from gensim import corpora,models

texts = ['花より団子。とにかく団子','みたらしよりあんこ','猿も木から落ちる','あんこときなこは甲乙つけがたい']
words = [get_words(text,keep_pos=['名詞']) for text in texts]
dic = corpora.Dictionary(words)

# 辞書の中身を列挙
for i in range(len(dic)):
    print('dic[%d] = %s' % (i,dic[i]))
    
bows = [dic.doc2bow(w) for w in words]
tfidf = models.TfidfModel(bows)

# 1番目の文書の語とその重みを取得する。
weights = tfidf[bows[3]]

# 小数点以下４位より下のけたを丸める
weights = [(i,round(j,4)) for i,j in weights]

# １番目の文書の語とその重みを表示する
print('weights = ',weights)

dic[0] = 団子
dic[1] = 花
dic[2] = あんこ
dic[3] = みたらし
dic[4] = 木
dic[5] = 猿
dic[6] = きなこ
dic[7] = 甲乙
weights =  [(2, 0.3333), (6, 0.6667), (7, 0.6667)]


In [57]:
# vsm_search関数
from gensim.similarities import MatrixSimilarity

def vsm_search(texts,query):
    tfidf_model,dic,text_weights = get_tfidfmodel_and_weights(texts)
    
    index = MatrixSimilarity(text_weights,num_features=len(dic))
    
    # queryのbag-of-wordsを作成し、重みを計算する
    query_bows = get_bows([query],dic)
    query_weights = get_weights(query_bows,dic,tfidf_model)
    
    # 類似度計算
    sims = index[query_weights[0]]
    
    # 類似度で降順にソート
    return sorted(enumerate(sims),key=lambda x: x[1],reverse=True)

# ファイルに保存されているリストを読みだす
def get_list_from_file(file_name):
    with open(file_name,'r',encoding='UTF-8') as f:
        return f.read().split()


In [61]:
# vsm_searchによるランキング

# 書籍紹介文のデータを読み込む
book_texts = [get_string_from_file('irpb-files/data/ch04/%d.txt' % i) for i in range(10)]

# 書籍のタイトルを読み込む
titles = get_list_from_file('irpb-files/data/ch04/book-titles.txt')

# 類似度の計算とランキング
# book_texts[9]は「定理のつくりかた」 book_text[:-1]はそれ以外
result = vsm_search(book_texts[:-1],book_texts[9])

# 文書番号をタイトルに変換して出力
for x in range(9):
    print('%s %.4f' % (titles[result[x][0]],result[x][1]))
    

逆数学 0.4204
ブラックホールと時空の方程式 0.2737
Coq/SSReflect/MathCompによる定理証明 0.1746
応用数学問題集 0.1195
64の事例からわかる金属腐食の対策 0.0660
実践_地域・まちづくりワーク 0.0381
ゼロからはじめるVisual_C#入門 0.0262
生態系生態学(第2版) 0.0259
基礎からわかる高分子材料 0.0243


In [62]:
# ベクトル空間モデルに基づく検索

texts =  [get_string_from_file('irpb-files/data/ch04/%d.txt' % i) for i in range(10)]
titles = get_list_from_file('irpb-files/data/ch04/book-titles.txt')
query = '数学'
result = vsm_search(texts,query)
for x in range(len(result)):
    print('%s %.4f' % (titles[result[x][0]],result[x][1]))

定理のつくりかた 0.6793
逆数学 0.4038
ブラックホールと時空の方程式 0.2001
Coq/SSReflect/MathCompによる定理証明 0.1457
応用数学問題集 0.0807
64の事例からわかる金属腐食の対策 0.0000
基礎からわかる高分子材料 0.0000
ゼロからはじめるVisual_C#入門 0.0000
実践_地域・まちづくりワーク 0.0000
生態系生態学(第2版) 0.0000
