In [1]:
import json
import random
from itertools import chain
from collections import defaultdict
import re
from utils import load_kb, get_tail_kb

random.seed(1)

In [2]:
def get_attrname2entities(kb):
    attrname2entities = {}
    for entity,attrs in kb.items():
        for attrname,attrvalue in attrs.items():
            if attrname not in attrname2entities:
                attrname2entities[attrname] = set()
            attrname2entities[attrname].add(entity)
    
    for attrname in attrname2entities:
        attrname2entities[attrname] = sorted(list(attrname2entities[attrname]))
    return attrname2entities

In [3]:

def get_forbid_entity(kb):
    entities = list(kb.keys())
    attrnames = list(chain(*[list(kb[t].keys()) for t in kb.keys() ]))
    attrnames = set(attrnames)
    ea_entities = set(entities)&attrnames
    return ea_entities

In [4]:
kb, entity_mapping = load_kb('../data/final_data/new_kg.json')
tail_kb = get_tail_kb(kb, entity_mapping)
attrname2entities = get_attrname2entities(kb)

length of kb: 38054
tail entity count: 31167


In [5]:
from rank_bm25 import BM25Okapi
all_kb_entity = list(kb.keys()|entity_mapping.keys()|tail_kb.keys())
tokenized_corpus = [w for w in all_kb_entity]

bm25 = BM25Okapi(tokenized_corpus)

In [6]:
kb['卡兹里克']

{'势力': ['卡拉克西'],
 '头衔': ['卡拉克西'],
 '对联盟玩家态度': ['友善'],
 '对部落玩家态度': ['友善'],
 '性别': ['男性'],
 '所在地': ['恐惧之心', ' 恐惧废土'],
 '状态': ['存活'],
 '生命值': ['3151528'],
 '种族': ['螳螂妖'],
 '等级': ['90'],
 '英文名': ["Kaz'rik"],
 '阵营': ['中立']}

In [7]:
kb['31']

{'类型': ['恐怖'],
 '中文名': ['31'],
 '上映时间': ['2015'],
 '简介': ['电影《31》是由罗布·赞比执导， 伊丽莎白·戴利 、雪莉·穆恩·赞比、丹尼尔·洛巴克主演的惊悚恐怖电影。::;《31》讲述了万圣节前一天，五名狂欢节员工被绑架挟持到一个称为“肃杀世界”的孤立院子，在万圣节时，他们会被扔进一个名叫“31”的虐待狂的游戏中。'],
 '编剧': ['罗布·赞比'],
 '主演': ['伊丽莎白·戴利，雪莉·穆恩·赞比，Torsten Voges，Bari Suzuki'],
 '对白语言': ['英语'],
 '制片地区': ['美国'],
 '导演': ['罗布·赞比'],
 '色彩': ['彩色']}

In [8]:
kb['瑟莱因一世']

{'类型': ['角色'],
 '种族': ['矮人', '长须'],
 '家族': ['都林家族'],
 '父亲': ['纳因一世'],
 '子嗣': ['梭林一世'],
 '继承人': ['梭林一世']}

In [9]:
kb['Python数据分析与挖掘实战']

{'评分': ['7.7'],
 '作者': ['张良均'],
 '译者': ['王路', '谭立云', '苏剑林'],
 '出版社': ['机械工业出版社'],
 '出版时间': ['2016-01-01'],
 '价格': ['69.00']}

In [10]:
kb['奥氏裸顶鲷']

{'介绍': ['胸鳍的内面没有鳞片。  整体的色彩是银色或微白色的， 时常淡褐色或橄榄色在上侧面上。  在侧边上的每个鳞片有一个褐色斑点形成纵列。  鳍均匀地是清澈的到些微淡黄色。  新鲜的标本在侧边上有分散的褐色斑纹。  经过眼的一条黑色的横带也可能是明显可见的。'],
 '界': ['动物界'],
 '门': ['脊索动物门'],
 '纲': ['辐鳍鱼纲'],
 '目': ['鲈形目'],
 '科': ['裸颊鲷科'],
 '属': ['白鱲属(Gymnocraniu']}

In [11]:
kb['丝路（梁静茹演唱的歌曲）']

{'音乐风格': ['流行', '抒情'],
 '歌曲语言': ['国语'],
 '歌曲时长': ['05:01'],
 '所属专辑': ['丝路'],
 '编曲': ['王力宏'],
 '歌曲原唱': ['梁静茹'],
 '谱曲': ['王力宏'],
 '中文名称': ['丝路'],
 '简介': ['《丝路》是华语流行乐女歌手梁静茹演唱的一首慢板抒情歌，由五月天阿信填词，王力宏谱曲，收录于梁静茹2005年9月16日发行的个人专辑《丝路》中，作为专辑的第一主打歌。2006年，这首歌获得了KKBOX数位音乐风云榜年度十大金曲、第6届全球华语歌曲排行榜二十大最受欢迎金曲和最佳作词奖。'],
 '填词': ['阿信'],
 '发行时间': ['2005年09月16日']}

In [12]:
kb['玲珑塔']

{'周边景点': ['水立方嬉水乐园', '鸟巢（国家体育场）', '中国科学技术馆', '鸟巢3D美术馆', '水立方（国家游泳中心）'],
 '简介': ['玲珑塔是奥林匹克公园中的标志性建筑，高132米。曾作为多功能演播中心使用。入夜，在变化的灯光下闪现出七彩的颜色，极为美丽。'],
 '地址': ['北京市朝阳区湖景东路(近地铁亚运村站)'],
 '开放什么游玩时间': ['全天开放'],
 '电话': ['010-58422277'],
 '门票': ['无需门票。景区只限外部参观。']}

In [13]:
kb['野望']

{'朝代': ['唐代'],
 '作者': ['杜甫'],
 '诗词全文第一句最后一句背诵': ['西山白雪三城戍，南浦清江万里桥。海内风尘诸弟隔，天涯涕泪一身遥。惟将迟暮供多病，未有涓埃答圣朝。跨马出郊时极目，不堪人事日萧条。'],
 '作品简介': ['《野望》是唐代诗人杜甫创作的一首七言律诗。诗的首联写野望时所见的西山和锦江景色；颔联由野望联想到兄弟的离散和孤身浪迹天涯；颈联抒写迟暮多病不能报效国家之感；尾联写野望的方式和对家国的深沉忧虑。这首诗由景入题，忧时忧国，语言淳朴，感情深沉。']}

In [14]:
tail_kb['蒋梦麟']

{'作者': ['西潮']}

In [20]:
kb['爱伦·坡短篇小说集']

{'评分': ['8.8'],
 '作者': ['爱伦·坡'],
 '译者': ['陈良廷', '徐汝春'],
 '出版社': ['人民文学出版社'],
 '出版时间': ['1998-02-01'],
 '价格': ['17.00']}

In [23]:
x = "无题"
scores = bm25.get_scores(x)

best_docs = sorted(list(zip(tokenized_corpus, scores)), key=lambda x: x[1], reverse=True)[:10]
print(best_docs)

[('无题', 13.7352488313703), ('无题五首', 11.396611149667663), ('《无题》', 11.396611149667663), ('无题（五首）', 9.738484208392535), ('无题和唐李义山商隐', 7.993899741217245), ('无声无息', 7.691465237514793), ('无', 7.641935512781864), ('次韵和石末公无题之作', 7.543447008260772), ('阙题', 6.877393696370489), ('题画', 6.877393696370489)]


In [62]:
def get_cwd_bm25_model(kb, attrname2entities):
    cwd_list = attrname2entities["释义"]
    
    cwd_value_list = [kb[x]["释义"][0] for x in cwd_list]
    value2cwds = defaultdict(list)
    for x in cwd_list:
        value2cwds[kb[x]["释义"][0]].append(x)
    
    all_kb_entity = cwd_value_list
    tokenized_corpus = [w for w in all_kb_entity]

    bm25 = BM25Okapi(tokenized_corpus)
    return bm25, cwd_value_list, value2cwds

In [63]:
bm25, cwd_value_list, value2cwds = get_cwd_bm25_model(kb, attrname2entities)

In [69]:
x = "形容规矩老实，守本分，不做违法的事的成成语有些，你知道吗？"
x = re.findall("形容(.+?)\成语",x)[0]
scores = bm25.get_scores(x)

best_docs = sorted(list(zip(tokenized_corpus, scores)), key=lambda x: x[1], reverse=True)[:10]
select_value = best_docs[0][0]
print(value2cwds[select_value])

['安份守己', '安分守已']
