In [1]:
import pandas as pd
import pickle as pkl
import numpy as np
import os

from sklearn.linear_model import SGDClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import balanced_accuracy_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix
from sklearn.ensemble import BaggingClassifier

from sentence_transformers import SentenceTransformer
import json

def load_pickle(path):
    assert os.path.exists(path)
    with open(path, "rb") as f:
        return pkl.load(f)

class RFR(object):
    def __init__(self, clf, all_cate_list, sim_model):
        assert hasattr(clf, "fit")
        assert type(all_cate_list) == type([])
        self.clf = clf
        self.all_cate_list = all_cate_list
        self.sim_model = sim_model
        self.all_cate_emb_dict = {}

        self.produce_all_cate_emb()

        self.all_cate_emb_df = pd.DataFrame(self.all_cate_emb_dict.items(), columns = ["rank_key", "rank_key_emb"])

    def produce_all_cate_emb(self):
        arr = self.sim_model.encode(self.all_cate_list,
            show_progress_bar = True
        )
        assert len(arr) == len(self.all_cate_list)
        ele = self.all_cate_list
        d = {}
        for i in range(len(ele)):
            k = ele[i]
            v = arr[i]
            d[k] = v
        self.all_cate_emb_dict = d

    def emb_one_sent(self, sent):
        assert type(sent) == type("")
        req = self.sim_model.encode([sent])
        if hasattr(req, "numpy"):
            req = req.numpy()
        return req

    def produce_rank_df(self, sent, filter_list = []):
        sent_emb = self.emb_one_sent(sent)
        sent_emb_l = np.asarray(sent_emb).reshape([-1]).tolist()
        assert len(sent_emb_l) == 768
        req = self.all_cate_emb_df.copy()
        req = req[
            req["rank_key"].isin(filter_list)
        ]

        req["x"] = req.apply(
            lambda s:
            sent_emb_l + s["rank_key_emb"].reshape([-1]).tolist()
            , axis = 1
        )
        x = np.asarray(req["x"].values.tolist()).reshape([-1, 768 * 2])
        assert len(x.shape) == 2
        assert x.shape[0] == len(req)

        pred = self.clf.predict_proba(x)
        assert len(pred.shape) == 2
        pred = pred[:, 1]
        assert len(pred) == len(req)

        req = pd.concat([
            pd.Series(pred), pd.Series(req["rank_key"].values.tolist())
        ], axis = 1)

        req.columns = ["prob", "cate"]
        return req.sort_values(by = "prob", ascending = False)


In [2]:
with open("../ranker_cls/pid_zh_b_dict.json", "r") as f:
    pid_zh_b_dict = json.load(f)

In [3]:
###len(pid_zh_b_dict)

In [4]:
b_clf = load_pickle("../ranker_cls/ranking_bag_mlp.pkl")

In [5]:
sim_model = SentenceTransformer('LaBSE')
sim_model.pool = None

br_cls = RFR(b_clf,
        all_cate_list=list(pid_zh_b_dict.values()),
       sim_model=sim_model
       )

Batches:   0%|          | 0/25 [00:00<?, ?it/s]

In [6]:
d = {'en_ent_ask_question': '"The Great Gatesby" is one of the most famous works in which country?',
 'en_query_fix': 'select distinct?sbj where ?sbj wdt:works_in wd:The_Great_Gatesby.?sbj wdt:is_one_of wd:political_organisation_with_a_centralized_independent_government ',
 'question': '《了不起的盖茨比》是哪个国家最著名的作品之一?',
 'answer_text': '美国',
 'statement': '[伟大的盖茨比-TheGreatGatesby]“是美国最着名的作品之一'}
d

{'en_ent_ask_question': '"The Great Gatesby" is one of the most famous works in which country?',
 'en_query_fix': 'select distinct?sbj where ?sbj wdt:works_in wd:The_Great_Gatesby.?sbj wdt:is_one_of wd:political_organisation_with_a_centralized_independent_government ',
 'question': '《了不起的盖茨比》是哪个国家最著名的作品之一?',
 'answer_text': '美国',
 'statement': '[伟大的盖茨比-TheGreatGatesby]“是美国最着名的作品之一'}

In [8]:
br_cls.produce_rank_df(d["question"],  br_cls.all_cate_list)

[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done   1 out of   1 | elapsed:    0.1s finished


Unnamed: 0,prob,cate
739,9.757720e-01,描述 描绘 描繪 描画 刻画 情節 情节 描绘内容 描繪內容 描述內容 拍攝對象 被描绘的实...
403,9.756872e-01,创作者 創作者 创作主体 藝術創作或其他項目的作者 艺术创作或其他项目的作者 此艺术作品或其...
4,9.289577e-01,追随对象 追隨對象 對於以指定藝術家的方式工作的未知藝術家
370,9.239605e-01,引用作品 参考文献 本作品所引用的其他作品
75,9.210163e-01,記載於 记载于 有記載此項的文獻 有记载此项的文献
...,...,...
590,1.298794e-06,矩震級 矩震级 地震矩規模
512,7.756557e-07,溶解度 可溶性
375,3.863423e-07,單位 物理量 以此物理量测量 某單位所適用的物理量 以数字乘以单位表示的物理属性值
454,1.481241e-07,通货膨胀率 居民消费价格指数的年变化率


In [None]:
"作品"

In [None]:
br_cls.produce_rank_df("埃尔达尔·梁赞诺夫出生在薩馬拉的时候他出生在哪个国家？",  br_cls.all_cate_list)

In [19]:
property_info_df = load_pickle("/Users/svjack/temp/kbqa_prj/property_info_df.pkl")

In [20]:
property_info_df_en_exp =  property_info_df.explode("en_info")
property_info_df_en_exp = property_info_df_en_exp.dropna()

In [26]:
property_info_df[
    property_info_df["zh_info"].map(lambda x: "作品" in str(x))
]

Unnamed: 0,pid,en_info,zh_info
10,P175,"[performer, actor, musician, band or other per...","[表演者, 演出者, 演員，音樂家，樂隊或與此角色或音樂作品相關的其他表演者, 与此角色或音..."
14,P166,"[award received, award or recognition received...","[所获奖项, 所獲獎項, 人物、機構或作品所獲的獎項, 人物、机构或作品所获的奖项, 獲獎,..."
29,P407,"[language of work or name, language associated...","[作品或名稱語言, 作品或名称语言, 作品或名稱的語言, 与此作品或名称有关的语言, 与此创..."
70,P750,"[distributed by, distributor of a creative wor...","[經銷商, 發行商, 发行商, 经销商, 負責作品經銷一方, 作品的發行和經銷一方, 负责作..."
91,P1025,"[SUDOC editions, identifier in the French unio...","[大学文档系统作品标识符, 大學文檔系統作品識別碼, 作品在法国的大学文档系统中的规范控制标..."
...,...,...,...
4693,P1574,"[exemplar of, property for manuscripts, autogr...","[原本包含, 手稿，簽名，搖籃本，不同的印刷版本的屬性, 包含作品]"
4698,P1680,"[subtitle, for works, when the title is follow...","[副标题, 副標題, 一个作品的副标题, 一個作品的副標題, 子标题, 子標題]"
4723,P1810,"[named as, name by which a subject is recorded...","[命名为, 命名為, 名为, 主題記錄在數據庫中或作為作品的貢獻者提及的名稱, 主體於資料庫..."
4816,P2634,"[sitter, person who posed during the creation ...","[模特, 在作品创作期间摆姿势的人，无论该人最终是否被描绘成当事人, 在作品創作期間擺姿勢的..."


In [21]:
from rapidfuzz import fuzz

In [22]:
'''
wdt:works_in
wdt:is_one_of
'''

'\nwdt:works_in\nwdt:is_one_of\n'

In [23]:
def map_fuzz_l(input_p, property_info_df_en_exp):
    property_info_df_en_exp = property_info_df_en_exp.copy()
    property_info_df_en_exp["fuzz"] = property_info_df_en_exp["en_info"].\
    map(lambda x: fuzz.ratio(input_p.replace("_", " "), x))
    property_info_df_en_exp = property_info_df_en_exp.sort_values(by = "fuzz", ascending = False)
    return property_info_df_en_exp

In [24]:
map_fuzz_l("works_in", property_info_df_en_exp)

Unnamed: 0,pid,en_info,zh_info,fuzz
4571,P425,works in,"[專業領域, 职业领域, 专业领域, 某职业的专业领域, 此職業的專業領域]",100.000000
3945,P840,work set in,"[敘事發生地, 故事发生地, 此作品所述内容发生的地方, 此作品所述內容發生的地方, 此作品...",84.210526
2010,P800,works,"[主要作品, 主要的科研或藝術等作品, 主要的科研或艺术等作品, 作品, 著名作品, 代表作...",76.923077
9,P108,works at,"[雇主, 僱主, 主体为之工作的个人或组织, 雇用此人物的人或機構, 工作於, 受僱於, 受...",75.000000
9,P108,works for,"[雇主, 僱主, 主体为之工作的个人或组织, 雇用此人物的人或機構, 工作於, 受僱於, 受...",70.588235
...,...,...,...,...
2279,P3425,N2K,[],0.000000
140,P1545,#,"[系列序號, 系列序号, 在序列中的编号，通常为数字, 排序, 序號, 系列編號, 序列号,...",0.000000
140,P1545,№,"[系列序號, 系列序号, 在序列中的编号，通常为数字, 排序, 序號, 系列編號, 序列号,...",0.000000
140,P1545,S/N,"[系列序號, 系列序号, 在序列中的编号，通常为数字, 排序, 序號, 系列編號, 序列号,...",0.000000


In [25]:
map_fuzz_l("is_one_of", property_info_df_en_exp)

Unnamed: 0,pid,en_info,zh_info,fuzz
3877,P127,is owner of,"[所有者, 拥有者, 擁有者, 主体的所有者, 对此项持有拥有权的人或机构, 對此項持有擁有...",90.000000
2,P22,is son of,"[父亲, 父親, 男性家長, 主体的男性家长。对于继父，使用“继父”, 男性家长, 父, 爸...",88.888889
4538,P25,is son of,"[母親, 母亲, 女性家長, 女性家长, 母, 妈妈, 妈, 娘, 娘亲]",88.888889
4538,P25,son of,"[母親, 母亲, 女性家長, 女性家长, 母, 妈妈, 妈, 娘, 娘亲]",80.000000
2,P22,son of,"[父亲, 父親, 男性家長, 主体的男性家长。对于继父，使用“继父”, 男性家长, 父, 爸...",80.000000
...,...,...,...,...
1439,P1278,GLEI,"[法律实体标识符, 法律實體標識符, 根據ISO 17442的法律上不同的實體的標識符, 法...",0.000000
832,P1870,NAAN,[名称分配机构号码],0.000000
4885,P3285,MSC2010,[数学学科分类标准编号],0.000000
1583,P2786,ARP,"[机场参考点, 机场官方坐标]",0.000000


In [27]:
property_info_df = load_pickle("../property_info_df.pkl")

In [28]:
property_info_df

Unnamed: 0,pid,en_info,zh_info
0,P88,"[commissioned by, person or organization that ...","[委托人, 委託人, 委托进行这项工作的个人或组织, 委托艺术家进行创作的人, 委託藝術家進..."
1,P39,"[position held, office held, subject currently...","[职务, 擔任職務, 担任职务, 主体目前或以前担任客体的职位或公职, 項目擔任的公職, 主..."
2,P22,"[father, male parent of the subject. For stepf...","[父亲, 父親, 男性家長, 主体的男性家长。对于继父，使用“继父”, 男性家长, 父, 爸..."
3,P19,"[place of birth, most specific known birth lo...","[出生地, 某生物誕生的地點, 人、動物或虚拟角色的已知最詳細的誕生地點, 所知最详细的出生..."
4,P131,[located in the administrative territorial ent...,"[所在行政領土實體, 所在行政领土实体, 隶属, 上级行政区, 行政區, 隸屬行政區, 上級..."
...,...,...,...
5229,P1595,"[charge, offence with which someone is charged...",[控罪]
5230,P6076,"[biobased content weight percentage, weight pe...",[]
5231,P6257,"[right ascension, astronomical equivalent of l...",[赤经]
5232,P5899,"[interest rate, The yearly interest rate]",[利率]


In [36]:
property_info_df[
    property_info_df.apply(lambda x: 
                ("works" in str(x["en_info"]) and "作品" in str(x["zh_info"])), axis = 1
                                     )
]

Unnamed: 0,pid,en_info,zh_info
1301,P5732,"[bgm.tv subject ID, identifier for creative wo...","[bgm.tv主題識別碼, bgm.tv主题标识符, Bangumi資料庫上作品的識別碼, ..."
2010,P800,"[notable work, notable works, значајно научно,...","[主要作品, 主要的科研或藝術等作品, 主要的科研或艺术等作品, 作品, 著名作品, 代表作..."
3145,P5592,"[number of works accessible online, qualifier ...","[可在线访问的作品数量, 可於線上查詢的作品數量]"
3150,P5528,"[Belgian Heritage in Brazil ID, identifier for...","[比利时遗产在巴西的ID, 与巴西的比利时遗产有关的臭名昭著的个人、公司和艺术作品的识别码]"
4011,P1455,"[list of works, bibliography, catalog of works...","[作品列表, 到一个人的作品的条目的链接, 书目, 書目]"
4051,P1827,"[ISWC, identifier for musical works, adopted a...","[國際標準音樂作品編碼, 国际标准音乐作品编码, 音樂作品標識符，採用國際標準國際標準化組織..."
4218,P3212,"[ISAN, unique identifier for audiovisual works...","[國際標準视听資料編碼, ISAN, ISAN 編號, 視聽作品和相關版本的唯一標識符，類似..."
4269,P3740,"[number of works, qualifier on identifiers, eg...","[作品数量, 作品數量]"
4550,P136,"[genre, Genre eines Kunstwerkes oder das Genre...","[類型, 类型, 音樂類型, 電影類型, 文學類型, 作品類型, 遊戲類型, 電子遊戲類型,..."
4698,P1680,"[subtitle, for works, when the title is follow...","[副标题, 副標題, 一个作品的副标题, 一個作品的副標題, 子标题, 子標題]"
