In [20]:
# built-in libs
import json
import pickle
import re
from dataclasses import dataclass
from pathlib import Path
from typing import Dict, List, Set, Tuple, Union

# 3rd party libs
import hanlp
import opencc
import pandas as pd
import wikipedia
from hanlp.components.pipeline import Pipeline
from pandarallel import pandarallel
import random
import time
import sys
sys.path.append('../')
# our own libs
from utils import load_json,generate_evidence_to_wiki_pages_mapping,jsonl_dir_to_df,load_simple_json
import os
os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
pandarallel.initialize(progress_bar=True, verbose=0, nb_workers=10)
wikipedia.set_lang("zh")

In [2]:
DATA = load_json("../pert_large/sent_data/val_test_doc100_cluster_rerank_thr001_sent_top5.jsonl")
pred_data = load_json("../pert_large/claim/val_doc_cluster_top5.jsonl")

In [4]:
wiki_pages = jsonl_dir_to_df("../../baseline/data/wiki-pages")
mapping = generate_evidence_to_wiki_pages_mapping(wiki_pages)
del wiki_pages

Reading and concatenating jsonl files in ../../baseline/data/wiki-pages
Generate parse mapping


VBox(children=(HBox(children=(IntProgress(value=0, description='0.00%', max=118776), Label(value='0 / 118776')…

Transform to id to evidence_map mapping


In [7]:
def pair_with_wiki_sentences(mapping,df) -> pd.DataFrame:
    """Only for creating train sentences."""
    claims = []
    sentences = []
    labels = []
    re_lst =[]
    # positive
    for i in range(len(df)):
        if df[i]["label"] == "NOT ENOUGH INFO" :
            df[i]["evidence_sentence"]=[]
            continue
        claim = df[i]["claim"]
        evidence_sets = df[i]["evidence"]
        evid_dic ={}
        evid_sent =[]
        for evidence_set in evidence_sets:
            sents = []
            for evidence in evidence_set:
                # evidence[2] is the page title
                page = evidence[2].replace(" ", "_")
                if page == '臺灣海峽危機#第二次臺灣海峽危機（1958）':
                    continue
                sent_idx = str(evidence[3])
                sents.append(mapping[page][sent_idx])
            evid_sent.append(sents)
        # if i ==0:
        #     evid_sent=[evid_sent]
        df[i]["evidence_sentence"] = evid_sent
    return df

In [8]:
evid_df = pair_with_wiki_sentences(mapping,DATA)

In [9]:
evid_df[0]

{'id': 2663,
 'label': 'refutes',
 'claim': '天衛三軌道在天王星內部的磁層，以《 仲夏夜之夢 》作者緹坦妮雅命名。',
 'evidence': [[[4209, 4331, '天衛三', 2]]],
 'predicted_pages': ['軌道',
  '磁層',
  '仲夏夜_(羅文專輯)',
  '天衛三',
  '作者',
  '緹坦妮雅',
  '天王星',
  '仲夏夜之夢_(消歧義)',
  '夢'],
 'predicted_evidence': [['天衛三', 2],
  ['天衛三', 3],
  ['天衛三', 0],
  ['天衛三', 1],
  ['天衛三', 8]],
 'evidence_sentence': [['1787年由威廉 · 赫歇爾發現 ， 並以威廉 · 莎士比亞的 《 仲夏夜之夢 》 中的妖精王后緹坦妮雅命名 。']]}

In [10]:
def pair_with_preds(data,pred_data):
    id_map = {i["id"]:idx for idx,i in enumerate(pred_data)}
    re_lst =[]
    for d in data:
        if d["id"] in id_map.keys():
            d["predicted_label"]=pred_data[id_map[d["id"]]]["predicted_label"]
            d["predicted_evidence"]=pred_data[id_map[d["id"]]]["predicted_evidence"]
            buf_lst = []
            for i in d["predicted_evidence"]:
                buf_lst.append(mapping[i[0]][str(i[1])])
            d["predicted_sentnece"] = buf_lst
        else:
            d["predicted_label"]=[]
            d["predicted_evidence"]=[]
        re_lst.append(d)
    return re_lst

In [11]:
final_val = pair_with_preds(evid_df,pred_data)
final_val[:4]

[{'id': 2663,
  'label': 'refutes',
  'claim': '天衛三軌道在天王星內部的磁層，以《 仲夏夜之夢 》作者緹坦妮雅命名。',
  'evidence': [[[4209, 4331, '天衛三', 2]]],
  'predicted_pages': ['軌道',
   '磁層',
   '仲夏夜_(羅文專輯)',
   '天衛三',
   '作者',
   '緹坦妮雅',
   '天王星',
   '仲夏夜之夢_(消歧義)',
   '夢'],
  'predicted_evidence': [['天衛三', 2],
   ['天衛三', 3],
   ['天衛三', 0],
   ['天衛三', 1],
   ['天衛三', 8]],
  'evidence_sentence': [['1787年由威廉 · 赫歇爾發現 ， 並以威廉 · 莎士比亞的 《 仲夏夜之夢 》 中的妖精王后緹坦妮雅命名 。']],
  'predicted_label': 'supports',
  'predicted_sentnece': ['1787年由威廉 · 赫歇爾發現 ， 並以威廉 · 莎士比亞的 《 仲夏夜之夢 》 中的妖精王后緹坦妮雅命名 。',
   '它的軌道位於天王星的內部磁層 。',
   '天衛三 （ 緹坦妮雅 、 Titania 、 -LSB- link - entaɪˈteɪniə -RSB- ） 是天王星最大的衛星 ， 也是太陽系內第八大的衛星 。',
   '直徑爲 1,578 公里 （ 981英里 ） ， 。',
   '表面覆滿了火山灰 。']},
 {'id': 7551,
  'label': 'supports',
  'claim': '毒魚豆的萃取物被西印度群島的原住民發掘可以導致魚麻醉安靜 ， 讓他們得以趁機徒手抓魚 。',
  'evidence': [[[6825, 6546, '毒魚豆', 4]]],
  'predicted_pages': ['魚', '西', '印度', '毒魚豆', '萃取', '原住民'],
  'predicted_evidence': [['毒魚豆', 4],
   ['毒魚豆', 6],
   ['毒魚豆', 0],
   ['毒魚豆', 10],
   [

In [12]:
def pair_with_preds_page(data,pred_data):
    id_map = {i["id"]:idx for idx,i in enumerate(pred_data)}
    re_lst =[]
    for d in data:
        if d["id"] in id_map.keys():
            d["predicted_pages_1"]=pred_data[id_map[d["id"]]]["predicted_pages_1"]
        else:
            d["predicted_pages_1"]=[]
        re_lst.append(d)
    return re_lst

In [67]:
page_data = load_json("../pert_large/page_data/train_test_doc100_cluster_thr001.jsonl")
len(page_data)

2739

In [69]:
page_data_id = sorted([i["id"] for i in page_data])

In [68]:
sent_data = load_json("../pert_large/sent_data/train_test_doc100_cluster_rerank_thr001_sent_top5.jsonl")
len(sent_data)

2505

In [70]:
sent_data_id = sorted([i["id"] for i in sent_data])

In [71]:
page_data_id[:10]

[71, 72, 73, 83, 84, 86, 87, 89, 92, 93]

In [90]:
(sent_data_id)[:10]

[55, 60, 71, 72, 73, 75, 79, 83, 89, 91]

In [74]:
b = (load_simple_json("../pert_large/sent/doc100_cluster_e20_b8_recall/train_test.json"))
len(b.keys())

2505

In [78]:
sorted([int(i) for i in list(b.keys())],reverse=False)[:10]

[55, 60, 71, 72, 73, 75, 79, 83, 89, 91]

In [103]:
c = load_simple_json("../pert_large/doc100_cluster_rerank_th001_sent_top5.json")
sorted(set([i["qid"] for i in c["train_test"]]))[:10]

[55, 60, 71, 72, 73, 75, 79, 83, 89, 91]

In [104]:
c = load_simple_json("../pert_large/doc100_cluster_rerank_th001_sent_top5__.json")
sorted(set([i["qid"] for i in c["train_test"]]))[:10]

[55, 60, 71, 72, 73, 75, 79, 83, 89, 91]

In [83]:
sorted(set([i["qid"] for i in c["train_test"]]))[:10]

[71, 72, 73, 83, 84, 86, 87, 89, 92, 93]

In [101]:
c = load_simple_json("../pert_large/doc100_cluster_rerank_thr001__.json")
sorted(set([i["qid"] for i in c["train_test"]]))[:10]

[71, 72, 73, 83, 84, 89, 92, 94, 108, 114]

In [96]:
c = load_simple_json("../pert_large/page/doc100_cluster_e20b8_recall/train_test.json")
sorted(set([int(i) for i in list(c.keys())]))[:10]

[71, 72, 73, 83, 84, 86, 87, 89, 92, 93]

In [105]:
c = load_json("../pert_large/sent_data/train_test_doc100_cluster_rerank_thr001_sent_top5.jsonl")
sorted(set([i["id"] for i in c]))[:10]

FileNotFoundError: [Errno 2] No such file or directory: '../pert_large/snet_data/train_test_doc100_cluster_rerank_thr001_sent_top5.jsonl'

In [51]:
page_set = set([i["id"] for i in page_data])
len(page_set)

1223

In [43]:
buf = page_set-sent_set

In [47]:
60 in sent_set

False

In [52]:
len(buf)

908

In [50]:
c1["val_test"][0]

{'sentence1': '天衛三軌道在天王星內部的磁層，以《 仲夏夜之夢 》作者緹坦妮雅命名。',
 'qid': 2663,
 'sentence2': '天衛三:1787年由威廉 · 赫歇爾發現 ， 並以威廉 · 莎士比亞的 《 仲夏夜之夢 》 中的妖精王后緹坦妮雅命名 。[SEP]天衛三:它的軌道位於天王星的內部磁層 。[SEP]天衛三:天衛三 （ 緹坦妮雅 、 Titania 、 -LSB- link - entaɪˈteɪniə -RSB- ） 是天王星最大的衛星 ， 也是太陽系內第八大的衛星 。[SEP]天衛三:直徑爲 1,578 公里 （ 981英里 ） ， 。[SEP]天衛三:表面覆滿了火山灰 。',
 'label': 1}

In [57]:
c1 = load_simple_json("../pert_large/doc100_cluster_rerank_th001_sent_top5.json")

In [31]:
len(DATA)

1055

In [71]:
final_val1 = pair_with_preds_page(final_val,page_data)

In [73]:
final_val1[:10]

[{'id': 2663,
  'label': 'refutes',
  'claim': '天衛三軌道在天王星內部的磁層，以《 仲夏夜之夢 》作者緹坦妮雅命名。',
  'evidence': [[[4209, 4331, '天衛三', 2]]],
  'predicted_pages': ['軌道',
   '磁層',
   '仲夏夜_(羅文專輯)',
   '天衛三',
   '作者',
   '緹坦妮雅',
   '天王星',
   '仲夏夜之夢_(消歧義)',
   '夢'],
  'predicted_evidence': [['天衛三', 2],
   ['天衛三', 3],
   ['天衛三', 0],
   ['天衛三', 1],
   ['天衛三', 8]],
  'evidence_sentence': [['1787年由威廉 · 赫歇爾發現 ， 並以威廉 · 莎士比亞的 《 仲夏夜之夢 》 中的妖精王后緹坦妮雅命名 。']],
  'predicted_label': 'supports',
  'predicted_sentnece': ['1787年由威廉 · 赫歇爾發現 ， 並以威廉 · 莎士比亞的 《 仲夏夜之夢 》 中的妖精王后緹坦妮雅命名 。',
   '它的軌道位於天王星的內部磁層 。',
   '天衛三 （ 緹坦妮雅 、 Titania 、 -LSB- link - entaɪˈteɪniə -RSB- ） 是天王星最大的衛星 ， 也是太陽系內第八大的衛星 。',
   '直徑爲 1,578 公里 （ 981英里 ） ， 。',
   '表面覆滿了火山灰 。'],
  'predicted_pages_1': []},
 {'id': 7551,
  'label': 'supports',
  'claim': '毒魚豆的萃取物被西印度群島的原住民發掘可以導致魚麻醉安靜 ， 讓他們得以趁機徒手抓魚 。',
  'evidence': [[[6825, 6546, '毒魚豆', 4]]],
  'predicted_pages': ['魚', '西', '印度', '毒魚豆', '萃取', '原住民'],
  'predicted_evidence': [['毒魚豆', 4],
   ['毒魚豆', 6],
   ['毒魚豆

In [74]:
with open("./doc100_cluster_top5_val_with_evid.jsonl","w",encoding="utf8",) as f:
        for i, d in enumerate(final_val1):
            f.write(json.dumps(d, ensure_ascii=False) + "\n")

In [None]:
val_test_doc100_thr001