In [1]:
from pathlib import Path
base_dir = Path("/data1/ujiie/shinra/EN/linkjp-sample-210315")

In [20]:
import json
import csv
category = "Airport"

def load_title_id(path):
    id2title = {}
    with open(path, 'r') as f:
        reader = csv.reader(f)
        for row in reader:
            id2title[row[0]] = row[1]
    return id2title

def load_annotation(path):
    annotation = []
    with open(path, "r") as f:
        for line in f:
            line = line.rstrip()
            if not line:
                continue
            line = json.loads(line)
            annotation.append(line)
    return annotation
            
def load_plain(path):
    plain_data = {}
    for fn in path.glob("*.txt"):
        page_id = fn.stem
        plain_data[page_id] = []
        with open(fn, "r") as f:
            for line in f:
                line = line.rstrip()
                plain_data[page_id].append(line)
    return plain_data

def extract_context(annotation, plain_data, id2title):
    dataset = []
    for ann in annotation:
        assert ann['page_id'] in plain_data
        doc = plain_data[ann['page_id']]
        mention = ann['text_offset']['text']
        start_line, start_off = ann['text_offset']['start']['line_id'], ann['text_offset']['start']['offset']
        end_line, end_off = ann['text_offset']['end']['line_id'], ann['text_offset']['end']['offset']
        
        if start_line == end_line:
            doc_mention = doc[start_line][start_off:end_off]
            right_context = doc[start_line][:start_off]
            left_context = doc[start_line][end_off:]
        else:
            doc_mention = doc[start_line][start_off:] + doc[end_line][:end_off]
            right_context = doc[start_line][:start_off]
            left_context = doc[end_line][end_off:]
        assert doc_mention == mention
        dataset.append([left_context, mention, right_context, ann["link_page_id"]])
    return dataset

def load_dataset(base_dir, category):
    id2title = load_title_id("/data1/ujiie/wiki_resource/title_id.csv")
    annotation = load_annotation(base_dir / "link_annotation" / f"{category}.json")
    plain_data = load_plain(base_dir / "plain" / category)
    dataset = extract_context(annotation, plain_data, id2title)
    return dataset

load_dataset(base_dir, "Airport")

[['',
  'Port lotniczy im. Ignacego Jana Paderewskiego Bydgoszcz-Szwederowo',
  '\t\t\t\tブィドゴシュチュ・イグナツィ・ヤン・パデレフスキ空港',
  '3054905'],
 ['）は、ポーランドのブィドゴシュチュの中心地から約3.5kmに位置する空港。2011年には約28万人の旅客を取り扱い、ポーランド内で9位の規模。',
  'Port lotniczy im. Ignacego Jana Paderewskiego Bydgoszcz-Szwederowo',
  'ブィドゴシュチュ・イグナツィ・ヤン・パデレフスキ空港（ポーランド語: ',
  '3054905'],
 ['所在地', 'ポーランド', 'ポーランドの旗 ', '6355'],
 ['のブィドゴシュチュの中心地から約3.5kmに位置する空港。2011年には約28万人の旅客を取り扱い、ポーランド内で9位の規模。',
  'ポーランド',
  'ブィドゴシュチュ・イグナツィ・ヤン・パデレフスキ空港（ポーランド語: Port lotniczy im. Ignacego Jana Paderewskiego Bydgoszcz-Szwederowo）は、',
  '6355'],
 ['内で9位の規模。',
  'ポーランド',
  'ブィドゴシュチュ・イグナツィ・ヤン・パデレフスキ空港（ポーランド語: Port lotniczy im. Ignacego Jana Paderewskiego Bydgoszcz-Szwederowo）は、ポーランドのブィドゴシュチュの中心地から約3.5kmに位置する空港。2011年には約28万人の旅客を取り扱い、',
  '6355'],
 ['種類', 'ブィドゴシュチュ', '', '613752'],
 ['Hua Hin Airport', 'ท่าอากาศยานหัวหิน', '\t\t\t\tフワヒン空港', '3254170'],
 ['', 'Hua Hin Airport', '\t\t\t\tフワヒン空港ท่าอากาศยานหัวหิน', '3254170'],
 [' 、英語\xa0: Hua Hin Airport ）は、タイ王国中部、プラチュワ