In [1]:
import json
from tqdm import tqdm
import numpy as np

import os
import string

from pytorch_transformers.tokenization_bert import BertTokenizer

In [2]:
file_lines = open('sample_elq_dev.jsonl').readlines()
sample_elq = {}
for line in file_lines:
    line_json = json.loads(line)
    sample_elq[line_json['id']] = line_json

In [11]:
sample_elq.keys()

dict_keys(['947testa CRICKET', '948testa CRICKET', '949testa CRICKET', '950testa SOCCER', '951testa BASKETBALL', '952testa SOCCER', '953testa SOCCER', '954testa BOXING', '955testa SQUASH', '956testa SOCCER', '957testa BASEBALL', '958testa TENNIS', '959testa BASEBALL', '960testa BASEBALL', '961testa TENNIS', '962testa NFL', '963testa GOLF', '964testa GOLF', '965testa SOCCER', '966testa ATHLETICS', '967testa ATHLETICS', '968testa SOCCER', '969testa ATHLETICS', '970testa SOCCER', '971testa SOCCER', '972testa CRICKET', '973testa CRICKET', '974testa CRICKET', '975testa CRICKET', '976testa ROMANIA', '977testa POLISH', '978testa Canada', '979testa Jones', '980testa NYMEX', '981testa U.S.', '982testa Douglas', '983testa UK', '984testa Iraqi', '985testa Late', '986testa Boxing-Bruno', '987testa Soccer', '988testa Nigerian', '989testa East', '990testa Chad', '991testa Yeltsin', '992testa Lebed', '993testa Ruling', '994testa Belgrade', '995testa Top', '996testa Tajik', '997testa Polish', '998test

In [12]:
elq_sample = sample_elq['947testa CRICKET']
elq_sample

{'id': '947testa CRICKET',
 'text': "CRICKET - LEICESTERSHIRE TAKE OVER AT TOP AFTER INNINGS VICTORY . LONDON 1996-08-30 West Indian all-rounder Phil Simmons took four for 38 on Friday as Leicestershire beat Somerset by an innings and 39 runs in two days to take over at the head of the county championship . Their stay on top , though , may be short-lived as title rivals Essex , Derbyshire and Surrey all closed in on victory while Kent made up for lost time in their rain-affected match against Nottinghamshire . After bowling Somerset out for 83 on the opening morning at Grace Road , Leicestershire extended their first innings by 94 runs before being bowled out for 296 with England discard Andy Caddick taking three for 83 . Trailing by 213 , Somerset got a solid start to their second innings before Simmons stepped in to bundle them out for 174 . Essex , however , look certain to regain their top spot after Nasser Hussain and Peter Such gave them a firm grip on their match against Yorkshi

In [3]:
fpath = 'AIDA-YAGO2-en_desc'

fname = os.path.join(fpath, 'train.json')

with open(fname) as fin:
    train = json.load(fin)

In [7]:
example = train[0]
example.keys()

dict_keys(['doc_id', 'text', 'mentions', 'start_idxs', 'end_idxs', 'wiki_ids', 'wiki_titles', 'wiki_contexts', 'start_position', 'end_position', 'span_position'])

In [22]:
example['span_position']

[[2, 2],
 [6, 6],
 [11, 11],
 [14, 15],
 [22, 22],
 [28, 28],
 [43, 43],
 [48, 49],
 [66, 66],
 [94, 94],
 [129, 130],
 [142, 143],
 [179, 179],
 [181, 181],
 [193, 193],
 [237, 237],
 [240, 242],
 [266, 266],
 [268, 268],
 [314, 314],
 [330, 330],
 [350, 350],
 [357, 357],
 [363, 363],
 [382, 382],
 [404, 404],
 [420, 420],
 [438, 438],
 [443, 443],
 [459, 459]]

In [14]:
full_example = example['text']

In [23]:
example['text'][:3]

['EU', 'rejects', 'German']

In [24]:
sent = 'EU rejects German'
sent

'EU rejects German'

In [28]:
sent[11:18]

'German'

## Tokenized elq format

- 'id': 'doc_id'
- 'text': 'text'.join
- 'mentions': index span (char) of mentions, list of lists (end idx + 1)
- 'tokenized_text_ids': tokenized text id
- 'tokenized_mention_idxs': similar to span_position, list of lists (end idx + 1)
- 'label_id': 'wiki_ids' (ELQ uses new id)
- 'wikidata_id': not include, plan to remove in code
- 'entity': 'wiki_titles'
- 'label': 'wiki_contexts'

In [3]:
tokenizer = BertTokenizer.from_pretrained(
    "bert-base-uncased", do_lower_case=True,
)

In [4]:
def get_tokenized_bounds(mentions, full_example, tokenizer):
    example_ranges = mentions
    
    char_in_mention_idx_map = [[] for _ in range(len(full_example))]
    all_mention_bounds = []
    for m, ment in enumerate(example_ranges):
        for c in range(ment[0], ment[1]):
            char_in_mention_idx_map[c].append(m)
        all_mention_bounds.append(ment[0])
        all_mention_bounds.append(ment[1])
    all_mention_bounds = [0] + all_mention_bounds + [len(full_example)]
    all_mention_bounds = list(set(all_mention_bounds))
    all_mention_bounds.sort()
    
    example_chunks = [full_example[all_mention_bounds[b]:(all_mention_bounds[b+1])] for b in range(len(all_mention_bounds) - 1)]
    chunk_idx_to_mention_idx_map = []
    bound_idx = 0
    for c, chunk in enumerate(example_chunks):
        assert bound_idx == all_mention_bounds[c]
        try:
            chunk_idx_to_mention_idx_map.append(char_in_mention_idx_map[all_mention_bounds[c]])
        except:
            print("error checkpoint")
            import pdb
            pdb.set_trace()
        bound_idx += len(chunk)
    mention_idx_to_chunk_idx_map = {}
    chunk_idx_to_tokenized_bounds = {}
    mention_idxs = []
    all_token_ids = []
    cum_len = 0
    for c, chunk in enumerate(example_chunks):
        chunk_tokens = tokenizer.encode(chunk)
        all_token_ids += chunk_tokens
        chunk_bounds = [cum_len, cum_len+len(chunk_tokens)]
        for m in chunk_idx_to_mention_idx_map[c]:
            if m not in mention_idx_to_chunk_idx_map:
                mention_idx_to_chunk_idx_map[m] = chunk_bounds
            else:
                existing_chunk_bounds = mention_idx_to_chunk_idx_map[m]
                mention_idx_to_chunk_idx_map[m] = [
                    min(existing_chunk_bounds[0], chunk_bounds[0]),
                    max(existing_chunk_bounds[1], chunk_bounds[1]),
                ]
        cum_len += len(chunk_tokens)
    for mention_idx in range(len(mention_idx_to_chunk_idx_map)):
        assert mention_idx in mention_idx_to_chunk_idx_map
        mention_tokenized_bound = mention_idx_to_chunk_idx_map[mention_idx]
        mention_idxs.append(mention_tokenized_bound)
    for m in range(len(mention_idxs)):
        mention_bounds = mentions[m]
        mention_tok_bounds = mention_idxs[m]
        tokenized_mention = tokenizer.decode(all_token_ids[
            mention_tok_bounds[0]:mention_tok_bounds[1]
        ])
        target_mention = full_example[mention_bounds[0]:mention_bounds[1]].lower()
        try:
            assert tokenized_mention == target_mention
        except:
            # only keep letters and whitespace
            only_letter_tokenized_mention = ""
            only_letter_target_mention = ""
            for char in tokenized_mention:
                if char in string.ascii_letters:
                    only_letter_tokenized_mention += char
            for char in target_mention:
                if char in string.ascii_letters:
                    only_letter_target_mention += char
            print("{} {}".format(tokenized_mention, target_mention))
            try:
                assert only_letter_tokenized_mention == only_letter_target_mention
            except:
                import pdb
                pdb.set_trace()
    return all_token_ids, mention_idxs

In [5]:
def to_elq_tokenized(sample):
#     if tokenizer is None:
#         tokenizer = BertTokenizer.from_pretrained(
#             "bert-base-uncased", do_lower_case=True,
#         )

    res = {}
    res['id'] = sample['doc_id']
    res['text'] = ' '.join(sample['text'])
    
    # generate char indice 'mentions'
    assert len(sample['text'])==len(sample['start_idxs'])==len(sample['end_idxs'])
    char_cnt = 0
    mentions = []
    new_mention = []
    open_mention = False
    for i, word in enumerate(sample['text']):
        if sample['start_idxs'][i]==1:
            new_mention.append(char_cnt)
        char_cnt += len(word) + 1
        if sample['end_idxs'][i]==1:
            new_mention.append(char_cnt-1)
            mentions.append(new_mention)
            new_mention = []
    # sanity check
    assert len(mentions)==len(sample['mentions'])
    for i in range(len(mentions)):
        try:
            assert res['text'][mentions[i][0]:mentions[i][1]]==sample['mentions'][i]
        except:
            print(res['text'][mentions[i][0]:mentions[i][1]], ' ', sample['mentions'][i])
    res['mentions'] = mentions
    
    # generate tokenized texts and mention bounds
    # code from Belinda: create_all_entity_finetuning.py
    all_token_ids, mention_idxs = get_tokenized_bounds(res['mentions'], res['text'], tokenizer)
    res['tokenized_text_ids'] = all_token_ids
    res['tokenized_mention_idxs'] = mention_idxs
    assert len(mention_idxs)==len(sample['wiki_titles'])
    
    res['label_id'] = sample['wiki_ids']
    res['entity'] = sample['wiki_titles']
    res['label'] = sample['wiki_contexts']
    
    return res

In [6]:
in_fpath = 'AIDA-YAGO2-en_desc'
out_fpath = in_fpath+'-ELQ'

fnames = ['train.json', 'dev.json', 'test.json']
num_longs = []

for fname in fnames:
    in_fname = os.path.join(in_fpath, fname)
    with open(in_fname) as fin:
        orig_data = json.load(fin)
    
    elq_tokenized = []
    for sample in tqdm(orig_data):
        elq_sample = to_elq_tokenized(sample)
        elq_tokenized.append(elq_sample)
    
    fname = fname+'l'
    out_fname = os.path.join(out_fpath, fname)
    
    num_long = []
    with open(out_fname, 'w') as wf:
        for i, example in tqdm(enumerate(elq_tokenized)):
            if len(example['tokenized_text_ids']) > 512:
                num_long.append(i)
            b = wf.write(json.dumps(example) + "\n")
    num_longs.append(num_long)

  3%|▎         | 32/946 [00:00<00:06, 141.10it/s]

u. s. u.s.
eliahu ben - elissar eliahu ben-elissar
u. n. u.n.
an - nahar an-nahar
sud - ptt sud-ptt
u. s. u.s.
d. a. weibring d.a. weibring
shi - ting wang shi-ting wang
u. s. u.s.
u. s. u.s.
u. s. u.s.


  5%|▌         | 49/946 [00:00<00:10, 88.82it/s] 

weston - super - mare weston-super-mare
inzamam - ul - haq inzamam-ul-haq
f. a. cup f.a. cup
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
mypa - 47 mypa-47
u. s. open u.s. open
u. s. open u.s. open
u. s u.s
u. s. u.s.
jean - philippe fleurian jean-philippe fleurian
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
carl - uwe steeb carl-uwe steeb
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.


  8%|▊         | 73/946 [00:00<00:08, 99.87it/s]

a. l. east a.l. east
jose - maria canizares jose-maria canizares
u. s. federal district court u.s. federal district court
u. s. district court u.s. district court
u. s. open u.s. open
u. s. open u.s. open
u. s. open u.s. open
u. s. u.s.
u. n. u.n.
u. s. u.s.
s & p s&p
itar - tass itar-tass


 11%|█▏        | 108/946 [00:00<00:07, 117.17it/s]

u. s. u.s.
u. n. security council u.n. security council
hassan al - turabi hassan al-turabi
los angeles - based los angeles-based
u. s. u.s.
u. s. u.s.
neo - nazi neo-nazi
neo - nazism neo-nazism
neo - nazi neo-nazi
u. s u.s
neo - nazism neo-nazism
nsdap - ao nsdap-ao
u. n. u.n.
u. s. u.s.
i. k. gujral i.k. gujral
h. d. deve gowda h.d. deve gowda
us $ us$
u. s. u.s.
us $ us$
u. s. u.s.
u. s. u.s.
harper - collins harper-collins
u. s. u.s.
harper - collins harper-collins
us $ us$
nz $ nz$


 14%|█▍        | 137/946 [00:01<00:06, 121.30it/s]

hk $ hk$
hk $ hk$
ftse - 100 ftse-100
post - soviet post-soviet
post - soviet post-soviet
u. s. u.s.
academy award - winning academy award-winning
spa - francorchamps spa-francorchamps
heinz - harald frentzen heinz-harald frentzen
weston - super - mare weston-super-mare
inzamam - ul - haq inzamam-ul-haq
inzamam - ul - haq inzamam-ul-haq
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. open u.s. open
u. s. open tennis championships u.s. open tennis championships
u. s. tennis association u.s. tennis association


 19%|█▉        | 182/946 [00:01<00:06, 119.44it/s]

u. s. u.s.
u. s. u.s.
patricia girard - leno patricia girard-leno
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
marie - jose perec marie-jose perec
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
toronto - based toronto-based
u. s. u.s.
boston - based boston-based
u. s. u.s.
u. s. u.s.
u. s. u.s.
inzamam - ul - haq inzamam-ul-haq
t - 72 t-72


 23%|██▎       | 215/946 [00:01<00:06, 117.59it/s]

u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
wbur - fm wbur-fm
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. state department u.s. state department
u. s. u.s.
u. s. u.s.
windows nt 4. 0 windows nt 4.0
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
f. b. i. f.b.i.


 27%|██▋       | 253/946 [00:01<00:05, 136.42it/s]

u. s. u.s.
u. s. navy u.s. navy
us $ us$
hk $ hk$
h. k. h.k.
h. k. h.k.
u. s. u.s.
u. s. u.s.
u. s. u.s.
spa - francorchamps spa-francorchamps
heinz - harald frentzen heinz-harald frentzen
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
d. a. weibring d.a. weibring
inzamam - ul - haq inzamam-ul-haq
weston - super - mare weston-super-mare
u. s. u.s.
u. s. u.s.


 30%|██▉       | 283/946 [00:02<00:04, 140.69it/s]

paris saint - germain paris saint-germain
inzamam - ul - haq inzamam-ul-haq
u. s. u.s.
u. s. u.s.
u. n. u.n.
boutros boutros - ghali boutros boutros-ghali
u. s. u.s.
u. s. u.s.


 33%|███▎      | 312/946 [00:02<00:05, 122.13it/s]

mont - sur - marchienne mont-sur-marchienne
jamaat - i - islami jamaat-i-islami
u. s. u.s.
d. a. weibring d.a. weibring
u. s. u.s.
u. s. u.s.
jean - denis deletraz jean-denis deletraz
pierre - henri raphanel pierre-henri raphanel
jean - marc gounon jean-marc gounon
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
spa - francorchamps spa-francorchamps
heinz - harald frentzen heinz-harald frentzen
heinz - harald frentzen heinz-harald frentzen
u. s. u.s.
u. s. u.s.
u. s. u.s.


 38%|███▊      | 356/946 [00:02<00:05, 113.15it/s]

inzamam - ul - haq inzamam-ul-haq
u. s. u.s.
lisbet stuer - lauridsen lisbet stuer-lauridsen


 40%|████      | 382/946 [00:03<00:05, 110.73it/s]

u. s. u.s.
f. w. de klerk f.w. de klerk
p. w. botha p.w. botha
nz $ nz$
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.


 43%|████▎     | 406/946 [00:03<00:04, 108.83it/s]

u. s. u.s.
hezb - i - islami hezb-i-islami
post - soviet post-soviet
u. s. treasury u.s. treasury


 44%|████▍     | 418/946 [00:03<00:05, 94.80it/s] 

inzamam - ul - haq inzamam-ul-haq
post - soviet post-soviet


 46%|████▌     | 437/946 [00:03<00:06, 75.30it/s]

u. s. open u.s. open
u. s. open u.s. open
u. s. open u.s. open
u. s. open u.s. open
u. s. open u.s. open
u. s. open u.s. open
brenda schultz - mccarthy brenda schultz-mccarthy
u. s. open u.s. open
u. s. u.s.
u. s. u.s.
u. s. open u.s. open
u. s. open u.s. open
u. s. open u.s. open
u. s. open u.s. open
u. s. open u.s. open
anne - gaelle sidot anne-gaelle sidot
brenda schultz - mccarthy brenda schultz-mccarthy
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
sung - hee park sung-hee park
u. s. u.s.
carl - uwe steeb carl-uwe steeb
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
jean - paul van gastel jean-paul van gastel
jean - paul van gastel jean-paul van gastel


 49%|████▊     | 461/946 [00:04<00:05, 88.23it/s]

u. n. u.n.
soren jessen - petersen soren jessen-petersen
u. n. u.n.
itar - tass itar-tass
u. s. u.s.
u. s u.s
u. k. u.k.
u. s. senate intelligence committee u.s. senate intelligence committee
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.


 54%|█████▍    | 509/946 [00:04<00:03, 115.17it/s]

u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. midwest u.s. midwest
u. s. midwest u.s. midwest
u. s. u.s.
u. s. midwest u.s. midwest
u. s. u.s.
Rep .   Rep.
rep. rep .
republican - led republican-led
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
Goldman , Sachs & Co   Goldman, Sachs & Co
s & p s&p
s & p s&p
goldman, sachs & co goldman , sachs & co
u. s. u.s.
spa - francorchamps spa-francorchamps
banharn silpa - archa banharn silpa-archa
u. n. u.n.
u. n. u.n.
u. n. u.n.
an - nahar an-nahar


 55%|█████▌    | 523/946 [00:04<00:03, 116.31it/s]

u. n. u.n.
u. n. u.n.
u. n. u.n.
u. s. u.s.
u. s. u.s.
british - based british-based
inzamam - ul - haq inzamam-ul-haq
ata - ur - rehman ata-ur-rehman
ata - ur - rehman ata-ur-rehman
u. s. open u.s. open
u. s. u.s.
u. s. open u.s. open
u. s. open u.s. open
u. s. u.s.
u. s. u.s.
alexia dechaume - balleret alexia dechaume-balleret
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
virginia ruano - pascual virginia ruano-pascual
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.


 59%|█████▊    | 554/946 [00:04<00:03, 111.56it/s]

u. s. open u.s. open
jean - pierre cyprien jean-pierre cyprien
budapest - based budapest-based
n. j. n.j.
u. s. u.s.
u. s. u.s.
itar - tass itar-tass
itar - tass itar-tass


 61%|██████▏   | 581/946 [00:04<00:03, 119.30it/s]

itar - tass itar-tass
itar - tass itar-tass
u. s. u.s.
u. n. u.n.
u. n. u.n.
u. n. u.n.
boutros boutros - ghali boutros boutros-ghali
u. n. u.n.
u. n. u.n.
u. n. u.n.
u. n. u.n.
u. n. u.n.
u. n. u.n.
u. n. u.n.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
Wisc .   Wisc.
Wisc .   Wisc.
wisc. wisc .
wisc. wisc .
Washington , D.C.   Washington, D.C.
washington, d. c. washington , d.c.


 66%|██████▌   | 625/946 [00:05<00:02, 134.02it/s]

u. s. u.s.
u. s. u.s.
u. n. u.n.
u. s. u.s.
u. s. u.s.
vancouver - based vancouver-based
toronto - based toronto-based
u. s. u.s.
british - based british-based
us $ us$
u. s. u.s.


 68%|██████▊   | 639/946 [00:05<00:02, 126.79it/s]

u. n. u.n.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. postal u.s. postal
u. s. u.s.
u. s. u.s.
u. s. postal u.s. postal
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
chester - le - street chester-le-street
2, 000 guineas 2,000 guineas


 72%|███████▏  | 678/946 [00:05<00:02, 115.19it/s]

kwazulu - natal kwazulu-natal
u. s. open u.s. open
u. s. open tennis championships u.s. open tennis championships
jean - philippe fleurian jean-philippe fleurian
u. s. open u.s. open
u. s. open u.s. open
u. s. open tennis championships u.s. open tennis championships
u. s. u.s.
u. s. u.s.
anne - gaelle sidot anne-gaelle sidot
jean - philippe fleurian jean-philippe fleurian
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s u.s
brenda schultz - mccarthy brenda schultz-mccarthy
u. s. u.s.
u. s. open u.s. open
jean - paul van gastel jean-paul van gastel
marc - vivien foe marc-vivien foe
marc - vivien foe marc-vivien foe


 75%|███████▌  | 711/946 [00:05<00:01, 135.51it/s]

paris saint - germain paris saint-germain
u. s. u.s.
p. w. botha p.w. botha
u. s. u.s.
u. s. u.s.
u. s. district court u.s. district court
u. s. u.s.
u. s. district court u.s. district court
n. j. n.j.
u. s. u.s.
u. s. treasury u.s. treasury
u. s. treasury u.s. treasury
u. k. u.k.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
j. s. bach j.s. bach
u. s. u.s.
u. n. u.n.
u. n. u.n.
u. s. open u.s. open
u. s. open u.s. open


 78%|███████▊  | 740/946 [00:06<00:01, 131.80it/s]

u. s. - based u.s.-based
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. n. security council u.n. security council
u. n. u.n.
u. s u.s


 81%|████████▏ | 770/946 [00:06<00:01, 135.69it/s]

al - aqsa al-aqsa
n. j. n.j.
n. y. n.y.
Colo .   Colo.
colo. colo .
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. court of appeals u.s. court of appeals
u. s. court of appeals u.s. court of appeals
u. s. u.s.
british - based british-based
u. s. u.s.
mi - 17 mi-17


 85%|████████▍ | 800/946 [00:06<00:01, 141.45it/s]

hk $ hk$
h. k. h.k.
h. k. h.k.
u. s. u.s.
u. s. u.s.
u. s. u.s.
hk $ hk$
hk $ hk$
u. s. u.s.
u. s u.s
us $ us$
u. n. u.n.
u. n. u.n.
u. n. u.n.
boutros boutros - ghali boutros boutros-ghali
u. n. u.n.
u. n. u.n.
u. n. u.n.
new york - based new york-based
creutzfeldt - jakob disease creutzfeldt-jakob disease
creutzfeldt - jakob disease creutzfeldt-jakob disease
u. s. u.s.
inzamam - ul - haq inzamam-ul-haq
inzamam - ul - haq inzamam-ul-haq
ata - ur - rehman ata-ur-rehman
ata - ur - rehman ata-ur-rehman
u. s. u.s.
u. s. u.s.
u. s. postal u.s. postal
u. s. postal u.s. postal
inzamam - ul - haq inzamam-ul-haq
ata - ur - rehman ata-ur-rehman
chester - le - street chester-le-street


 90%|████████▉ | 850/946 [00:06<00:00, 145.16it/s]

u. s. open u.s. open
u. s. open tennis championships u.s. open tennis championships
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. open u.s. open
u. s. open u.s. open
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
ken saro - wiwa ken saro-wiwa
u. n. u.n.
ak - 47 ak-47
u. s. u.s.
u. n. u.n.
u. s. u.s.


 93%|█████████▎| 884/946 [00:07<00:00, 150.14it/s]

hk $ hk$
us $ us$
hk $ hk$
u. s. u.s.
banharn silpa - archa banharn silpa-archa
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
n. j. n.j.
o. j. simpson o.j. simpson
o. j. simpson o.j. simpson
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
Colo .   Colo.
colo. colo .
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.


 97%|█████████▋| 921/946 [00:07<00:00, 160.27it/s]

pan - turkism pan-turkism
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
n. j. n.j.
u. s. civil war u.s. civil war
u. s. civil war u.s. civil war
jean - louis debre jean-louis debre
france - soir france-soir
british - based british-based
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
us $ us$
tokyo - mitsubishi bank tokyo-mitsubishi bank
s & p s&p
u. s. u.s.
u. s. u.s.
u. s. u.s.


Token indices sequence length is longer than the specified maximum sequence length for this model (607 > 512). Running this sequence through the model will result in indexing errors
100%|██████████| 946/946 [00:07<00:00, 124.25it/s]
0it [00:00, ?it/s]

u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. treasury u.s. treasury
u. s. u.s.
u. s. u.s.
tea vikstedt - nyman tea vikstedt-nyman
jean - michel bayle jean-michel bayle
u. s. u.s.


946it [00:00, 9568.51it/s]
  6%|▌         | 13/216 [00:00<00:01, 120.99it/s]

chester - le - street chester-le-street
u. s. open u.s. open
u. s. open tennis championships u.s. open tennis championships
u. s. u.s.
u. s. u.s.
anne - gaelle sidot anne-gaelle sidot
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. open u.s. open
u. s. u.s.
u. s. u.s.
u. s. open u.s. open


 17%|█▋        | 36/216 [00:00<00:01, 99.62it/s] 

u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. treasuries u.s. treasuries
u. s. u.s.
u. s. treasury u.s. treasury
u. s. u.s.
u. s. u.s.
itar - tass itar-tass
u. s. u.s.
u. s. u.s.
u. s. u.s.


 35%|███▍      | 75/216 [00:00<00:01, 112.16it/s]

u. n. u.n.
u. s u.s
u. s. agriculture department u.s. agriculture department
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. treasury department u.s. treasury department
u. s. u.s.
u. n. u.n.
boston - based boston-based
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.


 49%|████▉     | 106/216 [00:00<00:00, 126.42it/s]

al - aqsa al-aqsa
al - aqsa al-aqsa
al - aqsa al-aqsa
u. s. u.s.
u. s. u.s.
u. s. u.s.
nagorno - karabakh nagorno-karabakh
nagorno - karabakh nagorno-karabakh
nagorno - karabakh nagorno-karabakh
nagorno - karabakh nagorno-karabakh
u. n. u.n.
u. n. u.n.
brazilian - born brazilian-born
u. s. u.s.
ata - ur - rehman ata-ur-rehman
ata - ur - rehman ata-ur-rehman
inzamam - ul - haq inzamam-ul-haq
ata - ur - rehman ata-ur-rehman
lucy tyler - sharman lucy tyler-sharman
u. s. u.s.
u. s. u.s.
u. s. u.s.
lucy tyler - sharman lucy tyler-sharman


 61%|██████    | 131/216 [00:01<00:00, 116.44it/s]

inzamam - ul - haq inzamam-ul-haq
ata - ur - rehman ata-ur-rehman
jed - forest jed-forest
chester - le - street chester-le-street
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.


 72%|███████▏  | 156/216 [00:01<00:00, 105.59it/s]

u. s. u.s.
u. s. open u.s. open
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. open u.s. open
u. s. open u.s. open
u. s. open tennis championships u.s. open tennis championships
u. s. open u.s. open
u. s. u.s.
u. s. u.s.
joe - max moore joe-max moore
u. s. open u.s. open
u. s. u.s.


 85%|████████▍ | 183/216 [00:01<00:00, 112.06it/s]

henry campbell - bannerman henry campbell-bannerman
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. n. u.n.
u. s. u.s.
london - based london-based
u. s. u.s.
u. n. u.n.
u. n. u.n.
u. n. u.n.
urus - martan urus-martan
urus - martan urus-martan
urus - martan urus-martan
u. n. u.n.
u. s. u.s.
u. s. u.s.
ak - 47s ak-47s
new york - based new york-based
new york - based new york-based
new york - based new york-based
u. n. u.n.
u. s. u.s.
u. s. u.s.


100%|██████████| 216/216 [00:01<00:00, 117.98it/s]
0it [00:00, ?it/s]

u. n. u.n.
u. s. u.s.
u. n. u.n.
u. n. u.n.
u. n. u.n.
zine al - abidine ben ali zine al-abidine ben ali
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. n. security council u.n. security council
mao tse - tung mao tse-tung


216it [00:00, 1979.31it/s]
 11%|█▏        | 26/231 [00:00<00:01, 110.48it/s]

al - ain al-ain
al - ain al-ain
jean - luc brassard jean-luc brassard
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
al - ain al-ain
pau - orthez pau-orthez
u. s. u.s.
u. s. u.s.
thomas stuer - lauridsen thomas stuer-lauridsen
poul - erik hoyer - larsen poul-erik hoyer-larsen


 23%|██▎       | 54/231 [00:00<00:01, 104.08it/s]

paris saint - germain paris saint-germain
u. s. u.s.
kwazulu - natal kwazulu-natal
kwazulu - natal kwazulu-natal
u. s. u.s.


 40%|███▉      | 92/231 [00:00<00:01, 128.81it/s]

u. s. u.s.
u. s. u.s.
u. s u.s
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
n. m. n.m.
n. j. n.j.
u. n. u.n.
u. s. u.s.
u. n. u.n.
u. n. u.n.
u. n. u.n.
u. n. u.n.
boutros boutros - ghali boutros boutros-ghali
ange - felix patasse ange-felix patasse
itar - tass itar-tass
u. s. u.s.
u. s. u.s.
itar - tass itar-tass


 53%|█████▎    | 122/231 [00:00<00:00, 137.70it/s]

u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. treasury u.s. treasury
u. s. u.s.
s & p s&p
u. s. supreme court u.s. supreme court
u. s. court of appeals u.s. court of appeals
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. n. u.n.
u. n. u.n.
boutros boutros - ghali boutros boutros-ghali
u. n. u.n.
u. n. u.n.
u. n. u.n.
boutros - ghali boutros-ghali
boutros - ghali boutros-ghali


 71%|███████   | 164/231 [00:01<00:00, 163.62it/s]

u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
n. m. n.m.
u. s. u.s.
u. s. - based u.s.-based
euro - sceptic euro-sceptic
euro - sceptic euro-sceptic
u. n. u.n.
u. n. u.n.
u. s. u.s.
bre - x bre-x
bre - x bre-x
bre - x bre-x
bre - x bre-x
bre - x bre-x
bre - x bre-x
bre - x bre-x
bre - x bre-x
bre - x bre-x
bre - x bre-x
bre - x bre-x
bre - x bre-x
bre - x bre-x


 87%|████████▋ | 200/231 [00:01<00:00, 148.94it/s]

u. s. u.s.
u. s. u.s.
us $ us$
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
simone greiner - petter - memm simone greiner-petter-memm
greiner - petter - memm greiner-petter-memm
u. s u.s
u. s. u.s.
ari - pekka nikkola ari-pekka nikkola
kim yoon - man kim yoon-man
kim yoon - man kim yoon-man
u. s. u.s.
u. s. u.s.
nick farr - jones nick farr-jones


100%|██████████| 231/231 [00:01<00:00, 141.67it/s]
0it [00:00, ?it/s]

f. a. challenge cup f.a. challenge cup
u. s. u.s.
n. ireland n.ireland


231it [00:00, 6609.44it/s]


In [7]:
in_fpath = 'AIDA-YAGO2-wiki_content'
out_fpath = in_fpath+'-ELQ'

fnames = ['train.json', 'dev.json', 'test.json']
num_longs = []

for fname in fnames:
    in_fname = os.path.join(in_fpath, fname)
    with open(in_fname) as fin:
        orig_data = json.load(fin)
    
    elq_tokenized = []
    for sample in tqdm(orig_data):
        elq_sample = to_elq_tokenized(sample)
        elq_tokenized.append(elq_sample)
    
    fname = fname+'l'
    out_fname = os.path.join(out_fpath, fname)
    
    num_long = []
    with open(out_fname, 'w') as wf:
        for i, example in tqdm(enumerate(elq_tokenized)):
            if len(example['tokenized_text_ids']) > 512:
                num_long.append(i)
            b = wf.write(json.dumps(example) + "\n")
    num_longs.append(num_long)

  4%|▎         | 35/946 [00:00<00:05, 156.94it/s]

u. s. u.s.
eliahu ben - elissar eliahu ben-elissar
u. n. u.n.
an - nahar an-nahar
as - safir as-safir
ad - diyar ad-diyar
sud - ptt sud-ptt
u. s. u.s.
d. a. weibring d.a. weibring
shi - ting wang shi-ting wang
u. s. u.s.
u. s. u.s.
u. s. u.s.
weston - super - mare weston-super-mare
inzamam - ul - haq inzamam-ul-haq


  5%|▍         | 44/946 [00:00<00:07, 125.99it/s]

f. a. cup f.a. cup
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
mypa - 47 mypa-47
u. s. open u.s. open
u. s. open u.s. open
u. s u.s
u. s. u.s.
jean - philippe fleurian jean-philippe fleurian
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
carl - uwe steeb carl-uwe steeb
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.


  6%|▋         | 61/946 [00:00<00:10, 83.59it/s] 

a. l. east a.l. east
jose - maria canizares jose-maria canizares
u. s. federal district court u.s. federal district court
u. s. district court u.s. district court


 10%|▉         | 91/946 [00:00<00:09, 94.44it/s]

u. s. open u.s. open
u. s. open u.s. open
u. s. open u.s. open
u. s. u.s.
u. n. u.n.
u. s. u.s.
s & p s&p
itar - tass itar-tass


 12%|█▏        | 113/946 [00:01<00:08, 98.42it/s]

u. s. u.s.
u. n. security council u.n. security council
hassan al - turabi hassan al-turabi
los angeles - based los angeles-based
u. s. u.s.
u. s. u.s.
neo - nazi neo-nazi
neo - nazism neo-nazism
neo - nazi neo-nazi
u. s u.s
neo - nazism neo-nazism
nsdap - ao nsdap-ao
u. n. u.n.
u. s. u.s.
i. k. gujral i.k. gujral
h. d. deve gowda h.d. deve gowda
us $ us$
u. s. u.s.
us $ us$
u. s. u.s.

 14%|█▍        | 135/946 [00:01<00:08, 99.48it/s] 


u. s. u.s.
harper - collins harper-collins
u. s. u.s.
harper - collins harper-collins
us $ us$
nz $ nz$
hk $ hk$
hk $ hk$
ftse - 100 ftse-100
post - soviet post-soviet
post - soviet post-soviet
u. s. u.s.
academy award - winning academy award-winning
spa - francorchamps spa-francorchamps
heinz - harald frentzen heinz-harald frentzen
weston - super - mare weston-super-mare
inzamam - ul - haq inzamam-ul-haq
inzamam - ul - haq inzamam-ul-haq


 17%|█▋        | 160/946 [00:01<00:07, 109.27it/s]

u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. open u.s. open
u. s. open tennis championships u.s. open tennis championships
u. s. tennis association u.s. tennis association
u. s. u.s.
u. s. u.s.


 20%|█▉        | 189/946 [00:01<00:06, 117.68it/s]

patricia girard - leno patricia girard-leno
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
marie - jose perec marie-jose perec
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
toronto - based toronto-based
u. s. u.s.
boston - based boston-based
u. s. u.s.
u. s. u.s.
u. s. u.s.
inzamam - ul - haq inzamam-ul-haq
t - 72 t-72
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
wbur - fm wbur-fm
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. state department u.s. state department
u. s. u.s.


 23%|██▎       | 220/946 [00:01<00:05, 128.06it/s]

u. s. u.s.
windows nt 4. 0 windows nt 4.0
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
f. b. i. f.b.i.
u. s. u.s.
u. s. navy u.s. navy
us $ us$
hk $ hk$
h. k. h.k.
h. k. h.k.
u. s. u.s.
u. s. u.s.
u. s. u.s.


 27%|██▋       | 258/946 [00:02<00:05, 124.77it/s]

spa - francorchamps spa-francorchamps
heinz - harald frentzen heinz-harald frentzen
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
d. a. weibring d.a. weibring
inzamam - ul - haq inzamam-ul-haq
weston - super - mare weston-super-mare
u. s. u.s.
u. s. u.s.


 31%|███       | 290/946 [00:02<00:04, 138.92it/s]

paris saint - germain paris saint-germain
inzamam - ul - haq inzamam-ul-haq
u. s. u.s.
u. s. u.s.
u. n. u.n.
boutros boutros - ghali boutros boutros-ghali
u. s. u.s.
u. s. u.s.


 34%|███▎      | 319/946 [00:02<00:05, 114.34it/s]

mont - sur - marchienne mont-sur-marchienne
el - watan el-watan
jamaat - i - islami jamaat-i-islami
u. s. u.s.
d. a. weibring d.a. weibring
u. s. u.s.
u. s. u.s.
jean - denis deletraz jean-denis deletraz
pierre - henri raphanel pierre-henri raphanel
jean - marc gounon jean-marc gounon
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
spa - francorchamps spa-francorchamps
heinz - harald frentzen heinz-harald frentzen
heinz - harald frentzen heinz-harald frentzen
u. s. u.s.
u. s. u.s.
u. s. u.s.


 37%|███▋      | 350/946 [00:02<00:04, 128.15it/s]

inzamam - ul - haq inzamam-ul-haq
u. s. u.s.
lisbet stuer - lauridsen lisbet stuer-lauridsen


 40%|███▉      | 377/946 [00:03<00:05, 103.99it/s]

u. s. u.s.
f. w. de klerk f.w. de klerk
p. w. botha p.w. botha


 42%|████▏     | 401/946 [00:03<00:05, 103.22it/s]

nz $ nz$
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
hezb - i - islami hezb-i-islami
post - soviet post-soviet
u. s. treasury u.s. treasury


 45%|████▌     | 426/946 [00:03<00:04, 106.89it/s]

inzamam - ul - haq inzamam-ul-haq
post - soviet post-soviet
u. s. open u.s. open
u. s. open u.s. open
u. s. open u.s. open
u. s. open u.s. open
u. s. open u.s. open
u. s. open u.s. open
brenda schultz - mccarthy brenda schultz-mccarthy
u. s. open u.s. open
u. s. u.s.
u. s. u.s.
u. s. open u.s. open
u. s. open u.s. open
u. s. open u.s. open


 48%|████▊     | 452/946 [00:03<00:04, 103.76it/s]

u. s. open u.s. open
u. s. open u.s. open
anne - gaelle sidot anne-gaelle sidot
brenda schultz - mccarthy brenda schultz-mccarthy
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
sung - hee park sung-hee park
u. s. u.s.
carl - uwe steeb carl-uwe steeb
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
jean - paul van gastel jean-paul van gastel
jean - paul van gastel jean-paul van gastel
u. n. u.n.
soren jessen - petersen soren jessen-petersen
u. n. u.n.
itar - tass itar-tass


 51%|█████     | 480/946 [00:04<00:04, 113.14it/s]

u. s. u.s.
u. s u.s
u. k. u.k.
u. s. senate intelligence committee u.s. senate intelligence committee
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. midwest u.s. midwest
u. s. midwest u.s. midwest
u. s. u.s.
u. s. midwest u.s. midwest
u. s. u.s.
Rep .   Rep.
rep. rep .
republican - led republican-led
u. s. u.s.
u. s. u.s.
kse - 100 kse-100
u. s. u.s.


 54%|█████▍    | 512/946 [00:04<00:03, 125.73it/s]

u. s. u.s.
Goldman , Sachs & Co   Goldman, Sachs & Co
s & p s&p
s & p s&p
goldman, sachs & co goldman , sachs & co
u. s. u.s.
spa - francorchamps spa-francorchamps
banharn silpa - archa banharn silpa-archa
u. n. u.n.
u. n. u.n.
u. n. u.n.
an - nahar an-nahar
as - safir as-safir
ad - diyar ad-diyar
in - nazzjon in-nazzjon
l - orizzont l-orizzont
u. n. u.n.
u. n. u.n.
u. n. u.n.
u. s. u.s.
u. s. u.s.
british - based british-based


 57%|█████▋    | 539/946 [00:04<00:03, 102.33it/s]

inzamam - ul - haq inzamam-ul-haq
ata - ur - rehman ata-ur-rehman
ata - ur - rehman ata-ur-rehman
u. s. open u.s. open
u. s. u.s.
u. s. open u.s. open
u. s. open u.s. open
u. s. u.s.
u. s. u.s.
alexia dechaume - balleret alexia dechaume-balleret
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
virginia ruano - pascual virginia ruano-pascual
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. open u.s. open


 60%|██████    | 568/946 [00:04<00:03, 117.17it/s]

jean - pierre cyprien jean-pierre cyprien
budapest - based budapest-based
n. j. n.j.
u. s. u.s.
u. s. u.s.
itar - tass itar-tass
itar - tass itar-tass
itar - tass itar-tass
itar - tass itar-tass


 63%|██████▎   | 597/946 [00:05<00:02, 126.47it/s]

u. s. u.s.
u. n. u.n.
u. n. u.n.
u. n. u.n.
boutros boutros - ghali boutros boutros-ghali
u. n. u.n.
u. n. u.n.
u. n. u.n.
u. n. u.n.
u. n. u.n.
u. n. u.n.
u. n. u.n.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
Wisc .   Wisc.
Wisc .   Wisc.
wisc. wisc .
wisc. wisc .
Washington , D.C.   Washington, D.C.
washington, d. c. washington , d.c.
u. s. u.s.
u. s. u.s.
u. n. u.n.
u. s. u.s.
u. s. u.s.
vancouver - based vancouver-based
toronto - based toronto-based


 67%|██████▋   | 630/946 [00:05<00:02, 138.59it/s]

u. s. u.s.
british - based british-based
us $ us$
u. s. u.s.
u. n. u.n.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. postal u.s. postal
u. s. u.s.
u. s. u.s.


 70%|██████▉   | 662/946 [00:05<00:02, 131.71it/s]

u. s. postal u.s. postal
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
chester - le - street chester-le-street
2, 000 guineas 2,000 guineas
kwazulu - natal kwazulu-natal
u. s. open u.s. open
u. s. open tennis championships u.s. open tennis championships
jean - philippe fleurian jean-philippe fleurian
u. s. open u.s. open
u. s. open u.s. open
u. s. open tennis championships u.s. open tennis championships
u. s. u.s.
u. s. u.s.
anne - gaelle sidot anne-gaelle sidot
jean - philippe fleurian jean-philippe fleurian
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s u.s
brenda schultz - mccarthy brenda schultz-mccarthy
u. s. u.s.


 73%|███████▎  | 688/946 [00:05<00:02, 97.36it/s] 

u. s. open u.s. open
jean - paul van gastel jean-paul van gastel
marc - vivien foe marc-vivien foe
marc - vivien foe marc-vivien foe
paris saint - germain paris saint-germain


 74%|███████▍  | 699/946 [00:06<00:02, 90.46it/s]

u. s. u.s.
p. w. botha p.w. botha
u. s. u.s.
u. s. u.s.
u. s. district court u.s. district court
u. s. u.s.
u. s. district court u.s. district court
n. j. n.j.
u. s. u.s.
u. s. treasury u.s. treasury
u. s. treasury u.s. treasury
u. k. u.k.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
j. s. bach j.s. bach
u. s. u.s.
u. n. u.n.
u. n. u.n.
u. s. open u.s. open
u. s. open u.s. open


 78%|███████▊  | 738/946 [00:06<00:01, 107.67it/s]

u. s. - based u.s.-based
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.


 81%|████████  | 764/946 [00:06<00:01, 111.99it/s]

u. n. security council u.n. security council
u. n. u.n.
u. s u.s
al - aqsa al-aqsa
n. j. n.j.
n. y. n.y.
Colo .   Colo.
colo. colo .
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. court of appeals u.s. court of appeals
u. s. court of appeals u.s. court of appeals
u. s. u.s.


 84%|████████▍ | 796/946 [00:06<00:01, 130.69it/s]

british - based british-based
u. s. u.s.
mi - 17 mi-17
hk $ hk$
h. k. h.k.
h. k. h.k.
u. s. u.s.
u. s. u.s.
u. s. u.s.
hk $ hk$
hk $ hk$
u. s. u.s.
u. s u.s
us $ us$
u. n. u.n.
u. n. u.n.
u. n. u.n.
boutros boutros - ghali boutros boutros-ghali
u. n. u.n.
u. n. u.n.
u. n. u.n.
new york - based new york-based
creutzfeldt - jakob disease creutzfeldt-jakob disease
creutzfeldt - jakob disease creutzfeldt-jakob disease
u. s. u.s.


 87%|████████▋ | 823/946 [00:07<00:01, 115.10it/s]

inzamam - ul - haq inzamam-ul-haq
inzamam - ul - haq inzamam-ul-haq
ata - ur - rehman ata-ur-rehman
ata - ur - rehman ata-ur-rehman
u. s. u.s.
u. s. u.s.
u. s. postal u.s. postal
u. s. postal u.s. postal
inzamam - ul - haq inzamam-ul-haq
ata - ur - rehman ata-ur-rehman
chester - le - street chester-le-street
u. s. open u.s. open
u. s. open tennis championships u.s. open tennis championships
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. open u.s. open
u. s. open u.s. open
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.


 90%|█████████ | 854/946 [00:07<00:00, 129.57it/s]

ken saro - wiwa ken saro-wiwa
u. n. u.n.
ak - 47 ak-47
u. s. u.s.
u. n. u.n.
u. s. u.s.
hk $ hk$
us $ us$
hk $ hk$
u. s. u.s.
banharn silpa - archa banharn silpa-archa
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.


 93%|█████████▎| 884/946 [00:07<00:00, 132.74it/s]

u. s. u.s.
n. j. n.j.
o. j. simpson o.j. simpson
o. j. simpson o.j. simpson
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
Colo .   Colo.
colo. colo .
pmc - sierra pmc-sierra
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
pan - turkism pan-turkism
al - akhbar al-akhbar
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.


 98%|█████████▊| 931/946 [00:07<00:00, 143.53it/s]Token indices sequence length is longer than the specified maximum sequence length for this model (607 > 512). Running this sequence through the model will result in indexing errors


n. j. n.j.
u. s. civil war u.s. civil war
u. s. civil war u.s. civil war
jean - louis debre jean-louis debre
france - soir france-soir
british - based british-based
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
us $ us$
tokyo - mitsubishi bank tokyo-mitsubishi bank
s & p s&p
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.


100%|██████████| 946/946 [00:08<00:00, 117.92it/s]
0it [00:00, ?it/s]

u. s. u.s.
u. s. u.s.
u. s. treasury u.s. treasury
u. s. u.s.
u. s. u.s.
tea vikstedt - nyman tea vikstedt-nyman
jean - michel bayle jean-michel bayle
u. s. u.s.


946it [00:00, 4880.92it/s]
  6%|▌         | 13/216 [00:00<00:01, 124.39it/s]

chester - le - street chester-le-street
u. s. open u.s. open
u. s. open tennis championships u.s. open tennis championships
u. s. u.s.
u. s. u.s.
anne - gaelle sidot anne-gaelle sidot
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. open u.s. open
u. s. u.s.
u. s. u.s.
u. s. amateur championship u.s. amateur championship
u. s. open u.s. open


 16%|█▌        | 35/216 [00:00<00:01, 100.74it/s]

u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. treasuries u.s. treasuries
u. s. u.s.
u. s. treasury u.s. treasury
u. s. u.s.
u. s. u.s.
itar - tass itar-tass


 28%|██▊       | 61/216 [00:00<00:01, 110.92it/s]

u. s. u.s.
u. s. u.s.
u. s. u.s.
u. n. u.n.
u. s u.s
u. s. agriculture department u.s. agriculture department
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.


 38%|███▊      | 83/216 [00:00<00:01, 97.38it/s] 

a. g. edwards & sons a.g. edwards & sons
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. treasury department u.s. treasury department
u. s. u.s.
u. n. u.n.
boston - based boston-based
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
al - akhbar al-akhbar
al - aqsa al-aqsa
al - aqsa al-aqsa
al - aqsa al-aqsa
u. s. u.s.


 51%|█████     | 110/216 [00:01<00:01, 101.82it/s]

u. s. u.s.
u. s. u.s.
nagorno - karabakh nagorno-karabakh
nagorno - karabakh nagorno-karabakh
nagorno - karabakh nagorno-karabakh
nagorno - karabakh nagorno-karabakh
u. n. u.n.
u. n. u.n.
brazilian - born brazilian-born
u. s. u.s.
ata - ur - rehman ata-ur-rehman
ata - ur - rehman ata-ur-rehman
inzamam - ul - haq inzamam-ul-haq
ata - ur - rehman ata-ur-rehman
lucy tyler - sharman lucy tyler-sharman
u. s. u.s.
u. s. u.s.
u. s. u.s.
lucy tyler - sharman lucy tyler-sharman


 65%|██████▍   | 140/216 [00:01<00:00, 112.25it/s]

inzamam - ul - haq inzamam-ul-haq
ata - ur - rehman ata-ur-rehman
jed - forest jed-forest
chester - le - street chester-le-street
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.


 71%|███████   | 153/216 [00:01<00:00, 93.08it/s] 

u. s. amateur championship u.s. amateur championship
u. s. u.s.
u. s. open u.s. open
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. open u.s. open
u. s. open u.s. open
u. s. open tennis championships u.s. open tennis championships
u. s. open u.s. open
u. s. u.s.
u. s. u.s.
joe - max moore joe-max moore
u. s. open u.s. open


 85%|████████▍ | 183/216 [00:01<00:00, 104.63it/s]

u. s. u.s.
henry campbell - bannerman henry campbell-bannerman
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. n. u.n.
u. s. u.s.
london - based london-based
u. s. u.s.
u. n. u.n.
u. n. u.n.
u. n. u.n.
urus - martan urus-martan
urus - martan urus-martan
urus - martan urus-martan
u. n. u.n.
u. s. u.s.
u. s. u.s.
ak - 47s ak-47s
new york - based new york-based


 97%|█████████▋| 209/216 [00:01<00:00, 105.11it/s]

new york - based new york-based
new york - based new york-based
u. n. u.n.
u. s. u.s.
u. s. u.s.
u. n. interim force in lebanon u.n. interim force in lebanon
u. n. u.n.
u. s. u.s.
u. n. u.n.
u. n. u.n.
u. n. u.n.
zine al - abidine ben ali zine al-abidine ben ali
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. n. security council u.n. security council


100%|██████████| 216/216 [00:02<00:00, 105.01it/s]
216it [00:00, 5246.68it/s]
  0%|          | 0/231 [00:00<?, ?it/s]

mao tse - tung mao tse-tung
al - ain al-ain
al - ain al-ain
jean - luc brassard jean-luc brassard
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
al - ain al-ain


  9%|▊         | 20/231 [00:00<00:02, 83.11it/s]

pau - orthez pau-orthez
u. s. u.s.
u. s. u.s.
thomas stuer - lauridsen thomas stuer-lauridsen
poul - erik hoyer - larsen poul-erik hoyer-larsen


 19%|█▉        | 45/231 [00:00<00:01, 99.61it/s]

paris saint - germain paris saint-germain
u. s. u.s.
kwazulu - natal kwazulu-natal
kwazulu - natal kwazulu-natal
u. s. u.s.


 27%|██▋       | 63/231 [00:00<00:02, 75.80it/s]

post - communist post-communist
u. s. u.s.
u. s. u.s.
u. s u.s
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.


 39%|███▉      | 91/231 [00:00<00:01, 91.13it/s]

n. m. n.m.
n. j. n.j.
u. n. u.n.
u. s. u.s.
u. n. u.n.
u. n. u.n.
u. n. u.n.
u. n. u.n.
boutros boutros - ghali boutros boutros-ghali
ange - felix patasse ange-felix patasse
itar - tass itar-tass
u. s. u.s.
u. s. u.s.
itar - tass itar-tass
u. s. u.s.
u. s. u.s.


 60%|██████    | 139/231 [00:01<00:00, 122.83it/s]

u. s. u.s.
u. s. treasury u.s. treasury
u. s. u.s.
s & p s&p
u. s. supreme court u.s. supreme court
u. s. court of appeals u.s. court of appeals
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. n. u.n.
u. n. u.n.
boutros boutros - ghali boutros boutros-ghali
u. n. u.n.
u. n. u.n.
u. n. u.n.
boutros - ghali boutros-ghali
boutros - ghali boutros-ghali
u. s. u.s.


 76%|███████▌  | 175/231 [00:01<00:00, 145.21it/s]

u. s. u.s.
u. s. u.s.
u. s. u.s.
n. m. n.m.
u. s. u.s.
u. s. - based u.s.-based
euro - sceptic euro-sceptic
euro - sceptic euro-sceptic
u. n. u.n.
u. n. u.n.
u. s. u.s.
bre - x bre-x
bre - x bre-x
bre - x bre-x
bre - x bre-x
bre - x bre-x
bre - x bre-x
bre - x bre-x
bre - x bre-x
bre - x bre-x
bre - x bre-x
bre - x bre-x
bre - x bre-x
bre - x bre-x


 83%|████████▎ | 192/231 [00:01<00:00, 128.93it/s]

u. s. u.s.
u. s. u.s.
us $ us$
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
u. s. u.s.
simone greiner - petter - memm simone greiner-petter-memm
greiner - petter - memm greiner-petter-memm
u. s u.s
u. s. u.s.
ari - pekka nikkola ari-pekka nikkola
kim yoon - man kim yoon-man
kim yoon - man kim yoon-man
u. s. u.s.
u. s. u.s.


 95%|█████████▌| 220/231 [00:01<00:00, 106.07it/s]

nick farr - jones nick farr-jones
f. a. challenge cup f.a. challenge cup
u. s. u.s.
n. ireland n.ireland


100%|██████████| 231/231 [00:02<00:00, 111.95it/s]
231it [00:00, 5762.91it/s]
