In [2]:
import os
import json
import random
from tqdm import tqdm

import torch
from transformers import AutoTokenizer, AutoModel
import pdb
import string
import fairseq

#### Set up OpenAI API

In [4]:
import openai

openai.api_key = '<YOUR OPENAI API KEY>'

def call_gpt(cur_prompt, stop, temperature = 0):
    ans = openai.Completion.create(
                model="gpt-3.5-turbo-instruct",
                max_tokens=256,
                stop=stop,
                prompt=cur_prompt,
                temperature=temperature)
    returned = ans['choices'][0]['text']
    
    return returned

#### Functions for retrieval models (Contriever)

In [5]:
def mean_pooling(token_embeddings, mask):
    token_embeddings = token_embeddings.masked_fill(~mask[..., None].bool(), 0.)
    sentence_embeddings = token_embeddings.sum(dim=1) / mask.sum(dim=1)[..., None]
    return sentence_embeddings

def get_sent_embeddings(sents, contriever, tok, BSZ=32):    
    all_embs = []
    for i in range(0, len(sents), BSZ):
        sent_batch = sents[i:i+BSZ]
        inputs = tok(sent_batch, padding=True, truncation=True, return_tensors='pt').to("cuda")
        with torch.no_grad():
            outputs = contriever(**inputs)
            embeddings = mean_pooling(outputs[0], inputs['attention_mask'])
        all_embs.append(embeddings.cpu())
    all_embs = torch.vstack(all_embs)
    return all_embs

def retrieve_facts(query, fact_embs, contriever, tok, k=2):
    inputs = tok([query], padding=True, truncation=True, return_tensors='pt').to("cuda")
    with torch.no_grad():
        outputs = contriever(**inputs)
        query_emb = mean_pooling(outputs[0], inputs['attention_mask']).cpu()
    sim = (query_emb @ fact_embs.T)[0]
    knn = sim.topk(min(len(fact_embs), k), largest=True)
    return knn.indices

#### Load dataset

In [6]:
with open('datasets/MQuAKE-CF-3k.json', 'r') as f:
    dataset = json.load(f)

#### Build a memory index which contains all the edits

In [7]:
new_facts = set()
for d in dataset:
    for r in d["requested_rewrite"]:
        new_facts.add(f'{r["prompt"].format(r["subject"])} {r["target_new"]["str"]}')
new_facts = list(new_facts)
len(new_facts)

2786

In [8]:
contriever = AutoModel.from_pretrained("facebook/contriever-msmarco").cuda()
tokenizer = AutoTokenizer.from_pretrained("facebook/contriever-msmarco")

In [9]:
embs = get_sent_embeddings(new_facts, contriever, tokenizer)

In [10]:
# Run test for retrieval index
fact_ids = retrieve_facts("The U.S. president is ", embs, contriever, tokenizer)
print(new_facts[fact_ids[0]])

The name of the current head of state in United States of America is Norodom Sihamoni


#### Run DeepEdit

In [13]:
# read prompts
with open('prompts/multihop-cot-prompts.txt', 'r') as f:
    task_prompt = f.read()

with open('prompts/delete-prompt.txt', 'r') as f:
    delete_prompt = f.read()
    
with open('prompts/conflict-prompt.txt', 'r') as f:
    conflict_prompt = f.read()

with open('prompts/conflict-prompt-1.txt', 'r') as f:
    conflict_prompt_1 = f.read()
    
with open('prompts/conflict-prompt-2.txt', 'r') as f:
    conflict_prompt_2 = f.read()
    
with open('prompts/entity-prompt.txt', 'r') as f:
    entity_prompt = f.read()
    
with open('prompts/exist-prompt.txt', 'r') as f:
    exist_prompt = f.read()

def searchFact(sentence_1, sentence_2, fact_ls):
    embs = get_sent_embeddings(fact_ls, contriever, tokenizer)
    
    prompt_1 = delete_prompt + "\n\nSentence A: " + sentence_1 + '\nSentence B: ' + sentence_2 + '\nSentence B after removal: '
    gen = call_gpt(prompt_1, ['\n']).strip()
    thought_for_search = gen

    fact_ids = retrieve_facts(thought_for_search, embs, contriever, tokenizer)
    fact_sent_ls = [fact_ls[id_] + '.' for id_ in fact_ids]
    return fact_sent_ls

def newEntity(sentence_1, sentence_2):
    prompt_1 = entity_prompt + "\n\nSentence A: " + sentence_1 + '\nSentence B: ' + sentence_2 + '\nAnswer: '
    gen = call_gpt(prompt_1, ['\n']).strip()
    return gen

def entityExist(entity, sentence):
    if entity.lower() in sentence.lower():
        return True
    prompt_4 = exist_prompt + "\n\nSentence: " + sentence + '\nEntity: ' + entity + '\nAnswer: '
    gen = call_gpt(prompt_4, ['\n']).strip().strip(string.punctuation)
    for i_ in range(2): 
        if gen.lower() == 'yes' or gen.lower() == 'no':
            break
        gen = call_gpt(prompt_4, ['\n'], temperature = 1).strip().strip(string.punctuation)
    
    if gen.lower() == 'yes':
        return True
    else:
        return False
    
def judgeConflict1(sentence_1, sentence_2):
    prompt_2 = conflict_prompt_1 + "\n\nSentence A: " + sentence_1 + '\nSentence B: ' + sentence_2 + '\nAnswer: '
    gen = call_gpt(prompt_2, ['\n']).strip().strip(string.punctuation)
    for i_ in range(2): 
        if gen.lower() == 'yes' or gen.lower() == 'no':
            break
        
        gen = call_gpt(prompt_2, ['\n'], temperature = 1).strip().strip(string.punctuation)
    
    if gen.lower() == 'yes':
        return True
    else:
        return False
    
def judgeConflict2(sentence_1, sentence_2):
    prompt_2 = conflict_prompt_2 + "\n\nSentence A: " + sentence_1 + '\nSentence B: ' + sentence_2 + '\nAnswer: '
    gen = call_gpt(prompt_2, ['\n']).strip().strip(string.punctuation)
    for i_ in range(2): 
        if gen.lower() == 'yes' or gen.lower() == 'no':
            break
        
        gen = call_gpt(prompt_2, ['\n'], temperature = 1).strip().strip(string.punctuation)
    
    if gen.lower() == 'yes':
        return True
    else:
        return False
    
def judgeConflict(sentence_1, sentence_2):
    prompt_2 = conflict_prompt + "\n\nSentence A: " + sentence_1 + '\nSentence B: ' + sentence_2 + '\nAnswer: '
    gen = call_gpt(prompt_2, ['\n']).strip().strip(string.punctuation)
    for i_ in range(2): 
        if gen.lower() == 'yes' or gen.lower() == 'no':
            break
        gen = call_gpt(prompt_2, ['\n'], temperature = 1).strip().strip(string.punctuation)
    
    if gen.lower() == 'yes':
        return True
    else:
        return False
    
def oneStep(prompt, last_entity, new_entity, last_thought, count):
    gen = call_gpt(prompt, ['.# ', '.\n']).strip()
    if 'the answer' in gen or 'the answers' in gen:
        return new_entity
    current_thought = (gen + '.').strip()

    fact_sent_ls = searchFact(last_thought, current_thought, fact_ls)

    output_ls = []
    for fact_sent_ in fact_sent_ls[::-1]:
        last_entity_flag = entityExist(last_entity, fact_sent_)
        exist_flag = entityExist(new_entity, fact_sent_)
        conflict_flag = judgeConflict(fact_sent_, current_thought) and judgeConflict1(fact_sent_, current_thought) and judgeConflict2(fact_sent_, current_thought)
        if (exist_flag and not last_entity_flag) or conflict_flag:
            new_thought = fact_sent_
            output = {
                'last_entity' : new_entity,
                'new_entity' : newEntity(last_thought, new_thought),
                'prompt' : prompt + new_thought + '# ',
                'last_thought' : new_thought,
                'count' : count + 1,
            }
            output_ls.append(output)
            
    if len(output_ls) == 0:
        new_thought = current_thought
        output = {
            'last_entity' : new_entity,
            'new_entity' : newEntity(last_thought, new_thought),
            'prompt' : prompt + new_thought + '# ',
            'last_thought' : new_thought,
            'count' : count + 1,
        }
        output_ls.append(output)

    return output_ls
            

cor = 0
tot = 0

for d in tqdm(dataset[0:100]):
    new_facts = set()
    
    for r in d["requested_rewrite"]:
        new_facts.add(f'{r["prompt"].format(r["subject"])} {r["target_new"]["str"]}')
        
    fact_ls = list(new_facts)
    tot += 1
    for q in d["questions"][:1]:
        state_ls = []
        initial_state = {
            'last_entity' : 'Crouching Tiger',
            'new_entity' : newEntity('No entity appears.', q),
            'prompt' : task_prompt + "\n\nQustion: " + q + '\nThoughts with New Knowledge: ',
            'last_thought' : q,
            'count' : 1,
        }
        state_ls.append(initial_state)
        ans = None
        while len(state_ls) > 0:
            state_ = state_ls[-1]
            del state_ls[-1]
            if state_['count'] >= 9:
                continue

            output = oneStep(state_['prompt'], state_['last_entity'], state_['new_entity'], state_['last_thought'], state_['count'])
            if isinstance(output, list):
                state_ls.extend(output)
            else:
                ans = output
                break
        
        if ans is None:
            continue

        # if the answer is correct
        if ans.lower() == d["new_answer"].lower() or ans.lower() in [ans_.lower() for ans_ in d["new_answer_alias"]]:
            cor += 1
            print(f'Multi-hop acc = {cor / tot} ({cor} / {tot})')
            break
        else:
            print(f'Multi-hop acc = {cor / tot} ({cor} / {tot})')
            pass

print(f'Multi-hop acc = {cor / tot} ({cor} / {tot})')

  1%|█▋                                                                                                                                                                       | 1/100 [00:02<03:46,  2.28s/it]

Multi-hop acc = 0.0 (0 / 1)


  2%|███▍                                                                                                                                                                     | 2/100 [00:05<04:42,  2.88s/it]

Multi-hop acc = 0.0 (0 / 2)


  3%|█████                                                                                                                                                                    | 3/100 [00:08<04:24,  2.72s/it]

Multi-hop acc = 0.3333333333333333 (1 / 3)


  4%|██████▊                                                                                                                                                                  | 4/100 [00:11<04:41,  2.94s/it]

Multi-hop acc = 0.5 (2 / 4)


  5%|████████▍                                                                                                                                                                | 5/100 [00:13<04:21,  2.76s/it]

Multi-hop acc = 0.6 (3 / 5)


  6%|██████████▏                                                                                                                                                              | 6/100 [00:19<05:44,  3.67s/it]

Multi-hop acc = 0.5 (3 / 6)


  7%|███████████▊                                                                                                                                                             | 7/100 [00:22<05:21,  3.46s/it]

Multi-hop acc = 0.5714285714285714 (4 / 7)


  8%|█████████████▌                                                                                                                                                           | 8/100 [00:25<04:57,  3.23s/it]

Multi-hop acc = 0.625 (5 / 8)


  9%|███████████████▏                                                                                                                                                         | 9/100 [00:27<04:46,  3.14s/it]

Multi-hop acc = 0.6666666666666666 (6 / 9)


 10%|████████████████▊                                                                                                                                                       | 10/100 [00:30<04:30,  3.00s/it]

Multi-hop acc = 0.7 (7 / 10)


 11%|██████████████████▍                                                                                                                                                     | 11/100 [00:33<04:27,  3.00s/it]

Multi-hop acc = 0.7272727272727273 (8 / 11)


 12%|████████████████████▏                                                                                                                                                   | 12/100 [00:36<04:13,  2.88s/it]

Multi-hop acc = 0.75 (9 / 12)


 13%|█████████████████████▊                                                                                                                                                  | 13/100 [00:38<03:50,  2.65s/it]

Multi-hop acc = 0.7692307692307693 (10 / 13)


 14%|███████████████████████▌                                                                                                                                                | 14/100 [00:40<03:45,  2.62s/it]

Multi-hop acc = 0.7857142857142857 (11 / 14)


 15%|█████████████████████████▏                                                                                                                                              | 15/100 [00:43<03:46,  2.67s/it]

Multi-hop acc = 0.8 (12 / 15)


 16%|██████████████████████████▉                                                                                                                                             | 16/100 [00:46<03:34,  2.55s/it]

Multi-hop acc = 0.8125 (13 / 16)


 17%|████████████████████████████▌                                                                                                                                           | 17/100 [00:49<03:50,  2.78s/it]

Multi-hop acc = 0.8235294117647058 (14 / 17)


 18%|██████████████████████████████▏                                                                                                                                         | 18/100 [00:51<03:39,  2.67s/it]

Multi-hop acc = 0.8333333333333334 (15 / 18)


 19%|███████████████████████████████▉                                                                                                                                        | 19/100 [00:53<03:21,  2.49s/it]

Multi-hop acc = 0.8421052631578947 (16 / 19)


 20%|█████████████████████████████████▌                                                                                                                                      | 20/100 [00:56<03:22,  2.53s/it]

Multi-hop acc = 0.85 (17 / 20)


 21%|███████████████████████████████████▎                                                                                                                                    | 21/100 [00:59<03:30,  2.67s/it]

Multi-hop acc = 0.8571428571428571 (18 / 21)


 22%|████████████████████████████████████▉                                                                                                                                   | 22/100 [01:02<03:40,  2.83s/it]

Multi-hop acc = 0.8636363636363636 (19 / 22)


 23%|██████████████████████████████████████▋                                                                                                                                 | 23/100 [01:04<03:25,  2.67s/it]

Multi-hop acc = 0.8695652173913043 (20 / 23)


 24%|████████████████████████████████████████▎                                                                                                                               | 24/100 [01:09<03:57,  3.13s/it]

Multi-hop acc = 0.8333333333333334 (20 / 24)


 25%|██████████████████████████████████████████                                                                                                                              | 25/100 [01:11<03:34,  2.86s/it]

Multi-hop acc = 0.84 (21 / 25)


 26%|███████████████████████████████████████████▋                                                                                                                            | 26/100 [01:13<03:17,  2.67s/it]

Multi-hop acc = 0.8076923076923077 (21 / 26)


 27%|█████████████████████████████████████████████▎                                                                                                                          | 27/100 [01:17<03:32,  2.91s/it]

Multi-hop acc = 0.7777777777777778 (21 / 27)


 28%|███████████████████████████████████████████████                                                                                                                         | 28/100 [01:20<03:43,  3.10s/it]

Multi-hop acc = 0.7857142857142857 (22 / 28)


 29%|████████████████████████████████████████████████▋                                                                                                                       | 29/100 [01:23<03:40,  3.10s/it]

Multi-hop acc = 0.7931034482758621 (23 / 29)


 30%|██████████████████████████████████████████████████▍                                                                                                                     | 30/100 [01:26<03:26,  2.95s/it]

Multi-hop acc = 0.8 (24 / 30)


 31%|████████████████████████████████████████████████████                                                                                                                    | 31/100 [01:29<03:23,  2.96s/it]

Multi-hop acc = 0.8064516129032258 (25 / 31)


 32%|█████████████████████████████████████████████████████▊                                                                                                                  | 32/100 [01:31<03:12,  2.83s/it]

Multi-hop acc = 0.78125 (25 / 32)


 33%|███████████████████████████████████████████████████████▍                                                                                                                | 33/100 [01:34<03:14,  2.91s/it]

Multi-hop acc = 0.7878787878787878 (26 / 33)


 34%|█████████████████████████████████████████████████████████                                                                                                               | 34/100 [01:37<02:56,  2.68s/it]

Multi-hop acc = 0.7647058823529411 (26 / 34)


 35%|██████████████████████████████████████████████████████████▊                                                                                                             | 35/100 [01:40<03:02,  2.81s/it]

Multi-hop acc = 0.7714285714285715 (27 / 35)


 36%|████████████████████████████████████████████████████████████▍                                                                                                           | 36/100 [01:42<02:55,  2.74s/it]

Multi-hop acc = 0.7777777777777778 (28 / 36)


 37%|██████████████████████████████████████████████████████████████▏                                                                                                         | 37/100 [01:46<03:03,  2.91s/it]

Multi-hop acc = 0.7837837837837838 (29 / 37)


 38%|███████████████████████████████████████████████████████████████▊                                                                                                        | 38/100 [01:48<02:52,  2.78s/it]

Multi-hop acc = 0.7894736842105263 (30 / 38)


 39%|█████████████████████████████████████████████████████████████████▌                                                                                                      | 39/100 [01:51<02:46,  2.73s/it]

Multi-hop acc = 0.7948717948717948 (31 / 39)


 40%|███████████████████████████████████████████████████████████████████▏                                                                                                    | 40/100 [01:53<02:34,  2.57s/it]

Multi-hop acc = 0.8 (32 / 40)


 41%|████████████████████████████████████████████████████████████████████▉                                                                                                   | 41/100 [01:57<03:01,  3.07s/it]

Multi-hop acc = 0.7804878048780488 (32 / 41)


 42%|██████████████████████████████████████████████████████████████████████▌                                                                                                 | 42/100 [02:00<02:54,  3.01s/it]

Multi-hop acc = 0.7857142857142857 (33 / 42)


 43%|████████████████████████████████████████████████████████████████████████▏                                                                                               | 43/100 [02:03<02:51,  3.01s/it]

Multi-hop acc = 0.7906976744186046 (34 / 43)


 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                              | 44/100 [02:05<02:36,  2.80s/it]

Multi-hop acc = 0.7954545454545454 (35 / 44)


 45%|███████████████████████████████████████████████████████████████████████████▌                                                                                            | 45/100 [02:08<02:30,  2.74s/it]

Multi-hop acc = 0.8 (36 / 45)


 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                          | 46/100 [02:11<02:27,  2.73s/it]

Multi-hop acc = 0.8043478260869565 (37 / 46)


 47%|██████████████████████████████████████████████████████████████████████████████▉                                                                                         | 47/100 [02:14<02:31,  2.87s/it]

Multi-hop acc = 0.8085106382978723 (38 / 47)


 48%|████████████████████████████████████████████████████████████████████████████████▋                                                                                       | 48/100 [02:17<02:32,  2.92s/it]

Multi-hop acc = 0.8125 (39 / 48)


 49%|██████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 49/100 [02:20<02:30,  2.96s/it]

Multi-hop acc = 0.8163265306122449 (40 / 49)


 50%|████████████████████████████████████████████████████████████████████████████████████                                                                                    | 50/100 [02:23<02:27,  2.96s/it]

Multi-hop acc = 0.8 (40 / 50)


 51%|█████████████████████████████████████████████████████████████████████████████████████▋                                                                                  | 51/100 [02:26<02:24,  2.96s/it]

Multi-hop acc = 0.803921568627451 (41 / 51)


 52%|███████████████████████████████████████████████████████████████████████████████████████▎                                                                                | 52/100 [02:29<02:19,  2.91s/it]

Multi-hop acc = 0.8076923076923077 (42 / 52)


 53%|█████████████████████████████████████████████████████████████████████████████████████████                                                                               | 53/100 [02:32<02:23,  3.06s/it]

Multi-hop acc = 0.8113207547169812 (43 / 53)


 54%|██████████████████████████████████████████████████████████████████████████████████████████▋                                                                             | 54/100 [02:35<02:25,  3.16s/it]

Multi-hop acc = 0.8148148148148148 (44 / 54)


 55%|████████████████████████████████████████████████████████████████████████████████████████████▍                                                                           | 55/100 [02:39<02:22,  3.16s/it]

Multi-hop acc = 0.8181818181818182 (45 / 55)


 56%|██████████████████████████████████████████████████████████████████████████████████████████████                                                                          | 56/100 [02:41<02:09,  2.95s/it]

Multi-hop acc = 0.8214285714285714 (46 / 56)


 57%|███████████████████████████████████████████████████████████████████████████████████████████████▊                                                                        | 57/100 [02:44<02:06,  2.94s/it]

Multi-hop acc = 0.8245614035087719 (47 / 57)


 58%|█████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                      | 58/100 [02:47<02:08,  3.06s/it]

Multi-hop acc = 0.8103448275862069 (47 / 58)


 59%|███████████████████████████████████████████████████████████████████████████████████████████████████                                                                     | 59/100 [02:51<02:18,  3.38s/it]

Multi-hop acc = 0.7966101694915254 (47 / 59)


 60%|████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                   | 60/100 [02:54<02:11,  3.29s/it]

Multi-hop acc = 0.8 (48 / 60)


 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 61/100 [02:57<01:59,  3.06s/it]

Multi-hop acc = 0.8032786885245902 (49 / 61)


 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                               | 62/100 [03:00<01:54,  3.03s/it]

Multi-hop acc = 0.8064516129032258 (50 / 62)


 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                              | 63/100 [03:03<01:52,  3.04s/it]

Multi-hop acc = 0.8095238095238095 (51 / 63)


 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                            | 64/100 [03:07<01:55,  3.20s/it]

Multi-hop acc = 0.796875 (51 / 64)


 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                          | 65/100 [03:10<01:50,  3.16s/it]

Multi-hop acc = 0.8 (52 / 65)


 66%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                         | 66/100 [03:12<01:39,  2.93s/it]

Multi-hop acc = 0.7878787878787878 (52 / 66)


 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                       | 67/100 [03:15<01:32,  2.80s/it]

Multi-hop acc = 0.7910447761194029 (53 / 67)


 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                     | 68/100 [03:18<01:32,  2.88s/it]

Multi-hop acc = 0.7941176470588235 (54 / 68)


 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                    | 69/100 [03:21<01:30,  2.93s/it]

Multi-hop acc = 0.7971014492753623 (55 / 69)


 70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                  | 70/100 [03:23<01:23,  2.77s/it]

Multi-hop acc = 0.8 (56 / 70)


 71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                | 71/100 [03:26<01:21,  2.81s/it]

Multi-hop acc = 0.8028169014084507 (57 / 71)


 72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                               | 72/100 [03:29<01:22,  2.94s/it]

Multi-hop acc = 0.7916666666666666 (57 / 72)


 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                             | 73/100 [03:32<01:19,  2.96s/it]

Multi-hop acc = 0.7945205479452054 (58 / 73)


 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                           | 74/100 [03:35<01:18,  3.02s/it]

Multi-hop acc = 0.7972972972972973 (59 / 74)


 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                          | 75/100 [03:39<01:19,  3.20s/it]

Multi-hop acc = 0.8 (60 / 75)


 76%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                        | 76/100 [03:42<01:14,  3.10s/it]

Multi-hop acc = 0.8026315789473685 (61 / 76)


 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                      | 77/100 [03:45<01:09,  3.04s/it]

Multi-hop acc = 0.8051948051948052 (62 / 77)


 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                     | 78/100 [03:48<01:05,  3.00s/it]

Multi-hop acc = 0.8076923076923077 (63 / 78)


 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                   | 79/100 [03:51<01:03,  3.03s/it]

Multi-hop acc = 0.810126582278481 (64 / 79)


 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 80/100 [03:54<01:00,  3.04s/it]

Multi-hop acc = 0.8 (64 / 80)


 81%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                | 81/100 [03:57<00:58,  3.08s/it]

Multi-hop acc = 0.8024691358024691 (65 / 81)


 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                              | 82/100 [04:00<00:54,  3.04s/it]

Multi-hop acc = 0.8048780487804879 (66 / 82)


 83%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                            | 83/100 [04:04<00:56,  3.32s/it]

Multi-hop acc = 0.7951807228915663 (66 / 83)


 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                           | 84/100 [04:06<00:47,  2.98s/it]

Multi-hop acc = 0.7976190476190477 (67 / 84)


 85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 85/100 [04:09<00:44,  2.95s/it]

Multi-hop acc = 0.8 (68 / 85)


 86%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                       | 86/100 [04:13<00:43,  3.13s/it]

Multi-hop acc = 0.8023255813953488 (69 / 86)


 87%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                     | 87/100 [04:15<00:37,  2.90s/it]

Multi-hop acc = 0.7931034482758621 (69 / 87)


 88%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                    | 88/100 [04:18<00:35,  3.00s/it]

Multi-hop acc = 0.7954545454545454 (70 / 88)


 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                  | 89/100 [04:20<00:31,  2.82s/it]

Multi-hop acc = 0.7865168539325843 (70 / 89)


 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 90/100 [04:23<00:27,  2.76s/it]

Multi-hop acc = 0.7888888888888889 (71 / 90)


 91%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉               | 91/100 [04:26<00:23,  2.66s/it]

Multi-hop acc = 0.7802197802197802 (71 / 91)


 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌             | 92/100 [04:29<00:22,  2.84s/it]

Multi-hop acc = 0.782608695652174 (72 / 92)


 93%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏           | 93/100 [04:32<00:19,  2.83s/it]

Multi-hop acc = 0.7849462365591398 (73 / 93)


 94%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉          | 94/100 [04:33<00:15,  2.50s/it]

Multi-hop acc = 0.776595744680851 (73 / 94)


 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 95/100 [04:35<00:11,  2.21s/it]

Multi-hop acc = 0.7684210526315789 (73 / 95)


 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎      | 96/100 [04:37<00:09,  2.29s/it]

Multi-hop acc = 0.7604166666666666 (73 / 96)


 97%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉     | 97/100 [04:40<00:07,  2.37s/it]

Multi-hop acc = 0.7525773195876289 (73 / 97)


 98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 98/100 [04:43<00:04,  2.50s/it]

Multi-hop acc = 0.7551020408163265 (74 / 98)


 99%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 99/100 [04:45<00:02,  2.49s/it]

Multi-hop acc = 0.7575757575757576 (75 / 99)


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 100/100 [04:48<00:00,  2.88s/it]

Multi-hop acc = 0.75 (75 / 100)
Multi-hop acc = 0.75 (75 / 100)



