####  Source Code from : 
https://github.com/clovaai/bros/blob/55c52d0872ed61fb7586b70618f45dcb0354f1b2/preprocess/funsd_spade/preprocess.py#L74-L86

In [28]:
import json
import os
from glob import glob

import imagesize
from tqdm import tqdm
from transformers import BertTokenizer

MAX_SEQ_LENGTH = 512
MODEL_TYPE = "bert"
VOCA = "bert-base-uncased"

INPUT_PATH = "..\..\Datasets\dataset"

OUTPUT_PATH = "spade"

os.makedirs(OUTPUT_PATH, exist_ok=True)
os.makedirs(os.path.join(OUTPUT_PATH, "preprocessed"), exist_ok=True)


def main():
    tokenizer = BertTokenizer.from_pretrained(VOCA, do_lower_case=True)

    for dataset_split in ["train", "val"]:
        print(f"dataset_split: {dataset_split}")
        do_preprocess(tokenizer, dataset_split)

    os.system(f"cp -r {os.path.join(INPUT_PATH, 'training_data')} {OUTPUT_PATH}")
    os.system(f"cp -r {os.path.join(INPUT_PATH, 'testing_data')} {OUTPUT_PATH}")
    save_class_names()


def do_preprocess(tokenizer, dataset_split):
    
    if dataset_split == "train":
        dataset_root_path = os.path.join(INPUT_PATH, "training_data")
    elif dataset_split == "val":
        dataset_root_path = os.path.join(INPUT_PATH, "testing_data")
    else:
        raise ValueError(f"Invalid dataset_split={dataset_split}")

    json_files = glob(os.path.join(dataset_root_path, "annotations", "*.json"))
    print(os.path.join(dataset_root_path, "annotations", "*.json"))
    print(json_files)
    preprocessed_fnames = []
    for json_file in tqdm(json_files):
    
        in_json_obj = json.load(open(json_file, "r", encoding="utf-8"))

        out_json_obj = {}
        out_json_obj["words"] = []
        out_json_obj["parse"] = {}
        out_json_obj["parse"]["class"] = {"header": [], "question": [], "answer": []}
        out_json_obj["parse"]["relations"] = []

        form_id_to_word_idx = {}
        other_seq_list = {}

        # words
        for form_idx, form in enumerate(in_json_obj["form"]):
            print(form)
            form_id = form["id"]
            form_text = form["text"].strip()
            form_label = form["label"]
            form_linking = form["linking"]

            if len(form_text) == 0:
                continue

            word_cnt = 0
            class_seq = []
            for word_idx, word in enumerate(form["words"]):
                word_text = word["text"]
                bb = word["box"]
                bb = [[bb[0], bb[1]], [bb[2], bb[1]], [bb[2], bb[3]], [bb[0], bb[3]]]
                tokens = tokenizer.convert_tokens_to_ids(tokenizer.tokenize(word_text))

                word_obj = {"text": word_text, "tokens": tokens, "boundingBox": bb}
                if len(word_text) != 0:
                    out_json_obj["words"].append(word_obj)
                    word_cnt += 1
                    class_seq.append(len(out_json_obj["words"]) - 1)

            is_valid_class = False if form_label == "other" else True
            if is_valid_class:
                out_json_obj["parse"]["class"][form_label].append(class_seq)
                form_id_to_word_idx[form_id] = len(out_json_obj["words"]) - word_cnt
            else:
                other_seq_list[form_id] = class_seq

        # parse
        for form_idx, form in enumerate(in_json_obj["form"]):
            form_id = form["id"]
            form_text = form["text"].strip()
            form_label = form["label"]
            form_linking = form["linking"]

            if len(form_linking) == 0:
                continue

            for link_idx, link in enumerate(form_linking):
                if link[0] == form_id:
                    if (
                        link[1] in form_id_to_word_idx
                        and link[0] in form_id_to_word_idx
                    ):
                        relation_pair = [
                            form_id_to_word_idx[link[0]],
                            form_id_to_word_idx[link[1]],
                        ]
                        out_json_obj["parse"]["relations"].append(relation_pair)

        # meta
        out_json_obj["meta"] = {}
        image_file = (
            os.path.splitext(json_file.replace("annotations", "images"))[0] + ".png"
        )
        if dataset_split == "train":
            out_json_obj["meta"]["image_path"] = image_file[
                image_file.find("training_data/") :
            ]
        elif dataset_split == "val":
            out_json_obj["meta"]["image_path"] = image_file[
                image_file.find("testing_data/") :
            ]
        width, height = imagesize.get(image_file)
        out_json_obj["meta"]["imageSize"] = {"width": width, "height": height}
        out_json_obj["meta"]["voca"] = VOCA

        this_file_name = os.path.basename(json_file)

        # Save file name to list
        preprocessed_fnames.append(os.path.join("preprocessed", this_file_name))

        # Save to file
        data_obj_file = os.path.join(OUTPUT_PATH, "preprocessed", this_file_name)
        with open(data_obj_file, "w", encoding="utf-8") as fp:
            json.dump(out_json_obj, fp, ensure_ascii=False)

    # Save file name list file
    preprocessed_filelist_file = os.path.join(
        OUTPUT_PATH, f"preprocessed_files_{dataset_split}.txt"
    )
    with open(preprocessed_filelist_file, "w", encoding="utf-8") as fp:
        fp.write("\n".join(preprocessed_fnames))


def save_class_names():
    with open(
        os.path.join(OUTPUT_PATH, "class_names.txt"), "w", encoding="utf-8"
    ) as fp:
        fp.write("\n".join(["others", "header", "question", "answer"]))



In [29]:
main()

dataset_split: train
..\..\Datasets\dataset\training_data\annotations\*.json
['..\\..\\Datasets\\dataset\\training_data\\annotations\\0000971160.json', '..\\..\\Datasets\\dataset\\training_data\\annotations\\0000989556.json', '..\\..\\Datasets\\dataset\\training_data\\annotations\\0000990274.json', '..\\..\\Datasets\\dataset\\training_data\\annotations\\0000999294.json', '..\\..\\Datasets\\dataset\\training_data\\annotations\\0001118259.json', '..\\..\\Datasets\\dataset\\training_data\\annotations\\0001123541.json', '..\\..\\Datasets\\dataset\\training_data\\annotations\\0001129658.json', '..\\..\\Datasets\\dataset\\training_data\\annotations\\0001209043.json', '..\\..\\Datasets\\dataset\\training_data\\annotations\\0001239897.json', '..\\..\\Datasets\\dataset\\training_data\\annotations\\0001438955.json', '..\\..\\Datasets\\dataset\\training_data\\annotations\\0001456787.json', '..\\..\\Datasets\\dataset\\training_data\\annotations\\0001463282.json', '..\\..\\Datasets\\dataset\\traini

  4%|▍         | 6/149 [00:00<00:02, 56.13it/s]

{'box': [292, 91, 376, 175], 'text': 'R&D', 'label': 'other', 'words': [{'box': [292, 91, 376, 175], 'text': 'R&D'}], 'linking': [], 'id': 0}
{'box': [219, 316, 225, 327], 'text': ':', 'label': 'question', 'words': [{'box': [219, 316, 225, 327], 'text': ':'}], 'linking': [], 'id': 1}
{'box': [95, 355, 169, 370], 'text': 'Suggestion:', 'label': 'question', 'words': [{'box': [95, 355, 169, 370], 'text': 'Suggestion:'}], 'linking': [[2, 16]], 'id': 2}
{'box': [482, 268, 518, 282], 'text': 'Date:', 'label': 'question', 'words': [{'box': [482, 268, 518, 282], 'text': 'Date:'}], 'linking': [[3, 12]], 'id': 3}
{'box': [511, 309, 570, 323], 'text': 'Licensee', 'label': 'answer', 'words': [{'box': [511, 309, 570, 323], 'text': 'Licensee'}], 'linking': [[13, 4]], 'id': 4}
{'box': [211, 651, 217, 662], 'text': '', 'label': 'question', 'words': [{'box': [211, 651, 217, 662], 'text': ''}], 'linking': [], 'id': 5}
{'box': [461, 605, 483, 619], 'text': 'Yes', 'label': 'question', 'words': [{'box': [4

 13%|█▎        | 20/149 [00:00<00:02, 58.19it/s]

{'box': [505, 427, 575, 439], 'text': 'COMMENTS', 'label': 'question', 'words': [{'box': [505, 427, 575, 439], 'text': 'COMMENTS'}], 'linking': [[0, 47]], 'id': 0}
{'box': [17, 174, 70, 189], 'text': 'Brand:', 'label': 'question', 'words': [{'box': [17, 174, 70, 189], 'text': 'Brand:'}], 'linking': [[1, 35]], 'id': 1}
{'box': [18, 201, 113, 214], 'text': 'Commercial:', 'label': 'question', 'words': [{'box': [18, 201, 113, 214], 'text': 'Commercial:'}], 'linking': [[2, 38]], 'id': 2}
{'box': [17, 254, 98, 269], 'text': 'Supplier:', 'label': 'question', 'words': [{'box': [17, 254, 98, 269], 'text': 'Supplier:'}], 'linking': [[3, 42]], 'id': 3}
{'box': [442, 198, 498, 211], 'text': 'Sample:', 'label': 'question', 'words': [{'box': [442, 198, 498, 211], 'text': 'Sample:'}], 'linking': [[4, 8]], 'id': 4}
{'box': [20, 362, 86, 377], 'text': 'Chicago:', 'label': 'question', 'words': [{'box': [20, 362, 86, 377], 'text': 'Chicago:'}], 'linking': [[5, 6]], 'id': 5}
{'box': [302, 359, 330, 374], 

 23%|██▎       | 34/149 [00:00<00:01, 61.09it/s]

{'box': [59, 817, 167, 834], 'text': 'APPROVALS:', 'label': 'header', 'words': [{'box': [59, 817, 167, 834], 'text': 'APPROVALS:'}], 'linking': [[0, 43], [0, 44], [0, 45], [0, 46], [0, 47], [0, 48], [0, 7], [0, 15]], 'id': 0}
{'box': [57, 73, 91, 86], 'text': 'Date:', 'label': 'question', 'words': [{'box': [57, 73, 91, 86], 'text': 'Date:'}], 'linking': [[1, 21]], 'id': 1}
{'box': [57, 281, 127, 292], 'text': 'OBJECTIVE:', 'label': 'question', 'words': [{'box': [57, 281, 127, 292], 'text': 'OBJECTIVE:'}], 'linking': [[2, 26]], 'id': 2}
{'box': [59, 691, 97, 699], 'text': 'Cartons:', 'label': 'question', 'words': [{'box': [59, 691, 97, 699], 'text': 'Cartons:'}], 'linking': [[3, 37], [33, 3]], 'id': 3}
{'box': [59, 707, 90, 715], 'text': 'Cases:', 'label': 'question', 'words': [{'box': [59, 707, 90, 715], 'text': 'Cases:'}], 'linking': [[4, 12], [33, 4]], 'id': 4}
{'box': [57, 737, 128, 750], 'text': 'TIMETABLE:', 'label': 'header', 'words': [{'box': [57, 737, 128, 750], 'text': 'TIMETA

 32%|███▏      | 47/149 [00:00<00:01, 55.41it/s]

{'text': '<> Beginner', 'box': [85, 705, 203, 721], 'linking': [], 'label': 'question', 'words': [{'text': '<>', 'box': [85, 705, 120, 719]}, {'text': 'Beginner', 'box': [130, 707, 203, 721]}], 'id': 19}
{'text': '<> Fair', 'box': [85, 722, 166, 735], 'linking': [], 'label': 'question', 'words': [{'text': '<>', 'box': [85, 722, 121, 735]}, {'text': 'Fair', 'box': [128, 722, 166, 735]}], 'id': 20}
{'text': '<> Good', 'box': [87, 736, 168, 749], 'linking': [], 'label': 'question', 'words': [{'text': '<>', 'box': [87, 736, 121, 749]}, {'text': 'Good', 'box': [130, 737, 168, 748]}], 'id': 21}
{'text': '<> Excellent', 'box': [87, 751, 212, 764], 'linking': [], 'label': 'question', 'words': [{'text': '<>', 'box': [87, 751, 121, 764]}, {'text': 'Excellent', 'box': [130, 751, 212, 764]}], 'id': 22}
{'text': 'FIRM NAME', 'box': [85, 828, 167, 841], 'linking': [], 'label': 'question', 'words': [{'text': 'FIRM', 'box': [85, 828, 124, 841]}, {'text': 'NAME', 'box': [131, 828, 167, 841]}], 'id': 23

 42%|████▏     | 62/149 [00:01<00:01, 61.63it/s]

{'box': [66, 240, 134, 254], 'text': 'CONTRACT:', 'label': 'question', 'words': [{'box': [66, 240, 134, 254], 'text': 'CONTRACT:'}], 'linking': [[0, 21]], 'id': 0}
{'box': [64, 271, 118, 284], 'text': 'CLIENT:', 'label': 'question', 'words': [{'box': [64, 271, 118, 284], 'text': 'CLIENT:'}], 'linking': [[1, 22]], 'id': 1}
{'box': [66, 327, 118, 342], 'text': 'MARKET:', 'label': 'question', 'words': [{'box': [66, 327, 118, 342], 'text': 'MARKET:'}], 'linking': [[2, 25]], 'id': 2}
{'box': [316, 419, 336, 446], 'text': '9', 'label': 'answer', 'words': [{'box': [316, 419, 336, 446], 'text': '9'}], 'linking': [[8, 3]], 'id': 3}
{'box': [459, 419, 498, 444], 'text': '45', 'label': 'answer', 'words': [{'box': [459, 419, 498, 444], 'text': '45'}], 'linking': [[7, 4]], 'id': 4}
{'box': [601, 415, 643, 440], 'text': '54', 'label': 'answer', 'words': [{'box': [601, 415, 643, 440], 'text': '54'}], 'linking': [[6, 5]], 'id': 5}
{'box': [594, 443, 635, 457], 'text': 'TOTAL', 'label': 'question', 'wo

 46%|████▋     | 69/149 [00:01<00:01, 63.71it/s]

{'box': [94, 158, 114, 166], 'text': 'TYPE', 'label': 'header', 'words': [{'box': [94, 158, 114, 166], 'text': 'TYPE'}], 'linking': [[0, 17], [0, 18], [0, 1]], 'id': 0}
{'box': [527, 168, 566, 176], 'text': 'COMBINED', 'label': 'question', 'words': [{'box': [527, 168, 566, 176], 'text': 'COMBINED'}], 'linking': [[0, 1], [2, 1]], 'id': 1}
{'box': [568, 168, 578, 178], 'text': '☑', 'label': 'header', 'words': [{'box': [568, 168, 578, 178], 'text': '☑'}], 'linking': [[2, 1]], 'id': 2}
{'box': [94, 186, 115, 194], 'text': 'NAME', 'label': 'question', 'words': [{'box': [94, 186, 115, 194], 'text': 'NAME'}], 'linking': [[3, 21]], 'id': 3}
{'box': [137, 212, 158, 220], 'text': 'NAME', 'label': 'question', 'words': [{'box': [137, 212, 158, 220], 'text': 'NAME'}], 'linking': [], 'id': 4}
{'box': [94, 212, 136, 220], 'text': 'COMPOUND', 'label': 'question', 'words': [{'box': [94, 212, 136, 220], 'text': 'COMPOUND'}], 'linking': [[5, 20]], 'id': 5}
{'box': [116, 278, 138, 286], 'text': 'B73', 'la

 55%|█████▌    | 82/149 [00:01<00:01, 52.05it/s]

{'box': [603, 38, 624, 59], 'text': 'RE', 'label': 'question', 'words': [{'box': [603, 38, 624, 59], 'text': 'RE'}], 'linking': [[0, 9]], 'id': 0}
{'box': [568, 89, 607, 110], 'text': 'DATE', 'label': 'question', 'words': [{'box': [568, 89, 607, 110], 'text': 'DATE'}], 'linking': [[1, 55]], 'id': 1}
{'box': [43, 504, 114, 526], 'text': 'Remarks', 'label': 'question', 'words': [{'box': [43, 504, 114, 526], 'text': 'Remarks'}], 'linking': [[2, 52], [2, 53]], 'id': 2}
{'box': [45, 166, 94, 188], 'text': 'Color', 'label': 'question', 'words': [{'box': [45, 166, 94, 188], 'text': 'Color'}], 'linking': [[3, 18]], 'id': 3}
{'box': [49, 119, 119, 136], 'text': 'Supplier', 'label': 'question', 'words': [{'box': [49, 119, 119, 136], 'text': 'Supplier'}], 'linking': [[4, 36]], 'id': 4}
{'box': [223, 792, 283, 810], 'text': 'Weight', 'label': 'question', 'words': [{'box': [223, 792, 283, 810], 'text': 'Weight'}], 'linking': [[5, 87]], 'id': 5}
{'box': [330, 793, 375, 808], 'text': 'Draw', 'label':

 64%|██████▍   | 95/149 [00:01<00:01, 51.33it/s]

{'box': [85, 527, 148, 542], 'text': 'Signature', 'label': 'question', 'words': [{'box': [85, 527, 148, 542], 'text': 'Signature'}], 'linking': [[0, 31], [30, 0]], 'id': 0}
{'box': [319, 525, 392, 540], 'text': 'Department', 'label': 'question', 'words': [{'box': [319, 525, 392, 540], 'text': 'Department'}], 'linking': [[1, 32], [30, 1]], 'id': 1}
{'box': [513, 523, 548, 538], 'text': 'Date', 'label': 'question', 'words': [{'box': [513, 523, 548, 538], 'text': 'Date'}], 'linking': [[2, 33], [30, 2]], 'id': 2}
{'box': [515, 676, 553, 693], 'text': 'Date', 'label': 'question', 'words': [{'box': [515, 676, 553, 693], 'text': 'Date'}], 'linking': [[34, 3]], 'id': 3}
{'box': [322, 679, 398, 697], 'text': 'Department', 'label': 'question', 'words': [{'box': [322, 679, 398, 697], 'text': 'Department'}], 'linking': [[34, 4]], 'id': 4}
{'box': [88, 683, 148, 698], 'text': 'Signature', 'label': 'question', 'words': [{'box': [88, 683, 148, 698], 'text': 'Signature'}], 'linking': [[34, 5], [5, 11]

 71%|███████   | 106/149 [00:01<00:00, 46.63it/s]

{'box': [73, 205, 130, 219], 'text': 'MARKET:', 'label': 'question', 'words': [{'box': [73, 205, 130, 219], 'text': 'MARKET:'}], 'linking': [[0, 7]], 'id': 0}
{'box': [73, 257, 137, 274], 'text': 'PRODUCT:', 'label': 'question', 'words': [{'box': [73, 257, 137, 274], 'text': 'PRODUCT:'}], 'linking': [[1, 10]], 'id': 1}
{'box': [68, 447, 162, 461], 'text': 'QUANTITIES:', 'label': 'question', 'words': [{'box': [68, 447, 162, 461], 'text': 'QUANTITIES:'}], 'linking': [[2, 15]], 'id': 2}
{'box': [201, 658, 250, 671], 'text': 'Date:', 'label': 'question', 'words': [{'box': [201, 658, 250, 671], 'text': 'Date:'}], 'linking': [[3, 20], [19, 3]], 'id': 3}
{'box': [201, 686, 248, 697], 'text': 'Place:', 'label': 'question', 'words': [{'box': [201, 686, 248, 697], 'text': 'Place:'}], 'linking': [[4, 22], [19, 4]], 'id': 4}
{'box': [203, 670, 249, 683], 'text': 'Time:', 'label': 'question', 'words': [{'box': [203, 670, 249, 683], 'text': 'Time:'}], 'linking': [[5, 21], [19, 5]], 'id': 5}
{'box': 

 80%|███████▉  | 119/149 [00:02<00:00, 53.10it/s]

{'box': [100, 115, 145, 125], 'text': 'COMPOUND', 'label': 'question', 'words': [{'box': [100, 115, 145, 125], 'text': 'COMPOUND'}], 'linking': [[0, 2]], 'id': 0}
{'box': [100, 147, 133, 154], 'text': 'SOURCE', 'label': 'question', 'words': [{'box': [100, 147, 133, 154], 'text': 'SOURCE'}], 'linking': [[1, 3]], 'id': 1}
{'box': [154, 108, 226, 121], 'text': 'Mapleine', 'label': 'answer', 'words': [{'box': [154, 108, 226, 121], 'text': 'Mapleine'}], 'linking': [[0, 2]], 'id': 2}
{'box': [142, 139, 209, 151], 'text': 'Crescent', 'label': 'answer', 'words': [{'box': [142, 139, 209, 151], 'text': 'Crescent'}], 'linking': [[1, 3]], 'id': 3}
{'box': [328, 177, 361, 186], 'text': 'TESTED:', 'label': 'question', 'words': [{'box': [328, 177, 361, 186], 'text': 'TESTED:'}], 'linking': [[4, 39]], 'id': 4}
{'box': [497, 178, 540, 185], 'text': 'REPORTED', 'label': 'question', 'words': [{'box': [497, 178, 540, 185], 'text': 'REPORTED'}], 'linking': [[5, 40]], 'id': 5}
{'box': [481, 138, 512, 151], 

 91%|█████████▏| 136/149 [00:02<00:00, 65.90it/s]

{'box': [108, 117, 154, 134], 'text': 'FROM:', 'label': 'question', 'words': [{'box': [108, 117, 154, 134], 'text': 'FROM:'}], 'linking': [[0, 16]], 'id': 0}
{'box': [108, 152, 133, 165], 'text': 'TO:', 'label': 'question', 'words': [{'box': [108, 152, 133, 165], 'text': 'TO:'}], 'linking': [[1, 17]], 'id': 1}
{'box': [108, 184, 133, 197], 'text': 'CC:', 'label': 'question', 'words': [{'box': [108, 184, 133, 197], 'text': 'CC:'}], 'linking': [[2, 18]], 'id': 2}
{'box': [108, 282, 150, 296], 'text': 'MEDIA', 'label': 'question', 'words': [{'box': [108, 282, 150, 296], 'text': 'MEDIA'}], 'linking': [[3, 21]], 'id': 3}
{'box': [108, 459, 197, 476], 'text': 'CIRCULATION', 'label': 'question', 'words': [{'box': [108, 459, 197, 476], 'text': 'CIRCULATION'}], 'linking': [[4, 8]], 'id': 4}
{'box': [337, 311, 348, 324], 'text': '1', 'label': 'answer', 'words': [{'box': [337, 311, 348, 324], 'text': '1'}], 'linking': [[23, 5]], 'id': 5}
{'box': [335, 381, 392, 396], 'text': '5/19/93', 'label': '

 97%|█████████▋| 144/149 [00:02<00:00, 63.89it/s]

{'box': [131, 499, 204, 523], 'text': 'HOURS:', 'label': 'header', 'words': [{'box': [131, 499, 204, 523], 'text': 'HOURS:'}], 'linking': [[0, 16], [0, 17]], 'id': 0}
{'box': [133, 634, 225, 655], 'text': 'SPECIFICS:', 'label': 'header', 'words': [{'box': [133, 634, 225, 655], 'text': 'SPECIFICS:'}], 'linking': [[1, 20], [1, 21], [1, 22], [1, 23], [1, 24], [1, 25]], 'id': 1}
{'box': [307, 684, 318, 702], 'text': '(S)', 'label': 'question', 'words': [{'box': [307, 684, 318, 702], 'text': '(S)'}], 'linking': [], 'id': 2}
{'box': [209, 746, 223, 759], 'text': '☑', 'label': 'answer', 'words': [{'box': [209, 746, 223, 759], 'text': '☑'}], 'linking': [[22, 3]], 'id': 3}
{'box': [208, 686, 221, 700], 'text': '☑', 'label': 'answer', 'words': [{'box': [208, 686, 221, 700], 'text': '☑'}], 'linking': [[20, 4]], 'id': 4}
{'box': [662, 796, 677, 869], 'text': '92586242', 'label': 'other', 'words': [{'box': [662, 796, 677, 869], 'text': '92586242'}], 'linking': [], 'id': 5}
{'box': [52, 934, 73, 947

100%|██████████| 149/149 [00:02<00:00, 56.38it/s]


dataset_split: val
..\..\Datasets\dataset\testing_data\annotations\*.json
['..\\..\\Datasets\\dataset\\testing_data\\annotations\\82092117.json', '..\\..\\Datasets\\dataset\\testing_data\\annotations\\82200067_0069.json', '..\\..\\Datasets\\dataset\\testing_data\\annotations\\82250337_0338.json', '..\\..\\Datasets\\dataset\\testing_data\\annotations\\82251504.json', '..\\..\\Datasets\\dataset\\testing_data\\annotations\\82252956_2958.json', '..\\..\\Datasets\\dataset\\testing_data\\annotations\\82253058_3059.json', '..\\..\\Datasets\\dataset\\testing_data\\annotations\\82253245_3247.json', '..\\..\\Datasets\\dataset\\testing_data\\annotations\\82253362_3364.json', '..\\..\\Datasets\\dataset\\testing_data\\annotations\\82254765.json', '..\\..\\Datasets\\dataset\\testing_data\\annotations\\82491256.json', '..\\..\\Datasets\\dataset\\testing_data\\annotations\\82504862.json', '..\\..\\Datasets\\dataset\\testing_data\\annotations\\82562350.json', '..\\..\\Datasets\\dataset\\testing_data\\a

 10%|█         | 5/50 [00:00<00:00, 47.17it/s]

{'box': [61, 127, 143, 211], 'text': '', 'label': 'other', 'words': [{'box': [61, 127, 143, 211], 'text': ''}], 'linking': [], 'id': 0}
{'box': [102, 345, 129, 359], 'text': 'TO:', 'label': 'question', 'words': [{'box': [102, 345, 129, 359], 'text': 'TO:'}], 'linking': [[1, 14]], 'id': 1}
{'box': [102, 406, 147, 423], 'text': 'DATE:', 'label': 'question', 'words': [{'box': [102, 406, 147, 423], 'text': 'DATE:'}], 'linking': [[2, 27]], 'id': 2}
{'box': [461, 440, 475, 455], 'text': '3', 'label': 'answer', 'words': [{'box': [461, 440, 475, 455], 'text': '3'}], 'linking': [[19, 3]], 'id': 3}
{'box': [249, 84, 274, 98], 'text': 'Fax:', 'label': 'question', 'words': [{'box': [249, 84, 274, 98], 'text': 'Fax:'}], 'linking': [[4, 7]], 'id': 4}
{'box': [103, 691, 139, 708], 'text': 'NOTE:', 'label': 'question', 'words': [{'box': [103, 691, 139, 708], 'text': 'NOTE:'}], 'linking': [[5, 24]], 'id': 5}
{'box': [633, 775, 653, 874], 'text': '82092117', 'label': 'other', 'words': [{'box': [633, 775

 34%|███▍      | 17/50 [00:00<00:00, 49.77it/s]

{'box': [118, 249, 238, 309], 'text': 'Fax', 'label': 'header', 'words': [{'box': [118, 249, 238, 309], 'text': 'Fax'}], 'linking': [], 'id': 0}
{'box': [272, 128, 458, 186], 'text': 'LORILLARD TOBACCO COMPANY', 'label': 'header', 'words': [{'box': [272, 128, 458, 186], 'text': 'LORILLARD TOBACCO COMPANY'}], 'linking': [], 'id': 1}
{'box': [184, 71, 202, 86], 'text': '', 'label': 'question', 'words': [{'box': [184, 71, 202, 86], 'text': ''}], 'linking': [], 'id': 2}
{'box': [595, 58, 661, 76], 'text': '001/004', 'label': 'other', 'words': [{'box': [595, 58, 661, 76], 'text': '001/004'}], 'linking': [], 'id': 3}
{'box': [116, 331, 144, 348], 'text': 'To:', 'label': 'question', 'words': [{'box': [116, 331, 144, 348], 'text': 'To:'}], 'linking': [[4, 22]], 'id': 4}
{'box': [120, 360, 152, 377], 'text': 'Fax:', 'label': 'question', 'words': [{'box': [120, 360, 152, 377], 'text': 'Fax:'}], 'linking': [], 'id': 5}
{'box': [120, 385, 148, 402], 'text': 'CC:', 'label': 'question', 'words': [{'

 60%|██████    | 30/50 [00:00<00:00, 53.01it/s]

{'box': [73, 147, 93, 160], 'text': 'TO:', 'label': 'question', 'words': [{'box': [73, 147, 93, 160], 'text': 'TO:'}], 'linking': [[0, 13]], 'id': 0}
{'box': [73, 176, 109, 191], 'text': 'FROM:', 'label': 'question', 'words': [{'box': [73, 176, 109, 191], 'text': 'FROM:'}], 'linking': [[1, 14]], 'id': 1}
{'box': [74, 208, 95, 221], 'text': 'CC:', 'label': 'question', 'words': [{'box': [74, 208, 95, 221], 'text': 'CC:'}], 'linking': [[2, 15]], 'id': 2}
{'box': [142, 649, 219, 664], 'text': 'PACK/CARTON', 'label': 'question', 'words': [{'box': [142, 649, 219, 664], 'text': 'PACK/CARTON'}], 'linking': [[3, 5]], 'id': 3}
{'box': [142, 779, 229, 794], 'text': 'REQUIREMENTS', 'label': 'question', 'words': [{'box': [142, 779, 229, 794], 'text': 'REQUIREMENTS'}], 'linking': [[4, 40]], 'id': 4}
{'box': [380, 649, 412, 664], 'text': 'PACK', 'label': 'answer', 'words': [{'box': [380, 649, 412, 664], 'text': 'PACK'}], 'linking': [[3, 5]], 'id': 5}
{'box': [142, 860, 174, 873], 'text': 'JOB#', 'lab

 92%|█████████▏| 46/50 [00:00<00:00, 54.98it/s]

{'box': [524, 54, 697, 176], 'text': '', 'label': 'other', 'words': [{'box': [524, 54, 697, 176], 'text': ''}], 'linking': [], 'id': 0}
{'box': [680, 672, 700, 773], 'text': '87125460', 'label': 'other', 'words': [{'box': [680, 672, 700, 773], 'text': '87125460'}], 'linking': [], 'id': 1}
{'box': [77, 683, 166, 703], 'text': 'APPROVALS', 'label': 'question', 'words': [{'box': [77, 683, 166, 703], 'text': 'APPROVALS'}], 'linking': [[2, 24], [2, 24]], 'id': 2}
{'box': [80, 730, 122, 747], 'text': 'DATE', 'label': 'question', 'words': [{'box': [80, 730, 122, 747], 'text': 'DATE'}], 'linking': [[3, 24], [3, 24]], 'id': 3}
{'box': [81, 821, 119, 834], 'text': 'DATE', 'label': 'question', 'words': [{'box': [81, 821, 119, 834], 'text': 'DATE'}], 'linking': [[4, 25], [4, 25]], 'id': 4}
{'box': [451, 725, 500, 745], 'text': 'STUDY', 'label': 'question', 'words': [{'box': [451, 725, 500, 745], 'text': 'STUDY'}], 'linking': [], 'id': 5}
{'box': [510, 725, 583, 743], 'text': 'DIRECTOR', 'label': '

100%|██████████| 50/50 [00:00<00:00, 53.31it/s]

{'box': [99, 196, 114, 206], 'text': 'TO:', 'label': 'question', 'words': [{'box': [99, 196, 114, 206], 'text': 'TO:'}], 'linking': [[0, 18]], 'id': 0}
{'box': [156, 242, 184, 253], 'text': 'ATTN:', 'label': 'question', 'words': [{'box': [156, 242, 184, 253], 'text': 'ATTN:'}], 'linking': [[1, 19]], 'id': 1}
{'box': [496, 191, 523, 202], 'text': 'DATE:', 'label': 'question', 'words': [{'box': [496, 191, 523, 202], 'text': 'DATE:'}], 'linking': [[2, 20]], 'id': 2}
{'box': [464, 223, 523, 234], 'text': 'ADVERTISER:', 'label': 'question', 'words': [{'box': [464, 223, 523, 234], 'text': 'ADVERTISER:'}], 'linking': [[3, 5]], 'id': 3}
{'box': [475, 256, 522, 267], 'text': 'PRODUCT:', 'label': 'question', 'words': [{'box': [475, 256, 522, 267], 'text': 'PRODUCT:'}], 'linking': [[4, 6]], 'id': 4}
{'box': [536, 223, 590, 233], 'text': 'LORILLARD', 'label': 'answer', 'words': [{'box': [536, 223, 590, 233], 'text': 'LORILLARD'}], 'linking': [[3, 5]], 'id': 5}
{'box': [538, 256, 585, 267], 'text':


