In [3]:
import os
import sys
import pickle
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.patches as patches
from PIL import Image
from tqdm import tqdm
from utils.format_translate import html_to_table
from utils.utils import format_table, format_table_1, format_layout, format_tokens, remove_empty_bboxes, get_html
import json
from pathlib import Path
from glob import glob
import shutil



In [4]:
# result_file = "./output/structure_result/test_A/structure_master_results_0.pkl"
# result_file_dir = os.path.dirname(result_file)

DATASET = "test_A_jpg480max_wire"
PRED_PKL_DIR = f"../output/structure_result/test_A_jpg480max_wire_10fold1_valid97.58"
# 输出路径
pred_save_dir = f"./output/structure_result/{DATASET}-pred.json"
if os.path.exists(pred_save_dir):
    shutil.rmtree(pred_save_dir)
Path(pred_save_dir).mkdir(parents=True, exist_ok=True)


def check_1(table):
    layout = table['layout']
    num = layout.max() + 1
    if num > 16:
        return
    assert np.all(layout != -1)

pkls = sorted(glob(os.path.join(PRED_PKL_DIR, "structure_master_results_*.pkl")))
html_to_table_error_cnt = 0
format_table_error_cnt = 0
for result_file in pkls:
    with open(result_file, 'rb') as f:
        result_data = pickle.load(f)

    for imgname, result in tqdm(result_data.items()):
        img_id = imgname.split(".")[0]

        bboxes = remove_empty_bboxes(result['bbox'])
        tokens_list = format_tokens(result['text'])

        html = get_html(tokens_list, bboxes) # use pred data -> html format
        
        try:
            table = html_to_table(html, check=True)
        except:
            html_to_table_error_cnt += 1
            print("html_to_table error", imgname)

            table = html_to_table(html, check=False)
            try:
                table_new = format_table(table)
            except:
                format_table_error_cnt += 1
                print("format_table error", imgname)
                print(result['text'])
                ### 去除layout中的-1
                table = format_table_1(table)
                table_new = format_table(table)

            save_path = os.path.join(pred_save_dir, f'{img_id}-pred.json')

            json.dump(table_new, open(save_path, 'w'), indent=4, ensure_ascii=False)

print("html_to_table_error_cnt", html_to_table_error_cnt)
print("format_table_error_cnt", format_table_error_cnt)


  5%|▌         | 62/1183 [00:00<00:01, 606.90it/s]

html_to_table error 04016.jpg
html_to_table error 04231.jpg
html_to_table error 03348.jpg
html_to_table error 04452.jpg
html_to_table error 03722.jpg
html_to_table error 03762.jpg
html_to_table error 00205.jpg
html_to_table error 03573.jpg
html_to_table error 04176.jpg
html_to_table error 03648.jpg


 10%|█         | 123/1183 [00:00<00:03, 347.14it/s]

html_to_table error 05131.jpg
html_to_table error 04021.jpg
html_to_table error 05157.jpg
html_to_table error 04769.jpg
html_to_table error 03948.jpg
html_to_table error 04504.jpg
html_to_table error 04336.jpg
html_to_table error 04554.jpg


 21%|██        | 244/1183 [00:00<00:01, 471.53it/s]

html_to_table error 04333.jpg
html_to_table error 02859.jpg
html_to_table error 02879.jpg
html_to_table error 04295.jpg
html_to_table error 03495.jpg
html_to_table error 03818.jpg
html_to_table error 03746.jpg
html_to_table error 03651.jpg


 29%|██▉       | 344/1183 [00:00<00:02, 418.60it/s]

html_to_table error 03007.jpg
html_to_table error 04188.jpg
html_to_table error 03765.jpg
html_to_table error 03424.jpg
html_to_table error 04312.jpg
html_to_table error 04139.jpg
html_to_table error 05117.jpg
html_to_table error 03784.jpg
html_to_table error 04926.jpg


 38%|███▊      | 446/1183 [00:01<00:01, 402.27it/s]

html_to_table error 03678.jpg
html_to_table error 05023.jpg
html_to_table error 03026.jpg
html_to_table error 04527.jpg
html_to_table error 03005.jpg
html_to_table error 03695.jpg
html_to_table error 04727.jpg
html_to_table error 04989.jpg


 47%|████▋     | 551/1183 [00:01<00:01, 506.14it/s]

html_to_table error 04958.jpg
html_to_table error 04290.jpg
html_to_table error 05073.jpg
html_to_table error 03159.jpg
html_to_table error 03182.jpg
html_to_table error 03013.jpg
html_to_table error 03643.jpg
html_to_table error 03895.jpg
html_to_table error 04882.jpg
html_to_table error 03291.jpg


 61%|██████    | 724/1183 [00:01<00:00, 683.29it/s]

html_to_table error 04690.jpg
html_to_table error 03798.jpg
html_to_table error 04099.jpg
html_to_table error 03576.jpg
html_to_table error 03092.jpg
html_to_table error 04206.jpg
html_to_table error 03122.jpg
html_to_table error 05089.jpg
html_to_table error 03534.jpg
html_to_table error 04942.jpg
html_to_table error 04721.jpg
html_to_table error 04156.jpg


 72%|███████▏  | 857/1183 [00:01<00:00, 539.67it/s]

html_to_table error 04516.jpg
html_to_table error 03527.jpg
html_to_table error 04237.jpg
html_to_table error 03507.jpg
html_to_table error 03806.jpg
html_to_table error 03480.jpg
html_to_table error 03951.jpg
html_to_table error 03047.jpg
html_to_table error 03060.jpg
html_to_table error 04405.jpg


 77%|███████▋  | 916/1183 [00:01<00:00, 506.15it/s]

html_to_table error 04118.jpg
html_to_table error 02926.jpg
html_to_table error 03615.jpg
html_to_table error 03536.jpg
html_to_table error 03055.jpg
html_to_table error 04373.jpg
html_to_table error 04548.jpg
html_to_table error 04966.jpg
html_to_table error 03079.jpg


 87%|████████▋ | 1028/1183 [00:02<00:00, 503.01it/s]

html_to_table error 03175.jpg
html_to_table error 03864.jpg
html_to_table error 03112.jpg
html_to_table error 04571.jpg
html_to_table error 04639.jpg
html_to_table error 03214.jpg
html_to_table error 03474.jpg
html_to_table error 03088.jpg
html_to_table error 03696.jpg
html_to_table error 05006.jpg
html_to_table error 04197.jpg


100%|██████████| 1183/1183 [00:02<00:00, 501.45it/s]


html_to_table error 03866.jpg
html_to_table error 03753.jpg
html_to_table error 04177.jpg
html_to_table error 04085.jpg
html_to_table error 03764.jpg


  0%|          | 0/1184 [00:00<?, ?it/s]

html_to_table error 03766.jpg
html_to_table error 03158.jpg


  2%|▏         | 22/1184 [00:00<00:05, 197.39it/s]

html_to_table error 04120.jpg
html_to_table error 04616.jpg
html_to_table error 03780.jpg
html_to_table error 03712.jpg


  8%|▊         | 98/1184 [00:00<00:02, 483.98it/s]

html_to_table error 03031.jpg
html_to_table error 03468.jpg
html_to_table error 03592.jpg
html_to_table error 04792.jpg
html_to_table error 03377.jpg
html_to_table error 02989.jpg
html_to_table error 04133.jpg
html_to_table error 04408.jpg
html_to_table error 03329.jpg


 14%|█▍        | 170/1184 [00:00<00:01, 510.14it/s]

html_to_table error 04988.jpg
html_to_table error 04430.jpg


 19%|█▊        | 221/1184 [00:00<00:02, 372.87it/s]

html_to_table error 04094.jpg
html_to_table error 03246.jpg
html_to_table error 04932.jpg
html_to_table error 03835.jpg
html_to_table error 04820.jpg
html_to_table error 03549.jpg
html_to_table error 04403.jpg
html_to_table error 03394.jpg
html_to_table error 05039.jpg
html_to_table error 03562.jpg


 25%|██▍       | 292/1184 [00:00<00:02, 411.41it/s]

html_to_table error 03815.jpg
html_to_table error 04453.jpg
html_to_table error 03245.jpg
html_to_table error 03769.jpg


 29%|██▉       | 341/1184 [00:00<00:01, 428.37it/s]

html_to_table error 03072.jpg
html_to_table error 03012.jpg
html_to_table error 04491.jpg


 37%|███▋      | 434/1184 [00:00<00:01, 502.50it/s]

html_to_table error 04228.jpg
html_to_table error 02858.jpg
html_to_table error 02916.jpg
html_to_table error 04067.jpg
html_to_table error 04070.jpg
html_to_table error 03754.jpg


 45%|████▍     | 528/1184 [00:01<00:01, 612.88it/s]

html_to_table error 03947.jpg
html_to_table error 04298.jpg
html_to_table error 03228.jpg
html_to_table error 03299.jpg
format_table error 03299.jpg
<thead>,</thead>,<tbody>,<tr>,<td, rowspan="2",>,</td>,<td, rowspan="2",>,</td>,<td, rowspan="2",>,</td>,<td, rowspan="2",>,</td>,<td, colspan="6",>,</td>,</tr>,<tr>,<td></td>,<td></td>,<td></td>,<td></td>,<td></td>,<td></td>,</tr>,<tr>,<td,<UKN>,>,</td>,<td,<UKN>,>,</td>,<td,<UKN>,>,</td>,<td,<UKN>,>,</td>,<td></td>,<td></td>,<td, colspan="2",>,</td>,<td></td>,<td></td>,<td></td>,</tr>,<tr>,<td></td>,<td></td>,<td></td>,<td></td>,<td></td>,<td></td>,<td></td>,</tr>,<tr>,<td></td>,<td></td>,<td></td>,<td></td>,<td></td>,<td></td>,<td></td>,</tr>,<tr>,<td></td>,<td></td>,<td></td>,<td></td>,<td></td>,<td></td>,<td></td>,</tr>,<tr>,<td></td>,<td></td>,<td></td>,<td></td>,<eb></eb>,<eb></eb>,<td></td>,</tr>,<tr>,<td></td>,<td></td>,<td></td>,<td></td>,<eb></eb>,<eb></eb>,<td></td>,</tr>,<tr>,<td></td>,<td></td>,<td></td>,<td></td>,<td></td>,<

 54%|█████▍    | 645/1184 [00:01<00:00, 759.68it/s]

html_to_table error 04788.jpg
html_to_table error 04129.jpg
html_to_table error 03277.jpg
html_to_table error 05167.jpg
html_to_table error 03577.jpg
html_to_table error 04502.jpg


 61%|██████▏   | 726/1184 [00:01<00:00, 668.79it/s]

html_to_table error 03216.jpg
html_to_table error 03242.jpg
html_to_table error 02884.jpg
html_to_table error 03438.jpg
html_to_table error 03336.jpg
html_to_table error 03472.jpg
html_to_table error 04299.jpg
html_to_table error 02862.jpg
html_to_table error 03334.jpg
html_to_table error 04638.jpg
html_to_table error 03301.jpg
html_to_table error 05007.jpg


 67%|██████▋   | 798/1184 [00:01<00:00, 535.18it/s]

html_to_table error 04608.jpg


 73%|███████▎  | 859/1184 [00:01<00:00, 536.72it/s]

html_to_table error 03170.jpg
html_to_table error 04277.jpg
html_to_table error 04006.jpg
html_to_table error 03589.jpg
html_to_table error 03233.jpg
html_to_table error 03087.jpg
html_to_table error 03822.jpg
html_to_table error 02940.jpg
html_to_table error 03050.jpg
html_to_table error 03607.jpg
html_to_table error 03962.jpg
html_to_table error 03281.jpg


 82%|████████▏ | 973/1184 [00:01<00:00, 476.17it/s]

html_to_table error 05148.jpg
html_to_table error 04603.jpg
html_to_table error 05173.jpg
html_to_table error 03506.jpg
html_to_table error 04192.jpg
html_to_table error 02964.jpg


 93%|█████████▎| 1100/1184 [00:02<00:00, 552.62it/s]

html_to_table error 03532.jpg
html_to_table error 03590.jpg
html_to_table error 03624.jpg
html_to_table error 02992.jpg
html_to_table error 04445.jpg
html_to_table error 02899.jpg
html_to_table error 02889.jpg
html_to_table error 03176.jpg
html_to_table error 03330.jpg
html_to_table error 03550.jpg
html_to_table error 04567.jpg
html_to_table error 03581.jpg


100%|██████████| 1184/1184 [00:02<00:00, 513.57it/s]

html_to_table error 04466.jpg
html_to_table error 04877.jpg
html_to_table error 03289.jpg
html_to_table_error_cnt 196
format_table_error_cnt 1



