###### 安裝必要的庫
!pip install pdf2image opencv-python-headless scikit-image tqdm
!apt-get install -y poppler-utils

In [None]:
import os
import pickle
import csv
from pdf2image import convert_from_path
from tqdm import tqdm
from PIL import Image
import numpy as np
import io
from skimage.metrics import structural_similarity as compare_ssim
import json

# 設定資料夾的路徑
base_path = '/mnt/d/Esun'
source_folder = os.path.join(base_path, 'reference/finance_original_pdf')  # 包含股票代碼的資料夾
target_folder = os.path.join(base_path, 'reference/finance')  # 目標資料夾
log_file = 'finance_mapping.csv'  # CSV 記錄檔
source_images_folder = 'source_images'  # 儲存處理過的來源 PDF 檔案結果
company_names_file = os.path.join(base_path, 'company_names.json')  # 公司名稱映射檔案

# 加载 company_names.json 文件內容，該文件應包含 {"target_pdf_key": "company_name"} 格式的映射
with open(company_names_file, 'r') as f:
    company_names = json.load(f)

# 定義公司名稱與股票代碼的對應表
company_code_mapping = {
    "國巨股份有限公司": "2327",  # 國巨
    "華碩電腦股份有限公司": "2357",  # 華碩
    "台達電子工業股份有限公司": "2308",  # 台達電
    "統一企業股份有限公司": "1216",  # 統一
    "鴻海精密工業股份有限公司": "2317",  # 鴻海
    "研華股份有限公司": "2395",  # 研華
    "中國鋼鐵股份有限公司": "2002",  # 中鋼
    "和泰汽車股份有限公司": "2207",  # 和泰
    "聯華電子股份有限公司": "2303",  # 聯電
    "台灣化學纖維股份有限公司": "1326",  # 台化
    "中華電信股份有限公司": "2412",  # 中華電信
    "聯發科技股份有限公司": "2454",  # 聯發科
    "台灣積體電路製造股份有限公司": "2330",  # 台積電
    "光寶科技股份有限公司": "2301",  # 光寶科
    "長榮海運股份有限公司": "2603",  # 長榮
    "亞德客國際集團": "1590",  # 亞德客
    "瑞昱半導體股份有限公司": "2379",  # 瑞昱
    "台灣水泥股份有限公司": "1101",  # 台泥
    "智邦科技股份有限公司": "2345",  # 台泥
    "寶元數控股份有限公司": "4587"
    
    # 更多公司與代碼的對應關係可在此處手動加入...
}


# 定義函數：將 PDF 的所有頁轉換為灰階圖像，壓縮並儲存到內存中
def pdf_to_images(pdf_path):
    try:
        print(f"Processing {pdf_path} (all pages)...")
        images = convert_from_path(pdf_path)  # 處理所有頁
        image_data_list = []
        for image in images:
            # 將圖片轉換為灰階
            gray_image = image.convert('L')

            # 將圖片壓縮為 JPEG，並且不儲存到磁碟，而是儲存到內存
            img_byte_arr = io.BytesIO()
            gray_image.save(img_byte_arr, format='JPEG', quality=50)  # JPEG with compression
            image_data = img_byte_arr.getvalue()  # 獲取二進制數據
            image_data_list.append(image_data)
        return image_data_list
    except Exception as e:
        print(f"Error processing {pdf_path}: {e}")
        return []

# 定義函數：將 PDF 的第一頁轉換為灰階圖像，壓縮並儲存到內存中
def pdf_to_first_image(pdf_path):
    try:
        print(f"Processing {pdf_path} (first page only)...")
        images = convert_from_path(pdf_path, first_page=1, last_page=1)  # 只處理第一頁
        image_data_list = []
        for image in images:
            # 將圖片轉換為灰階
            gray_image = image.convert('L')

            # 將圖片壓縮為 JPEG，並且不儲存到磁碟，而是儲存到內存
            img_byte_arr = io.BytesIO()
            gray_image.save(img_byte_arr, format='JPEG', quality=50)  # JPEG with compression
            image_data = img_byte_arr.getvalue()  # 獲取二進制數據
            image_data_list.append(image_data)
        return image_data_list
    except Exception as e:
        print(f"Error processing {pdf_path}: {e}")
        return []

# 定義函數：比較兩張圖像是否相似（透過二進制數據）
def compare_images(img1_data, img2_data, threshold=0.99):
    try:
        # 使用 PIL 讀取二進制數據並轉換成圖像
        img1 = Image.open(io.BytesIO(img1_data))
        img2 = Image.open(io.BytesIO(img2_data))

        # 檢查兩個圖像的尺寸是否相同，如果不相同，將它們調整為相同尺寸
        if img1.size != img2.size:
            img2 = img2.resize(img1.size)

        # 將圖像轉換成 numpy 陣列進行 SSIM 比較
        img1_np = np.array(img1)
        img2_np = np.array(img2)

        # 計算結構相似度 (Structural Similarity Index, SSIM)
        score, _ = compare_ssim(img1_np, img2_np, full=True)
        return score >= threshold
    except Exception as e:
        print(f"Error comparing images: {e}")
        return False

# 創建 source_images 目錄，如果不存在
if not os.path.exists(source_images_folder):
    os.makedirs(source_images_folder)

# 檢查 CSV 記錄檔是否已經存在
if os.path.exists(log_file):
    with open(log_file, 'r') as csvfile:
        csvreader = csv.reader(csvfile)
        compared_targets = {row[0] for row in csvreader}  # 已經比對過的 target PDF 檔名集合
else:
    compared_targets = set()

# 如果 CSV 記錄檔不存在，創建並寫入標題
if not compared_targets:
    with open(log_file, 'w', newline='') as csvfile:
        csvwriter = csv.writer(csvfile)
        csvwriter.writerow(['Target PDF', 'Stock Code', 'Source PDF', 'Page Number'])

# 讀取來源資料夾中包含兩層結構的所有 PDF，並將其圖像轉換並存儲到 pkl 檔案中
print("Processing source PDFs...")

for stock_folder in tqdm(os.listdir(source_folder), desc="Processing source folders"):
    stock_folder_path = os.path.join(source_folder, stock_folder)

    if os.path.isdir(stock_folder_path):  # 檢查是否是股票代碼資料夾
        stock_pkl_path = os.path.join(source_images_folder, f'{stock_folder}.pkl')

        # 如果該股票代碼的 pkl 已經存在，則跳過
        if os.path.exists(stock_pkl_path):
            print(f"Source PDFs [{stock_folder}] already processed, skipping...")
            continue

        source_images = {}

        for pdf_file in os.listdir(stock_folder_path):
            if pdf_file.endswith('.pdf'):
                source_path = os.path.join(stock_folder_path, pdf_file)
                try:
                    # 將所有頁面轉為圖片
                    image_data_list = pdf_to_images(source_path)
                    source_images[pdf_file] = image_data_list
                    print(f"Successfully processed {source_path}")
                except Exception as e:
                    print(f"Failed to process {source_path}: {e}")

        # 保存每個 PDF 圖像數據到對應的 pkl 檔案
        with open(stock_pkl_path, 'wb') as f:
            pickle.dump(source_images, f)
        print(f"Saved images for stock code {stock_folder} to {stock_pkl_path}")

print("Source PDFs processed. Starting target PDF comparison...")

# 定義一個緩存字典，用於存儲已讀取的 source_images，避免重複讀取
source_images_cache = {}

# 讀取目標資料夾中的所有 PDF，並只比對第一頁
for target_pdf in tqdm(os.listdir(target_folder), desc="Processing target PDFs"):
    if target_pdf.endswith('.pdf'):
        if target_pdf in compared_targets:
            print(f"{target_pdf} already compared, skipping...")
            continue

        target_pdf_key = os.path.splitext(target_pdf)[0]  # 去掉副檔名

        if target_pdf_key in company_names:  # 如果公司名稱在映射檔案中
            company_name = company_names[target_pdf_key]
            if company_name in company_code_mapping:  # 如果公司名稱有對應股票代碼
                stock_code = company_code_mapping[company_name]

                # 檢查該目標 PDF 是否已經比對過
                if target_pdf in compared_targets:
                    print(f"{target_pdf} already compared, skipping...")
                    continue

                target_path = os.path.join(target_folder, target_pdf)
                target_images = pdf_to_first_image(target_path)  # 只處理第一頁

                # 從緩存中讀取來源 PDF，如果緩存中沒有，則從 pkl 檔案讀取
                if stock_code not in source_images_cache:
                    stock_pkl_path = os.path.join(source_images_folder, f'{stock_code}.pkl')
                    if os.path.exists(stock_pkl_path):
                        with open(stock_pkl_path, 'rb') as f:
                            source_images_cache[stock_code] = pickle.load(f)
                    else:
                        print(f"No source images found for stock code {stock_code}")
                        continue

                source_images = source_images_cache[stock_code]

                with open(log_file, 'a', newline='') as csvfile:
                    csvwriter = csv.writer(csvfile)
                    found = False
                    print(f"Comparing first page of {target_pdf}...")

                    # 比對目標 PDF 第一頁與來源 PDF 所有頁面
                    for source_pdf, source_image_data_list in tqdm(source_images.items(), desc=f"Comparing {target_pdf} with source PDFs"):
                        for source_page_num, source_image_data in enumerate(source_image_data_list):
                            if compare_images(target_images[0], source_image_data):  # 比較圖像
                                csvwriter.writerow([target_pdf, stock_code, source_pdf, source_page_num + 1])
                                print(f"Match found: {target_pdf} first page matches {source_pdf} page {source_page_num + 1}")
                                found = True
                                break
                        if found:
                            break
                    if not found:
                        csvwriter.writerow([target_pdf, 'N/A', 'N/A', 'N/A'])  # 如果找不到匹配頁面
                        print(f"No match found for {target_pdf} first page")
            else:
                continue  # 沒有對應股票代碼則跳過
        else:
            print(f"Target PDF {target_pdf_key} not found in company_names.json, skipping...")

print("Done")

In [None]:
import os
import pickle
import csv
from pdf2image import convert_from_path
from tqdm import tqdm
from PIL import Image
import numpy as np
import io
from skimage.metrics import structural_similarity as compare_ssim

# 設定資料夾的路徑
base_path = '/mnt/d/Esun'
source_folder = os.path.join(base_path, 'reference/finance_original_pdf')
target_folder = os.path.join(base_path, 'reference/finance')
log_file = 'finance_mapping.csv'
source_images_folder = 'source_images'

# 將 PDF 轉換成灰階圖片的功能
def pdf_to_images(pdf_path):
    print(f"處理 {pdf_path} (全部頁面)...")
    images = convert_from_path(pdf_path)
    image_data_list = []
    for image in images:
        gray_image = image.convert('L')
        img_byte_arr = io.BytesIO()
        gray_image.save(img_byte_arr, format='JPEG', quality=50)
        image_data = img_byte_arr.getvalue()
        image_data_list.append(image_data)
    return image_data_list

def pdf_to_first_image(pdf_path):
    print(f"處理 {pdf_path} (僅首頁)...")
    images = convert_from_path(pdf_path, first_page=1, last_page=1)
    image_data_list = []
    for image in images:
        gray_image = image.convert('L')
        img_byte_arr = io.BytesIO()
        gray_image.save(img_byte_arr, format='JPEG', quality=50)
        image_data = img_byte_arr.getvalue()
        image_data_list.append(image_data)
    return image_data_list

def compare_images(img1_data, img2_data, threshold=0.99):
    img1 = Image.open(io.BytesIO(img1_data))
    img2 = Image.open(io.BytesIO(img2_data))
    if img1.size != img2.size:
        img2 = img2.resize(img1.size)
    img1_np = np.array(img1)
    img2_np = np.array(img2)
    score, _ = compare_ssim(img1_np, img2_np, full=True)
    return score >= threshold

# 建立資料夾
if not os.path.exists(source_images_folder):
    os.makedirs(source_images_folder)

# 讀取比對記錄
compared_targets = set()
if os.path.exists(log_file):
    with open(log_file, 'r') as csvfile:
        csvreader = csv.reader(csvfile)
        for row in csvreader:
            if row[1] != 'N/A':  # 忽略沒有找到匹配的記錄
                compared_targets.add(row[0])

# 創建 CSV 檔案如果不存在
if not compared_targets:
    with open(log_file, 'w', newline='') as csvfile:
        csvwriter = csv.writer(csvfile)
        csvwriter.writerow(['Target PDF', 'Stock Code', 'Source PDF', 'Page Number'])

# 緩存來源圖像
source_images_cache = {}

# 處理所有 pkl 檔案
for pkl_file in os.listdir(source_images_folder):
    pkl_path = os.path.join(source_images_folder, pkl_file)
    stock_code = os.path.splitext(pkl_file)[0]
    with open(pkl_path, 'rb') as f:
        source_images_cache[stock_code] = pickle.load(f)

# 比對目標 PDF 與來源 PDF
for target_pdf in tqdm(os.listdir(target_folder), desc="處理目標 PDF"):
    if target_pdf.endswith('.pdf'):
        target_pdf_key = os.path.splitext(target_pdf)[0]
        if target_pdf in compared_targets:
            continue

        target_path = os.path.join(target_folder, target_pdf)
        target_images = pdf_to_first_image(target_path)

        with open(log_file, 'a', newline='') as csvfile:
            csvwriter = csv.writer(csvfile)
            found = False
            print(f"比對 {target_pdf} 的首頁...")

            for stock_code, source_images in source_images_cache.items():
                for source_pdf, source_image_data_list in tqdm(source_images.items(), desc=f"與 {target_pdf} 比對的來源 PDF"):
                    for source_page_num, source_image_data in enumerate(source_image_data_list):
                        if compare_images(target_images[0], source_image_data):
                            csvwriter.writerow([target_pdf, stock_code, source_pdf, source_page_num + 1])
                            print(f"找到匹配：{target_pdf} 首頁與 {source_pdf} 第 {source_page_num + 1} 頁相符")
                            found = True
                            break
                    if found:
                        break
                if found:
                    break

            if not found:
                csvwriter.writerow([target_pdf, 'N/A', 'N/A', 'N/A'])
                print(f"未找到匹配：{target_pdf} 的首頁")

print("處理完畢")


處理目標 PDF:   0%|          | 0/1036 [00:00<?, ?it/s]

處理 /mnt/d/Esun/reference/finance/493.pdf (僅首頁)...
比對 493.pdf 的首頁...



與 493.pdf 比對的來源 PDF:   0%|          | 0/8 [00:00<?, ?it/s][A
與 493.pdf 比對的來源 PDF:  12%|█▎        | 1/8 [01:00<07:03, 60.52s/it][A
與 493.pdf 比對的來源 PDF:  25%|██▌       | 2/8 [02:10<06:37, 66.30s/it][A
與 493.pdf 比對的來源 PDF:  38%|███▊      | 3/8 [03:18<05:33, 66.72s/it][A
與 493.pdf 比對的來源 PDF:  50%|█████     | 4/8 [04:29<04:33, 68.40s/it][A
與 493.pdf 比對的來源 PDF:  62%|██████▎   | 5/8 [05:33<03:21, 67.04s/it][A
與 493.pdf 比對的來源 PDF:  75%|███████▌  | 6/8 [06:43<02:16, 68.03s/it][A
與 493.pdf 比對的來源 PDF:  88%|████████▊ | 7/8 [07:57<01:10, 70.07s/it][A
與 493.pdf 比對的來源 PDF: 100%|██████████| 8/8 [09:08<00:00, 68.51s/it][A

與 493.pdf 比對的來源 PDF:   0%|          | 0/8 [00:00<?, ?it/s][A
與 493.pdf 比對的來源 PDF:  12%|█▎        | 1/8 [00:34<04:04, 34.89s/it][A
與 493.pdf 比對的來源 PDF:  25%|██▌       | 2/8 [01:12<03:37, 36.23s/it][A
與 493.pdf 比對的來源 PDF:  38%|███▊      | 3/8 [01:49<03:03, 36.78s/it][A
與 493.pdf 比對的來源 PDF:  50%|█████     | 4/8 [02:38<02:45, 41.48s/it][A
與 493.pdf 比對的來源 PDF:  62%|██████▎ 

找到匹配：493.pdf 首頁與 202303_2357_AI1_20241018_101616.pdf 第 56 頁相符
處理 /mnt/d/Esun/reference/finance/497.pdf (僅首頁)...
比對 497.pdf 的首頁...



與 497.pdf 比對的來源 PDF:   0%|          | 0/8 [00:00<?, ?it/s][A
與 497.pdf 比對的來源 PDF:  12%|█▎        | 1/8 [01:01<07:12, 61.80s/it][A
與 497.pdf 比對的來源 PDF:  25%|██▌       | 2/8 [02:10<06:34, 65.81s/it][A
與 497.pdf 比對的來源 PDF:  38%|███▊      | 3/8 [03:18<05:35, 67.07s/it][A
與 497.pdf 比對的來源 PDF:  50%|█████     | 4/8 [04:29<04:33, 68.28s/it][A
與 497.pdf 比對的來源 PDF:  62%|██████▎   | 5/8 [05:34<03:21, 67.15s/it][A
與 497.pdf 比對的來源 PDF:  75%|███████▌  | 6/8 [06:45<02:17, 68.55s/it][A
與 497.pdf 比對的來源 PDF:  88%|████████▊ | 7/8 [07:56<01:09, 69.28s/it][A
與 497.pdf 比對的來源 PDF: 100%|██████████| 8/8 [09:04<00:00, 68.04s/it][A

與 497.pdf 比對的來源 PDF:   0%|          | 0/8 [00:00<?, ?it/s][A
與 497.pdf 比對的來源 PDF:  12%|█▎        | 1/8 [00:35<04:08, 35.54s/it][A
與 497.pdf 比對的來源 PDF:  25%|██▌       | 2/8 [01:11<03:34, 35.69s/it][A
與 497.pdf 比對的來源 PDF:  38%|███▊      | 3/8 [01:50<03:07, 37.43s/it][A
與 497.pdf 比對的來源 PDF:  50%|█████     | 4/8 [02:37<02:43, 40.94s/it][A
與 497.pdf 比對的來源 PDF:  62%|██████▎ 

找到匹配：497.pdf 首頁與 202201_2301_AI1_20241019_095823.pdf 第 14 頁相符
處理 /mnt/d/Esun/reference/finance/501.pdf (僅首頁)...
比對 501.pdf 的首頁...



與 501.pdf 比對的來源 PDF:   0%|          | 0/8 [00:00<?, ?it/s][A
與 501.pdf 比對的來源 PDF:  12%|█▎        | 1/8 [01:09<08:04, 69.15s/it][A
與 501.pdf 比對的來源 PDF:  25%|██▌       | 2/8 [02:26<07:23, 73.83s/it][A
與 501.pdf 比對的來源 PDF:  38%|███▊      | 3/8 [03:46<06:24, 76.88s/it][A
與 501.pdf 比對的來源 PDF:  50%|█████     | 4/8 [05:05<05:10, 77.62s/it][A
與 501.pdf 比對的來源 PDF:  62%|██████▎   | 5/8 [06:20<03:50, 76.77s/it][A
與 501.pdf 比對的來源 PDF:  75%|███████▌  | 6/8 [07:40<02:35, 77.65s/it][A
與 501.pdf 比對的來源 PDF:  88%|████████▊ | 7/8 [09:02<01:19, 79.07s/it][A
與 501.pdf 比對的來源 PDF: 100%|██████████| 8/8 [10:15<00:00, 76.96s/it][A

與 501.pdf 比對的來源 PDF:   0%|          | 0/8 [00:00<?, ?it/s][A
與 501.pdf 比對的來源 PDF:  12%|█▎        | 1/8 [00:37<04:21, 37.34s/it][A
與 501.pdf 比對的來源 PDF:  25%|██▌       | 2/8 [01:20<04:05, 40.98s/it][A
與 501.pdf 比對的來源 PDF:  38%|███▊      | 3/8 [02:03<03:29, 41.94s/it][A
與 501.pdf 比對的來源 PDF:  50%|█████     | 4/8 [02:58<03:06, 46.73s/it][A
與 501.pdf 比對的來源 PDF:  62%|██████▎ 

找到匹配：501.pdf 首頁與 202301_1590_AI1_20241019_100453.pdf 第 13 頁相符
處理 /mnt/d/Esun/reference/finance/508.pdf (僅首頁)...
比對 508.pdf 的首頁...



與 508.pdf 比對的來源 PDF:   0%|          | 0/8 [00:00<?, ?it/s][A
與 508.pdf 比對的來源 PDF:  12%|█▎        | 1/8 [01:07<07:52, 67.52s/it][A
與 508.pdf 比對的來源 PDF:  25%|██▌       | 2/8 [02:23<07:14, 72.45s/it][A
與 508.pdf 比對的來源 PDF:  38%|███▊      | 3/8 [03:39<06:10, 74.14s/it][A
與 508.pdf 比對的來源 PDF:  50%|█████     | 4/8 [04:58<05:03, 75.86s/it][A
與 508.pdf 比對的來源 PDF:  62%|██████▎   | 5/8 [06:08<03:41, 73.73s/it][A
與 508.pdf 比對的來源 PDF:  75%|███████▌  | 6/8 [07:27<02:31, 75.52s/it][A
與 508.pdf 比對的來源 PDF:  88%|████████▊ | 7/8 [08:44<01:16, 76.09s/it][A
與 508.pdf 比對的來源 PDF: 100%|██████████| 8/8 [09:59<00:00, 74.89s/it][A

與 508.pdf 比對的來源 PDF:   0%|          | 0/8 [00:00<?, ?it/s][A
與 508.pdf 比對的來源 PDF:  12%|█▎        | 1/8 [00:39<04:35, 39.30s/it][A
與 508.pdf 比對的來源 PDF:  25%|██▌       | 2/8 [01:22<04:11, 41.85s/it][A
與 508.pdf 比對的來源 PDF:  38%|███▊      | 3/8 [02:04<03:29, 41.86s/it][A
與 508.pdf 比對的來源 PDF:  50%|█████     | 4/8 [02:53<02:58, 44.58s/it][A
與 508.pdf 比對的來源 PDF:  62%|██████▎ 

找到匹配：508.pdf 首頁與 202303_2379_AI1_20241019_100809.pdf 第 54 頁相符
處理 /mnt/d/Esun/reference/finance/581.pdf (僅首頁)...
比對 581.pdf 的首頁...



與 581.pdf 比對的來源 PDF:   0%|          | 0/8 [00:00<?, ?it/s][A
與 581.pdf 比對的來源 PDF:  12%|█▎        | 1/8 [01:08<08:02, 69.00s/it][A
與 581.pdf 比對的來源 PDF:  25%|██▌       | 2/8 [02:27<07:29, 74.87s/it][A
與 581.pdf 比對的來源 PDF:  38%|███▊      | 3/8 [03:52<06:36, 79.27s/it][A
與 581.pdf 比對的來源 PDF:  50%|█████     | 4/8 [05:17<05:26, 81.63s/it][A
與 581.pdf 比對的來源 PDF:  62%|██████▎   | 5/8 [06:34<03:59, 79.83s/it][A
與 581.pdf 比對的來源 PDF:  75%|███████▌  | 6/8 [08:01<02:44, 82.30s/it][A
與 581.pdf 比對的來源 PDF:  88%|████████▊ | 7/8 [09:27<01:23, 83.39s/it][A
與 581.pdf 比對的來源 PDF: 100%|██████████| 8/8 [10:45<00:00, 80.67s/it][A

與 581.pdf 比對的來源 PDF:   0%|          | 0/8 [00:00<?, ?it/s][A
與 581.pdf 比對的來源 PDF:  12%|█▎        | 1/8 [00:39<04:38, 39.86s/it][A
與 581.pdf 比對的來源 PDF:  25%|██▌       | 2/8 [01:24<04:17, 42.92s/it][A
與 581.pdf 比對的來源 PDF:  38%|███▊      | 3/8 [02:09<03:39, 43.88s/it][A
與 581.pdf 比對的來源 PDF:  50%|█████     | 4/8 [03:05<03:13, 48.41s/it][A
與 581.pdf 比對的來源 PDF:  62%|██████▎ 

找到匹配：581.pdf 首頁與 202301_2412_AI1_20241018_230459.pdf 第 17 頁相符
處理 /mnt/d/Esun/reference/finance/623.pdf (僅首頁)...
比對 623.pdf 的首頁...



與 623.pdf 比對的來源 PDF:   0%|          | 0/8 [00:00<?, ?it/s][A
與 623.pdf 比對的來源 PDF:  12%|█▎        | 1/8 [01:22<09:35, 82.28s/it][A
與 623.pdf 比對的來源 PDF:  25%|██▌       | 2/8 [02:49<08:31, 85.30s/it][A
與 623.pdf 比對的來源 PDF:  38%|███▊      | 3/8 [04:20<07:19, 87.83s/it][A
與 623.pdf 比對的來源 PDF:  50%|█████     | 4/8 [05:52<05:58, 89.51s/it][A
與 623.pdf 比對的來源 PDF:  62%|██████▎   | 5/8 [07:18<04:24, 88.12s/it][A
與 623.pdf 比對的來源 PDF:  75%|███████▌  | 6/8 [08:51<02:59, 89.74s/it][A
與 623.pdf 比對的來源 PDF:  88%|████████▊ | 7/8 [10:23<01:30, 90.69s/it][A
與 623.pdf 比對的來源 PDF: 100%|██████████| 8/8 [11:49<00:00, 88.68s/it][A

與 623.pdf 比對的來源 PDF:   0%|          | 0/8 [00:00<?, ?it/s][A
與 623.pdf 比對的來源 PDF:  12%|█▎        | 1/8 [00:45<05:15, 45.05s/it][A
與 623.pdf 比對的來源 PDF:  25%|██▌       | 2/8 [01:36<04:53, 48.91s/it][A
與 623.pdf 比對的來源 PDF:  38%|███▊      | 3/8 [02:25<04:05, 49.10s/it][A
與 623.pdf 比對的來源 PDF:  50%|█████     | 4/8 [03:23<03:30, 52.61s/it][A
與 623.pdf 比對的來源 PDF:  62%|██████▎ 

找到匹配：623.pdf 首頁與 202303_1590_AI1_20241019_100446.pdf 第 12 頁相符
處理 /mnt/d/Esun/reference/finance/637.pdf (僅首頁)...
比對 637.pdf 的首頁...



與 637.pdf 比對的來源 PDF:   0%|          | 0/8 [00:00<?, ?it/s][A
與 637.pdf 比對的來源 PDF:  12%|█▎        | 1/8 [01:20<09:21, 80.16s/it][A
與 637.pdf 比對的來源 PDF:  25%|██▌       | 2/8 [02:52<08:42, 87.08s/it][A
與 637.pdf 比對的來源 PDF:  38%|███▊      | 3/8 [04:18<07:13, 86.61s/it][A
與 637.pdf 比對的來源 PDF:  50%|█████     | 4/8 [05:43<05:44, 86.01s/it][A
與 637.pdf 比對的來源 PDF:  62%|██████▎   | 5/8 [07:03<04:11, 83.84s/it][A
與 637.pdf 比對的來源 PDF:  75%|███████▌  | 6/8 [08:32<02:51, 85.68s/it][A
與 637.pdf 比對的來源 PDF:  88%|████████▊ | 7/8 [10:03<01:27, 87.27s/it][A
與 637.pdf 比對的來源 PDF: 100%|██████████| 8/8 [11:31<00:00, 86.47s/it][A

與 637.pdf 比對的來源 PDF:   0%|          | 0/8 [00:00<?, ?it/s][A