In [81]:
import fitz
import os
import re

In [160]:
def source_after_figure(pdf_folder, pdf_file, source, output_root_folder, pattern):
    """
    PDFファイルの図番号の後に出典を追記し、新しいPDFファイルとして保存する
    
    Args:
        pdf_folder (str): PDFが格納されたフォルダのパス
        pdf_file (str): PDFファイルのパス。
        source (str): PDFファイルの出典。
        output_root_folder (str): 新しいPDFファイルを保存するルートフォルダへのパス。
        pattern (str): 図番号の正規表現パターン
    """
    # 既存のPDFファイルを開く
    pdf_document = fitz.open(os.path.join(pdf_folder, pdf_file))

    # 出典テキスト
    text_to_add = f"【出典: {source}】"

    # 各ページを処理
    for page_number in range(len(pdf_document)):
        page = pdf_document[page_number]
        pdf_text = page.get_text()
        blocks = page.get_text("blocks")

        for block in blocks:
            text = block[4]  # テキスト部分を取得
            match = re.search(pattern, text)
            if match:
                    x0, y0, x1, y1 = block[:4]  # ブロックの座標を取得

                    # マッチした部分の開始・終了位置を取得
                    start_pos = match.start()
                    end_pos = match.end()

                    # 開始・終了位置の座標を調整
                    x0 = x0 + start_pos  # これは簡易的な方法であり、実際には適切な位置を計算する必要がある
                    x1 = x0 + end_pos    # 同上

                    # ページにテキストを追加(座標、微調整してます)
                    if x0 <= 200:
                        page.insert_text((x1 + 35, y1 -5), text_to_add, fontname="japan", fontsize=8)
                    else:
                        page.insert_text((200, y1 + 8), text_to_add, fontname="japan", fontsize=8)

    # PDFを保存
    os.makedirs(output_root_folder, exist_ok=True)
    output_pdf_file = os.path.join(output_root_folder, pdf_file)
    pdf_document.save(output_pdf_file)

    # ファイルを閉じる
    pdf_document.close()


In [161]:
# sample1.pdfに追記
if __name__ == "__main__":
    pdf_folder = "../sample-pdf/"
    pdf_file ="sample1.pdf"
    source = "sample太郎(2019) 『サンプル本』 サンプル出版社"
    output_root_folder = "sample_with_source"
    pattern = r"【図 [0-9]+\-[0-9]+】"
    source_after_figure(pdf_folder ,pdf_file, source, output_root_folder, pattern)

In [162]:
# sample2.pdfに追記
if __name__ == "__main__":
    pdf_folder = "../sample-pdf/"
    pdf_file ="sample2.pdf"
    source = "sample花子(2020) 『にっこり本』 花畑出版社"
    output_root_folder = "sample_with_source"
    pattern = r"【図 [0-9]+\-[0-9]+】"
    source_after_figure(pdf_folder ,pdf_file, source, output_root_folder, pattern)

In [163]:
# sample3.pdfに追記
if __name__ == "__main__":
    pdf_folder = "../sample-pdf/"
    pdf_file ="sample3.pdf"
    source = "sample花子(2020) 『にっこり本』 花畑出版社"
    output_root_folder = "sample_with_source"
    pattern = r"【図 [0-9]+\-[0-9]+】"
    source_after_figure(pdf_folder ,pdf_file, source, output_root_folder, pattern)

In [164]:
# sample4.pdfに追記
if __name__ == "__main__":
    pdf_folder = "../sample-pdf/"
    pdf_file ="sample4.pdf"
    source = "sample花子(2020) 『にっこり本』 花畑出版社"
    output_root_folder = "sample_with_source"
    # pattern = r"【図 [0-9]+\-[0-9]+】"
    pattern = r"【図[0-9]+\-[0-9]+\-[0-9]+】"
    source_after_figure(pdf_folder ,pdf_file, source, output_root_folder, pattern)