In [1]:
import sys
from pathlib import Path
import fitz

In [2]:
def main(file_path_list, output_folder):
    """PDFファイルのページを画像ファイルに変換する
    
    Args:
        file_path_list (list): PDFファイルパス名のリスト
        output_folder (str): 画像ファイルを出力するフォルダ
    """
    output_folder_path = Path(output_folder)
    output_folder_path.mkdir(parents=True, exist_ok=True)
    
    for file_path in file_path_list:
        path_file = Path(file_path)
        base_file_name = path_file.stem

        # PDFファイルを開く
        pdf = fitz.open(file_path)

        # 1ページずつ画像ファイルとして保存する
        for i, page in enumerate(pdf):
            pix = page.get_pixmap()
            image_f_name = f'{base_file_name}_{str(i+1)}.jpg'
            image_f_path = output_folder_path / image_f_name
            pix.save(image_f_path)

In [3]:
def get_file_paths(directory, extension=None):
    """指定したディレクトリ直下のファイルパスのリストを取得
    
    Args:
        directory (str): ディレクトリのパス
        extension (str, optional): ファイル拡張子（例: '.pdf'）
    
    Returns:
        list: ファイルパスのリスト
    """
    directory_path = Path(directory).resolve()
    if extension:
        return [str(file) for file in directory_path.glob(f'*{extension}')]
    else:
        return [str(file) for file in directory_path.iterdir() if file.is_file()]

In [4]:
pdf_file_paths = get_file_paths("./data", extension='.pdf')
print(pdf_file_paths)

['/home/docker/LLaVA-JP/notebooks/jdocqa/data/kouhou00000.pdf', '/home/docker/LLaVA-JP/notebooks/jdocqa/data/public_document00152.pdf']


In [5]:
main(pdf_file_paths, "./data/output")