In [3]:
import fitz  # PyMuPDF
from pathlib import Path
import os

# --- 配置区域 ---

# 1. 设置包含PDF文件的文件夹路径
#    可以直接写绝对路径，例如: r"C:\Users\YourUser\Documents\PDFs"
#    或者使用相对路径，"./" 表示当前脚本所在的文件夹
pdf_folder_path = Path(r"C:/Users/Joe-h/Desktop/云南报销/pdfs_to_convert")

# 2. 设置图片保存的文件夹路径
#    如果文件夹不存在，程序会自动创建
output_folder_path = Path(r"C:/Users/Joe-h/Desktop/云南报销/output_images")

# 3. 设置输出图片的格式 (例如 "png", "jpeg", "jpg")
image_format = "png"

# 4. 设置图片的清晰度 (DPI)
#    数值越高，图片越清晰，文件也越大。推荐值为 150 到 300。
#    72 DPI 是标准屏幕分辨率，可能会显得模糊。
image_dpi = 300

# --- 配置区域结束 ---


def convert_pdfs_to_images(pdf_dir, output_dir, img_format="png", dpi=300):
    """
    将指定文件夹下的所有PDF文件转换为图片。

    :param pdf_dir: 存放PDF文件的文件夹路径 (Path对象)
    :param output_dir: 保存图片的文件夹路径 (Path对象)
    :param img_format: 输出图片的格式 (str)
    :param dpi: 图片的分辨率 (int)
    """
    # 1. 确保输出文件夹存在
    output_dir.mkdir(parents=True, exist_ok=True)
    print(f"图片将保存在: {output_dir.resolve()}")

    # 2. 检查PDF文件夹是否存在
    if not pdf_dir.is_dir():
        print(f"错误: PDF文件夹 '{pdf_dir.resolve()}' 不存在。")
        return

    # 3. 遍历PDF文件夹中的所有PDF文件
    pdf_files = list(pdf_dir.glob("*.pdf"))
    if not pdf_files:
        print(f"在文件夹 '{pdf_dir.resolve()}' 中没有找到任何PDF文件。")
        return

    print(f"\n找到 {len(pdf_files)} 个PDF文件，开始转换...")

    for pdf_path in pdf_files:
        try:
            # 打开PDF文件
            doc = fitz.open(pdf_path)
            print(f"\n--- 正在处理: {pdf_path.name} (共 {len(doc)} 页) ---")

            # 遍历PDF的每一页
            for page_num in range(len(doc)):
                # 加载页面
                page = doc.load_page(page_num)
                
                # 设置缩放以提高分辨率
                # PyMuPDF使用matrix来控制缩放，dpi/72是常用的换算方法
                zoom = dpi / 72.0
                matrix = fitz.Matrix(zoom, zoom)
                
                # 渲染页面为pixmap (图片)
                pix = page.get_pixmap(matrix=matrix)

                # 构造输出图片的文件名
                # 使用 Path.stem 获取不带后缀的文件名
                image_filename = f"{pdf_path.stem}.{img_format}"
                output_image_path = output_dir / image_filename

                # 保存图片
                pix.save(output_image_path)
                print(f"  已保存: {image_filename}")

            # 关闭PDF文档
            doc.close()

        except Exception as e:
            print(f"处理文件 {pdf_path.name} 时发生错误: {e}")

    print("\n--- 所有任务完成！ ---")


if __name__ == "__main__":
    convert_pdfs_to_images(
        pdf_dir=pdf_folder_path,
        output_dir=output_folder_path,
        img_format=image_format,
        dpi=image_dpi
    )

图片将保存在: C:\Users\Joe-h\Desktop\云南报销\output_images

找到 8 个PDF文件，开始转换...

--- 正在处理: 【旅程约车-39.05元-1个行程】高德打车电子发票.pdf (共 1 页) ---
  已保存: 【旅程约车-39.05元-1个行程】高德打车电子发票.png

--- 正在处理: 【旅程约车-39.05元-1个行程】高德打车电子行程单.pdf (共 1 页) ---
  已保存: 【旅程约车-39.05元-1个行程】高德打车电子行程单.png

--- 正在处理: 【曹操出行-50.03元-1个行程】高德打车电子发票.pdf (共 1 页) ---
  已保存: 【曹操出行-50.03元-1个行程】高德打车电子发票.png

--- 正在处理: 【曹操出行-50.03元-1个行程】高德打车电子行程单.pdf (共 1 页) ---
  已保存: 【曹操出行-50.03元-1个行程】高德打车电子行程单.png

--- 正在处理: 摩拜信息技术有限公司_发票金额5.00元.pdf (共 1 页) ---
  已保存: 摩拜信息技术有限公司_发票金额5.00元.png

--- 正在处理: 昆明地铁费.pdf (共 1 页) ---
  已保存: 昆明地铁费.png

--- 正在处理: 酒店住宿费.pdf (共 1 页) ---
  已保存: 酒店住宿费.png

--- 正在处理: 高速过路费.pdf (共 1 页) ---
  已保存: 高速过路费.png

--- 所有任务完成！ ---
