In [2]:
%pip install docx2pdf

Collecting docx2pdf
  Using cached docx2pdf-0.1.8-py3-none-any.whl.metadata (3.3 kB)
Using cached docx2pdf-0.1.8-py3-none-any.whl (6.7 kB)
Installing collected packages: docx2pdf
Successfully installed docx2pdf-0.1.8
Note: you may need to restart the kernel to use updated packages.


In [1]:
import os
from docx2pdf import convert
import time

def batch_convert_to_pdf(root_folder):
    """
    遍历文件夹及其子文件夹，将所有 Word 文档转换为 PDF
    """
    # 获取绝对路径，防止路径错误
    abs_root_folder = os.path.abspath(root_folder)
    
    if not os.path.exists(abs_root_folder):
        print(f"错误：找不到路径 '{abs_root_folder}'")
        return

    print(f"开始在 '{abs_root_folder}' 中扫描文件...")
    
    count = 0
    
    # os.walk 会递归遍历所有子文件夹
    for dirpath, dirnames, filenames in os.walk(abs_root_folder):
        for filename in filenames:
            # 检查文件后缀，支持 .docx 和 .doc
            if filename.lower().endswith(('.docx', '.doc')):
                # 排除 Word 打开时产生的临时文件（以 ~$ 开头）
                if filename.startswith('~$'):
                    continue
                
                # 构建完整的文件路径
                word_path = os.path.join(dirpath, filename)
                
                # 构建 PDF 路径（同目录下，同文件名）
                # os.path.splitext 去掉后缀，然后加上 .pdf
                pdf_path = os.path.splitext(word_path)[0] + ".pdf"
                
                # (可选) 如果 PDF 已存在，可以选择跳过，或者覆盖
                # if os.path.exists(pdf_path):
                #     print(f"跳过已存在: {filename}")
                #     continue

                print(f"正在转换: {filename} ...")
                
                try:
                    # 执行转换
                    convert(word_path, pdf_path)
                    count += 1
                except Exception as e:
                    print(f"转换失败: {filename}. 错误信息: {e}")

    print("-" * 30)
    print(f"处理完成！共转换了 {count} 个文件。")

if __name__ == "__main__":
    # ==========================================
    # 请在这里修改你的文件夹路径
    # 建议在路径前加 r，防止转义字符报错
    # ==========================================
    target_folder = r"E:\A智网\经研院报告\所有报告"
    
    batch_convert_to_pdf(target_folder)
    
    # 防止窗口运行完直接关闭
    input("按回车键退出...")

开始在 'E:\A智网\经研院报告\所有报告' 中扫描文件...
正在转换: 10月湖北省3000用户摸排结果分析.docx ...


  0%|          | 0/1 [00:00<?, ?it/s]

正在转换: 5份彩印-湖北省3000用户摸排结果分析-8.19(5)(2).docx ...


  0%|          | 0/1 [00:00<?, ?it/s]

转换失败: 5份彩印-湖北省3000用户摸排结果分析-8.19(5)(2).docx. 错误信息: Word.Application.Quit
正在转换: 【0917】9月湖北省3000用户摸排结果分析.docx ...


  0%|          | 0/1 [00:00<?, ?it/s]

正在转换: （1份彩印）前3000户用电量预测分析报告0620.docx ...


  0%|          | 0/1 [00:00<?, ?it/s]

转换失败: （1份彩印）前3000户用电量预测分析报告0620.docx. 错误信息: Word.Application.Quit
正在转换: 10份  2025年5月湖北负荷分析(3).docx ...


  0%|          | 0/1 [00:00<?, ?it/s]

正在转换: 2023年湖北“迎峰度冬”期间电力需求分析（经研院0311版负荷修改).docx ...


  0%|          | 0/1 [00:00<?, ?it/s]

转换失败: 2023年湖北“迎峰度冬”期间电力需求分析（经研院0311版负荷修改).docx. 错误信息: Word.Application.Quit
正在转换: 2024年度夏负荷分析报告(经研院9月)(2).docx ...


  0%|          | 0/1 [00:00<?, ?it/s]

正在转换: 2024年迎峰度夏电力供需预测报告0415.docx ...


  0%|          | 0/1 [00:00<?, ?it/s]

转换失败: 2024年迎峰度夏电力供需预测报告0415.docx. 错误信息: Word.Application.Quit
正在转换: 2025年度夏负荷分析报告(经研院9月)-0918V3(1).docx ...


  0%|          | 0/1 [00:00<?, ?it/s]

正在转换: 10份  2025年5月湖北负荷分析(3).docx ...


  0%|          | 0/1 [00:00<?, ?it/s]

转换失败: 10份  2025年5月湖北负荷分析(3).docx. 错误信息: Word.Application.Quit
正在转换: 2023年湖北“迎峰度冬”期间电力需求分析（经研院0311版负荷修改).docx ...


  0%|          | 0/1 [00:00<?, ?it/s]

正在转换: 2023年湖北“迎峰度冬”期间电力需求分析（经研院终稿).docx ...


  0%|          | 0/1 [00:00<?, ?it/s]

转换失败: 2023年湖北“迎峰度冬”期间电力需求分析（经研院终稿).docx. 错误信息: Word.Application.Quit
正在转换: 2024年度夏负荷分析报告(经研院9月)(2).docx ...


  0%|          | 0/1 [00:00<?, ?it/s]

正在转换: 2024年湖北度夏电力电量实时监测分析(07242000).docx ...


  0%|          | 0/1 [00:00<?, ?it/s]

转换失败: 2024年湖北度夏电力电量实时监测分析(07242000).docx. 错误信息: Word.Application.Quit
正在转换: 2024年湖北电力电量多口径关联分析.docx ...


  0%|          | 0/1 [00:00<?, ?it/s]

正在转换: 2024年迎峰度夏电力供需预测报告0415.docx ...


  0%|          | 0/1 [00:00<?, ?it/s]

转换失败: 2024年迎峰度夏电力供需预测报告0415.docx. 错误信息: Word.Application.Quit
正在转换: 2025年春节期间负荷预测.docx ...


  0%|          | 0/1 [00:00<?, ?it/s]

正在转换: 6份  分布式光伏行业用电分析0526v2(1).docx ...


  0%|          | 0/1 [00:00<?, ?it/s]

转换失败: 6份  分布式光伏行业用电分析0526v2(1).docx. 错误信息: (-2147023170, '远程过程调用失败。', None, None)
正在转换: 8份  中美关税战对湖北用电影响分析.docx ...


  0%|          | 0/1 [00:00<?, ?it/s]

正在转换: 8份  售电量与全社会用电量增速偏差分析.docx ...


  0%|          | 0/1 [00:00<?, ?it/s]

转换失败: 8份  售电量与全社会用电量增速偏差分析.docx. 错误信息: Word.Application.Quit
正在转换: 8份 2025年3月电量预测工作复盘分析20250409(1)(1).docx ...


  0%|          | 0/1 [00:00<?, ?it/s]

正在转换: “十一”特殊节假日的负荷预测技术研究（0117）.docx ...


  0%|          | 0/1 [00:00<?, ?it/s]

转换失败: “十一”特殊节假日的负荷预测技术研究（0117）.docx. 错误信息: (-2147352567, '发生意外。', (0, 'Microsoft Word', 'Word 无法读取此文档，文档可能已损坏。\n请尝试下列方法:\n* 打开并修复文件。\n* 用文本恢复转换器打开文件。\r (E:\\A智网\\...\\“十一”特殊节假日的负荷预测技术研究（0117）.docx)', 'wdmain11.chm', 24631, -2146823137), None)
正在转换: 数据质量问题分析报告.docx ...


  0%|          | 0/1 [00:00<?, ?it/s]

转换失败: 数据质量问题分析报告.docx. 错误信息: Open.Close
正在转换: 春节期间分产业负荷预测复盘(0218).docx ...


  0%|          | 0/1 [00:00<?, ?it/s]

正在转换: 近三年春节对湖北用电的影响分析0221-终稿(晚).docx ...


  0%|          | 0/1 [00:00<?, ?it/s]

转换失败: 近三年春节对湖北用电的影响分析0221-终稿(晚).docx. 错误信息: Word.Application.Quit
正在转换: 3份彩印-业扩报装趋势分析(1).docx ...


  0%|          | 0/1 [00:00<?, ?it/s]

正在转换: 5份彩印-7月业扩报装情况分析(3).docx ...


  0%|          | 0/1 [00:00<?, ?it/s]

正在转换: 6份彩印-【10.22】9月业扩报装情况分析.docx ...


  0%|          | 0/1 [00:00<?, ?it/s]

转换失败: 6份彩印-【10.22】9月业扩报装情况分析.docx. 错误信息: Word.Application.Quit
正在转换: 【0918】8月业扩报装情况分析.docx ...


  0%|          | 0/1 [00:00<?, ?it/s]

正在转换: （10份彩印）业扩报装与用户检修情况.docx ...


  0%|          | 0/1 [00:00<?, ?it/s]

转换失败: （10份彩印）业扩报装与用户检修情况.docx. 错误信息: Word.Application.Quit
正在转换: 2024年湖北电力电量多口径关联分析.docx ...


  0%|          | 0/1 [00:00<?, ?it/s]

正在转换: 6份  分布式光伏行业用电分析0526v2(1).docx ...


  0%|          | 0/1 [00:00<?, ?it/s]

转换失败: 6份  分布式光伏行业用电分析0526v2(1).docx. 错误信息: Word.Application.Quit
正在转换: 8份  中美关税战对湖北用电影响分析.docx ...


KeyboardInterrupt: 

In [None]:
import os
import win32com.client
import time

def word2pdf_stable(root_folder):
    abs_root = os.path.abspath(root_folder)
    print(f"目标目录: {abs_root}")
    
    word = None
    try:
        # 启动 Word 应用程序
        print("正在启动 Word 进程...")
        word = win32com.client.Dispatch("Word.Application")
        word.Visible = False  # 后台运行
        word.DisplayAlerts = False  # 关键：禁止所有弹窗警告
        
        count = 0
        
        for dirpath, dirnames, filenames in os.walk(abs_root):
            for filename in filenames:
                if filename.lower().endswith(('.docx', '.doc')) and not filename.startswith('~$'):
                    
                    word_path = os.path.join(dirpath, filename)
                    pdf_path = os.path.splitext(word_path)[0] + ".pdf"
                    
                    # 如果 PDF 已存在且比 Word 新，则跳过（断点续传功能）
                    if os.path.exists(pdf_path):
                        # continue # 如果你想跳过已转换的，取消这行注释
                        pass

                    print(f"正在转换: {filename} ...")
                    
                    doc = None
                    try:
                        # 打开文档
                        doc = word.Documents.Open(word_path)
                        
                        # 转换格式代码 17 代表 PDF
                        doc.SaveAs(pdf_path, FileFormat=17)
                        count += 1
                    except Exception as e:
                        print(f"  [失败] {filename}: {str(e)}")
                    finally:
                        # 无论成功失败，都要关闭当前文档
                        if doc:
                            doc.Close(SaveChanges=0) # 0 = 不保存修改
                            
        print("-" * 30)
        print(f"全部完成！共转换 {count} 个文件。")
        
    except Exception as e:
        print(f"Word 进程发生严重错误: {e}")
    finally:
        # 退出 Word
        if word:
            print("正在关闭 Word 进程...")
            word.Quit()

if __name__ == "__main__":
    # 修改你的路径
    target_folder = r"E:\A智网\经研院报告\所有报告" 
    word2pdf_stable(target_folder)

In [3]:
import os
import win32com.client
import time

def word2pdf_no_markup(root_folder):
    abs_root = os.path.abspath(root_folder)
    print(f"目标目录: {abs_root}")
    
    word = None
    try:
        # 启动 Word 应用程序
        print("正在启动 Word 进程...")
        word = win32com.client.Dispatch("Word.Application")
        word.Visible = False  # 后台运行
        word.DisplayAlerts = False  # 禁止弹窗
        
        # 定义常量
        wdExportFormatPDF = 17        # PDF 格式
        wdExportDocumentContent = 0   # 关键：只导出内容，不导出修订和批注
        
        count = 0
        
        for dirpath, dirnames, filenames in os.walk(abs_root):
            for filename in filenames:
                if filename.lower().endswith(('.docx', '.doc')) and not filename.startswith('~$'):
                    
                    word_path = os.path.join(dirpath, filename)
                    pdf_path = os.path.splitext(word_path)[0] + ".pdf"
                    
                    print(f"正在转换 (无痕迹模式): {filename} ...")
                    
                    doc = None
                    try:
                        # 打开文档
                        doc = word.Documents.Open(word_path)
                        
                        # 【核心修改】使用 ExportAsFixedFormat 进行更高级的导出
                        # Item=wdExportDocumentContent (0) 确保不包含批注和修订
                        doc.ExportAsFixedFormat(
                            OutputFileName=pdf_path,
                            ExportFormat=wdExportFormatPDF,
                            Item=wdExportDocumentContent, 
                            CreateBookmarks=1  # 1=wdExportCreateHeadingBookmarks (保留书签/目录跳转)
                        )
                        
                        count += 1
                    except Exception as e:
                        print(f"  [失败] {filename}: {str(e)}")
                    finally:
                        # 关闭文档，不保存任何更改（防止意外接受了修订并保存回原文档）
                        if doc:
                            doc.Close(SaveChanges=0)
                            
        print("-" * 30)
        print(f"全部完成！共转换 {count} 个文件（已隐藏批注和修订）。")
        
    except Exception as e:
        print(f"Word 进程发生严重错误: {e}")
    finally:
        # 退出 Word
        if word:
            print("正在关闭 Word 进程...")
            word.Quit()

if __name__ == "__main__":
    # ==========================================
    # 请在这里修改你的文件夹路径
    # ==========================================
    target_folder = r"E:\A智网\经研院报告\所有报告" 
    
    word2pdf_no_markup(target_folder)

目标目录: E:\A智网\经研院报告\所有报告
正在启动 Word 进程...
正在转换 (无痕迹模式): 10月湖北省3000用户摸排结果分析.docx ...
正在转换 (无痕迹模式): 5份彩印-湖北省3000用户摸排结果分析-8.19(5)(2).docx ...
正在转换 (无痕迹模式): 【0917】9月湖北省3000用户摸排结果分析.docx ...
正在转换 (无痕迹模式): （1份彩印）前3000户用电量预测分析报告0620.docx ...
正在转换 (无痕迹模式): 10份  2025年5月湖北负荷分析(3).docx ...
正在转换 (无痕迹模式): 2023年湖北“迎峰度冬”期间电力需求分析（经研院0311版负荷修改).docx ...
正在转换 (无痕迹模式): 2024年度夏负荷分析报告(经研院9月)(2).docx ...
正在转换 (无痕迹模式): 2024年迎峰度夏电力供需预测报告0415.docx ...
正在转换 (无痕迹模式): 2025年度夏负荷分析报告(经研院9月)-0918V3(1).docx ...
正在转换 (无痕迹模式): 10份  2025年5月湖北负荷分析(3).docx ...
正在转换 (无痕迹模式): 2023年湖北“迎峰度冬”期间电力需求分析（经研院0311版负荷修改).docx ...
正在转换 (无痕迹模式): 2023年湖北“迎峰度冬”期间电力需求分析（经研院终稿).docx ...
正在转换 (无痕迹模式): 2024年度夏负荷分析报告(经研院9月)(2).docx ...
正在转换 (无痕迹模式): 2024年湖北度夏电力电量实时监测分析(07242000).docx ...
正在转换 (无痕迹模式): 2024年湖北电力电量多口径关联分析.docx ...
正在转换 (无痕迹模式): 2024年迎峰度夏电力供需预测报告0415.docx ...
正在转换 (无痕迹模式): 2025年春节期间负荷预测.docx ...
正在转换 (无痕迹模式): 6份  分布式光伏行业用电分析0526v2(1).docx ...
正在转换 (无痕迹模式): 8份  中美关税战对湖北用电影响分析.docx ...
正在转换 (无痕迹模式): 8份  售电量与全社会用电量增速偏差分析.docx ...
正在转

In [4]:
import os
import win32com.client
import time

def word2pdf_high_quality(root_folder):
    abs_root = os.path.abspath(root_folder)
    print(f"目标目录: {abs_root}")
    
    word = None
    try:
        print("正在启动 Word 进程...")
        word = win32com.client.Dispatch("Word.Application")
        word.Visible = False
        word.DisplayAlerts = False
        
        # 常量定义
        wdExportFormatPDF = 17
        wdExportDocumentContent = 0
        
        count = 0
        
        for dirpath, dirnames, filenames in os.walk(abs_root):
            for filename in filenames:
                if filename.lower().endswith(('.docx', '.doc')) and not filename.startswith('~$'):
                    
                    word_path = os.path.join(dirpath, filename)
                    pdf_path = os.path.splitext(word_path)[0] + ".pdf"
                    
                    print(f"正在转换 (高保真模式): {filename} ...")
                    
                    doc = None
                    try:
                        doc = word.Documents.Open(word_path)
                        
                        # 【核心修改】增加参数以强制嵌入字体
                        doc.ExportAsFixedFormat(
                            OutputFileName=pdf_path,
                            ExportFormat=wdExportFormatPDF,
                            Item=wdExportDocumentContent, 
                            CreateBookmarks=1,
                            # 关键参数：
                            BitmapMissingFonts=True, # 如果字体缺失，尝试位图化（防止乱码）
                            UseISO19005_1=True       # 开启 PDF/A 模式，强制嵌入字体！
                        )
                        
                        count += 1
                    except Exception as e:
                        print(f"  [失败] {filename}: {str(e)}")
                    finally:
                        if doc:
                            doc.Close(SaveChanges=0)
                            
        print("-" * 30)
        print(f"全部完成！共转换 {count} 个文件。")
        
    except Exception as e:
        print(f"Word 进程发生严重错误: {e}")
    finally:
        if word:
            word.Quit()

if __name__ == "__main__":
    target_folder = r"E:\A智网\经研院报告\所有报告\月度报告" 
    word2pdf_high_quality(target_folder)

目标目录: E:\A智网\经研院报告\所有报告\月度报告
正在启动 Word 进程...
正在转换 (高保真模式): 2024年10月电力需求预测报告.docx ...
正在转换 (高保真模式): 2024年11月电力需求预测报告-20241025(终稿)11(1).docx ...
正在转换 (高保真模式): 2024年12月电力需求预测报告-20241127(5).docx ...
正在转换 (高保真模式): 2024年1月电力需求预测报告(终版)(1).docx ...
正在转换 (高保真模式): 2024年2月电力需求预测报告-修改（1.21）.docx ...
正在转换 (高保真模式): 2024年3月电力需求预测报告(2-21)(2).docx ...
正在转换 (高保真模式): 2024年4月电力需求预测报告(0324).docx ...
正在转换 (高保真模式): 2024年5月电力需求预测报告(0423)(1).docx ...
正在转换 (高保真模式): 2024年6月电力需求预测报告(0526).docx ...
正在转换 (高保真模式): 2024年7月电力需求预测报告(0621).docx ...
正在转换 (高保真模式): 2024年8月电力需求预测报告(终稿)-排.docx ...
  [失败] 2024年8月电力需求预测报告(终稿)-排.docx: (-2147352567, '发生意外。', (0, 'Microsoft Word', '由于出现意外错误，导出失败。', 'wdmain11.chm', 25727, -2147467259), None)
正在转换 (高保真模式): 2024年9月电力需求预测报告(0828).docx ...
正在转换 (高保真模式): 2025年10月湖北用电预测报告0830.docx ...
正在转换 (高保真模式): 2025年1月湖北用电预测报告(3)(1).docx ...
正在转换 (高保真模式): 2025年2月电力需求预测报告(1.23)(7)(2).docx ...
正在转换 (高保真模式): 2025年3月电力需求预测报告（合稿）.docx ...
正在转换 (高保真模式): 彩印10份-2025年11月湖北用电预测报告10271200.docx ...
------------