In [2]:
import os
import pandas as pd
from openpyxl import load_workbook
import time

def check_excel_format(root_dir):
    """
    检查指定目录及其子目录中所有Excel文件的格式
    
    Args:
        root_dir: 要检查的根目录路径
    """
    # 统计信息
    total_files = 0
    valid_files = 0
    invalid_files = []
    skipped_files = 0
    
    # 开始时间
    start_time = time.time()
    
    print(f"开始检查目录: {root_dir}")
    print("=" * 60)
    
    # 遍历目录树
    for dirpath, dirnames, filenames in os.walk(root_dir):
        for filename in filenames:
            # 跳过Windows临时文件（以~$开头的文件）
            if filename.startswith('~$'):
                skipped_files += 1
                file_path = os.path.join(dirpath, filename)
                print(f"⏭️  跳过临时文件: {file_path}")
                continue
                
            # 检查文件扩展名是否为Excel文件
            if filename.endswith(('.xlsx', '.xls')):
                total_files += 1
                file_path = os.path.join(dirpath, filename)
                
                try:
                    # 使用openpyxl直接读取，避免pandas自动类型转换可能带来的问题
                    wb = load_workbook(file_path, read_only=True)
                    sheet = wb.active
                    
                    # 检查第一行的两个单元格
                    cell1_value = sheet.cell(row=1, column=1).value
                    cell2_value = sheet.cell(row=1, column=2).value
                    
                    # 检查是否有第三列数据
                    has_third_column = sheet.cell(row=1, column=3).value is not None
                    
                    # 验证条件
                    if (cell1_value == "切片编号" and 
                        cell2_value == "切片" and 
                        not has_third_column):
                        valid_files += 1
                        print(f"✅ [{total_files}] 有效文件: {file_path}")
                    else:
                        issue = []
                        if cell1_value != "切片编号":
                            issue.append(f"第一列标题应为'切片编号'，实际为'{cell1_value}'")
                        if cell2_value != "切片":
                            issue.append(f"第二列标题应为'切片'，实际为'{cell2_value}'")
                        if has_third_column:
                            issue.append("存在第三列数据")
                        
                        invalid_files.append((file_path, "，".join(issue)))
                        print(f"❌ [{total_files}] 无效文件: {file_path} - {', '.join(issue)}")
                    
                    wb.close()
                    
                except Exception as e:
                    invalid_files.append((file_path, f"读取错误: {str(e)}"))
                    print(f"❌ [{total_files}] 文件读取失败: {file_path} - 错误: {str(e)}")
    
    # 计算耗时
    end_time = time.time()
    elapsed_time = end_time - start_time
    
    # 输出总结
    print("\n" + "=" * 60)
    print(f"检查完成!")
    print(f"总文件数: {total_files}")
    print(f"有效文件数: {valid_files}")
    print(f"无效文件数: {len(invalid_files)}")
    print(f"跳过的临时文件数: {skipped_files}")
    print(f"耗时: {elapsed_time:.2f} 秒")
    
    if invalid_files:
        print("\n无效文件详情:")
        for i, (file_path, reason) in enumerate(invalid_files, 1):
            print(f"{i}. {file_path} - {reason}")
    
    return valid_files == total_files

if __name__ == "__main__":
    # 请替换为您要检查的文件夹路径
    ROOT_DIR = "F:\福卡\福卡文章切片"  # 替换为您要处理的文件夹路径
    
    # 执行检查
    all_valid = check_excel_format(ROOT_DIR)
    
    # 根据结果输出最终状态
    print("\n" + "=" * 60)
    if all_valid:
        print("🎉 所有Excel文件格式正确!")
    else:
        print("⚠️  发现格式不正确的Excel文件，请查看上述详细信息。")

开始检查目录: F:\福卡\福卡文章切片
✅ [1] 有效文件: F:\福卡\福卡文章切片\10园区经济\10-1园区研究\20051012浓缩经济风云的开发区面临重新洗牌、功能切换——影响其生命周期的决定因素.xlsx
✅ [2] 有效文件: F:\福卡\福卡文章切片\10园区经济\10-1园区研究\20120816硅谷衰落？硅巷崛起？——中国硅谷（巷）纵横坐标.xlsx
✅ [3] 有效文件: F:\福卡\福卡文章切片\10园区经济\10-1园区研究\20170215开发区强弩之末？——洗牌、突破、新趋势.xlsx
✅ [4] 有效文件: F:\福卡\福卡文章切片\10园区经济\10-1园区研究\20171207产而优则园？——园区5.0.xlsx
✅ [5] 有效文件: F:\福卡\福卡文章切片\10园区经济\10-1园区研究\20180426园区又成战略重心（上）——中国崛起的命门.xlsx
✅ [6] 有效文件: F:\福卡\福卡文章切片\10园区经济\10-1园区研究\20180510园区又成战略重心（下）——园区“9+X”.xlsx
✅ [7] 有效文件: F:\福卡\福卡文章切片\10园区经济\10-2园区转型升级\20150528园区“十大挑战”.xlsx
✅ [8] 有效文件: F:\福卡\福卡文章切片\10园区经济\10-2园区转型升级\20150909主题公园周期性波动与颠覆性变局.xlsx
✅ [9] 有效文件: F:\福卡\福卡文章切片\10园区经济\10-2园区转型升级\20151229开发区的问题与出路.xlsx
✅ [10] 有效文件: F:\福卡\福卡文章切片\10园区经济\10-3园区服务\20060630滨海开发区还能做出什么榜样？.xlsx
✅ [11] 有效文件: F:\福卡\福卡文章切片\10园区经济\10-4特殊园区（自贸综保）\20101228特区、开发区、高新区“十二五”发展趋势.xlsx
✅ [12] 有效文件: F:\福卡\福卡文章切片\10园区经济\10-4特殊园区（自贸综保）\20150205上海自贸区扩容（一）——格局与破局.xlsx
✅ [13] 有效文件: F:\福卡\福卡文章切片\10园区经济\10-4特殊园区（自贸综保）\20150303上海自贸区扩容（二）——陆家嘴篇.xlsx
✅ [14] 有