In [1]:
import pandas as pd
import os

# 1. 设置文件路径
# 注意：路径前加 r 是为了防止反斜杠转义，确保路径被正确识别
input_file_path = r'E:\A智网\地市公司映射表.xlsx'
output_file_path = r'E:\A智网\地市公司映射表_去重后.xlsx'

# 检查文件是否存在
if not os.path.exists(input_file_path):
    print(f"错误：找不到文件 {input_file_path}")
else:
    try:
        # 2. 读取 Excel 文件
        print("正在读取文件...")
        df = pd.read_excel(input_file_path)
        
        print(f"去重前数据量：{len(df)} 条")

        # 3. 执行去重
        # subset: 指定根据哪几列判断重复
        # keep='first': 保留第一条出现的记录，删除后续重复的
        # 注意：请确保 Excel 第一行的表头确实是 city_name 和 county_name
        # 如果表头是中文（例如“地市名”），请修改下面的列表，如 subset=['地市名', '区县名']
        df_clean = df.drop_duplicates(subset=['city_name', 'county_name'], keep='first')

        print(f"去重后数据量：{len(df_clean)} 条")
        print(f"共删除了 {len(df) - len(df_clean)} 条重复数据")

        # 4. 保存结果到新文件
        # index=False 表示不把 pandas 的索引列写入 Excel
        df_clean.to_excel(output_file_path, index=False)
        
        print(f"成功！结果已保存至：{output_file_path}")

    except Exception as e:
        print(f"发生错误：{e}")
        print("请检查：1. 文件是否被打开（请关闭Excel）；2. 列名是否正确。")

正在读取文件...
去重前数据量：6637 条
去重后数据量：125 条
共删除了 6512 条重复数据
成功！结果已保存至：E:\A智网\地市公司映射表_去重后.xlsx
