In [1]:
import pandas as pd
import os

def generate_benchmark_files():
    print(">>> 正在生成基准测试数据集...")

    # ==========================================
    # 场景 1: 货币符号陷阱 (我们之前测试过的)
    # 挑战: Object 类型，含 '$' 和 ','
    # ==========================================
    df_currency = pd.DataFrame({
        "id": [1, 2, 3, 4, 5],
        "product": ["A", "B", "C", "D", "E"],
        "amount": [1000, 2000, 1500, "$3,000", "$2,500"] # 混合数据
    })
    df_currency.to_csv("bench_currency.csv", index=False)
    print("✅ bench_currency.csv 生成完毕 (测试货币符号清洗)")

    # ==========================================
    # 场景 2: 日期格式地狱
    # 挑战: 混合了 ISO 格式和自然语言格式，无法直接 df['date'].dt.month
    # ==========================================
    df_dates = pd.DataFrame({
        "transaction_id": [101, 102, 103, 104, 105],
        "date_str": ["2023-01-15", "2023-02-20", "March 5, 2023", "2023/04/10", "May 1st, 2023"],
        "sales": [100, 200, 150, 300, 250]
    })
    df_dates.to_csv("bench_dates.csv", index=False)
    print("✅ bench_dates.csv 生成完毕 (测试日期格式统一)")

    # ==========================================
    # 场景 3: 物理单位混合
    # 挑战: 数字后面带着 'kg', 'm' 等单位
    # ==========================================
    df_units = pd.DataFrame({
        "item_id": ["X1", "X2", "X3", "X4"],
        "weight_val": ["10kg", "50kg", "20", "100kg"], # 注意 20 没有单位
        "price": [10, 50, 20, 100]
    })
    df_units.to_csv("bench_units.csv", index=False)
    print("✅ bench_units.csv 生成完毕 (测试去除单位后缀)")

if __name__ == "__main__":
    generate_benchmark_files()

>>> 正在生成基准测试数据集...
✅ bench_currency.csv 生成完毕 (测试货币符号清洗)
✅ bench_dates.csv 生成完毕 (测试日期格式统一)
✅ bench_units.csv 生成完毕 (测试去除单位后缀)
