In [5]:
import os
from pathlib import Path
import pandas as pd

# 1) 源/临时文件
src = Path("../../../../data-hh/2025/2025-5/航班销售结果数据_2023-01-01_2025-07-01_encrypt.csv")
tmp = src.with_suffix(src.suffix + ".tmp")

# 2) 日期范围（含端点）
start = pd.Timestamp("2023-01-01")
end   = pd.Timestamp("2025-05-31")

# 3) 分块读取 -> 过滤 -> 写临时文件（不删除任何列）
if tmp.exists():
    tmp.unlink()
header_written = False

# 先探测列名，判断是否存在“索引列”
preview = pd.read_csv(src, nrows=0, encoding="utf-8-sig")   # 只读表头
cols = list(preview.columns)
# 如果首列看起来像历史“索引列”，记下来（仅用于解释，无需特殊处理；我们直接保留所有列即可）
# 常见名称：'Unnamed: 0'，或者原来导出的无意义首列名
maybe_index_col = cols[0] if cols and (cols[0] in ("Unnamed: 0", "", "index")) else None

for chunk in pd.read_csv(
    src,
    chunksize=200_000,
    encoding="utf-8-sig",
    # 关键点：不使用 usecols 过滤，**保留全部原列**
):
    # 解析日期列并筛选
    chunk["flt_date"] = pd.to_datetime(chunk["flt_date"], errors="coerce")
    out = chunk[(chunk["flt_date"] >= start) & (chunk["flt_date"] <= end)]

    # 原样写出（不写 pandas 的行索引，但**所有原CSV列**都会保留）
    out.to_csv(
        tmp,
        index=False,                   # 不额外写 pandas 行索引
        mode="a",
        header=not header_written,
        encoding="utf-8-sig"
    )
    header_written = True

# 4) 原子替换
os.replace(tmp, src)
print(f"已覆盖源文件：{src}")


已覆盖源文件：../../../../data-hh/2025/2025-5/航班销售结果数据_2023-01-01_2025-07-01_encrypt.csv
