In [9]:
import pandas as pd


In [10]:
# 包含有效ID的文本文件名
progress_file = 'progress.txt'

# 包含岛屿数据的CSV文件名
csv_file = 'cluster_island_full.csv'

# CSV文件中包含岛屿ID的列的名称 (!!请务必修改为你的实际列名!!)
id_column_name = 'ID'

# 处理后输出的新CSV文件名
output_file = 'filtered_island_255.csv'
# -----------------------------------------


try:
    # 1. 读取 progress.txt 文件中的ID
    #    - .strip() 去除每行首尾的空格或换行符
    #    - .split('.')[0] 以小数点分割，并取第一部分 (例如 '72234.0' -> '72234')
    #    - 使用 set 存储ID，便于快速查找
    with open(progress_file, 'r') as f:
        valid_ids_set = {line.strip().split('.')[0] for line in f}
    print(f"成功从 {progress_file} 读取 {len(valid_ids_set)} 个有效ID。")

    # 2. 读取 island.csv 文件
    #    - 使用 dtype={id_column_name: str} 强制将ID列作为字符串读取
    #    - 这是关键一步，可以避免因数据类型不同导致的匹配失败
    df = pd.read_csv(csv_file, dtype={id_column_name: str})
    print(f"成功读取 {csv_file}，共 {len(df)} 行数据。")

    # 3. 筛选数据
    #    - .str.split('.').str[0] 对CSV中的ID也进行和txt中ID同样的处理
    #    - .isin(valid_ids_set) 判断处理后的ID是否存在于有效ID集合中
    filtered_df = df[df[id_column_name].str.split('.').str[0].isin(valid_ids_set)]
    print(f"筛选完成，找到 {len(filtered_df)} 行匹配的数据。")


    # 4. 将筛选结果保存到新文件
    filtered_df.to_csv(output_file, index=False)
    print(f"结果已成功保存到 {output_file} 文件中。")

except FileNotFoundError as e:
    print(f"错误：找不到文件 {e.filename}。请检查文件名是否正确，以及文件是否和脚本在同一目录下。")
except KeyError:
    print(f"错误：在CSV文件中找不到名为 '{id_column_name}' 的列。")
    print(f"请打开 {csv_file} 文件，确认包含岛屿ID的列名，并修改脚本中的 'id_column_name' 变量。")
except Exception as e:
    print(f"发生未知错误: {e}")

成功从 progress.txt 读取 1898 个有效ID。
成功读取 cluster_island_full.csv，共 267 行数据。
筛选完成，找到 255 行匹配的数据。
结果已成功保存到 filtered_island_255.csv 文件中。
