# 采用分层采用从50k数据集中采样10k的数据集

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split

# 定义输入和输出文件路径
input_path = '/data/wsi/TCTGC50k-labels/6_labels/TCTGC50k-v15-all.csv'
output_path = '/data/wsi/TCTGC10k-labels/6_labels/TCTGC20k-v15-all.csv'

try:
    # 读取CSV文件
    df = pd.read_csv(input_path)

    # 进行分层采样
    # 我们设置 train_size=10000 来获取10000个样本
    sampled_df, _ = train_test_split(
        df,
        train_size=20025,
        stratify=df['wsi_label'],
        random_state=42  # 设置随机种子以保证结果可复现
    )

    # 将采样后的数据保存到新的CSV文件
    sampled_df.to_csv(output_path, index=False)

    print(f"成功从 '{input_path}' 采样10,000条数据，并保存到 '{output_path}'。")
    print("\n采样数据的前5行:")
    print(sampled_df.head())
    print(f"\n原始数据中 'wsi_label' 的分布:\n{df['wsi_label'].value_counts(normalize=True)}")
    print(f"\n采样数据中 'wsi_label' 的分布:\n{sampled_df['wsi_label'].value_counts(normalize=True)}")

except FileNotFoundError:
    print(f"错误: 文件 '{input_path}' 未找到。请检查文件路径是否正确。")
except Exception as e:
    print(f"发生错误: {e}")

成功从 '/data/wsi/TCTGC50k-labels/6_labels/TCTGC50k-v15-all.csv' 采样10,000条数据，并保存到 '/data/wsi/TCTGC10k-labels/6_labels/TCTGC20k-v15-all.csv'。

采样数据的前5行:
          id          wsi_name wsi_label  \
7076   24026  xCR20018578-NILM      nilm   
32531  32968     T-SZ230111021      nilm   
15924  10395   CX21204608-NILM      nilm   
18461  13541          L2009647      nilm   
3165   35613        CX20107883      asch   

                                                wsi_path  
7076   /data/wsi/TCTGC50k/TCTGC50k-volume1/xCR2001857...  
32531  /data/wsi/TCTGC50k/TCTGC50k-volume4/T-SZ230111021  
15924  /data/wsi/TCTGC50k/TCTGC50k-volume2/CX21204608...  
18461       /data/wsi/TCTGC50k/TCTGC50k-volume3/L2009647  
3165      /data/wsi/TCTGC50k/TCTGC50k-volume1/CX20107883  

原始数据中 'wsi_label' 的分布:
nilm     0.699127
ascus    0.126468
lsil     0.100840
asch     0.034051
hsil     0.027966
agc      0.011549
Name: wsi_label, dtype: float64

采样数据中 'wsi_label' 的分布:
nilm     0.699126
ascus    0.126492
lsil    

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split

# 定义输入文件和输出文件的路径
input_path = '/data/wsi/TCTGC10k-labels/6_labels/TCTGC20k-v15-all.csv'
train_output_path = '/data/wsi/TCTGC10k-labels/6_labels/TCTGC20k-v15-train.csv'
val_output_path = '/data/wsi/TCTGC10k-labels/6_labels/TCTGC20k-v15-val.csv' # 新增验证集路径
test_output_path = '/data/wsi/TCTGC10k-labels/6_labels/TCTGC20k-v15-test.csv'

try:
    # 读取数据集文件
    df = pd.read_csv(input_path)
    train_val_df, test_df = train_test_split(
        df,
        test_size=0.2,
        stratify=df['wsi_label'], # 确保分层抽样
        random_state=42           # 确保划分结果可复现
    )

    val_size_relative = 0.1 / 0.8 
    train_df, val_df = train_test_split(
        train_val_df,
        test_size=val_size_relative, # 12.5% 作为验证集
        stratify=train_val_df['wsi_label'], # 确保分层抽样
        random_state=42 
    )

    # ----------------------------------------------------
    # 保存结果
    # ----------------------------------------------------
    # 将训练集、验证集和测试集分别保存到CSV文件
    train_df.to_csv(train_output_path, index=False)
    val_df.to_csv(val_output_path, index=False)
    test_df.to_csv(test_output_path, index=False)

    print(f"成功将 '{input_path}' 划分为 训练集(70%)、验证集(10%) 和 测试集(20%)。")
    print(f"训练集 ({len(train_df)}条) 已保存到: '{train_output_path}'")
    print(f"验证集 ({len(val_df)}条) 已保存到: '{val_output_path}'")
    print(f"测试集 ({len(test_df)}条) 已保存到: '{test_output_path}'")
    
    print("\n------------------ 数据分布检查 ------------------")
    print("\n原始数据集中 'wsi_label' 的分布:")
    print(df['wsi_label'].value_counts(normalize=True))
    print("\n训练集中 'wsi_label' 的分布 (应接近原始分布):")
    print(train_df['wsi_label'].value_counts(normalize=True))
    print("\n验证集中 'wsi_label' 的分布 (应接近原始分布):")
    print(val_df['wsi_label'].value_counts(normalize=True))
    print("\n测试集中 'wsi_label' 的分布 (应接近原始分布):")
    print(test_df['wsi_label'].value_counts(normalize=True))


except FileNotFoundError:
    print(f"错误: 输入文件 '{input_path}' 未找到。请先确保数据集文件存在。")
except Exception as e:
    print(f"发生错误: {e}")

成功将 '/data/wsi/TCTGC10k-labels/6_labels/TCTGC20k-v15-all.csv' 划分为 训练集(70%)、验证集(10%) 和 测试集(20%)。
训练集 (14017条) 已保存到: '/data/wsi/TCTGC10k-labels/6_labels/TCTGC20k-v15-train.csv'
验证集 (2003条) 已保存到: '/data/wsi/TCTGC10k-labels/6_labels/TCTGC20k-v15-val.csv'
测试集 (4005条) 已保存到: '/data/wsi/TCTGC10k-labels/6_labels/TCTGC20k-v15-test.csv'

------------------ 数据分布检查 ------------------

原始数据集中 'wsi_label' 的分布:
nilm     0.699126
ascus    0.126492
lsil     0.100824
asch     0.034057
hsil     0.027965
agc      0.011536
Name: wsi_label, dtype: float64

训练集中 'wsi_label' 的分布 (应接近原始分布):
nilm     0.699080
ascus    0.126489
lsil     0.100806
asch     0.034101
hsil     0.027966
agc      0.011557
Name: wsi_label, dtype: float64

验证集中 'wsi_label' 的分布 (应接近原始分布):
nilm     0.699451
ascus    0.126311
lsil     0.100849
asch     0.033949
hsil     0.027958
agc      0.011483
Name: wsi_label, dtype: float64

测试集中 'wsi_label' 的分布 (应接近原始分布):
nilm     0.699126
ascus    0.126592
lsil     0.100874
asch     0.033958
hsil     0