In [1]:
import os
import shutil
from sklearn.model_selection import train_test_split

# 设置大文件夹路径和目标文件夹
dataset_dir = "segment_data"  # 主文件夹路径
train_dir = "train_data"      # 训练集存放路径
val_dir = "val_data"          # 验证集存放路径

# 创建训练集和验证集文件夹
os.makedirs(train_dir, exist_ok=True)
os.makedirs(val_dir, exist_ok=True)

# 获取所有类别的文件夹
categories = [f for f in os.listdir(dataset_dir) if os.path.isdir(os.path.join(dataset_dir, f))]

# 遍历每个类别文件夹
for category in categories:
    category_path = os.path.join(dataset_dir, category)

    # 获取该类别下的所有 .npy 文件
    files = [f for f in os.listdir(category_path) if f.endswith('.npy')]
    
    # 划分训练集和验证集（80% 训练集，20% 验证集）
    train_files, val_files = train_test_split(files, test_size=0.2, random_state=42)
    
    # 为每个类别创建训练集和验证集文件夹
    category_train_dir = os.path.join(train_dir, category)
    category_val_dir = os.path.join(val_dir, category)
    os.makedirs(category_train_dir, exist_ok=True)
    os.makedirs(category_val_dir, exist_ok=True)

    # 将训练集文件移动到 train 文件夹中
    for file in train_files:
        source_path = os.path.join(category_path, file)
        dest_path = os.path.join(category_train_dir, file)
        shutil.copy(source_path, dest_path)

    # 将验证集文件移动到 val 文件夹中
    for file in val_files:
        source_path = os.path.join(category_path, file)
        dest_path = os.path.join(category_val_dir, file)
        shutil.copy(source_path, dest_path)

    print(f"类别 {category} 数据划分完成：")
    print(f"  训练集样本数: {len(train_files)}")
    print(f"  验证集样本数: {len(val_files)}")

print("数据集划分完成！")

类别 point down 数据划分完成：
  训练集样本数: 1549
  验证集样本数: 388
类别 point up 数据划分完成：
  训练集样本数: 1123
  验证集样本数: 281
类别 paml 数据划分完成：
  训练集样本数: 3300
  验证集样本数: 825
类别 point left 数据划分完成：
  训练集样本数: 2263
  验证集样本数: 566
类别 two 数据划分完成：
  训练集样本数: 3098
  验证集样本数: 775
类别 fist 数据划分完成：
  训练集样本数: 3281
  验证集样本数: 821
类别 point right 数据划分完成：
  训练集样本数: 2503
  验证集样本数: 626
数据集划分完成！
