In [1]:
import os
import shutil
import random
import pandas as pd

In [2]:
# 指定数据集路径
dataset_path = 'dataset'

In [3]:
dataset_name = dataset_path.split('_')[0]
print('数据集', dataset_name)


数据集 dataset


In [4]:
classes = os.listdir(dataset_path)

In [5]:
len(classes)

26

In [6]:
classes

['衬衣',
 '毛衣',
 '长裤',
 '外套',
 't恤衫',
 '短裤',
 '长裙',
 '短裙',
 '鞋子',
 '生鲜',
 '快餐',
 '零食',
 '酱料',
 '饮品',
 '平板电脑',
 '笔记本电脑',
 '手机',
 '有线耳机',
 '无线耳机',
 'MP3',
 '篮球',
 '.ipynb_checkpoints',
 '足球',
 '家具',
 '体育用品',
 '文具']

In [7]:
# 创建 train 文件夹
os.mkdir(os.path.join(dataset_path, 'train'))

# 创建 test 文件夹
os.mkdir(os.path.join(dataset_path, 'val'))

# 在 train 和 test 文件夹中创建各类别子文件夹
for data in classes:
    os.mkdir(os.path.join(dataset_path, 'train', data))
    os.mkdir(os.path.join(dataset_path, 'val', data))

In [8]:
test_frac = 0.2  # 测试集比例
random.seed(123) # 随机数种子，便于复现

In [9]:
df = pd.DataFrame()

print('{:^18} {:^18} {:^18}'.format('类别', '训练集数据个数', '测试集数据个数'))

for fruit in classes: # 遍历每个类别

    # 读取该类别的所有图像文件名
    old_dir = os.path.join(dataset_path, fruit)
    images_filename = os.listdir(old_dir)
    random.shuffle(images_filename) # 随机打乱

    # 划分训练集和测试集
    testset_numer = int(len(images_filename) * test_frac) # 测试集图像个数
    testset_images = images_filename[:testset_numer]      # 获取拟移动至 test 目录的测试集图像文件名
    trainset_images = images_filename[testset_numer:]     # 获取拟移动至 train 目录的训练集图像文件名

    # 移动图像至 test 目录
    for image in testset_images:
        old_img_path = os.path.join(dataset_path, fruit, image)         # 获取原始文件路径
        new_test_path = os.path.join(dataset_path, 'val', fruit, image) # 获取 test 目录的新文件路径
        shutil.move(old_img_path, new_test_path) # 移动文件

    # 移动图像至 train 目录
    for image in trainset_images:
        old_img_path = os.path.join(dataset_path, fruit, image)           # 获取原始文件路径
        new_train_path = os.path.join(dataset_path, 'train', fruit, image) # 获取 train 目录的新文件路径
        shutil.move(old_img_path, new_train_path) # 移动文件
    
    # 删除旧文件夹
    assert len(os.listdir(old_dir)) == 0 # 确保旧文件夹中的所有图像都被移动走
    shutil.rmtree(old_dir) # 删除文件夹
    
    # 工整地输出每一类别的数据个数
    print('{:^18} {:^18} {:^18}'.format(fruit, len(trainset_images), len(testset_images)))
    
    # 保存到表格中
    df = df.append({'class':fruit, 'trainset':len(trainset_images), 'testset':len(testset_images)}, ignore_index=True)

# 重命名数据集文件夹
shutil.move(dataset_path, dataset_name+'_split')

# 数据集各类别数量统计表格，导出为 csv 文件
df['total'] = df['trainset'] + df['testset']
df.to_csv('数据量统计.csv', index=False)

        类别              训练集数据个数            测试集数据个数      
        衬衣                161                 40        
        毛衣                161                 40        
        长裤                161                 40        
        外套                161                 40        
       t恤衫                161                 40        
        短裤                161                 40        
        长裙                162                 40        
        短裙                161                 40        
        鞋子                161                 40        
        生鲜                161                 40        
        快餐                161                 40        
        零食                161                 40        
        酱料                161                 40        
        饮品                161                 40        
       平板电脑               161                 40        
      笔记本电脑                92                 23        
        手机                162  

In [10]:
df

Unnamed: 0,class,trainset,testset,total
0,衬衣,161.0,40.0,201.0
1,毛衣,161.0,40.0,201.0
2,长裤,161.0,40.0,201.0
3,外套,161.0,40.0,201.0
4,t恤衫,161.0,40.0,201.0
5,短裤,161.0,40.0,201.0
6,长裙,162.0,40.0,202.0
7,短裙,161.0,40.0,201.0
8,鞋子,161.0,40.0,201.0
9,生鲜,161.0,40.0,201.0
