# 划分训练集和测试集

张子豪 2023-4-16

In [1]:
import os
import shutil
import random
from tqdm import tqdm

In [2]:
Dataset_root = 'SJB_25_Dataset'

In [3]:
os.chdir(os.path.join(Dataset_root, 'images'))

In [4]:
os.listdir()

['DSC_0219.jpg',
 'DSC_0209.jpg',
 'DSC_0236.jpg',
 'DSC_0293.jpg',
 'DSC_0245.jpg',
 'DSC_0278.jpg',
 'MVIMG_20230331_080908.jpg',
 'MVIMG_20230331_080920.jpg',
 'DSC_0285.jpg',
 'DSC_0284.jpg',
 'DSC_0280.jpg',
 'DSC_0281.jpg',
 'DSC_0240.jpg',
 'DSC_0283.jpg',
 'DSC_0269.jpg',
 'DSC_0282.jpg',
 'DSC_0259.jpg',
 'MVIMG_20230331_080914.jpg',
 'MVIMG_20230331_080915.jpg',
 'DSC_0289.jpg',
 'DSC_0260.jpg',
 'DSC_0274.jpg',
 'DSC_0301.jpg',
 'DSC_0265.jpg',
 'MVIMG_20230331_080912.jpg']

## 划分训练集、测试集

In [5]:
test_frac = 0.2  # 测试集比例
random.seed(123) # 随机数种子，便于复现

In [6]:
folder = '.'

In [7]:
img_paths = os.listdir(folder)
random.shuffle(img_paths) # 随机打乱

val_number = int(len(img_paths) * test_frac) # 测试集文件个数
train_files = img_paths[val_number:]         # 训练集文件名列表
val_files = img_paths[:val_number]           # 测试集文件名列表

print('数据集文件总数', len(img_paths))
print('训练集文件个数', len(train_files))
print('测试集文件个数', len(val_files))

数据集文件总数 25
训练集文件个数 20
测试集文件个数 5


## 将训练集图像移动到`images/trian`目录

In [8]:
os.mkdir('train')
for each in tqdm(train_files):
    shutil.move(each, 'train')

100%|██████████| 20/20 [00:00<00:00, 1443.72it/s]


## 将测试集图像移动到`images/val`目录

In [9]:
os.mkdir('val')
for each in tqdm(val_files):
    shutil.move(each, 'val')

100%|██████████| 5/5 [00:00<00:00, 873.01it/s]


## 将训练集标注移动到`labelme_jsons/train`目录

In [10]:
os.chdir('../labelme_jsons')

In [11]:
os.mkdir('train')
for each in tqdm(train_files):
    srt_path = each.split('.')[0] + '.json'
    shutil.move(srt_path, 'train')

100%|██████████| 20/20 [00:00<00:00, 1320.08it/s]


## 将测试集标注移动到`labelme_jsons/val`目录

In [12]:
os.mkdir('val')
for each in tqdm(val_files):
    srt_path = each.split('.')[0] + '.json'
    shutil.move(srt_path, 'val')

100%|██████████| 5/5 [00:00<00:00, 663.87it/s]


In [13]:
os.chdir('../../')

## 删除系统自动生成的多余文件

### 查看待删除的多余文件

In [14]:
!find . -iname '__MACOSX'

In [15]:
!find . -iname '.DS_Store'

In [16]:
!find . -iname '.ipynb_checkpoints'

./.ipynb_checkpoints


### 删除多余文件

In [17]:
!for i in `find . -iname '__MACOSX'`; do rm -rf $i;done

In [18]:
!for i in `find . -iname '.DS_Store'`; do rm -rf $i;done

In [19]:
!for i in `find . -iname '.ipynb_checkpoints'`; do rm -rf $i;done

### 验证多余文件已删除

In [20]:
!find . -iname '__MACOSX'

In [21]:
!find . -iname '.DS_Store'

In [22]:
!find . -iname '.ipynb_checkpoints'

## 查看数据集目录结构

In [23]:
# !pip install seedir emoji

In [24]:
import seedir as sd
sd.seedir('SJB_25_Dataset', style='emoji', depthlimit=2)

📁 SJB_25_Dataset/
├─📁 images/
│ ├─📁 train/
│ └─📁 val/
└─📁 labelme_jsons/
  ├─📁 train/
  └─📁 val/
