# 划分训练集和测试集

张子豪 2023-2-22

In [1]:
import os
import shutil
import random

from tqdm import tqdm

In [2]:
Dataset_root = 'SJB_25_Dataset'

In [3]:
os.chdir(os.path.join(Dataset_root, 'labelme_jsons'))

In [4]:
print('共有 {} 个 labelme 格式的 json 文件'.format(len(os.listdir())))

共有 25 个 labelme 格式的 json 文件


## 删除系统自动生成的多余文件

### 查看待删除的多余文件

In [5]:
!find . -iname '__MACOSX'

In [6]:
!find . -iname '.DS_Store'

In [7]:
!find . -iname '.ipynb_checkpoints'

### 删除多余文件

In [8]:
!for i in `find . -iname '__MACOSX'`; do rm -rf $i;done

In [9]:
!for i in `find . -iname '.DS_Store'`; do rm -rf $i;done

In [10]:
!for i in `find . -iname '.ipynb_checkpoints'`; do rm -rf $i;done

### 验证多余文件已删除

In [11]:
!find . -iname '__MACOSX'

In [12]:
!find . -iname '.DS_Store'

In [13]:
!find . -iname '.ipynb_checkpoints'

## 划分训练集、测试集

In [14]:
test_frac = 0.2  # 测试集比例
random.seed(123) # 随机数种子，便于复现

In [15]:
folder = '.'

In [16]:
img_paths = os.listdir(folder)
random.shuffle(img_paths) # 随机打乱

val_number = int(len(img_paths) * test_frac) # 测试集文件个数
train_files = img_paths[val_number:]         # 训练集文件名列表
val_files = img_paths[:val_number]           # 测试集文件名列表

print('数据集文件总数', len(img_paths))
print('训练集文件个数', len(train_files))
print('测试集文件个数', len(val_files))

数据集文件总数 25
训练集文件个数 20
测试集文件个数 5


## 将训练集json文件移动到`train_labelme_jsons`文件夹

In [17]:
# 创建文件夹，存放训练集的 labelme格式的 json 标注文件
train_labelme_jsons_folder = 'train_labelme_jsons'
os.mkdir(train_labelme_jsons_folder)

In [18]:
for each in tqdm(train_files):
    src_path = os.path.join(folder, each)
    dst_path = os.path.join(train_labelme_jsons_folder, each)
    shutil.move(src_path, dst_path)

100%|██████████| 20/20 [00:00<00:00, 1832.81it/s]


## 将测试集json文件移动到`val_labelme_jsons`文件夹

In [19]:
# 创建文件夹，存放训练集的 labelme格式的 json 标注文件
val_labelme_jsons_folder = 'val_labelme_jsons'
os.mkdir(val_labelme_jsons_folder)

In [20]:
for each in tqdm(val_files):
    src_path = os.path.join(folder, each)
    dst_path = os.path.join(val_labelme_jsons_folder, each)
    shutil.move(src_path, dst_path)

100%|██████████| 5/5 [00:00<00:00, 1476.14it/s]


In [21]:
len(os.listdir(train_labelme_jsons_folder)) + len(os.listdir(val_labelme_jsons_folder))

25

In [22]:
os.chdir('../../')

## 删除系统自动生成的多余文件

### 查看待删除的多余文件

In [23]:
!find . -iname '__MACOSX'

In [24]:
!find . -iname '.DS_Store'

In [25]:
!find . -iname '.ipynb_checkpoints'

./【C】Labelme转COCO-单个文件/.ipynb_checkpoints
./.ipynb_checkpoints


### 删除多余文件

In [26]:
!for i in `find . -iname '__MACOSX'`; do rm -rf $i;done

In [27]:
!for i in `find . -iname '.DS_Store'`; do rm -rf $i;done

In [28]:
!for i in `find . -iname '.ipynb_checkpoints'`; do rm -rf $i;done

### 验证多余文件已删除

In [29]:
!find . -iname '__MACOSX'

In [30]:
!find . -iname '.DS_Store'

In [31]:
!find . -iname '.ipynb_checkpoints'

## 查看数据集目录结构

In [33]:
import seedir as sd
sd.seedir('SJB_25_Dataset', style='emoji', depthlimit=3)

📁 SJB_25_Dataset/
├─📁 images/
│ ├─📄 DSC_0219.jpg
│ ├─📄 DSC_0209.jpg
│ ├─📄 DSC_0236.jpg
│ ├─📄 DSC_0293.jpg
│ ├─📄 DSC_0245.jpg
│ ├─📄 DSC_0278.jpg
│ ├─📄 MVIMG_20230331_080908.jpg
│ ├─📄 MVIMG_20230331_080920.jpg
│ ├─📄 DSC_0285.jpg
│ ├─📄 DSC_0284.jpg
│ ├─📄 DSC_0280.jpg
│ ├─📄 DSC_0281.jpg
│ ├─📄 DSC_0240.jpg
│ ├─📄 DSC_0283.jpg
│ ├─📄 DSC_0269.jpg
│ ├─📄 DSC_0282.jpg
│ ├─📄 DSC_0259.jpg
│ ├─📄 MVIMG_20230331_080914.jpg
│ ├─📄 MVIMG_20230331_080915.jpg
│ ├─📄 DSC_0289.jpg
│ ├─📄 DSC_0260.jpg
│ ├─📄 DSC_0274.jpg
│ ├─📄 DSC_0301.jpg
│ ├─📄 DSC_0265.jpg
│ └─📄 MVIMG_20230331_080912.jpg
└─📁 labelme_jsons/
  ├─📁 train_labelme_jsons/
  │ ├─📄 DSC_0283.json
  │ ├─📄 DSC_0293.json
  │ ├─📄 DSC_0301.json
  │ ├─📄 DSC_0284.json
  │ ├─📄 MVIMG_20230331_080908.json
  │ ├─📄 DSC_0259.json
  │ ├─📄 DSC_0289.json
  │ ├─📄 MVIMG_20230331_080914.json
  │ ├─📄 DSC_0209.json
  │ ├─📄 MVIMG_20230331_080912.json
  │ ├─📄 DSC_0285.json
  │ ├─📄 DSC_0278.json
  │ ├─📄 DSC_0281.json
  │ ├─📄 MVIMG_20230331_080915.json
  │ ├─📄 DSC_0240.json
  