Skip to content

本工具可以将数据集进行切分,提供给PaddleX进行训练,后续可能会集成到PaddleX中

Notifications You must be signed in to change notification settings

mamingjie-China/split_dataset

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

32 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

split_dataset

该脚本主要用于对各类数据集进行切分,提供给进行训练,预计未来会集成到PaddleX中,欢迎大家使用PaddleX。 目前,已经支持ImageNet格式、COCO格式、VOC格式和Seg格式的数据集的切分,具体的数据格式见数据格式

按需安装以下依赖
pycocotools安装指导

下载

下载方法一

git clone https://github.com/mamingjie-China/split_dataset.git
cd split_dataset
git checkout develop

下载方法二

直接下载zip文件链接,解压缩后进入文件夹

使用方法

python split.py --form COCO --split_dataset dataset_path --val_percent 0.2 --test_percent 0.1

参数选项

参数
--form 数据集格式类型 (VOC、COCO、ImageNet、Seg)
--split_dataset 数据集文件夹的路径
--val_percent 验证集切分的比例(如0.2,不可为0)
--test_percent [可选] 测试集切分的比例(如0.1,可以为0)
--save_dir [可选] 切分生成的文件的路径(默认与数据集路径相同)

交流与反馈

About

本工具可以将数据集进行切分,提供给PaddleX进行训练,后续可能会集成到PaddleX中

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published