Datasets Toolbox

A toolbox for creating, processing and inspecting audio/image datasets through a simple CLI interface.

Installation

pip install datasets-toolbox

Usage

The goal of datasets-toolbox is to build audio/image datasets with CLI.

All the commands support --config [config-name] and --split [split-name] options to specified the target. Where config-name is the configuration name (e.g. language) and split-name is something like train, validation, test.

Add More Data

datasets import --config [data] --split [train] <sources>

Import data into datasets structure.

If the configuration/split is not configured, will defaults to default configuration and train split.

Modify Dataset

datasets modify <action> --config [data] --split [train] --other-params

If the configuration/split is not configured, will defaults to recursively run on all configurations and all splits.

Audio Slicer

datasets modify slice --config [data] --split [train] --min-length [ms] --hop-size [n]

Audio Resample

datasets modify resample --config [data] --split [train] --sr [16000] --mono

Audio Transcription

datasets modify transcribe --model [openai/whisper-large-v3-turbo]'

Inspect Dataset

datasets inspect --config [data] --split [train] --other-params

If the configuration/split is not configured, will defaults to recursively run on all configurations and all splits.

Audio Hours

datasets inspect hours --config [data] --split [train]

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
src/datasets_toolbox		src/datasets_toolbox
.gitattributes		.gitattributes
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
pyproject.toml		pyproject.toml
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Datasets Toolbox

Installation

Usage

Add More Data

Modify Dataset

Audio Slicer

Audio Resample

Audio Transcription

Inspect Dataset

Audio Hours

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Datasets Toolbox

Installation

Usage

Add More Data

Modify Dataset

Audio Slicer

Audio Resample

Audio Transcription

Inspect Dataset

Audio Hours

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages