Модуль предобработки речевых аудиоданных

Модуль выполняет предобработку речевых аудиоданных, в данном случае извлекается спектрограмма из исходной аудиодорожки. Команда для запуска предобработки речевых аудиоданных:

openav_preprocess_audio --config <путь_к_вашему_конфигурационному_файлу>.yaml

Important

Для запуска команды необходимо обязательно указать путь к конфигурационному файлу. Запускать программу необходимо из директории, где она расположена.

Конфигурационный файл

Конфигурационный файл включает в себя следующие настройки:

Отображение процесса выполнения программы в терминале (командной строке)
Работа с файловой системой
Параметры предобработки речевых аудиоданных

config-link

Пример конфигурационного файла

Отображение процесса выполнения команды в терминале

custom-table shell-table

Параметр	Тип	Значение по умолчанию	Описание
hide_metadata	bool	`false`	Включение отображения метаданных
hide_libs_vers	bool	`false`	Включение отображения версий установленных библиотек в командной строке

Работа с файловой системой

custom-table filesystem-table

Параметр	Тип	Значение по умолчанию	Описание
path_to_dataset	str	`<путь_к_исходным_данным>`	Директория, где находятся данные, которые необходимо загрузить или проверить
path_to_dataset_audio	str	`<путь_к_конечным_данным>`	Директория, в которую будут сохраняться аудиоданные после предобработки
depth	int	`1`	Глубина иерархии для получения данных. Указывается количество подкаталогов в директории `path_to_dataset`
ext_search_files	list	`["mov", "mp4",` `"webm", "wav"]`	Список расширений файлов, которые будут обрабатываться. Указывать можно как для видео, так и для аудио
clear_dir_audio	bool	`true`	Предварительная очистка директории с предобработанными аудиоданными
save_raw_data	bool	`true`	Сохранение данных в формате numpy

Параметры предобработки речевых аудиоданных

custom-table vad-table

Параметр	Тип	Значение по умолчанию	Описание
sampling_rate	int	`16000`	Частота дискретизации аудиосигнала. Доступные значения `16000; 22050; 44100; 48000`
n_fft	int	`2048`	Размер параметра FFT, создает `n_fft // 2 + 1` бин. Допустимы значения в пределе от `256` до `2048`
hop_length	int	`512`	Длина перехода между окнами STFT. Допустимы значения в пределе от `64` до `512`
n_mels	int	`128`	Количество фильтроблоков mel. Допустимы значения в пределе от `20` до `512`
power	float	`2.0`	Показатель степени магнитудной спектрограммы. Должен быть либо `1.0`, либо `2.0`
center	bool	`true`	Включение установки отступов с обеих сторон относительно центральной части аудиодорожки
pad_mode	str	`reflect`	Управление оступами, применяется когда значение параметра `center = True`. Доступные значения `constant, reflect, replicate, circular`. По умолчанию `reflect`
norm	str	`slaney`	Нормализация площади. Отношение треугольных мел-весов к ширине мел-зоны
dpi	int	`600`	Качество изображения спектрограммы. Доступные значения `72; 96; 150; 300; 600; 1200`
color_gradients	str	`magma`	Выбор цветовой схемы итогового изображения спектрограммы. Доступные значения `viridis, plasma, inferno, magma, cividis`

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

audio_preprocessing.rst

audio_preprocessing.rst

Модуль предобработки речевых аудиоданных

Конфигурационный файл

Отображение процесса выполнения команды в терминале

Работа с файловой системой

Параметры предобработки речевых аудиоданных

Files

audio_preprocessing.rst

Latest commit

History

audio_preprocessing.rst

File metadata and controls

Модуль предобработки речевых аудиоданных

Конфигурационный файл

Отображение процесса выполнения команды в терминале

Работа с файловой системой

Параметры предобработки речевых аудиоданных