Skip to content

Latest commit

 

History

History
79 lines (57 loc) · 5.82 KB

audio_preprocessing.rst

File metadata and controls

79 lines (57 loc) · 5.82 KB

Модуль предобработки речевых аудиоданных

Модуль выполняет предобработку речевых аудиоданных, в данном случае извлекается спектрограмма из исходной аудиодорожки. Команда для запуска предобработки речевых аудиоданных:

openav_preprocess_audio --config <путь_к_вашему_конфигурационному_файлу>.yaml

Important

Для запуска команды необходимо обязательно указать путь к конфигурационному файлу. Запускать программу необходимо из директории, где она расположена.

Конфигурационный файл

Конфигурационный файл включает в себя следующие настройки:

  • Отображение процесса выполнения программы в терминале (командной строке)
  • Работа с файловой системой
  • Параметры предобработки речевых аудиоданных

config-link

Пример конфигурационного файла

Отображение процесса выполнения команды в терминале

custom-table shell-table

Параметр Тип Значение по умолчанию Описание
hide_metadata bool false Включение отображения метаданных
hide_libs_vers bool false Включение отображения версий установленных библиотек в командной строке

Работа с файловой системой

custom-table filesystem-table

Параметр Тип Значение по умолчанию Описание
path_to_dataset str <путь_к_исходным_данным> Директория, где находятся данные, которые необходимо загрузить или проверить
path_to_dataset_audio str <путь_к_конечным_данным> Директория, в которую будут сохраняться аудиоданные после предобработки
depth int 1 Глубина иерархии для получения данных. Указывается количество подкаталогов в директории path_to_dataset
ext_search_files list ["mov", "mp4", "webm", "wav"] Список расширений файлов, которые будут обрабатываться. Указывать можно как для видео, так и для аудио
clear_dir_audio bool true Предварительная очистка директории с предобработанными аудиоданными
save_raw_data bool true Сохранение данных в формате numpy

Параметры предобработки речевых аудиоданных

custom-table vad-table

Параметр Тип Значение по умолчанию Описание
sampling_rate int 16000 Частота дискретизации аудиосигнала. Доступные значения 16000; 22050; 44100; 48000
n_fft int 2048 Размер параметра FFT, создает n_fft // 2 + 1 бин. Допустимы значения в пределе от 256 до 2048
hop_length int 512 Длина перехода между окнами STFT. Допустимы значения в пределе от 64 до 512
n_mels int 128 Количество фильтроблоков mel. Допустимы значения в пределе от 20 до 512
power float 2.0 Показатель степени магнитудной спектрограммы. Должен быть либо 1.0, либо 2.0
center bool true Включение установки отступов с обеих сторон относительно центральной части аудиодорожки
pad_mode str reflect Управление оступами, применяется когда значение параметра center = True. Доступные значения constant, reflect, replicate, circular. По умолчанию reflect
norm str slaney Нормализация площади. Отношение треугольных мел-весов к ширине мел-зоны
dpi int 600 Качество изображения спектрограммы. Доступные значения 72; 96; 150; 300; 600; 1200
color_gradients str magma Выбор цветовой схемы итогового изображения спектрограммы. Доступные значения viridis, plasma, inferno, magma, cividis