Модуль выполняет предобработку речевых аудиоданных, в данном случае извлекается спектрограмма из исходной аудиодорожки. Команда для запуска предобработки речевых аудиоданных:
openav_preprocess_audio --config <путь_к_вашему_конфигурационному_файлу>.yaml
Important
Для запуска команды необходимо обязательно указать путь к конфигурационному файлу. Запускать программу необходимо из директории, где она расположена.
Конфигурационный файл включает в себя следующие настройки:
- Отображение процесса выполнения программы в терминале (командной строке)
- Работа с файловой системой
- Параметры предобработки речевых аудиоданных
config-link
Пример конфигурационного файла
custom-table shell-table
Параметр | Тип | Значение по умолчанию | Описание |
---|---|---|---|
hide_metadata | bool | false |
Включение отображения метаданных |
hide_libs_vers | bool | false |
Включение отображения версий установленных библиотек в командной строке |
custom-table filesystem-table
Параметр | Тип | Значение по умолчанию | Описание |
---|---|---|---|
path_to_dataset | str | <путь_к_исходным_данным> |
Директория, где находятся данные, которые необходимо загрузить или проверить |
path_to_dataset_audio | str | <путь_к_конечным_данным> |
Директория, в которую будут сохраняться аудиоданные после предобработки |
depth | int | 1 |
Глубина иерархии для получения данных. Указывается количество подкаталогов в директории path_to_dataset |
ext_search_files | list | ["mov", "mp4", "webm", "wav"] |
Список расширений файлов, которые будут обрабатываться. Указывать можно как для видео, так и для аудио |
clear_dir_audio | bool | true |
Предварительная очистка директории с предобработанными аудиоданными |
save_raw_data | bool | true |
Сохранение данных в формате numpy |
custom-table vad-table
Параметр | Тип | Значение по умолчанию | Описание |
---|---|---|---|
sampling_rate | int | 16000 |
Частота дискретизации аудиосигнала. Доступные значения 16000; 22050; 44100; 48000 |
n_fft | int | 2048 |
Размер параметра FFT, создает n_fft // 2 + 1 бин. Допустимы значения в пределе от 256 до 2048 |
hop_length | int | 512 |
Длина перехода между окнами STFT. Допустимы значения в пределе от 64 до 512 |
n_mels | int | 128 |
Количество фильтроблоков mel. Допустимы значения в пределе от 20 до 512 |
power | float | 2.0 |
Показатель степени магнитудной спектрограммы. Должен быть либо 1.0 , либо 2.0 |
center | bool | true |
Включение установки отступов с обеих сторон относительно центральной части аудиодорожки |
pad_mode | str | reflect |
Управление оступами, применяется когда значение параметра center = True . Доступные значения constant, reflect, replicate, circular . По умолчанию reflect |
norm | str | slaney |
Нормализация площади. Отношение треугольных мел-весов к ширине мел-зоны |
dpi | int | 600 |
Качество изображения спектрограммы. Доступные значения 72; 96; 150; 300; 600; 1200 |
color_gradients | str | magma |
Выбор цветовой схемы итогового изображения спектрограммы. Доступные значения viridis, plasma, inferno, magma, cividis |