Решил заняться данным проектом, так как не нашел хорошего инструментария по данному вопросу в общем доступе, и надеюсь хоть немного занять данную нишу
Большинство современных WWD сервисов стоят значительную сумму для использования, и для моего будущего приложения будет проще написать собственный функционал
Этот проект создан для обучения нейросети, которая будет использоваться в нашем голосовом ассистенте. В данном README мы опишем основные элементы этого проекта.
В этом github репозитории предоставляю инструменты для обучения нейросети, обработки аудиоданных и визуализации результатов, а так же скрипт на питоне, благодаря которому мы сможем использовать нашу нейросеть на практике.
В файле PreparingData.py написан простой функционал для создания аудиоданных для будущего обучения нейросети
В будующем планируется написать код для аугментации полученных таким образом данных, для увеличения выборки, путем накладывания шумов, растяжения и сжатия аудиозаписи, а так же других инструментов обработки аудиоданных
Мы обучаем простую LSTM нейросеть, которая будет обладать высокой скорость и низкой ресурсозатратностью Данные процедуры выполняются в jupyter notebook, в котором подробно описан каждый элемент ( файл .ipynb)
Также предоставляю инструмент, который можно использовать для интеграции обученной нейросети в будущее приложение. Этот инструмент позволяет в реальном времени отслеживать наличие WWD, с различным числом раз в секунду
Это соответственно файл testAudioBuffer.py, а так же прочие файлы, созданы для того что бы убедиться в его работоспобоности
Удачи с обучением нейросети ! 🚀🗣️