Информация о проекте Данный проект основан на работе NVIDIA https://arxiv.org/abs/2005.05514 «TalkNet: Fully-Convolutional Non-Autoregressive Speech Synthesis Model» за авторством Stanislav Beliaev, Yurii Rebryk, Boris Ginsburg. TalkNet это свёрточная неавторегрессионная нейронная модель для синтеза речи. Модель состоит из двух сверточных сетей с прямой связью.
Данный проект создает практически неотличимый от настоящей речи искусственную запись речи. Это может быть весьма удобно для начитки текста дикторам, издательствам аудиокниг и конечно же, для студентов. Кроме этого это может весьма помочь людям c ограниченными возможностями.
Конечная реализация будет в таком виде: На сервере будет развернуто веб-приложение на основе (flask or smth) где можно будет ввести текст и выбрать требуемый голос для генерации. После ввода текст будет передан на вход модуля нейронной сети, обученной на воспроизведение наших голосов. В результате будет выдаваться .mp3 или .wav файл, который можно будет воспроизвести на самом сайте или же скачать для дальнейшего использования.
WIP: На неделе постараюсь закончить.