Telegram Бот для сбора голосового датасета

Задача:
Собрать датасет голосового ввода для обучения нейронной сети по распознаванию голоса

Результаты:
Разработан Telegram бот разбивающий входной файл на короткие фразы и предоставляющий их пользователю для озвучивания. Все голосовые сообщения сохраняются в папку Data в формате .WAV (Данный формат требовался на выходе для обучения уже готовой нейронной сети). Так же для удобства дальнейшего использования все файлы собраны в таблицу, которая хранит длительность, путь к файлу и расшифровку. После требуется лишь прочитать manifest.csv и собрать из этого Tensorflow.Dataset. Так же реализовано сохранение прогресса пользователя, что позволяет не держать бота всегда включенным, а включать лишь по требованию.

Внедрение:
Бот опробован и с его помощью уже успешно собран Датасет из 400 наименований, пополнивший открытый Датасет.

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
images		images
.gitignore		.gitignore
README.md		README.md
Recording.py		Recording.py
TelegramBot.py		TelegramBot.py
habr.md		habr.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Telegram Бот для сбора голосового датасета

About

Releases

Packages

Languages

TripleAVerAlpha/telegram_collecting_information

Folders and files

Latest commit

History

Repository files navigation

Telegram Бот для сбора голосового датасета

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages