Skip to content

vitalets/hakathon-speech-recognition

Repository files navigation

hakathon-speech-recognition

Бэкенд для задачи СИСТЕМА АВТОПРОТОКОЛИРОВАНИЯ КОНФЕРЕНЦИЙ В ОНЛАЙН РЕЖИМЕ.

Команда: Voice Team

Архитектура и схема работы

  1. Клиент загружает аудиофайл напрямую в Google Storage (бэкенд не участвует)
  2. После загрузки клиент вызывает на бэкенде функцию startRecognition, передав имя файла для распознавания. В ответ получает operationId.
  3. Имея operationId, клиент запускает цикл проверки статуса операции - раз в секунду вызывает функцию checkOperation. В ответ получает статус и процент распознавания.
  4. Когда распознавание завершено, бэкенд получает массив слов и производит несколько автоматических улучшений - файл src/improve.ts:
    • удаление мусора
    • расстановка пунктуации (отдельный микросервис)
    • корректировка разбивки по спикерам
    • корректировка верхнего/нижнего регистра
  5. После улучшений бэкенд формирует docx документ, разбивая по спикерам и помечая цветом фразы с низким уровнем уверенности - файл src/docx.ts. Созданный docx загружается на Google Storage, а ссылка отдается клиенту.
  6. Клиент показывает пользователю ссылку для скачивания.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Sponsor this project

 

Packages

No packages published