Skip to content

XySa/Double_Amir_Temur

Repository files navigation

В ходе разработки продукта были начаты работы по обучению языковой модели на базе архитектуры свёрточной нейронной сети MatchboxNet для реализации голосового интерфейса для навигации и взаимодействия с интерактивными экспонатами музея.
Разработка выполнялась с помощью интерактивной среды разработки Jupyter Notebook на мощностях сервиса для облачных вычислений Google Colab с применением решений из открытой библиотеки для задач обработки естественного языка и машинной лингвистики NVIDIA NeMo. 

В ходе решения этой задачи были использованы данные из датасета dataset_ttsuz.zip, а также дополнительно собраны образцы речевых данных у гостей хакатона. 
Выполнена предобработка, включающая ресемплинг и ручную разметку по отдельным словам для приведения данных в соответствие с выбранной архитектурой сети. 
Для окончания работ по данному направлению нам необходимо больше разнообразных голосовых данных, а также врмени для тренировки сети и тонкой настройки гиперпараметров модели. 
Завершение этого этапа позволит полностью перейти на голосовое взаимодействие с продуктом, что значительно улучшит и обогатит пользовательский опыт.

Использование ТТС 

Используется сервис tts.uz, к которому обращается запрос с указанием текста для перевода и получением в ответ файла в формате wav. 
Полученный файл озвучивается  во время представления экспозиции. 
В нашем проекте используются голосовые ролики на узбекском языке с текстами, относящимися к истории Узбекистана во время Амира Темура, созданные с помощью сервиса tts.uz 

Интеграция с голосовыми сервисами iVoice.
Потенциально возможна интеграция голосовых запросов с сервисом компании iVoice. 
Разработаны методы для передачи голосовых данных на платформу iVoice c целью получить обработанные текстовые данные. 
Данная интеграция находится в начале разработки и возможна для представления несколько позднее.

Описание по аватарам

Для воссоздания цифровых двойников исторических личностей мы используем мультимодальный подход, комбинируя технологии построения диалоговых систем, генерации текста, голоса и изображения методами машинного обучения.
Тренировка моделей на значительных объемах данных позволит создать аватаров, способных использовать предсказательные и аналитические способности для персонализации контента, изучать предпочтения пользователя в течение времени, предоставлять рекомендации и даже предугадывать потребности.
Применение этого подхода не ограничивается воссозаднием исторических персонажей, наши цифровые аватары могут использоваться в качестве личных ассистентов, которые представят вас или ваш бренд и помогут автоматизировать коммуникацию, учителей, которые персонализируют образовательный контент, чтобы учащиеся могли получать знания из уст того, кого им приятнее и интереснее слушать.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published