XySa/Double_Amir_Temur
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
В ходе разработки продукта были начаты работы по обучению языковой модели на базе архитектуры свёрточной нейронной сети MatchboxNet для реализации голосового интерфейса для навигации и взаимодействия с интерактивными экспонатами музея. Разработка выполнялась с помощью интерактивной среды разработки Jupyter Notebook на мощностях сервиса для облачных вычислений Google Colab с применением решений из открытой библиотеки для задач обработки естественного языка и машинной лингвистики NVIDIA NeMo. В ходе решения этой задачи были использованы данные из датасета dataset_ttsuz.zip, а также дополнительно собраны образцы речевых данных у гостей хакатона. Выполнена предобработка, включающая ресемплинг и ручную разметку по отдельным словам для приведения данных в соответствие с выбранной архитектурой сети. Для окончания работ по данному направлению нам необходимо больше разнообразных голосовых данных, а также врмени для тренировки сети и тонкой настройки гиперпараметров модели. Завершение этого этапа позволит полностью перейти на голосовое взаимодействие с продуктом, что значительно улучшит и обогатит пользовательский опыт. Использование ТТС Используется сервис tts.uz, к которому обращается запрос с указанием текста для перевода и получением в ответ файла в формате wav. Полученный файл озвучивается во время представления экспозиции. В нашем проекте используются голосовые ролики на узбекском языке с текстами, относящимися к истории Узбекистана во время Амира Темура, созданные с помощью сервиса tts.uz Интеграция с голосовыми сервисами iVoice. Потенциально возможна интеграция голосовых запросов с сервисом компании iVoice. Разработаны методы для передачи голосовых данных на платформу iVoice c целью получить обработанные текстовые данные. Данная интеграция находится в начале разработки и возможна для представления несколько позднее. Описание по аватарам Для воссоздания цифровых двойников исторических личностей мы используем мультимодальный подход, комбинируя технологии построения диалоговых систем, генерации текста, голоса и изображения методами машинного обучения. Тренировка моделей на значительных объемах данных позволит создать аватаров, способных использовать предсказательные и аналитические способности для персонализации контента, изучать предпочтения пользователя в течение времени, предоставлять рекомендации и даже предугадывать потребности. Применение этого подхода не ограничивается воссозаднием исторических персонажей, наши цифровые аватары могут использоваться в качестве личных ассистентов, которые представят вас или ваш бренд и помогут автоматизировать коммуникацию, учителей, которые персонализируют образовательный контент, чтобы учащиеся могли получать знания из уст того, кого им приятнее и интереснее слушать.
About
No description, website, or topics provided.
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published