GitHub - XySa/Double_Amir

Branches Tags

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
.idea		.idea
Config		Config
Content		Content
Plugins		Plugins
Source		Source
.gitignore		.gitignore
Double_Amir_Temur.uproject		Double_Amir_Temur.uproject
Readme.txt		Readme.txt
Speech_Commands.ipynb		Speech_Commands.ipynb
ha_yoq_data.zip		ha_yoq_data.zip

Repository files navigation

В ходе разработки продукта были начаты работы по обучению языковой модели на базе архитектуры свёрточной нейронной сети MatchboxNet для реализации голосового интерфейса для навигации и взаимодействия с интерактивными экспонатами музея.
Разработка выполнялась с помощью интерактивной среды разработки Jupyter Notebook на мощностях сервиса для облачных вычислений Google Colab с применением решений из открытой библиотеки для задач обработки естественного языка и машинной лингвистики NVIDIA NeMo. 

В ходе решения этой задачи были использованы данные из датасета dataset_ttsuz.zip, а также дополнительно собраны образцы речевых данных у гостей хакатона. 
Выполнена предобработка, включающая ресемплинг и ручную разметку по отдельным словам для приведения данных в соответствие с выбранной архитектурой сети. 
Для окончания работ по данному направлению нам необходимо больше разнообразных голосовых данных, а также врмени для тренировки сети и тонкой настройки гиперпараметров модели. 
Завершение этого этапа позволит полностью перейти на голосовое взаимодействие с продуктом, что значительно улучшит и обогатит пользовательский опыт.

Использование ТТС 

Используется сервис tts.uz, к которому обращается запрос с указанием текста для перевода и получением в ответ файла в формате wav. 
Полученный файл озвучивается  во время представления экспозиции. 
В нашем проекте используются голосовые ролики на узбекском языке с текстами, относящимися к истории Узбекистана во время Амира Темура, созданные с помощью сервиса tts.uz 

Интеграция с голосовыми сервисами iVoice.
Потенциально возможна интеграция голосовых запросов с сервисом компании iVoice. 
Разработаны методы для передачи голосовых данных на платформу iVoice c целью получить обработанные текстовые данные. 
Данная интеграция находится в начале разработки и возможна для представления несколько позднее.

Описание по аватарам

Для воссоздания цифровых двойников исторических личностей мы используем мультимодальный подход, комбинируя технологии построения диалоговых систем, генерации текста, голоса и изображения методами машинного обучения.
Тренировка моделей на значительных объемах данных позволит создать аватаров, способных использовать предсказательные и аналитические способности для персонализации контента, изучать предпочтения пользователя в течение времени, предоставлять рекомендации и даже предугадывать потребности.
Применение этого подхода не ограничивается воссозаднием исторических персонажей, наши цифровые аватары могут использоваться в качестве личных ассистентов, которые представят вас или ваш бренд и помогут автоматизировать коммуникацию, учителей, которые персонализируют образовательный контент, чтобы учащиеся могли получать знания из уст того, кого им приятнее и интереснее слушать.

About

No description, website, or topics provided.

Readme

Activity

1 star

1 watching

0 forks

Report repository

Releases

No releases published

Packages

No packages published

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

.idea

.idea

Config

Config

Content

Content

Plugins

Plugins

Source

Source

.gitignore

.gitignore

Double_Amir_Temur.uproject

Double_Amir_Temur.uproject

Readme.txt

Readme.txt

Speech_Commands.ipynb

Speech_Commands.ipynb

ha_yoq_data.zip

ha_yoq_data.zip

Repository files navigation

About

Releases

Packages

Languages

XySa/Double_Amir_Temur

Folders and files

Latest commit

History

Repository files navigation

About

Resources

Stars

Watchers

Forks

Languages