2. Текущий статус по языкам
- Башкирский язык - https://docs.google.com/spreadsheets/d/1zSTYAkN_tkL5Ahwx8iVCZTns1h63mCTuBfM3F9pbNz0/edit?usp=sharing
- Марийский язык(mhr) -
- Марийский язык(mrj) -
- Нарымский селькупский язык - https://docs.google.com/spreadsheets/d/1UL47JsNryjXcD6UFq971Vi0vSPut73Vyon0gF9kE660/edit?usp=sharing
- Чувашский язык - https://docs.google.com/spreadsheets/d/1RPvYtJ2_bT4mMQPi6TWYAy1gqAqySp-n2zIJ_ZcjZpI/edit?usp=sharing
- Удмуртский язык - https://docs.google.com/spreadsheets/d/1cr4lO1ytnS-Wp5UzDCS7W3k6uGMrDf6Seiuldky8hls/edit?usp=sharing
- Алтайский язык - https://docs.google.com/spreadsheets/d/1bQfpPsTGRzZfc3c4Oj_G4pZ8VFvc9wxUmKEmSJbB-lY/edit?usp=sharing
- Тувинский язык - https://docs.google.com/spreadsheets/d/12ZPPX1k1YYk8gDWp0LUwV6AGTWSg_Kj-6qymRdHosyU/edit#gid=1995223432
- Карачаево-балкарский язык - https://docs.google.com/spreadsheets/d/1JLoBDrhumcCsuEtVjzj6kWVg0jt_NuO0eJSSDr5eNGk/edit#gid=0
- Ингушский язык - https://docs.google.com/spreadsheets/d/1zpZj3SjabWQ4XQXvLRRDJrAI2q1kyjCBJ2apT60IbOw/edit#gid=0
- Эвенкийский язык - https://docs.google.com/spreadsheets/d/1CjWxDxPUr-0OqIq50_3dKaUJ9X-5iHGrLZpn8wyRRBU/edit#gid=0
- Бурятский язык - https://docs.google.com/spreadsheets/d/1PgtWh0-8R59-AqGQDWG52ZazivVVaaOjrOqM9N7o1dA/edit#gid=0
- Осетинский (иронский) - https://docs.google.com/spreadsheets/d/1ioqgt_ibR2_dnQJ54HPqBidFRI8uLBkI01qIZKeqRlQ/edit#gid=0
- Чеченский язык - https://docs.google.com/spreadsheets/d/1BPLTcF6gNUB44gr99o-t_4Rmo7VXBThWurBZz_DBiy4/edit?usp=sharing
- Саха (якутский) - https://docs.google.com/spreadsheets/d/1Oc6ULfltCTFm7ZfdAp_KzxKH6AAEauPo_0ih5zMjeac/edit#gid=0
- Эвенский язык - https://docs.google.com/spreadsheets/d/1Eb3Yp0WIlNIpHm-zq9E4fEt272TbqAIHhMXvD42bDiA/edit#gid=0
- Татарский язык - https://docs.google.com/spreadsheets/d/1qC5DupACaarmF83tSQAbttHBm2VJ2GixwCIlTpWLRIE/edit?usp=sharing
Для добавления своего языка, вы можете использовать этот шаблон - https://docs.google.com/spreadsheets/d/13hsOc2fCq5wKmIkSlmYLNOgGlla9vazlTp7Vmiha64A/edit?usp=sharing
После того как заполните, даете доступ на чтение для всех и эту ссылку присылаете в телеграм AigizK
- Создайте комьюнити в соц.сетях, чтобы ускорить процесс оцифровки языка, получать обратную связь, делиться опытом и ресурсами, и осознавать, что вы не одни в своих усилиях.
- Создайте комьюнити википедистов, чтобы заполнить википедию на вашем языке. Это поможет привлечь внимание больших компаний, которые могут предоставить вам инструменты, такие как машинный перевод и создание языковых моделей.
- Для оцифровки вашего языка необходимо получить Unicode для ваших букв. Без этого процесс оцифровки будет невозможен.
Язык | ISO | Комьюнити в соц.сетях | Комьюнити википидистов | Алфавит(Unicode) |
---|---|---|---|---|
Башкирский | ba(bak) | ✓ | ✓ | ✓ |
Марийский | mhr | ✓ | ✓ | ✓ |
Марийский | mrj | ✓ | ✓ | ✓ |
Нарымский селькупский | 🔴 | ✓ | ✓ | ✓ |
Чувашский | cv(chv) | ✓ | 🔴 | ✓ |
Удмуртский | udm | ✓ | ✓ | ✓ |
Алтайский | alt | ✓ | ✓ | ✓ |
Тувинский | tyv | ✓ | ✓ | ✓ |
Карачаево-балкарский | krc | 🔴 | 🔴 | 🔴 |
Татарский | tt(tat) | 🔴 | ✓ | ✓ |
Для того чтобы люди могли создавать новый текст и исправлять существующий, необходимо создать приложения-клавиатуры или встроить свои буквы в существующие.
Язык | Клавиатура для Windows | Клавиатура для Linux | Клавиатура для Mac OS | Клавиатура для Android | Клавиатура для iOS |
---|---|---|---|---|---|
Башкирский | ✓ | ✓ | ✓ | ✓ | ✓ |
Марийский (mhr) | ✓ | ✓ | ✓ | ✓ | ✓ |
Марийский (mrj) | ✓ | ✓ | ✓ | ✓ | ✓ |
Нарымский селькупский | 🔴 | 🔴 | 🔴 | ✓ | 🔴 |
Чувашский | ✓ | ✓ | 🔴 | ✓ | ✓ |
Удмуртский | ✓ | ✓ | ✓ | ✓ | ✓ |
Алтайский | ✓ | 🔴 | 🔴 | ✓ | ✓ |
Тувинский | ✓ | ✓ | ✓ | ✓ | ✓ |
Карачаево-балкарский | 🔴 | 🔴 | 🔴 | ✓ | ✓ |
Татарский | ✓ | ✓ | ✓ | ✓ | ✓ |
- Электронный словарь необходим для перевода слов и определения их значения.
- Перевод терминов нужен для локализации сайтов, приложений. В одном месте собираем переводы основных терминов с учетом контекста.
- Сканы книг помогут вам собрать корпуса текстов на вашем языке. Чем больше текстов, тем лучше. Также рекомендуется собирать метатеги, такие как автор, год издания и жанр, чтобы в будущем создавать узконаправленные корпуса.
- Программы распознавания, такие как FineReader, помогут получить текст из скана.
- Ошибки возникают во время сканирования, и для получения чистого корпуса их нужно исправлять. На этом этапе достаточно использовать правила в спелчекере.
- Для синтеза и распознавания речи важно, чтобы приложение умело читать тексты, включая числа и аббревиатуры. Они как правило читаются не так, как написаны. Поэтому важно, чтобы ваше приложение умело транскрибировать такие тексты.
Язык | Электронный словарь | Перевод терминов | Сканы книг | Программы распознавания текста | Спелчекер на основе правил | Транскрипция чисел, аббревиатур |
---|---|---|---|---|---|---|
Башкирский | ✓ | 🔴 | 25622 книг | ✓ | 🔴 | ✓ |
Марийский (mhr) | ✓ | 🔴 | ✓ | ✓ | ✓ | 🔴 |
Марийский (mrj) | ✓ | 🔴 | ✓ | ✓ | ✓ | 🔴 |
Нарымский селькупский | ✓ | 🔴 | ✓ | 🔴 | 🔴 | 🔴 |
Чувашский | ✓ | ✓ | ✓ | ✓ | ✓ | 🔴 |
Удмуртский | ✓ | 🔴 | ✓ | ✓ | ✓ | 🔴 |
Алтайский | 🔴 | 🔴 | ✓ | 🔴 | 🔴 | 🔴 |
Тувинский | ✓ | 🔴 | ✓ | ✓ | 🔴 | 🔴 |
Карачаево-балкарский | ✓ | 🔴 | ✓ | 🔴 | 🔴 | 🔴 |
Татарский | ✓ | 🔴 | ✓ | ✓ | ✓ | 🔴 |
- Монокорпус - это тексты на вашем языке, такие как книги, журналы, новости и сообщения из социальных сетей. При сборе важно заранее заботиться о метатегах: откуда собрали, когда, как и жанр.
- Параллельный корпус необходим для создания машинного перевода или добавления вашего языка в существующие языковые модели. Для этого нужно собрать параллельные предложения, например, на вашем языке и на русском. Чем больше таких пар, тем точнее перевод, и чем разнообразнее темы и жанры, тем лучше.
- Корпус диалогов позволит в будущем реализовать чат-боты(например позвонили в поликлинику и робот вас записал к врачу) и умные колонки. Общение будет с ними происходить в привычном для вас виде.
- Корпус QA - корпус вопросов и ответов. Как правило будет узкоспециализированным, например вопросы и ответы по произведениям ваших писателей, или название населенных пунктов, рек, гор. Так же будет использоваться чат-ботами и умными колонками.
- Корпус аудио+текст нужен для распознавания речи
Язык | Монокорпус | Параллельный корпус | Корпус диалогов | Корпус QA | Корпус аудио+текст |
---|---|---|---|---|---|
Башкирский | 20.3M | 700K | 🔴 | 🔴 | 257ч. |
Марийский (mhr) | 20M | 300K | 🔴 | 🔴 | 274ч. |
Марийский (mrj) | ✓ | 🔴 | 🔴 | 🔴 | 🔴 |
Нарымский селькупский | 🔴 | ✓ | 🔴 | 🔴 | 🔴 |
Чувашский | 14,3М | 1,1М пар | 🔴 | 🔴 | 24ч. |
Удмуртский | ✓ | 🔴 | 🔴 | 🔴 | 🔴 |
Алтайский | 🔴 | 🔴 | 🔴 | 🔴 | 🔴 |
Тувинский | 🔴 | 🔴 | 🔴 | 🔴 | 🔴 |
Карачаево-балкарский | 🔴 | в процессе | 🔴 | 🔴 | 🔴 |
Татарский | ✓ | 1M+ | 🔴 | 🔴 | 300ч. |
- Не все ошибки находятся с помощью спелчекера на основе правил. Например
я пошел вода
. Такие ошибки распознаются благодаря контексту. ИИ умеет легко решать такие ошибки. - Машинный перевод позволит интегрировать ваш язык в цифровое пространство.
- Синтез речи позволит создавать аудиокниги, читать текст для слабовидящих и использовать умные колонки.
- Распознавание речи необходимо, чтобы вы могли набирать текст голосом, давать команды умным технологиям, общаться с умными колонками. Для этого нужно собрать соответствующий корпус.
- Многие задачи решаются на основе языковых моделей, и тренд такой, что лучше использовать многоязычные модели. Ваша задача - включить ваш язык в существующие модели.
Язык | Спелчекер на основе контекста | Машинный перевод | Синтез речи | Распознавание речи | Языковые модели |
---|---|---|---|---|---|
Башкирский | 🔴 | ✓ | ✓ | ✓ | ✓ |
Марийский (mhr) | 🔴 | ✓ | ✓ | ✓ | 🔴 |
Марийский (mrj) | 🔴 | ✓ | 🔴 | 🔴 | 🔴 |
Нарымский селькупский | 🔴 | 🔴 | 🔴 | 🔴 | 🔴 |
Чувашский | 🔴 | ✓ | 🔴 | 🔴 | 🔴 |
Удмуртский | 🔴 | ✓ | 🔴 | 🔴 | 🔴 |
Алтайский | 🔴 | 🔴 | 🔴 | 🔴 | 🔴 |
Тувинский | 🔴 | 🔴 | 🔴 | 🔴 | 🔴 |
Карачаево-балкарский | 🔴 | в процессе | 🔴 | 🔴 | в процессе |
Татарский | 🔴 | ✓ | ✓ | ✓ | ✓ |
Предыдущие этапы помогут создать приложения для узкого круга специалистов. Но чтобы они начали приносить пользу для большинства, нужно создать настоящий продукт! Ваш язык заслуживает большего внимания и признания! Давайте воплотим наши идеи в жизнь, чтобы люди могли наслаждаться контентом на вашем языке. Расширение Chrome для перевода сайтов, умные колонки и расширение для перевода видео на Youtube - все это отличные инструменты для распространения вашего языка!
Язык | Расширение Chrome для перевода сайта | Умная колонка | Расширение Chrome для перевода видео с Youtube |
---|---|---|---|
Башкирский | 🔴 | ✓ | 🔴 |
Марийский (mhr) | 🔴 | 🔴 | 🔴 |
Марийский (mrj) | 🔴 | 🔴 | 🔴 |
Нарымский селькупский | 🔴 | 🔴 | 🔴 |
Чувашский | 🔴 | 🔴 | 🔴 |
Удмуртский | 🔴 | 🔴 | 🔴 |
Алтайский | 🔴 | 🔴 | 🔴 |
Тувинский | 🔴 | 🔴 | 🔴 |
Карачаево-балкарский | 🔴 | 🔴 | 🔴 |
Татарский | 🔴 | 🔴 | ✓ |
Название | Ссылка | Комментарий |
---|---|---|
Комьюнити в соц.сетях | ||
Комьюнити википидистов | ||
Клавиатура для Windows | ||
Клавиатура для Linux | ||
Клавиатура для Mac OS | ||
Клавиатура для Android | ||
Клавиатура для iOS | ||
Электронный словарь | ||
Перевод терминов | ||
Сканы книг | ||
Программы распознавания текста | ||
Спелчекер на основе правил | ||
Транскрипция чисел, аббревиатур | ||
Монокорпус | ||
Параллельный корпус | ||
Корпус диалогов | ||
Корпус QA | ||
Корпус аудио+текст | ||
Спелчекер на основе контекста | ||
Машинный перевод | ||
Синтез речи | ||
Распознавание речи | ||
Языковые модели | ||
Расширение Chrome для перевода сайта | ||
Умная колонка | ||
Расширение Chrome для перевода видео с Youtube |
Название | Ссылка | Комментарий |
---|---|---|
Комьюнити в соц.сетях | ||
Комьюнити википидистов | ||
Клавиатура для Windows | ||
Клавиатура для Linux | ||
Клавиатура для Mac OS | ||
Клавиатура для Android | ||
Клавиатура для iOS | ||
Электронный словарь | ||
Перевод терминов | ||
Сканы книг | ||
Программы распознавания текста | ||
Спелчекер на основе правил | ||
Транскрипция чисел, аббревиатур | ||
Монокорпус | ||
Параллельный корпус | ||
Корпус диалогов | ||
Корпус QA | ||
Корпус аудио+текст | ||
Спелчекер на основе контекста | ||
Машинный перевод | ||
Синтез речи | ||
Распознавание речи | ||
Языковые модели | ||
Расширение Chrome для перевода сайта | ||
Умная колонка | ||
Расширение Chrome для перевода видео с Youtube |
Название | Ссылка | Комментарий |
---|---|---|
Комьюнити в соц.сетях | http://termin.chv.su | |
Комьюнити википидистов | ||
Клавиатура для Windows | ||
Клавиатура для Linux | ||
Клавиатура для Mac OS | ||
Клавиатура для Android | GBoard Яндекс.Клавиатура |
|
Клавиатура для iOS | в appStore имеется | |
Электронный словарь |
http://hunspell.chv.su http://samah.chv.su |
|
Перевод терминов | http://termin.chv.su/ | |
Сканы книг | Национальная библиотека ЧР (доступны в PDF) https://chuvash.org/lib |
|
Программы распознавания текста | ||
Спелчекер на основе правил | http://hunspell.chv.su/ | |
Транскрипция чисел, аббревиатур | ||
Монокорпус | http://corpus.chv.su | |
Параллельный корпус | http://corpus.chv.su | |
Корпус диалогов | ||
Корпус QA | ||
Корпус аудио+текст | https://commonvoice.mozilla.org/cv/datasets | 24 часа,105 человек |
Спелчекер на основе контекста | ||
Машинный перевод | Yandex https://translate.chv.su |
|
Синтез речи | ||
Распознавание речи | ||
Языковые модели | ||
Расширение Chrome для перевода сайта | ||
Умная колонка | ||
Расширение Chrome для перевода видео с Youtube |
Название | Ссылка | Комментарий |
---|---|---|
Комьюнити в соц.сетях | https://vk.com/it_udmurtlyk | |
Комьюнити википидистов | https://vk.com/udmwiki | |
Клавиатура для Windows | https://udmspell.ru/ | |
Клавиатура для Linux | http://wiki.fu-lab.ru/index.php/%D0%A3%D0%B4%D0%BC%D1%83%D1%80%D1%82%D1%81%D0%BA%D0%B0%D1%8F_%D1%80%D0%B0%D1%81%D0%BA%D0%BB%D0%B0%D0%B4%D0%BA%D0%B0_%D0%BA%D0%BB%D0%B0%D0%B2%D0%B8%D0%B0%D1%82%D1%83%D1%80%D1%8B | |
Клавиатура для Mac OS | https://udmspell.ru/blog/udmurt-keyboard-in-mac/ | |
Клавиатура для Android | Gboard, Яндекс.Клавиатура | |
Клавиатура для iOS | Gboard, Яндекс.Клавиатура | |
Электронный словарь |
http://udmcorpus.udman.ru/dictionary https://dict.fu-lab.ru/dict?id=129449 |
|
Перевод терминов | ||
Сканы книг | https://elibrary.unatlib.ru/ | |
Программы распознавания текста | FineReader | |
Спелчекер на основе правил | https://github.com/vorgoron/udmspell | |
Транскрипция чисел, аббревиатур | ||
Монокорпус |
http://udmcorpus.udman.ru/body http://udmurt.web-corpora.net/ |
|
Параллельный корпус | ||
Корпус диалогов | ||
Корпус QA | ||
Корпус аудио+текст | ||
Спелчекер на основе контекста | ||
Машинный перевод |
https://translate.yandex.ru/translator/Russian-Udmurt https://translate.ut.ee/ |
|
Синтез речи | ||
Распознавание речи | ||
Языковые модели | ||
Расширение Chrome для перевода сайта | ||
Умная колонка | ||
Расширение Chrome для перевода видео с Youtube |
Название | Ссылка | Комментарий |
---|---|---|
Комьюнити в соц.сетях | https://vk.com/altay_wikipedia | |
Комьюнити википидистов | https://vk.com/altay_wikipedia?w=address-39139187_15213 | |
Клавиатура для Windows |
https://www.gameloop.com/ru/game/tools/com.anysoftkeyboard.languagepack.altai http://svadba04.ru/top-menu/altay-shrift/ |
|
Клавиатура для Linux | ||
Клавиатура для Mac OS | ||
Клавиатура для Android |
https://com-anysoftkeyboard-languagepack-altai.ru.aptoide.com/ http://svadba04.ru/top-menu/altay-shrift/ |
|
Клавиатура для iOS | http://svadba04.ru/top-menu/altay-shrift/ | |
Электронный словарь |
https://translate.academic.ru/%D0%BF%D0%B5%D1%80%D0%B5%D0%B2%D0%BE%D0%B4%D1%87%D0%B8%D0%BA/ru/al/ http://altai-mountains.ru/articles/dictionary/altrusdic/?idnews=3343 |
|
Перевод терминов | ||
Сканы книг | https://niialt.ru/nauchnye-trudy | |
Программы распознавания текста | ||
Спелчекер на основе правил | ||
Транскрипция чисел, аббревиатур | ||
Монокорпус | ||
Параллельный корпус | ||
Корпус диалогов | ||
Корпус QA | ||
Корпус аудио+текст | ||
Спелчекер на основе контекста | ||
Машинный перевод | ||
Синтез речи | ||
Распознавание речи | ||
Языковые модели | ||
Расширение Chrome для перевода сайта | ||
Умная колонка | ||
Расширение Chrome для перевода видео с Youtube |
Название | Ссылка | Комментарий |
---|---|---|
Комьюнити в соц.сетях | ||
Комьюнити википидистов | ||
Клавиатура для Windows | ||
Клавиатура для Linux | ||
Клавиатура для Mac OS | ||
Клавиатура для Android | https://play.google.com/store/apps/details?id=com.google.android.inputmethod.latin&hl=en&gl=US | |
Клавиатура для iOS | https://apps.apple.com/us/app/gboard-the-google-keyboard/id1091700242 | |
Электронный словарь | http://www.elbrusoid.org/dictionary/ | |
Перевод терминов | ||
Сканы книг | http://www.elbrusoid.org/library/ | |
Программы распознавания текста | ||
Спелчекер на основе правил | ||
Транскрипция чисел, аббревиатур | ||
Монокорпус | ||
Параллельный корпус | https://huggingface.co/datasets/TSjB/krc_parallel/viewer/TSjB--krc_parallel/train | Богдан Теунаев, Али Берберов Собрали 260к слов и предложений, потихоньку добираем |
Корпус диалогов | ||
Корпус QA | ||
Корпус аудио+текст | ||
Спелчекер на основе контекста | ||
Машинный перевод |
https://tsjb-qm-ru-translator.hf.space/? https://huggingface.co/spaces/TSjB/QM_RU_translator |
Богдан Теунаев |
Синтез речи | ||
Распознавание речи | ||
Языковые модели | mbart-50 https://huggingface.co/TSjB/mbart-large-52-ru-qm-v1 https://huggingface.co/TSjB/mbart-large-52-qm-ru-v1 |
Богдан Теунаев. Качество не очень хорошее, на данный момент fine-tuned на 27к параллельных предложений. Планируем с Али новый датасет на 260к использовать и NLLB-200 |
Расширение Chrome для перевода сайта | ||
Умная колонка | ||
Расширение Chrome для перевода видео с Youtube |
Название | Ссылка | Комментарий |
---|---|---|
Комьюнити в соц.сетях | ||
Комьюнити википидистов | ||
Клавиатура для Windows | ||
Клавиатура для Linux | ||
Клавиатура для Mac OS | ||
Клавиатура для Android | ||
Клавиатура для iOS | ||
Электронный словарь | ||
Перевод терминов | ||
Сканы книг | ||
Программы распознавания текста | ||
Спелчекер на основе правил | ||
Транскрипция чисел, аббревиатур | ||
Монокорпус | ||
Параллельный корпус | ||
Корпус диалогов | ||
Корпус QA | ||
Корпус аудио+текст | ||
Спелчекер на основе контекста | ||
Машинный перевод | ||
Синтез речи | ||
Распознавание речи | ||
Языковые модели | ||
Расширение Chrome для перевода сайта | ||
Умная колонка | ||
Расширение Chrome для перевода видео с Youtube |