Skip to content

2. Текущий статус по языкам

Dmitry Gaynullin edited this page Feb 24, 2024 · 33 revisions

Самая актуальная информация

  1. Башкирский язык - https://docs.google.com/spreadsheets/d/1zSTYAkN_tkL5Ahwx8iVCZTns1h63mCTuBfM3F9pbNz0/edit?usp=sharing
  2. Марийский язык(mhr) -
  3. Марийский язык(mrj) -
  4. Нарымский селькупский язык - https://docs.google.com/spreadsheets/d/1UL47JsNryjXcD6UFq971Vi0vSPut73Vyon0gF9kE660/edit?usp=sharing
  5. Чувашский язык - https://docs.google.com/spreadsheets/d/1RPvYtJ2_bT4mMQPi6TWYAy1gqAqySp-n2zIJ_ZcjZpI/edit?usp=sharing
  6. Удмуртский язык - https://docs.google.com/spreadsheets/d/1cr4lO1ytnS-Wp5UzDCS7W3k6uGMrDf6Seiuldky8hls/edit?usp=sharing
  7. Алтайский язык - https://docs.google.com/spreadsheets/d/1bQfpPsTGRzZfc3c4Oj_G4pZ8VFvc9wxUmKEmSJbB-lY/edit?usp=sharing
  8. Тувинский язык - https://docs.google.com/spreadsheets/d/12ZPPX1k1YYk8gDWp0LUwV6AGTWSg_Kj-6qymRdHosyU/edit#gid=1995223432
  9. Карачаево-балкарский язык - https://docs.google.com/spreadsheets/d/1JLoBDrhumcCsuEtVjzj6kWVg0jt_NuO0eJSSDr5eNGk/edit#gid=0
  10. Ингушский язык - https://docs.google.com/spreadsheets/d/1zpZj3SjabWQ4XQXvLRRDJrAI2q1kyjCBJ2apT60IbOw/edit#gid=0
  11. Эвенкийский язык - https://docs.google.com/spreadsheets/d/1CjWxDxPUr-0OqIq50_3dKaUJ9X-5iHGrLZpn8wyRRBU/edit#gid=0
  12. Бурятский язык - https://docs.google.com/spreadsheets/d/1PgtWh0-8R59-AqGQDWG52ZazivVVaaOjrOqM9N7o1dA/edit#gid=0
  13. Осетинский (иронский) - https://docs.google.com/spreadsheets/d/1ioqgt_ibR2_dnQJ54HPqBidFRI8uLBkI01qIZKeqRlQ/edit#gid=0
  14. Чеченский язык - https://docs.google.com/spreadsheets/d/1BPLTcF6gNUB44gr99o-t_4Rmo7VXBThWurBZz_DBiy4/edit?usp=sharing
  15. Саха (якутский) - https://docs.google.com/spreadsheets/d/1Oc6ULfltCTFm7ZfdAp_KzxKH6AAEauPo_0ih5zMjeac/edit#gid=0
  16. Эвенский язык - https://docs.google.com/spreadsheets/d/1Eb3Yp0WIlNIpHm-zq9E4fEt272TbqAIHhMXvD42bDiA/edit#gid=0
  17. Татарский язык - https://docs.google.com/spreadsheets/d/1qC5DupACaarmF83tSQAbttHBm2VJ2GixwCIlTpWLRIE/edit?usp=sharing

Для добавления своего языка, вы можете использовать этот шаблон - https://docs.google.com/spreadsheets/d/13hsOc2fCq5wKmIkSlmYLNOgGlla9vazlTp7Vmiha64A/edit?usp=sharing

После того как заполните, даете доступ на чтение для всех и эту ссылку присылаете в телеграм AigizK

I этап - начало

  • Создайте комьюнити в соц.сетях, чтобы ускорить процесс оцифровки языка, получать обратную связь, делиться опытом и ресурсами, и осознавать, что вы не одни в своих усилиях.
  • Создайте комьюнити википедистов, чтобы заполнить википедию на вашем языке. Это поможет привлечь внимание больших компаний, которые могут предоставить вам инструменты, такие как машинный перевод и создание языковых моделей.
  • Для оцифровки вашего языка необходимо получить Unicode для ваших букв. Без этого процесс оцифровки будет невозможен.
Язык ISO Комьюнити в соц.сетях Комьюнити википидистов Алфавит(Unicode)
Башкирский ba(bak)
Марийский mhr
Марийский mrj
Нарымский селькупский 🔴
Чувашский cv(chv) 🔴
Удмуртский udm
Алтайский alt
Тувинский tyv
Карачаево-балкарский krc 🔴 🔴 🔴
Татарский tt(tat) 🔴

II этап - клавиатура

Для того чтобы люди могли создавать новый текст и исправлять существующий, необходимо создать приложения-клавиатуры или встроить свои буквы в существующие.

Язык Клавиатура для Windows Клавиатура для Linux Клавиатура для Mac OS Клавиатура для Android Клавиатура для iOS
Башкирский
Марийский (mhr)
Марийский (mrj)
Нарымский селькупский 🔴 🔴 🔴 🔴
Чувашский 🔴
Удмуртский
Алтайский 🔴 🔴
Тувинский
Карачаево-балкарский 🔴 🔴 🔴
Татарский

III этап - подготовка к сбору корпусов

  • Электронный словарь необходим для перевода слов и определения их значения.
  • Перевод терминов нужен для локализации сайтов, приложений. В одном месте собираем переводы основных терминов с учетом контекста.
  • Сканы книг помогут вам собрать корпуса текстов на вашем языке. Чем больше текстов, тем лучше. Также рекомендуется собирать метатеги, такие как автор, год издания и жанр, чтобы в будущем создавать узконаправленные корпуса.
  • Программы распознавания, такие как FineReader, помогут получить текст из скана.
  • Ошибки возникают во время сканирования, и для получения чистого корпуса их нужно исправлять. На этом этапе достаточно использовать правила в спелчекере.
  • Для синтеза и распознавания речи важно, чтобы приложение умело читать тексты, включая числа и аббревиатуры. Они как правило читаются не так, как написаны. Поэтому важно, чтобы ваше приложение умело транскрибировать такие тексты.
Язык Электронный словарь Перевод терминов Сканы книг Программы распознавания текста Спелчекер на основе правил Транскрипция чисел, аббревиатур
Башкирский 🔴 25622 книг 🔴
Марийский (mhr) 🔴 🔴
Марийский (mrj) 🔴 🔴
Нарымский селькупский 🔴 🔴 🔴 🔴
Чувашский 🔴
Удмуртский 🔴 🔴
Алтайский 🔴 🔴 🔴 🔴 🔴
Тувинский 🔴 🔴 🔴
Карачаево-балкарский 🔴 🔴 🔴 🔴
Татарский 🔴 🔴

IV этап - создание корпусов

  • Монокорпус - это тексты на вашем языке, такие как книги, журналы, новости и сообщения из социальных сетей. При сборе важно заранее заботиться о метатегах: откуда собрали, когда, как и жанр.
  • Параллельный корпус необходим для создания машинного перевода или добавления вашего языка в существующие языковые модели. Для этого нужно собрать параллельные предложения, например, на вашем языке и на русском. Чем больше таких пар, тем точнее перевод, и чем разнообразнее темы и жанры, тем лучше.
  • Корпус диалогов позволит в будущем реализовать чат-боты(например позвонили в поликлинику и робот вас записал к врачу) и умные колонки. Общение будет с ними происходить в привычном для вас виде.
  • Корпус QA - корпус вопросов и ответов. Как правило будет узкоспециализированным, например вопросы и ответы по произведениям ваших писателей, или название населенных пунктов, рек, гор. Так же будет использоваться чат-ботами и умными колонками.
  • Корпус аудио+текст нужен для распознавания речи
Язык Монокорпус Параллельный корпус Корпус диалогов Корпус QA Корпус аудио+текст
Башкирский 20.3M 700K 🔴 🔴 257ч.
Марийский (mhr) 20M 300K 🔴 🔴 274ч.
Марийский (mrj) 🔴 🔴 🔴 🔴
Нарымский селькупский 🔴 🔴 🔴 🔴
Чувашский 14,3М 1,1М пар 🔴 🔴 24ч.
Удмуртский 🔴 🔴 🔴 🔴
Алтайский 🔴 🔴 🔴 🔴 🔴
Тувинский 🔴 🔴 🔴 🔴 🔴
Карачаево-балкарский 🔴 в процессе 🔴 🔴 🔴
Татарский 1M+ 🔴 🔴 300ч.

V этап - программы созданные с помощью ИИ

  • Не все ошибки находятся с помощью спелчекера на основе правил. Например я пошел вода. Такие ошибки распознаются благодаря контексту. ИИ умеет легко решать такие ошибки.
  • Машинный перевод позволит интегрировать ваш язык в цифровое пространство.
  • Синтез речи позволит создавать аудиокниги, читать текст для слабовидящих и использовать умные колонки.
  • Распознавание речи необходимо, чтобы вы могли набирать текст голосом, давать команды умным технологиям, общаться с умными колонками. Для этого нужно собрать соответствующий корпус.
  • Многие задачи решаются на основе языковых моделей, и тренд такой, что лучше использовать многоязычные модели. Ваша задача - включить ваш язык в существующие модели.
Язык Спелчекер на основе контекста Машинный перевод Синтез речи Распознавание речи Языковые модели
Башкирский 🔴
Марийский (mhr) 🔴 🔴
Марийский (mrj) 🔴 🔴 🔴 🔴
Нарымский селькупский 🔴 🔴 🔴 🔴 🔴
Чувашский 🔴 🔴 🔴 🔴
Удмуртский 🔴 🔴 🔴 🔴
Алтайский 🔴 🔴 🔴 🔴 🔴
Тувинский 🔴 🔴 🔴 🔴 🔴
Карачаево-балкарский 🔴 в процессе 🔴 🔴 в процессе
Татарский 🔴

VI этап - продукты созданные с помощью ИИ

Предыдущие этапы помогут создать приложения для узкого круга специалистов. Но чтобы они начали приносить пользу для большинства, нужно создать настоящий продукт! Ваш язык заслуживает большего внимания и признания! Давайте воплотим наши идеи в жизнь, чтобы люди могли наслаждаться контентом на вашем языке. Расширение Chrome для перевода сайтов, умные колонки и расширение для перевода видео на Youtube - все это отличные инструменты для распространения вашего языка!

Язык Расширение Chrome для перевода сайта Умная колонка Расширение Chrome для перевода видео с Youtube
Башкирский 🔴 🔴
Марийский (mhr) 🔴 🔴 🔴
Марийский (mrj) 🔴 🔴 🔴
Нарымский селькупский 🔴 🔴 🔴
Чувашский 🔴 🔴 🔴
Удмуртский 🔴 🔴 🔴
Алтайский 🔴 🔴 🔴
Тувинский 🔴 🔴 🔴
Карачаево-балкарский 🔴 🔴 🔴
Татарский 🔴 🔴

Ссылки

Башкирский

Название Ссылка Комментарий
Комьюнити в соц.сетях https://vk.com/bashkort_voice
https://t.me/bashkort_voice
https://www.instagram.com/bashkort_voice/
Курирует Айгиз Кунафин
Комьюнити википидистов https://www.instagram.com/bash_wiki/
https://vk.com/club66803702
Курирует Рустем Нурыев
Клавиатура для Windows нативная
Клавиатура для Linux нативная
Клавиатура для Mac OS нативная
Клавиатура для Android https://play.google.com/store/apps/details?id=com.google.android.inputmethod.latin&hl=en&gl=US
Клавиатура для iOS https://apps.apple.com/us/app/gboard-the-google-keyboard/id1091700242
Электронный словарь
Перевод терминов
Сканы книг https://ihtika.ru/ Курирует Искандер Шакиров
Программы распознавания текста FineReader
Спелчекер на основе правил
Транскрипция чисел, аббревиатур
Монокорпус https://github.com/nevmenandr/bashkir-corpus Борис Орехов
Параллельный корпус https://huggingface.co/datasets/AigizK/bashkir-russian-parallel-corpora
Корпус диалогов
Корпус QA
Корпус аудио+текст https://commonvoice.mozilla.org/ba/datasets
Спелчекер на основе контекста
Машинный перевод https://bashkortsoft.ru/
https://www.bing.com/translator
Facebook NLLB-200
Синтез речи https://github.com/snakers4/silero-models#text-to-speech
Распознавание речи https://huggingface.co/AigizK/bashkir-whisper-small
https://huggingface.co/AigizK/wav2vec2-large-xls-r-300m-bashkir-cv7_opt
Языковые модели https://huggingface.co/sberbank-ai/mGPT
Расширение Chrome для перевода сайта
Умная колонка
Расширение Chrome для перевода видео с Youtube

Марийский (mhr)

Название Ссылка Комментарий
Комьюнити в соц.сетях
Комьюнити википидистов
Клавиатура для Windows
Клавиатура для Linux
Клавиатура для Mac OS
Клавиатура для Android
Клавиатура для iOS
Электронный словарь
Перевод терминов
Сканы книг
Программы распознавания текста
Спелчекер на основе правил
Транскрипция чисел, аббревиатур
Монокорпус
Параллельный корпус
Корпус диалогов
Корпус QA
Корпус аудио+текст
Спелчекер на основе контекста
Машинный перевод
Синтез речи
Распознавание речи
Языковые модели
Расширение Chrome для перевода сайта
Умная колонка
Расширение Chrome для перевода видео с Youtube

Марийский (mrj)

Название Ссылка Комментарий
Комьюнити в соц.сетях
Комьюнити википидистов
Клавиатура для Windows
Клавиатура для Linux
Клавиатура для Mac OS
Клавиатура для Android
Клавиатура для iOS
Электронный словарь
Перевод терминов
Сканы книг
Программы распознавания текста
Спелчекер на основе правил
Транскрипция чисел, аббревиатур
Монокорпус
Параллельный корпус
Корпус диалогов
Корпус QA
Корпус аудио+текст
Спелчекер на основе контекста
Машинный перевод
Синтез речи
Распознавание речи
Языковые модели
Расширение Chrome для перевода сайта
Умная колонка
Расширение Chrome для перевода видео с Youtube

Нарымский селькупский

Название Ссылка Комментарий
Комьюнити в соц.сетях https://discord.gg/6q6XChDFSb
https://vk.com/torova.lyagha1
https://ok.ru/torova.lyagha
https://selkup.fu-lab.ru/
Комьюнити википидистов https://vk.com/selkup_wiki
Клавиатура для Windows https://disk.yandex.ru/d/DesV27ABW3gnhQ MSKLC (комбинации клавиш надо менять)
Клавиатура для Linux
Клавиатура для Mac OS
Клавиатура для Android https://play.google.com/store/apps/details?id=ru.dinarastepina.selkupkeyboard
Клавиатура для iOS
Электронный словарь https://selkup.fu-lab.ru/index.php/Сводный_селькупско-русский_словарь_(нарымский_диалект)
https://dict.fu-lab.ru/dict?id=1019947
https://play.google.com/store/apps/details?id=ru.dinarastepina.selkup
https://disk.yandex.ru/d/VDMtPAkErZGdew
https://selkup.fu-lab.ru/index.php/Южноселькупский_справочник#.D0.9C.D1.83.D0.BB.D1.8C.D1.82.D0.B8.D0.B4.D0.B8.D0.B0.D0.BB.D0.B5.D0.BA.D1.82.D0.BD.D1.8B.D0.B5_.D1.81.D0.BB.D0.BE.D0.B2.D0.B0.D1.80.D0.B8
Перевод терминов
Сканы книг https://disk.yandex.ru/d/myXrk_rOFOOkrg
https://disk.yandex.ru/d/JL-cqy0wEbYOeA
https://disk.yandex.ru/i/6LVu7W3RMTdU7w
https://disk.yandex.ru/i/J1Q_Zm6KJDuAYA (нарымские тексты на стр. 91-120)
https://www.sgr.fi/manuscripta/texts — тексты с Оби (1845-1846)
https://selkup.fu-lab.ru/index.php/Южноселькупский_справочник#.D0.A2.D0.B5.D0.BA.D1.81.D1.82.D1.8B_.D0.B2_.D0.BD.D0.B0.D1.83.D1.87.D0.BD.D1.8B.D1.85_.D1.81.D0.B1.D0.BE.D1.80.D0.BD.D0.B8.D0.BA.D0.B0.D1.85
папка "тексты"
Программы распознавания текста
Спелчекер на основе правил
Транскрипция чисел, аббревиатур
Монокорпус
Параллельный корпус https://selkup.fu-lab.ru/index.php/Южноселькупский_справочник#.D0.9A.D0.BE.D1.80.D0.BF.D1.83.D1.81.D1.8B
Корпус диалогов
Корпус QA
Корпус аудио+текст https://disk.yandex.ru/d/DOW4q6y1h8tZTQ озвученный словарь
https://s3-uhh.lzs.uni-hamburg.de/gwiss-inel-corpora/remote/selkup-2.0/selkup-2.0.html
https://inel.corpora.uni-hamburg.de/portal/community/selkup.php
http://lingvodoc.ispras.ru/corpora_all?language=508%2C51
Спелчекер на основе контекста
Машинный перевод
Синтез речи
Распознавание речи
Языковые модели
Расширение Chrome для перевода сайта
Умная колонка
Расширение Chrome для перевода видео с Youtube

Чувашский

Название Ссылка Комментарий
Комьюнити в соц.сетях http://termin.chv.su
Комьюнити википидистов
Клавиатура для Windows
Клавиатура для Linux
Клавиатура для Mac OS
Клавиатура для Android GBoard
Яндекс.Клавиатура
Клавиатура для iOS в appStore имеется
Электронный словарь http://hunspell.chv.su
http://samah.chv.su
Перевод терминов http://termin.chv.su/
Сканы книг Национальная библиотека ЧР (доступны в PDF)
https://chuvash.org/lib
Программы распознавания текста
Спелчекер на основе правил http://hunspell.chv.su/
Транскрипция чисел, аббревиатур
Монокорпус http://corpus.chv.su
Параллельный корпус http://corpus.chv.su
Корпус диалогов
Корпус QA
Корпус аудио+текст https://commonvoice.mozilla.org/cv/datasets 24 часа,105 человек
Спелчекер на основе контекста
Машинный перевод Yandex
https://translate.chv.su
Синтез речи
Распознавание речи
Языковые модели
Расширение Chrome для перевода сайта
Умная колонка
Расширение Chrome для перевода видео с Youtube

Удмуртский

Название Ссылка Комментарий
Комьюнити в соц.сетях https://vk.com/it_udmurtlyk
Комьюнити википидистов https://vk.com/udmwiki
Клавиатура для Windows https://udmspell.ru/
Клавиатура для Linux http://wiki.fu-lab.ru/index.php/%D0%A3%D0%B4%D0%BC%D1%83%D1%80%D1%82%D1%81%D0%BA%D0%B0%D1%8F_%D1%80%D0%B0%D1%81%D0%BA%D0%BB%D0%B0%D0%B4%D0%BA%D0%B0_%D0%BA%D0%BB%D0%B0%D0%B2%D0%B8%D0%B0%D1%82%D1%83%D1%80%D1%8B
Клавиатура для Mac OS https://udmspell.ru/blog/udmurt-keyboard-in-mac/
Клавиатура для Android Gboard, Яндекс.Клавиатура
Клавиатура для iOS Gboard, Яндекс.Клавиатура
Электронный словарь http://udmcorpus.udman.ru/dictionary
https://dict.fu-lab.ru/dict?id=129449
Перевод терминов
Сканы книг https://elibrary.unatlib.ru/
Программы распознавания текста FineReader
Спелчекер на основе правил https://github.com/vorgoron/udmspell
Транскрипция чисел, аббревиатур
Монокорпус http://udmcorpus.udman.ru/body
http://udmurt.web-corpora.net/
Параллельный корпус
Корпус диалогов
Корпус QA
Корпус аудио+текст
Спелчекер на основе контекста
Машинный перевод https://translate.yandex.ru/translator/Russian-Udmurt
https://translate.ut.ee/
Синтез речи
Распознавание речи
Языковые модели
Расширение Chrome для перевода сайта
Умная колонка
Расширение Chrome для перевода видео с Youtube

Алтайский

Название Ссылка Комментарий
Комьюнити в соц.сетях https://vk.com/altay_wikipedia
Комьюнити википидистов https://vk.com/altay_wikipedia?w=address-39139187_15213
Клавиатура для Windows https://www.gameloop.com/ru/game/tools/com.anysoftkeyboard.languagepack.altai
http://svadba04.ru/top-menu/altay-shrift/
Клавиатура для Linux
Клавиатура для Mac OS
Клавиатура для Android https://com-anysoftkeyboard-languagepack-altai.ru.aptoide.com/
http://svadba04.ru/top-menu/altay-shrift/
Клавиатура для iOS http://svadba04.ru/top-menu/altay-shrift/
Электронный словарь https://translate.academic.ru/%D0%BF%D0%B5%D1%80%D0%B5%D0%B2%D0%BE%D0%B4%D1%87%D0%B8%D0%BA/ru/al/
http://altai-mountains.ru/articles/dictionary/altrusdic/?idnews=3343
Перевод терминов
Сканы книг https://niialt.ru/nauchnye-trudy
Программы распознавания текста
Спелчекер на основе правил
Транскрипция чисел, аббревиатур
Монокорпус
Параллельный корпус
Корпус диалогов
Корпус QA
Корпус аудио+текст
Спелчекер на основе контекста
Машинный перевод
Синтез речи
Распознавание речи
Языковые модели
Расширение Chrome для перевода сайта
Умная колонка
Расширение Chrome для перевода видео с Youtube

Тувинский язык

Название Ссылка Комментарий
Комьюнити в соц.сетях https://vk.com/tyvawiki
Комьюнити википидистов https://vk.com/tyvawiki
Клавиатура для Windows http://komikyv.org/downloads/tyva_key.exe
https://drive.google.com/file/d/1ZXQ0ZqcgPuSBCIt1ydj3HQ7iVjb9ysSk/view?usp=sharing
Клавиатура для Linux http://wiki.fu-lab.ru/index.php/%D0%A2%D1%8B%D0%B2%D0%B0_%D1%82%D0%B0%D0%BD%D0%B0%D0%BB#.D0.A0.D0.B0.D1.81.D0.BA.D0.BB.D0.B0.D0.B4.D0.BA.D0.B0_.D0.BA.D0.BB.D0.B0.D0.B2.D0.B8.D0.B0.D1.82.D1.83.D1.80.D1.8B_.28Linux.29
Клавиатура для Mac OS http://komikyv.org/downloads/key_mac.zip
Клавиатура для Android https://play.google.com/store/apps/details?id=com.anysoftkeyboard.languagepack.tyva&hl=ru
Клавиатура для iOS https://itunes.apple.com/ru/app/%D1%82%D1%8B%D0%B2%D0%B0-%D1%82%D0%B0%D0%BD%D0%B0%D0%BB/id1040613965
Электронный словарь https://tyvan.ru/
Перевод терминов
Сканы книг https://tuvancorpus.ru/
Программы распознавания текста FineReader
Спелчекер на основе правил
Транскрипция чисел, аббревиатур
Монокорпус
Параллельный корпус
Корпус диалогов
Корпус QA
Корпус аудио+текст
Спелчекер на основе контекста
Машинный перевод
Синтез речи
Распознавание речи
Языковые модели
Расширение Chrome для перевода сайта
Умная колонка
Расширение Chrome для перевода видео с Youtube

Карачаево-балкарский язык

Название Ссылка Комментарий
Комьюнити в соц.сетях
Комьюнити википидистов
Клавиатура для Windows
Клавиатура для Linux
Клавиатура для Mac OS
Клавиатура для Android https://play.google.com/store/apps/details?id=com.google.android.inputmethod.latin&hl=en&gl=US
Клавиатура для iOS https://apps.apple.com/us/app/gboard-the-google-keyboard/id1091700242
Электронный словарь http://www.elbrusoid.org/dictionary/
Перевод терминов
Сканы книг http://www.elbrusoid.org/library/
Программы распознавания текста
Спелчекер на основе правил
Транскрипция чисел, аббревиатур
Монокорпус
Параллельный корпус https://huggingface.co/datasets/TSjB/krc_parallel/viewer/TSjB--krc_parallel/train Богдан Теунаев, Али Берберов Собрали 260к слов и предложений, потихоньку добираем
Корпус диалогов
Корпус QA
Корпус аудио+текст
Спелчекер на основе контекста
Машинный перевод https://tsjb-qm-ru-translator.hf.space/?
https://huggingface.co/spaces/TSjB/QM_RU_translator
Богдан Теунаев
Синтез речи
Распознавание речи
Языковые модели mbart-50
https://huggingface.co/TSjB/mbart-large-52-ru-qm-v1
https://huggingface.co/TSjB/mbart-large-52-qm-ru-v1
Богдан Теунаев. Качество не очень хорошее, на данный момент fine-tuned на 27к параллельных предложений.
Планируем с Али новый датасет на 260к использовать и NLLB-200
Расширение Chrome для перевода сайта
Умная колонка
Расширение Chrome для перевода видео с Youtube

Татарский язык

Название Ссылка Комментарий
Комьюнити в соц.сетях
Комьюнити википидистов https://vk.com/tatar_wikipedia
Клавиатура для Windows нативная
Клавиатура для Linux нативная
Клавиатура для Mac OS нативная
Клавиатура для Android SwiftKey, Gboard, Яндекс Клавиатура
Клавиатура для iOS SwiftKey, Gboard, Яндекс Клавиатура
Электронный словарь https://suzlek.antat.ru
Перевод терминов
Сканы книг https://vk.com/tatelkit
Программы распознавания текста FineReader
https://github.com/tesseract-ocr/tesseract
Спелчекер на основе правил https://grammar.corpus.tatar/index.php?of=search/spellchecker.php
Транскрипция чисел, аббревиатур
Монокорпус https://www.corpus.tatar/
https://tugantel.tatar/
Параллельный корпус https://huggingface.co/datasets/IPSAN/tatar-russian-parallel-corpora
https://huggingface.co/datasets/AigizK/tatar-russian-parallel-corpora
Корпус диалогов
Корпус QA
Корпус аудио+текст STT:
https://commonvoice.mozilla.org/tt/datasets
https://github.com/IS2AI/Soyle
TTS:
https://github.com/IS2AI/TatarTTS
Спелчекер на основе контекста
Машинный перевод https://translate.tatar
https://translate.google.com
https://www.bing.com/translator
https://translate.yandex.ru
https://www.apertium.org
Facebook NLLB-200
Синтез речи Компилятивный синтез:
https://github.com/espeak-ng/espeak-ng
https://github.com/RHVoice/RHVoice
Нейронки:
https://github.com/snakers4/silero-models#text-to-speech
https://speech.tatar
Распознавание речи https://speech.tatar
https://huggingface.co/openai/whisper-large-v3
Языковые модели https://huggingface.co/sberbank-ai/mGPT
Расширение Chrome для перевода сайта
Умная колонка
Расширение Chrome для перевода видео с Youtube https://tatarspeech.dtc.tatar/

Здесь мог быть ваш язык

Название Ссылка Комментарий
Комьюнити в соц.сетях
Комьюнити википидистов
Клавиатура для Windows
Клавиатура для Linux
Клавиатура для Mac OS
Клавиатура для Android
Клавиатура для iOS
Электронный словарь
Перевод терминов
Сканы книг
Программы распознавания текста
Спелчекер на основе правил
Транскрипция чисел, аббревиатур
Монокорпус
Параллельный корпус
Корпус диалогов
Корпус QA
Корпус аудио+текст
Спелчекер на основе контекста
Машинный перевод
Синтез речи
Распознавание речи
Языковые модели
Расширение Chrome для перевода сайта
Умная колонка
Расширение Chrome для перевода видео с Youtube