Skip to content

Открытые лингвистические датасеты: тональный словарь русского языка КартаСловСент, датасет по семантике, ассоциативный граф и датасет по орфографическим ошибкам и опечаткам.

dkulagin/kartaslov

master
Switch branches/tags

Name already in use

A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?
Code

Открытые данные на Карте слов

Карта слов — это онлайн-тезаурус русского языка, в котором каждый пользователь Рунета может найти ассоциации, синонимы, посмотреть контекстные связи и примеры предложений к словам и выражениям русского языка.

При создании сайта мы работаем с огромным количеством лингвистических данных. Некоторые датасеты показались нам довольно интересными и мы хотим поделиться ими с сообществом.

Датасеты

  • Тональный словарь русского языка КартаСловСент — слова и выражения русского языка, снабжённые тональной меткой («положительное», «отрицательное», «нейтральное») и скалярным значением силы эмоционально-оценочного заряда из непрерывного диапазона [-1, 1].

  • Открытая семантика русского языка — разметка слов и выражений русского языка по семантическим срезам («люди», «животные», «сооружения», «вещи», «действия» и т.д.).

  • Ассоциации к словам и выражениям русского языка — ассоциации к словам и выражениям русского языка, придуманные реальными людьми. Кроме общего набора публикуются данные срезов по гендеру, т.е. включающие частоты ассоциаций, подсчитанные отдельно для мужчин и для женщин.

  • Орфографические ошибки и опечатки — слова русского языка и варианты их неправильного написания. Включает в себя как орфографические ошибки, так и опечатки. Все ошибочные написания снабжены весами, позволяющими оценить относительную частоту встречаемости тех или иных ошибок.

Интерактивный навигатор

Для удобства работы с датасетами мы разработали интерактивный навигатор, в котором можно изучить данные без необходимости скачивать их на локальный компьютер. На данный момент в нём представлена только открытая семантика и тональный словарь, но по мере обновления датасетов будут добавлены и другие наборы.

Контакты

Связаться с нами можно по электронной почте: kartaslov@mail.ru

About

Открытые лингвистические датасеты: тональный словарь русского языка КартаСловСент, датасет по семантике, ассоциативный граф и датасет по орфографическим ошибкам и опечаткам.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published