No description, website, or topics provided.
Switch branches/tags
Nothing to show
Clone or download
dkulagin (+) Большое обновление открытой семантики русского языка.
(+) Тональный словарь выведен в отдельный датасет.
(+) Добавлены ссылки на интерактивный онлайн-навигатор.
Latest commit d88845a Jun 5, 2018

README.md

Открытые данные на Карте слов

Карта слов — это онлайн-тезаурус русского языка, в котором каждый пользователь Рунета может найти ассоциации, синонимы, посмотреть контекстные связи и примеры предложений к словам и выражениям русского языка.

При создании сайта мы работаем с огромным количеством лингвистических данных. Некоторые датасеты показались нам довольно интересными и мы хотим поделиться ими с сообществом.

Датасеты

  • Открытая семантика русского языка — разметка слов и выражений русского языка по различным семантическим срезам.

  • Тональный словарь русского языка — слова и выражения русского языка, размеченные по полярности (положительная, отрицательная, нейтральная). Также приводится сила выраженности эмоционально-оценочного заряда.

  • Ассоциации к словам и выражениям русского языка — ассоциации к словам и выражениям русского языка, придуманные реальными людьми. Кроме общего набора публикуются данные срезов по гендеру, т.е. включающие частоты ассоциаций, подсчитанные отдельно для мужчин и для женщин.

  • Орфографические ошибки и опечатки — слова русского языка и варианты их неправильного написания. Включает в себя как орфографические ошибки, так и опечатки. Все ошибочные написания снабжены весами, позволяющими оценить относительную частоту встречаемости тех или иных ошибок.

Интерактивный навигатор

Для удобства работы с датасетами мы разработали интерактивный навигатор, в котором можно изучить данные без необходимости скачивать их на локальный компьютер. На данный момент в нём представлена только открытая семантика и тональный словарь, но по мере обновления датасетов будут добавлены и другие наборы.

Контакты

Связаться с нами можно по электронной почте: kartaslov@mail.ru