Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Разобраться с грамматическими признаками #4

Closed
sandello opened this issue Nov 10, 2012 · 4 comments

Comments

@sandello
Copy link
Collaborator

Собрать информацию, какие грам. признаки в каких корпусах есть, и как они соотносятся, чтобы в перспективе сделать приведение к одному формату.

@EgorLakomkin
Copy link
Owner

библиотека для конвертации морф признаков. поддерживается диалог, opencorpora, aot
https://github.com/kmike/russian-tagsets

@sandello
Copy link
Collaborator Author

Хотим перевести все теги к http://www.ruscorpora.ru/corpora-morph.html .

  • Научиться конвертировать АОТ -> НКРЯ, OpenCorpora -> НКРЯ, Диалог -> НКРЯ.
  • Посмотреть покрытие АОТ/OC/Д-тега (теги, которые не конвертируются в НКРЯшные).
  • Посмотреть те теги, которых нету в прообразе конвертации.

Если будут из п. 2 и п. 3 теги, которые не конвертируются, то про них можно поговорить на ИС.

@EgorLakomkin
Copy link
Owner

Описание морф признаков
OpenCorpora http://opencorpora.org/dict.php?act=gram
AOT http://aot.ru/docs/rusmorph.html

@sandello
Copy link
Collaborator Author

Что накопали в предыдущий раз:

(НКРЯ ~ mystem)

acc2 ~ acc
distort ~ (убрать)
init, abbr, ciph ~ меняем на S,сокр
med ~ act (альтернатива: вообще убрать залоги)
m-f ~ жен
voc ~ зват (альтернатива: убрать)

Даша, когда будешь переносить эту информацию на страничку, то под сложными случаями (типа voc ~ зват) поставь, пожалуйста, ссылку на НКРЯ на страницу с поиском по данному тегу. Еще можно подписать к каждому случаю комментарий/причину такой замены, если ты сочтешь это нужным.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants