Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Расхождения в разметке морфологии. #12

Open
AlexeySorokin opened this issue Feb 13, 2020 · 9 comments
Open

Comments

@AlexeySorokin
Copy link

AlexeySorokin commented Feb 13, 2020

Уважаемые организаторы, не могли бы вы указать все отличия стандарта разметки соревнования от разметки SynTagRus, потому что большинство систем обучались именно на SynTagRus и тем самым следуют его аннотации. Пока найдены следующие отличия (на примере файла GramEval2020-GSD-train.conllu):

  1. у некоторых прилагательных размечена одушевлённость:
5	за	за	ADP	IN	_	7	case	_	_
**6	новый	новый	ADJ	JJL	**Animacy=Inan|Case=Acc|Degree=Pos|Gender=Masc|Number=Sing	7	amod	_	_
7	клуб

но у некоторых -- нет:

2	изучение	изучение	NOUN	NN	Animacy=Inan|Case=Acc|Gender=Neut|Number=Sing	5	obl	_	_
**3	двойной	двойной	ADJ	JJL	**Case=Gen|Degree=Pos|Gender=Fem|Number=Sing	4	amod	_	_
4	специализации	специализация	NOUN	NN	Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing	2	nmod	_	_
  1. порядковые числительные считаются прилагательными (upos=ADJ) и размечены по признакам прилагательного
**15	7	7	**ADJ	ORD	Case=Gen|Degree=Pos|Gender=Neut|Number=Sing	10	obl	_	_
16	января	январь	NOUN	NN	Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing	15	flat	_	_

в СинТагРусе как минимум часть аналогичных примеров размечена как NUM
3. у количественных числительных размечен падеж и NumType=Card
4. у некоторых глаголов (быть, стать) не размечен залог
5. у местоимений что и который размечены все признаки.

@AlexeySorokin
Copy link
Author

Могли бы вы ответить по перечисленным расхождениям и указать то, что было упущено или подтвердить, что других систематических отличий нет.

@olesar
Copy link
Collaborator

olesar commented Feb 13, 2020

у некоторых прилагательных размечена одушевлённость:

В UD 2.0 у прилагательных одушевленность размечается в тех формах Case=Acc, где различаются две формы, согласуемые с одушевлённой вершиной (вижу большого человека) и с неодушевленной (вижу большой дом).
У прилагательных Case=Acc, Gender=Fem, Number=Sing такой пометы не ставится (форма "большую" не зависит от согласования, отличаясь от Nom и Gen), у остальных прилагательных ставится. То же касается DET.

@AlexeySorokin
Copy link
Author

В UD 2.0 у прилагательных одушевленность размечается в тех формах Case=Acc, где различаются две формы, согласуемые с одушевлённой вершиной (вижу большого человека) и с неодушевленной (вижу большой дом).

Тем не менее обучающая выборка GSD-train одержит 8 примеров DET или ADJ не в аккузативе с размеченной одушевлённостью. Это ошибка разметки?

@olesar
Copy link
Collaborator

olesar commented Feb 13, 2020

Да, ошибка.
Ручная полнотекстовая разметка часто страдает от решений, где разметчику нужно помнить несколько правил. Второй источник - изменение частеречного класса при редактировании разметки (NOUN -> ADJ, одушевленность убрать забыли).

@AlexeySorokin
Copy link
Author

В GSD иностранные имена собственные размечены как X, в остальных подкорпусах как PROPN, на какую из разметок ориентироваться?

@olesar
Copy link
Collaborator

olesar commented Feb 16, 2020 via email

@AlexeySorokin
Copy link
Author

@olesar Вы не ответили на вопрос: я вижу в тестовой выборке предложение с иностранным именем собственным, как я должен его размечать? Разные подмножества обучающей выборки делают это по-разному, как правильно?

@olesar
Copy link
Collaborator

olesar commented Feb 16, 2020 via email

@AlexeySorokin
Copy link
Author

Боюсь, Вы не совсем правы: разные подмножества предоставляют разную разметку не потому, что эти предложения разных жанров, а потому что разные исходные стандарты разметки. И не раскрывать, какой из них будет выбран в тестовой выборке, не слишком честно по отношению к участникам, поскольку совершенно не влияющее на качество модели решение даст разницу в несколько процентов по upos, поскольку в новостных текстах названия латиницей могут встречаться едва ли не в каждом втором предложении. Чтобы не возникло подобной несправедливости, предлагаю зафиксировать одно максимально непротиворечивое решение (это же касается и различия PROPN/NOUN, которое столь же бессистемно).

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants