Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Ошибки в разметке синтаксиса: #11

Open
AlexeySorokin opened this issue Feb 12, 2020 · 9 comments
Open

Ошибки в разметке синтаксиса: #11

AlexeySorokin opened this issue Feb 12, 2020 · 9 comments

Comments

@AlexeySorokin
Copy link

AlexeySorokin commented Feb 12, 2020

Является ли ошибкой (по-моему, да), и много ли ошибок вроде

1	Мечта	мечта	NOUN	_	Animacy=Inan|Case=Nom|Gender=Fem|Number=Sing	4	nsubj	_	_
2	Серёжи	Серёжи	NOUN	_	Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing	1	nmod	_	_
3	-	-	PUNCT	_	_	4	punct	_	_
**4	жить	жить	VERB	_	Aspect=Imp|VerbForm=Inf|Voice=Act	0	**root	_	_
5	без	без	ADP	_	_	6	case	_	_
6	боли	боль	NOUN	_	Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing	4	obl	_	SpaceAfter=No
7	😭	😭	SYM	_	_	4	discourse	_	_

См., например SynTagRus:

8	их	их	DET	_	_	10	det	_	_
9	главная	главный	ADJ	_	Case=Nom|Degree=Pos|Gender=Fem|Number=Sing	10	amod	_	_
10	цель	цель	NOUN	_	Animacy=Inan|Case=Nom|Gender=Fem|Number=Sing	0	root	_	_
11	-	-	PUNCT	_	_	12	punct	_	_
12	научиться	научиться	VERB	_	Aspect=Perf|VerbForm=Inf|Voice=Mid	10	csubj	_	_
13	работать	работать	VERB	_	Aspect=Imp|VerbForm=Inf|Voice=Act	12	xcomp	_	_
14	вместе	вместе	ADV	_	Degree=Pos	13	advmod	_	_
@olesar
Copy link
Collaborator

olesar commented Feb 12, 2020

@AlexeySorokin, да, ошибка, спасибо за замечание. Нашла еще один такой же случай, в новом коммите он поправлен.

@AlexeySorokin
Copy link
Author

Ещё ошибки (расхождения с Синтагрусом):

  1. конструкция не что иное, как:
5	не	не	PART	NEG	Polarity=Neg	6	advmod	_	_
6	что	что	PRON	WP	Animacy=Inan|Case=Nom|Gender=Neut|Number=Sing	0	root	_	_
7	иное	иной	ADJ	JJL	Case=Nom|Degree=Pos|Gender=Neut|Number=Sing	6	amod	_	SpaceAfter=No
8	,	,	PUNCT	,	_	6	punct	_	_
9	как	как	ADP	IN	_	10	case	_	_
10	свет	свет	NOUN	NN	Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing	6	nmod	_	_
11	разума	разум	NOUN	NN	Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing	10	nmod	_	SpaceAfter=No

см. СинТагРус

26	не	не	PART	_	_	27	advmod	_	_
27	кто	кто	PRON	_	Case=Nom	28	nsubj	_	_
28	иной	иной	ADJ	_	Case=Nom|Degree=Pos|Gender=Masc|Number=Sing	23	ccomp	_	_
29	,	,	PUNCT	_	_	31	punct	_	_
30	как	как	SCONJ	_	_	31	mark	_	_
31	Ленечка	Ленечка	PROPN	_	Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing	28	obl	_	_

здесь в разметке групп нет практически ничего общего

  1. метка obl:agent в СинТагРусе отсустствует.
  2. неверная разметка эллипсиса:
5	``	``	PUNCT	``	_	6	punct	_	SpaceAfter=No
6	Харьков	Харьков	PROPN	NNP	Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing	4	appos	_	_
7	научный	научный	ADJ	JJL	Case=Nom|Degree=Pos|Gender=Masc|Number=Sing	6	amod	_	_
8	--	--	PUNCT	--	_	6	punct	_	_
9	Харькову	Харьков	PROPN	NNP	Animacy=Inan|Case=Dat|Gender=Masc|Number=Sing	6	nmod	_	_
10	индустриальному	индустриальный	ADJ	JJL	Case=Dat|Degree=Pos|Gender=Masc|Number=Sing	9	amod	_	SpaceAfter=No
11	!	!	PUNCT	.	_	6	punct	_	SpaceAfter=No
  1. прикрепление знаков препинания
2	Естественный	естественный	ADJ	JJL	Case=Nom|Degree=Pos|Gender=Masc|Number=Sing	3	amod	_	_
3	закон	закон	NOUN	NN	Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing	6	nsubj	_	_
4	--	--	PUNCT	--	_	**6	punct	_	_
5	не	не	PART	NEG	Polarity=Neg	6	advmod	_	_
6	что	что	PRON	WP	Animacy=Inan|Case=Nom|Gender=Neut|Number=Sing	0	root	_	_
7	иное	иной	ADJ	JJL	Case=Nom|Degree=Pos|Gender=Neut|Number=Sing	6	amod	_	SpaceAfter=No

в СинТагРусе

1	"	"	PUNCT	_	_	2	punct	_	_
2	Мы	мы	PRON	_	Case=Nom|Number=Plur|Person=1	6	nsubj	_	_
3	"	"	PUNCT	_	_	2	punct	_	_
**4	-	-	PUNCT	_	_	2	punct	_	_
5	это	это	PRON	_	_	6	cop	_	_
6	я	я	PRON	_	Case=Nom|Number=Sing|Person=1	0	root	_	_
  1. неверная разметка сочинительных конструкций (21 слово -- это обычный conj, по-моему, но точно не parataxis):
2	Естественный	естественный	ADJ	JJL	Case=Nom|Degree=Pos|Gender=Masc|Number=Sing	3	amod	_	_
3	закон	закон	NOUN	NN	Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing	6	nsubj	_	_
4	--	--	PUNCT	--	_	6	punct	_	_
5	не	не	PART	NEG	Polarity=Neg	6	advmod	_	_
6	что	что	PRON	WP	Animacy=Inan|Case=Nom|Gender=Neut|Number=Sing	0	root	_	_
7	иное	иной	ADJ	JJL	Case=Nom|Degree=Pos|Gender=Neut|Number=Sing	6	amod	_	SpaceAfter=No
8	,	,	PUNCT	,	_	6	punct	_	_
9	как	как	ADP	IN	_	10	case	_	_
10	свет	свет	NOUN	NN	Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing	6	nmod	_	_
11	разума	разум	NOUN	NN	Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing	10	nmod	_	SpaceAfter=No
12	,	,	PUNCT	,	_	13	punct	_	_
13	влитый	влить	VERB	VBNL	Animacy=Inan|Aspect=Perf|Case=Nom|Gender=Masc|Number=Sing|Tense=Past|VerbForm=Part|Voice=Pass	10	acl	_	_
14	в	в	ADP	IN	_	15	case	_	_
15	нас	мы	PRON	PRP	Case=Acc|Number=Plur|Person=1	13	obl	_	_
16	Богом	Бог	PROPN	NNP	Animacy=Anim|Case=Ins|Gender=Masc|Number=Sing	13	obl:agent	_	SpaceAfter=No
17	;	;	PUNCT	:	_	6	punct	_	_
18	посредством	посредством	ADP	IN	_	19	case	_	_
19	его	он	PRON	PRP	Case=Gen|Gender=Masc|Number=Sing|Person=3	21	obl	_	_
20	мы	мы	PRON	PRP	Case=Nom|Number=Plur|Person=1	21	nsubj	_	_
**21	знаем	знать	VERB	VBC	Aspect=Imp|Mood=Ind|Number=Plur|Person=1|Tense=Pres|VerbForm=Fin|Voice=Act	6	**parataxis	_	SpaceAfter=No

@AlexeySorokin
Copy link
Author

@olesar Проблема в том, что список неточностей был составлен на примере отличий между автоматической системой и разметкой в выборке, что приводит к мысли, что учиться на тренировочных данных нельзя, поскольку в сложных случаях они не точнее, чем система, обученной на СинТагРусе, и к тому же неконсистентны.

@olesar
Copy link
Collaborator

olesar commented Feb 13, 2020

конструкция не что иное, как:

Дерево в UD-SynTagRus пришло из СинТагРус-ИППИ без принципиальных изменений proof, полагаю, авторы руководствовались определенными критериями, разработанным под задачи машинного перевода или отвечающие принципам модели Смысл-Текст.
В UD-GSD аналогичный случай рассматривался как спорный, порядка 4 вариантов было предложено. Решили выбрать более стандартное для русского синтаксиса дерево ("иной" является атрибутом, "как X" размечается так же, как в сравнительных конструкциях).
NB Ошибка в GSD, правильно так:

9	как	как	ADP	IN	_	10	case	_	_
10	свет	свет	NOUN	NN	Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing	6	obl	_	_

@olesar
Copy link
Collaborator

olesar commented Feb 13, 2020

Обобщая, конструкции малого синтаксиса являются узким горлышком, здесь всегда можно ожидать расхождений. Инвентаризация таких конструкций и их интерпретация - отдельная правильная задача, хорошо, если соревнование даст почву для этого.

@olesar
Copy link
Collaborator

olesar commented Feb 13, 2020

метка obl:agent в СинТагРусе отсутствует.

скрипт валидации оценивает теги первого уровня, иными словами, obl=obl:agent, это не должно создать проблем (но может дать поле для эксперимента с обучением на тегах первого уровня, в других вопросах).
В UD-SynTagRus-v2 они появились спорадически, но не системно. Тег obl:agent проще вытащить из оригинальной разметки ИППИ (впрочем, известно, что один из соавторов конвертора не любит теги второго уровня).

@olesar
Copy link
Collaborator

olesar commented Feb 13, 2020

неверная разметка эллипсиса:

Хорошего решения для "конструкций с лозунгами/названиями" в рамках UD2.5 пока не придумано, применение тега orphan дает ошибку скрипта UD (два nsubj в одном предложении), см. дискуссию в репозитории universaldependencies.

@olesar
Copy link
Collaborator

olesar commented Feb 13, 2020

прикрепление знаков препинания

Известная проблема, поправлено в S-v2

@olesar
Copy link
Collaborator

olesar commented Feb 13, 2020

неверная разметка сочинительных конструкций (21 слово -- это обычный conj, по-моему, но точно не parataxis):

конвертор реагирует на точку запятой как маркер паратаксиса. Согласна с @AlexeySorokin , наличие анафорической связи здесь говорит в пользу conj. Увы, ручной просмотр всех таких деревьев в миллионном корпусе - дело немыслимое.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants