# Синтаксис 

**Синтаксис** — одна из частей грамматики, которая исследует взаимодействие слов в словосочетании и предложении (вторая часть — морфология). 

Формальные (структурные) подходы к синтаксису:

1. Грамматика составляющих
2. Грамматика зависимостей

## Грамматика составляющих
*constituency grammar, phrase structure grammar*

* Составляющая (англ. constituent) — структурная единица (отрезок) предложения, целиком составленная из более тесно связанных друг с другом составляющих меньшего размера
* Любая сложная грамматическая единица складывается из двух более простых и не пересекающихся единиц, или непосредственных составляющих (англ. immediate constituents)
* Предложения  представлено в виде иерархии непосредственных составляющих
* Составляющая, включающая более одного слова — группа (англ. phrase)
* Слово, соответствующее корневому узлу в дереве зависимостей, описывающем группу — ее вершина (англ. head)
* Много используется в американской формальной лингвистике, в частности в генеративной грамматике Н. Хомского

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/6/6e/ParseTree.svg/800px-ParseTree.svg.png" width="200">

### Виды синтаксических групп
Называются по частям речи вершин.
* NP — именная группа (группа существительного, англ. noun phrase)
* AP — группа прилагательного (англ. adjectival phrase)
* AdvP — наречная группа (англ. adverbial phrase)
* PP — предложная группа (англ. prepositional phrase)
* VP — глагольная группа (англ. verb phrase)
* S — предложение (англ. sentence), всегда являетс самой верхней группой

## Грамматика зависимостей

*dependency grammar, dependency parsing*

* Именно ее в упрощенном виде проходят в школе
* Сейчас является стандартом в автоматической обработке текста, т.к. является более гибкой (например, позволяет описывать языки со свободным порядком слов)
* Стандарт разметки [Universal Depedencies](https://universaldependencies.org/), открытые корпуса
* Строй предложения — иерархия компонентов, между которыми установлено отношение зависимости
* Есть вершины и зависимые от них элементы, во главе всего — глагол
* Важны типы связей! [Виды связей](https://universaldependencies.org/u/dep/index.html) и [основные принципы синтаксической разметки](https://universaldependencies.org/u/overview/syntax.html)
* Хорошая и важная [статья](https://cl.lingfil.uu.se/~nivre/docs/05133.pdf) Йоакима Нивре о грамматике зависимостей в NLP

<img src="https://www.inf.ed.ac.uk/teaching/courses/anlp/lectures/17/depend2.png" width="700">

## Сравнение

Разбор одного и того же предложения в грамматике зависимостей и в грамматике составляющих (из статьи Нивре). Формальное представление структуры предложения как в грамматике зависимостей, так и в грамматике составляющих называется **деревом**.


[Частеречные теги из корпуса PennTreebank](https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html), которые используются на картинке (они старые и только для английского, вы их уже почти нигде не увидите). 

![](img/dep-nivre.png)

## Universal Dependencies

### Формат CoNLL-U

Существует несколько форматов записи деревьев зависимостей, но самый популярный и общеиспользуемый — [CoNLL-U](http://universaldependencies.org/format.html). 

* таблица с 10 колонками, разделитель — табуляция
* ячейки не могут быть пустыми, для заполнения используется _ (нижнее подчеркивание)
* на каждой строке по одному токену, предложения разделяются пустой строкой
* комментарии обозначаются #

**Поля таблицы**

1. ID: индекс слова, нумерация с 1 для каждого нового предложения
2. FORM: токен (форма слова, цифра, знак пунктуации)
3. LEMMA: начальная форма
4. UPOS: частеречный тег в формате UPOS
5. XPOS: лингвоспецифическая часть речи
6. FEATS: морфологическая информация: род, число, падеж и т.п.
7. HEAD: id родителя (слова, от которого зависит данное)
8. DEPREL: тип зависимости 
9. DEPS: альтернатвный подграф в виде пар "вершина–тип зависимости" (не будем углубляться :)
10. MISC: любые другие пометы

Как это выглядит:

![](img/dep-annot.png)

**NB!** Вершина предложения обозначается как *root* и в качестве id родителя всегда имеет 0. 

### Визуализация

Отрытый инструмент для визуализации, ручной разметки и конвертации в другие форматы — **UD Annotatrix**
* [Online-интерфейс](https://maryszmary.github.io/ud-annotatrix/standalone/annotator.html)
* [Репозиторий](https://github.com/jonorthwash/ud-annotatrix)


### Как считывать данные

Для этого есть библиотека [conllu](https://github.com/EmilStenstrom/conllu), устанавливается с помощью `pip`.

In [2]:
from conllu import parse

Пример из [SynTagRus](https://github.com/UniversalDependencies/UD_Russian-SynTagRus), русского UD-трибанка. **Трибанком** обычно называют набор синтаксически размеченных предложений.

In [3]:
my_example = """
# sent_id = 2003Armeniya.xml_138
# text = Перспективы развития сферы высоких технологий.
1	Перспективы	перспектива	NOUN	_	Animacy=Inan|Case=Nom|Gender=Fem|Number=Plur	0	ROOT	0:root	_
2	развития	развитие	NOUN	_	Animacy=Inan|Case=Gen|Gender=Neut|Number=Sing	1	nmod	1:nmod	_
3	сферы	сфера	NOUN	_	Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing	2	nmod	2:nmod	_
4	высоких	высокий	ADJ	_	Case=Gen|Degree=Pos|Number=Plur	5	amod	5:amod	_
5	технологий	технология	NOUN	_	Animacy=Inan|Case=Gen|Gender=Fem|Number=Plur	3	nmod	3:nmod	SpaceAfter=No
6	.	.	PUNCT	_	_	1	punct	1:punct	_
"""

In [4]:
sentences = parse(my_example)
sentence = sentences[0]

# первый токен в примере
sentence[0]

OrderedDict([('id', 1),
             ('form', 'Перспективы'),
             ('lemma', 'перспектива'),
             ('upostag', 'NOUN'),
             ('xpostag', None),
             ('feats',
              OrderedDict([('Animacy', 'Inan'),
                           ('Case', 'Nom'),
                           ('Gender', 'Fem'),
                           ('Number', 'Plur')])),
             ('head', 0),
             ('deprel', 'ROOT'),
             ('deps', [('root', 0)]),
             ('misc', None)])

In [5]:
# последний токен
sentence[-1]

OrderedDict([('id', 6),
             ('form', '.'),
             ('lemma', '.'),
             ('upostag', 'PUNCT'),
             ('xpostag', None),
             ('feats', None),
             ('head', 1),
             ('deprel', 'punct'),
             ('deps', [('punct', 1)]),
             ('misc', None)])

### Визуализация в питоне

В `nltk` есть модуль `DependencyGraph`, который умеет рисовать деревья (и ещё многое другое). Для того, чтобы визуализация работала корректно, ему нужна зависимость — `graphviz` (ставится с помощью `pip`).

В отличие от `conllu`, `DependencyGraph` не справляется с комментариями, поэтому придётся их убрать. Кроме того, ему обязательно нужен `deprel` *ROOT* в верхнем регистре, иначе он не находит корень.

In [6]:
from nltk import DependencyGraph

sents = []
for sent in my_example.split('\n\n'):
    # убираем комменты
    sent = '\n'.join([line for line in sent.split('\n') if not line.startswith('#')])
    # заменяем deprel для root
    sent = sent.replace('\troot\t', '\tROOT\t')
    sents.append(sent)

In [7]:
graph = DependencyGraph(tree_str=sents[0])

In [8]:
tree = graph.tree()
print(tree.pretty_print())

    Перспективы           
  _______|__________       
 |               развития 
 |                  |      
 |                сферы   
 |                  |      
 |              технологий
 |                  |      
 .               высоких  

None


## UDPipe

Есть разные инструменты для парсинга зависимостей. Сегодня мы будем рабтать с [UDPipe](http://ufal.mff.cuni.cz/udpipe). UDPipe умеет парсить текст с помощью готовых моделей (которые можно скачать [здесь](https://github.com/jwijffels/udpipe.models.ud.2.0/tree/master/inst/udpipe-ud-2.0-170801)) и обучать модели на своих трибанках.

Собственно, в UDPipe есть три вида моделей:
* токенизатор (делит предложение не токены, делает заготовку для CoNLL-U)
* теггер (размечает части речи)
* сам парсер (проставляет каждому токену `head` и `deprel`)

Мы сегодня не будем обучать новых моделей (это слишком долго), а используем готовую модель для русского.

**NB!** Не забывайте, что любая модель несовершенна и может ошибаться. Чем предложение сложнее синтаксически, тем больше вероятность ошибки (неправильного определения родителя и типа связи).

### The Python binding

У udpipe есть питоновская обвязка `ufal.udpipe`. Она довольно [плохо задокументирована](https://pypi.org/project/ufal.udpipe/), но зато можно использовать прямо в питоне.

**NB!** Чтобы у вас номально установился `ufal.udpipe`, нужно сначала установить `SWIG` (скачать можно [отсюда](http://www.swig.org/download.html)) и прописать путь к нему в `PATH`.

In [9]:
from ufal.udpipe import Model, Pipeline
model = Model.load('./data/russian-ud-2.0-170801.udpipe') # путь к модели

In [10]:
# если успех, должно быть так (model != None)
model

<Swig Object of type 'model *' at 0x000001D395F8F618>

Аргументы `Pipeline`:

* загруженная модель
* формат ввода 
    * conllu
    * vertical — каждый токен на отдельной строке, предложения разделены пустой строкой
    * horizontal — каждое предложение на отдельной строке, внутри предложения токены разделены пробелом
    * если просто сплошной текст — вызываем токенизатор, generic_tokenizer или tokenize
* теггер (либо default, либо none, если он не нужен)
* парсер (либо default, либо none, если он не нужен)
* формат вывода, по умолчанию conllu

Все аргументы обязательные!

In [11]:
pipeline = Pipeline(model, 'tokenize', Pipeline.DEFAULT, Pipeline.DEFAULT, Pipeline.DEFAULT)
example = "Если б мне платили каждый раз. Каждый раз, когда я думаю о тебе."
parsed = pipeline.process(example)
print(parsed)

# newdoc
# newpar
# sent_id = 1
# text = Если б мне платили каждый раз.
1	Если	ЕСЛИ	SCONJ	IN	_	4	mark	_	_
2	б	Б	NOUN	NN	Animacy=Anim|Case=Gen|Gender=Masc|Number=Plur	4	obl	_	_
3	мне	Я	PRON	PRP	Case=Dat|Number=Sing|Person=1	4	iobj	_	_
4	платили	ПЛАТИТЬ	VERB	VBC	Aspect=Imp|Mood=Ind|Number=Plur|Tense=Past|VerbForm=Fin	0	root	_	_
5	каждый	КАЖДЫЙ	DET	DT	Animacy=Inan|Case=Acc|Gender=Masc|Number=Sing	6	amod	_	_
6	раз	РАЗ	NOUN	NN	Animacy=Inan|Case=Acc|Gender=Masc|Number=Sing	4	advmod	_	SpaceAfter=No
7	.	.	PUNCT	.	_	4	punct	_	_

# sent_id = 2
# text = Каждый раз, когда я думаю о тебе.
1	Каждый	КАЖДЫЙ	DET	DT	Animacy=Inan|Case=Acc|Gender=Masc|Number=Sing	2	amod	_	_
2	раз	РАЗ	NOUN	NN	Animacy=Inan|Case=Acc|Gender=Masc|Number=Sing	6	advmod	_	SpaceAfter=No
3	,	,	PUNCT	,	_	6	punct	_	_
4	когда	КОГДА	ADV	WRB	_	6	advmod	_	_
5	я	Я	PRON	PRP	Case=Nom|Number=Sing|Person=1	6	nsubj	_	_
6	думаю	дУМАТЬ	VERB	VBC	Aspect=Imp|Mood=Ind|Number=Sing|Person=1|Tense=Pres|VerbForm=Fin	0	root	_	_
7	о	О	ADP	IN	_	8	case	_	_


UDPipe токенизировал и лематизировал текст, а также сделал POS-tagging и, собственно, синтаксический разбор.

### Command line interface

Но с обвязкой бывают проблемы, и вообще довольно удобно пользоваться прекомпилированной утилитой `udpipe` из шелла. Она скачивается [здесь](https://github.com/ufal/udpipe/releases/tag/v1.2.0). Внутри бинарники для всех популярных ОС, выбираем свой и прописываем путь к нему в системные переменные `PYTHONPATH` и `PATH`. [Подробная документация есть на сайте проекта](http://ufal.mff.cuni.cz/udpipe/users-manual).

Синтаксис:

In [13]:
!udpipe

Usage: udpipe [running_opts] model_file [input_files]
       udpipe --train [training_opts] model_file [input_files]
       udpipe --detokenize [detokenize_opts] raw_text_file [input_files]
Running opts: --accuracy (measure accuracy only)
              --input=[conllu|generic_tokenizer|horizontal|vertical]
              --immediate (process sentences immediately during loading)
              --outfile=output file template
              --output=[conllu|epe|matxin|horizontal|plaintext|vertical]
              --tokenize (perform tokenization)
              --tokenizer=tokenizer options, implies --tokenize
              --tag (perform tagging)
              --tagger=tagger options, implies --tag
              --parse (perform parsing)
              --parser=parser options, implies --parse
Training opts: --method=[morphodita_parsito] which method to use
               --heldout=heldout data file name
               --tokenizer=tokenizer options
               --tagger=tagger options
      

In [14]:
with open('example.txt', 'w', encoding='utf-8') as f:
    f.write(example)

In [15]:
!udpipe --tokenize --tag --parse .\data\russian-ud-2.0-170801.udpipe example.txt > parsed_example.conllu

Loading UDPipe model: done.


In [16]:
with open('parsed_example.conllu', 'r', encoding='utf-8') as f:
    print(f.read())

# newdoc id = example.txt
# newpar
# sent_id = 1
# text = Если б мне платили каждый раз.
1	Если	ЕСЛИ	SCONJ	IN	_	4	mark	_	_
2	б	Б	NOUN	NN	Animacy=Anim|Case=Gen|Gender=Masc|Number=Plur	4	obl	_	_
3	мне	Я	PRON	PRP	Case=Dat|Number=Sing|Person=1	4	iobj	_	_
4	платили	ПЛАТИТЬ	VERB	VBC	Aspect=Imp|Mood=Ind|Number=Plur|Tense=Past|VerbForm=Fin	0	root	_	_
5	каждый	КАЖДЫЙ	DET	DT	Animacy=Inan|Case=Acc|Gender=Masc|Number=Sing	6	amod	_	_
6	раз	РАЗ	NOUN	NN	Animacy=Inan|Case=Acc|Gender=Masc|Number=Sing	4	advmod	_	SpaceAfter=No
7	.	.	PUNCT	.	_	4	punct	_	_

# sent_id = 2
# text = Каждый раз, когда я думаю о тебе.
1	Каждый	КАЖДЫЙ	DET	DT	Animacy=Inan|Case=Acc|Gender=Masc|Number=Sing	2	amod	_	_
2	раз	РАЗ	NOUN	NN	Animacy=Inan|Case=Acc|Gender=Masc|Number=Sing	6	advmod	_	SpaceAfter=No
3	,	,	PUNCT	,	_	6	punct	_	_
4	когда	КОГДА	ADV	WRB	_	6	advmod	_	_
5	я	Я	PRON	PRP	Case=Nom|Number=Sing|Person=1	6	nsubj	_	_
6	думаю	дУМАТЬ	VERB	VBC	Aspect=Imp|Mood=Ind|Number=Sing|Person=1|Tense=Pres|VerbForm=Fin	0	root	_	_
7	о	О	ADP

## Задание №1
## Главред

Главред — [сервис](https://glvrd.ru/) для корекции стиля текста. Кроме интерфейса у него есть [API](https://glvrd.ru/api/)! 

Алгоритмы Главреда основаны на правилах и списках стоп-слов, подробнее можно почтитать [здесь](http://maximilyahov.ru/blog/all/glvrd-grading/) и [здесь](https://zen.yandex.ru/media/id/59367381d7d0a62756e9cf32/kak-rabotaet-glavred-596f45d18e557d2646e50a1f). Однако, Главред не понимает контекст, не разбирается в орфографии и пунктуации, не видит рубленые предложения, почти не умеет находить ошибки в синтаксисе. Он подходит только для грубой механической чистки текста от мусора: стоп-слов, штампов и канцеляризмов.

Попробуем имплементировать несколько функций для оценки текста по типу Главреда, но более продвинутых, ориентированных на синтаксис.

### Однородные члены

Возьмём простой пример: предложение, перегруженное однородными членами.

In [36]:
sent = """
Заходит она в трамвай, подходит к компостеру, открывает сумку, достает кошелку, закрывает сумку, открывает кошелку,
достает кошелек, закрывает кошелку, открывает сумку, убирает кошелку, закрывает сумку, открывает кошелек, достает 
билетик...
"""

In [37]:
print(pipeline.process(sent))

# newdoc
# newpar
# sent_id = 1
# text = Заходит она в трамвай, подходит к компостеру, открывает сумку, достает кошелку, закрывает сумку, открывает кошелку, достает кошелек, закрывает кошелку, открывает сумку, убирает кошелку, закрывает сумку, открывает кошелек, достает билетик...
1	Заходит	ЗаХОДИТЬ	VERB	VBC	Aspect=Imp|Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin	0	root	_	SpacesBefore=\n
2	она	ОНА	PRON	PRP	Case=Nom|Gender=Fem|Number=Sing|Person=3	1	nsubj	_	_
3	в	В	ADP	IN	_	4	case	_	_
4	трамвай	трамвай	NOUN	NN	Animacy=Inan|Case=Acc|Gender=Masc|Number=Sing	1	obl	_	SpaceAfter=No
5	,	,	PUNCT	,	_	6	punct	_	_
6	подходит	ПОДХОДИТЬ	VERB	VBC	Aspect=Imp|Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin	1	conj	_	_
7	к	К	ADP	IN	_	8	case	_	_
8	компостеру	компостЕРУ	NOUN	NN	Animacy=Inan|Case=Dat|Gender=Masc|Number=Sing	6	obl	_	SpaceAfter=No
9	,	,	PUNCT	,	_	10	punct	_	_
10	открывает	ОТКРЫВАТЬ	VERB	VBC	Aspect=Imp|Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin	1	conj	_	_
11	сумку	су

В таком случае очень много частей предложения, соединённых связью `conj` — ей обозначаются однородные члены предложения. В нашем примере вершина — глагол "заходит", от него зависят "подходит", "открывает", "закрывает", "достает". У всех этих глаголов в колонке `id родителя` стоит 1 (т.е. id вершины) и связь *conj* в колонке `deprel`.

В таком случае можно просто посчитать количество таких связей, и если оно больше какой-нибудь величины (например, три на предложение), то выдать пользователю предупреждение наподобие Главреда.

![](img/glavred.png)

Можно усложнить этот критерий, проверив, не состоит ли предложение из большого числа однородных предложений. Для этого необходимо узнать, являются ли однородные члены глаголами и есть ли у каждого из них субъект, *nsubj*.

In [None]:
# YOUR CODE HERE

### Парцелляция

Ещё одна проблема, на которую обращают внимание в Главреде — [парцелляция](http://maximilyahov.ru/blog/all/parcel/). Часто она делает предложения менее читаемыми.

По словам Главреда,
> Признак парцелляции — предложение синтаксически неполное и само по себе не имеет смысла.

Разберем (сокращенный) пример, который приводит Главред.

In [26]:
sent = '''У каждого в гардеробе должна быть классная вязаная вещь, 
с которой не хочется расставаться. Которая не скатывалась бы через пять 
минут после носки и отлично сидела. Плюс выглядела бы не как свитер, 
связанный бабушкой и надетый из чувства долга. А броско, шикарно и 
выделяла бы вас из толпы.'''

print(pipeline.process(sent))

# newdoc
# newpar
# sent_id = 1
# text = У каждого в гардеробе должна быть классная вязаная вещь, с которой не хочется расставаться.
1	У	У	ADP	IN	_	2	case	_	_
2	каждого	КАЖДЫЙ	DET	DT	Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing	5	nmod	_	_
3	в	В	ADP	IN	_	4	case	_	_
4	гардеробе	гардерОБА	NOUN	NN	Animacy=Inan|Case=Loc|Gender=Fem|Number=Sing	2	obl	_	_
5	должна	ДОЛЖЕН	ADJ	JJH	Animacy=Inan|Case=Nom|Gender=Fem|Number=Sing|Variant=Short	0	root	_	_
6	быть	БЫТЬ	AUX	VB	Aspect=Imp|VerbForm=Inf	5	cop	_	_
7	классная	классная	ADJ	JJL	Animacy=Inan|Case=Nom|Gender=Fem|Number=Sing	9	amod	_	_
8	вязаная	вязаная	ADJ	JJL	Animacy=Inan|Case=Nom|Gender=Fem|Number=Sing	9	amod	_	_
9	вещь	вещь	NOUN	NN	Animacy=Inan|Case=Nom|Gender=Fem|Number=Sing	5	nsubj	_	SpaceAfter=No
10	,	,	PUNCT	,	_	14	punct	_	SpacesAfter=\s\n
11	с	С	ADP	IN	_	12	case	_	_
12	которой	КОТОРЫЙ	PRON	AWP	Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing	14	obl	_	_
13	не	НЕ	PART	NEG	Polarity=Neg	14	advmod	_	_
14	хочется	хочется	VERB	VBC	Aspect=Imp|Mood=I

Напишите функцию, которая помогает обнаруживать парцелляцию, опираясь на то, что предложение неполное.

**Подсказка** 

Будем считать, что в предложении обязательно должны быть подлежащее и сказуемое, т.е. глагол (который скорее всего будет вершиной) и существительное/местоимение, связанное с ним отношением *nsubj*. Алгоритм работы будет следующим:

1. Ищем в предложении глагол. Нет глагола — забраковываем предложение! Сюда попадет не только парцелляция в строгом лингвистическом смысле, но и номинативные предложения вроде *"Мир. Труд. Май."* Но пока мы находимся в рамках инфостиля, номинативные предложения нас не устраивают точно так же, как и парцелляция. Так что смело сметаем их в одну корзину!
2. Если глагол (сказуемое) есть, то ищем связанное с ним отношением *nsubj* существительное/местоимение (подлежащее). Нет подлежащего — забраковываем предложение. Опять же, сюда попадут безличные предложения вроде *"Светает."*, которые не являются случаем парцелляции, но и они нам не нужны. В общем, не углубляемся в лингвистику и избавляемся от всех неполных предложений.
3. Скорее всего, предложения, которые начинаются с союзов "и", "а", "но" являются случаями парцелляции, даже если в них есть грамматическая основа.
4. Особый случай — предложения, начинающиеся со слова "который". Оно может быть подлежащим в предложении (как в нашем примере), однако без контекста непонятно, к чему этот "который" относится. Так что это однозначно парцелляция!

In [None]:
# YOUR CODE HERE

Придумайте метрику для оценки качества предложений на основе написаных функций. Напишите функцию-оцениватель. Пусть она принимает на вход предложение, а возвращает оценку от 1 до 10.

In [None]:
# YOUR CODE HERE

## SVO-triples

С помощью синтекстического парсинга можно извлекать из предложений тройки субъект-объект-глагол, которые можно использовать для извлечения информации из текста. В этом поможет уже упоминавшийся выше `DependencyGraph` из `nltk`. 

In [56]:
sent = 'Собянин открыл в Москве новый парк и детскую площадку и гордится этим.'
parsed = pipeline.process(sent)

# костыли для dependency graph
parsed = '\n'.join([line for line in parsed.split('\n') if not line.startswith('#')])
parsed = parsed.replace('\troot\t', '\tROOT\t')

In [57]:
print(parsed)

1	Собянин	Собянин	PROPN	NNP	Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing	2	nsubj	_	_
2	открыл	ОТКРЫТЬ	VERB	VBC	Aspect=Perf|Gender=Masc|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin	0	ROOT	_	_
3	в	В	ADP	IN	_	4	case	_	_
4	Москве	МОСКВА	PROPN	NNP	Animacy=Inan|Case=Loc|Gender=Fem|Number=Sing	2	obl	_	_
5	новый	НОВЫЙ	ADJ	JJL	Animacy=Inan|Case=Acc|Gender=Masc|Number=Sing	6	amod	_	_
6	парк	ПАРК	NOUN	NN	Animacy=Inan|Case=Acc|Gender=Masc|Number=Sing	2	obj	_	_
7	и	И	CCONJ	CC	_	9	cc	_	_
8	детскую	детскую	ADJ	JJL	Animacy=Inan|Case=Acc|Gender=Fem|Number=Sing	9	amod	_	_
9	площадку	ПЛОЩАДКА	NOUN	NN	Animacy=Inan|Case=Acc|Gender=Fem|Number=Sing	6	conj	_	_
10	и	И	CCONJ	CC	_	11	cc	_	_
11	гордится	гордится	VERB	VBC	Aspect=Imp|Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|Voice=Mid	2	conj	_	_
12	этим	ЭТО	PRON	DT	Animacy=Inan|Case=Ins|Gender=Neut|Number=Sing	11	iobj	_	SpaceAfter=No
13	.	.	PUNCT	.	_	2	punct	_	SpacesAfter=\n




### слово-слово-связь

In [58]:
graph = DependencyGraph(tree_str=parsed)
list(graph.triples())

[(('открыл', 'VERB'), 'nsubj', ('Собянин', 'PROPN')),
 (('открыл', 'VERB'), 'obl', ('Москве', 'PROPN')),
 (('Москве', 'PROPN'), 'case', ('в', 'ADP')),
 (('открыл', 'VERB'), 'obj', ('парк', 'NOUN')),
 (('парк', 'NOUN'), 'amod', ('новый', 'ADJ')),
 (('парк', 'NOUN'), 'conj', ('площадку', 'NOUN')),
 (('площадку', 'NOUN'), 'cc', ('и', 'CCONJ')),
 (('площадку', 'NOUN'), 'amod', ('детскую', 'ADJ')),
 (('открыл', 'VERB'), 'conj', ('гордится', 'VERB')),
 (('гордится', 'VERB'), 'cc', ('и', 'CCONJ')),
 (('гордится', 'VERB'), 'iobj', ('этим', 'PRON')),
 (('открыл', 'VERB'), 'punct', ('.', 'PUNCT'))]

### субьект-объект-глагол

In [59]:
def get_sov(sent):
    graph = DependencyGraph(tree_str=sent)
    sov = {}
    for triple in graph.triples():
        if triple:
            if triple[0][1] == 'VERB':
                sov[triple[0][0]] = {'subj':'','obj':''}
    for triple in graph.triples():
        if triple:
            if triple[1] == 'nsubj':
                if triple[0][1] == 'VERB':
                    sov[triple[0][0]]['subj']  = triple[2][0]
            if 'obj' in triple[1]:
                if triple[0][1] == 'VERB':
                    sov[triple[0][0]]['obj'] = triple[2][0]
    return sov

sov = get_sov(parsed)
print(sov)

{'открыл': {'subj': 'Собянин', 'obj': 'парк'}, 'гордится': {'subj': '', 'obj': 'этим'}}


## Задание №2

Измените код выше так, чтобы учитывались:
1. Однородные члены предложения: *(парк, площадка), (открыл, гордится)*
2. Сложные сказуемые: *(начнет продавать), (запретил провозить)*
3. Непрямые объекты с предлогом: *(едет, Польшу), (спел, скандале)*

**Подсказка**
1. Однородные члены связаны связью *conj*, будь то субъекты (подлежащие), объекты (дополнения) или глаголы (сказуемые). Т.е. чтобы найти однородные подлежащие, находим первое подлежащее, а потом все слова, имеющие его id в качестве родителя *(head)* и связанные с ним связью *conj*. Затем, чтобы заполнить тройку, глагол и объект для второго (третьего, четвертого и т.д.) подлежащего берем из тройки, извлеченной для первого подлежащего. То же самое с однородными объектами и глаголами. В нашем примере с онородными обектами:
    * Нашли тройку "Собянин, открыл, парк"
    * Нашли однородный объект "площадку", в качестве родителя у него "парк" (токен №6) и связь conj
    * Субъект и глагол берем из тройки, извлеченной для первого из однородных членов, т.е. из "Собянин, открыл, парк" берем "Собянин, открыл"
    * Получаем "Собянин, открыл, площадку"
2. Вторая часть составного сказуемого сзязана с первой обычно либо связью `xcomp` ([описание и английские примеры](https://universaldependencies.org/en/dep/xcomp.html)), либо — если глагол вспомогательный — `aux` в разных модификациях типа `aux:pass` ([описание и английские примеры](https://universaldependencies.org/sv/dep/aux-pass.html)). Еще бывает не очень очевидная связь `acl` ([описание и английские примеры](https://universaldependencies.org/u/dep/acl.html)). Т.е. ищем в предложении глаголы, смотрим на связь между ними и если она нам подходит, то объединяем их. Русский пример есть ниже. **NB!** Самый простой случай — когда два глагола стоят в предложении друг за другом, но на практике между ними может оказаться что-то еще — например, наречие ("закон должен скоро вступить в силу").
3. Прямые объекты связаны с глаголом связью *obj* (встречается также обозначение *dobj*), а непрямые без предлога — как *iobj*. Такие случаи мы умеем извлекать. Если же нам нужен объект с предлогом, то мы ищем зависящее от глагола существительное/местоимение в косвенном падеже. Такие связи обозначаются как `obl` ([подробнее об этом типе связи](https://universaldependencies.org/u/dep/obl.html)). Сам предлог нам вряд ли что-то даст, т.к. он зависит от существительного.

In [12]:
sent = '''Собянин начнет продавать мороженое. 
Он запретил провозить его из-за границы. 
Москвичи смогут купить только мороженое российского прозводства.
То же самое будет происходить в регионах. 
Указ должен скоро вступить в силу.'''
print(pipeline.process(sent))

# newdoc
# newpar
# sent_id = 1
# text = Собянин начнет продавать мороженое.
1	Собянин	Собянин	PROPN	NNP	Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing	2	nsubj	_	_
2	начнет	начнет	VERB	VBC	Aspect=Imp|Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin	0	root	_	_
3	продавать	продавать	VERB	VB	Aspect=Imp|VerbForm=Inf	2	xcomp	_	_
4	мороженое	мороженое	ADJ	JJL	Animacy=Inan|Case=Acc|Gender=Neut|Number=Sing	3	obj	_	SpaceAfter=No
5	.	.	PUNCT	.	_	2	punct	_	SpacesAfter=\s\n

# sent_id = 2
# text = Он запретил провозить его из-за границы.
1	Он	ОН	PRON	PRP	Case=Nom|Gender=Masc|Number=Sing|Person=3	2	nsubj	_	_
2	запретил	ЗАПРЕТИТЬ	VERB	VBC	Aspect=Perf|Gender=Masc|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin	0	root	_	_
3	провозить	провозить	VERB	VB	Aspect=Perf|VerbForm=Inf	2	xcomp	_	_
4	его	ЕГО	DET	PRP$	Person=3	5	det	_	_
5	из-за	из-за	NOUN	NN	Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing	3	obj	_	_
6	границы	ГРАНИЦА	NOUN	NN	Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing	5	nmod	_	SpaceAfter=No
7	.	.	