# Dependency parsing
(парсинг зависимостей)

### Что это?

* наша цель -- представить предложение естественного языка в виде дерева
* слова предложения -- вершины; *зависимости (dependencies)* между ними -- рёбра
* зависимости могут быть разными: например, субъект глагола, объект глагола, прилагательное-модификатор и так далее

### Формат

Существует несколько форматов записи деревьев зависимостей, но самый популярный и общеиспользуемый -- [CoNLL-U](http://universaldependencies.org/format.html).<br/>
Как это выглядит (пример из [русского Universal Dependency трибанка](https://github.com/UniversalDependencies/UD_Russian-SynTagRus)):

In [1]:
my_example = """
# sent_id = 2003Armeniya.xml_138
# text = Перспективы развития сферы высоких технологий.
1	Перспективы	перспектива	NOUN	_	Animacy=Inan|Case=Nom|Gender=Fem|Number=Plur	0	ROOT	0:root	_
2	развития	развитие	NOUN	_	Animacy=Inan|Case=Gen|Gender=Neut|Number=Sing	1	nmod	1:nmod	_
3	сферы	сфера	NOUN	_	Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing	2	nmod	2:nmod	_
4	высоких	высокий	ADJ	_	Case=Gen|Degree=Pos|Number=Plur	5	amod	5:amod	_
5	технологий	технология	NOUN	_	Animacy=Inan|Case=Gen|Gender=Fem|Number=Plur	3	nmod	3:nmod	SpaceAfter=No
6	.	.	PUNCT	_	_	1	punct	1:punct	_
"""

Комментарии + таблица c 9 колонками (разделители табы):
* ID
* FORM: токен
* LEMMA: начальная форма
* UPOS: универсальная часть речи
* XPOS: лингво-специфичная часть речи
* FEATS: морфологическая информация: падеж, род, число etc
* HEAD: id родителя
* DEPREL: тип зависимости, то есть отношение к токену-родителю
* DEPS: альтернативный подграф (не будем углубляться :))
* MISC: всё остальное

Отсутствующие данные представляются с помощью `_`. Больше подробностей про формат -- в [официальной документации](http://universaldependencies.org/format.html).<br>
User-friendly визуализация: ![2003Armeniya.xml_138]
(rus_tree.png)

Отрытый инструмент для визуализации, ручной разметки и конвертации в другие форматы: UD Annotatrix. [Online-интерфейс](https://universal-dependencies.linghub.net/annotatrix), [репозиторий](https://github.com/jonorthwash/ud-annotatrix).

Трибанк -- много таких предложений. Обычно они разделяются двумя переносами строки.
### Как считывать данные в питоне

Используем библиотеку [conllu](https://github.com/EmilStenstrom/conllu).

In [2]:
!pip3 install conllu

Collecting conllu
  Downloading conllu-4.5.3-py2.py3-none-any.whl (16 kB)
Installing collected packages: conllu
Successfully installed conllu-4.5.3


In [3]:
from conllu import parse

In [4]:
help(parse)

Help on function parse in module conllu:

parse(data: str, fields: Optional[Sequence[str]] = None, field_parsers: Optional[Dict[str, Callable[[List[str], int], Any]]] = None, metadata_parsers: Optional[Dict[str, Callable[[str, Optional[str]], Any]]] = None) -> conllu.models.SentenceList



In [5]:
sentences = parse(my_example)
sentence = sentences[0]
sentence[0]

{'id': 1,
 'form': 'Перспективы',
 'lemma': 'перспектива',
 'upos': 'NOUN',
 'xpos': None,
 'feats': {'Animacy': 'Inan',
  'Case': 'Nom',
  'Gender': 'Fem',
  'Number': 'Plur'},
 'head': 0,
 'deprel': 'ROOT',
 'deps': [('root', 0)],
 'misc': None}

In [6]:
sentence[-1]

{'id': 6,
 'form': '.',
 'lemma': '.',
 'upos': 'PUNCT',
 'xpos': None,
 'feats': None,
 'head': 1,
 'deprel': 'punct',
 'deps': [('punct', 1)],
 'misc': None}

## Визуализация

В nltk есть DependencyGraph, который умеет рисовать деревья (и ещё многое другое).

In [7]:
#!pip install -q condacolab
#import condacolab
#condacolab.install()

In [8]:
#!apt-get update
!apt-get install graphviz -y
#!pip install python-graphviz
#!conda install python-graphviz

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
graphviz is already the newest version (2.42.2-6).
0 upgraded, 0 newly installed, 0 to remove and 18 not upgraded.


In [9]:
from nltk.parse import DependencyGraph
import graphviz

В отличие от `conllu`, `DependencyGraph` не справляется с комментариями, поэтому придётся их убрать. Кроме того, ему обязательно нужен `deprel` *ROOT* в верхнем регистре, иначе он не находит корень.

In [11]:
sents = []
for sent in my_example.split('\n\n'):
    # убираем коменты
    sent = '\n'.join([line for line in sent.split('\n') if not line.startswith('#')])
    # заменяем deprel для root
    sent = sent.replace('\troot\t', '\tROOT\t')
    sents.append(sent)

In [12]:
graph = DependencyGraph(tree_str=sents[0])
#graph

In [13]:
tree = graph.tree()
tree.pprint()
print(tree.pretty_print())

(Перспективы (развития (сферы (технологий высоких))) .)
    Перспективы           
  _______|__________       
 |               развития 
 |                  |      
 |                сферы   
 |                  |      
 |              технологий
 |                  |      
 .               высоких  

None


## UDPipe

Есть разные инструменты для парсинга зависимостей. Сегодня мы посмотрим на [UDPipe](http://ufal.mff.cuni.cz/udpipe). UDPipe умеет парсить текст с помощью готовых моделей (которые можно скачать [здесь](https://github.com/jwijffels/udpipe.models.ud.2.0/tree/master/inst/udpipe-ud-2.0-170801)) и обучать модели на своих трибанках.

Собственно, в UDPipe есть три вида моделей:
* токенизатор (разделить текст на предложения, предложения на токены, сделать заготовку для CoNLL-U)
* тэггер (лемматизировать, разметить части речи)
* сам парсер (проставить каждому токену `head` и `deprel`)

Мы сегодня не будем обучать новых моделей (это слишком долго), а используем готовую модель для русского.

### The Python binding

У udpipe есть питоновская обвязка. Она довольно [плохо задокументирована](https://pypi.org/project/ufal.udpipe/), но зато можно использовать прямо в питоне :)

In [14]:
!pip install ufal.udpipe

Collecting ufal.udpipe
  Downloading ufal.udpipe-1.3.0.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (936 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/937.0 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m204.8/937.0 kB[0m [31m6.2 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━[0m [32m675.8/937.0 kB[0m [31m10.1 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m937.0/937.0 kB[0m [31m10.5 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: ufal.udpipe
Successfully installed ufal.udpipe-1.3.0.1


In [15]:
from ufal.udpipe import Model, Pipeline

In [16]:
!wget https://github.com/jwijffels/udpipe.models.ud.2.0/raw/master/inst/udpipe-ud-2.0-170801/russian-ud-2.0-170801.udpipe

--2023-10-23 19:07:16--  https://github.com/jwijffels/udpipe.models.ud.2.0/raw/master/inst/udpipe-ud-2.0-170801/russian-ud-2.0-170801.udpipe
Resolving github.com (github.com)... 140.82.121.4
Connecting to github.com (github.com)|140.82.121.4|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/jwijffels/udpipe.models.ud.2.0/master/inst/udpipe-ud-2.0-170801/russian-ud-2.0-170801.udpipe [following]
--2023-10-23 19:07:16--  https://raw.githubusercontent.com/jwijffels/udpipe.models.ud.2.0/master/inst/udpipe-ud-2.0-170801/russian-ud-2.0-170801.udpipe
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 13265262 (13M) [application/octet-stream]
Saving to: ‘russian-ud-2.0-170801.udpipe’


2023-10-23 19:07:17 (1

In [17]:
model = Model.load("russian-ud-2.0-170801.udpipe") # path to the model

In [18]:
# если успех, должно быть так (model != None)
model

<Swig Object of type 'model *' at 0x7bd9dde664f0>

In [19]:
pipeline = Pipeline(model, 'generic_tokenizer', '', '', '')
example = "Эти типы стали есть в цеху."
parsed = pipeline.process(example)
print(parsed)

# newdoc
# newpar
# sent_id = 1
# text = Эти типы стали есть в цеху.
1	Эти	ЭТОТ	DET	DT	Animacy=Inan|Case=Nom|Number=Plur	2	det	_	_
2	типы	ТИП	NOUN	NN	Animacy=Inan|Case=Nom|Gender=Masc|Number=Plur	4	nsubj	_	_
3	стали	СТАТЬ	AUX	VBC	Aspect=Perf|Mood=Ind|Number=Plur|Tense=Past|VerbForm=Fin	4	aux:pass	_	_
4	есть	БЫТЬ	VERB	VBC	Aspect=Imp|Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin	0	root	_	_
5	в	В	ADP	IN	_	6	case	_	_
6	цеху	цеху	NOUN	NN	Animacy=Inan|Case=Acc|Gender=Fem|Number=Sing	4	obl	_	SpaceAfter=No
7	.	.	PUNCT	.	_	4	punct	_	SpacesAfter=\n




Как видим, UDPipe и токенизировал, и лематизировал текст, сделал POS-tagging и, собственно, синтаксический парсинг.

### Command line interface

Но с обвязкой бывают проблемы, и вообще довольно удобно пользоваться прекомпилированной утилитой `udpipe` из шелла.

In [20]:
!wget https://github.com/ufal/udpipe/releases/download/v1.2.0/udpipe-1.2.0-bin.zip

--2023-10-23 19:07:47--  https://github.com/ufal/udpipe/releases/download/v1.2.0/udpipe-1.2.0-bin.zip
Resolving github.com (github.com)... 140.82.121.3
Connecting to github.com (github.com)|140.82.121.3|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/50672597/a24cacd8-77c6-11e7-8f6e-e9de8ca37f48?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAIWNJYAX4CSVEH53A%2F20231023%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20231023T190747Z&X-Amz-Expires=300&X-Amz-Signature=9a25995ad584554232623633052cbbec9f77c60ecb1edd793bedd7e88d1800b2&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=50672597&response-content-disposition=attachment%3B%20filename%3Dudpipe-1.2.0-bin.zip&response-content-type=application%2Foctet-stream [following]
--2023-10-23 19:07:47--  https://objects.githubusercontent.com/github-production-release-asset-2e65be/50672597/a24cacd8-77c6-11e7-8f6e-e9de8ca37f48?X-Amz-

In [21]:
 !unzip udpipe-1.2.0-bin.zip

Archive:  udpipe-1.2.0-bin.zip
   creating: udpipe-1.2.0-bin/
   creating: udpipe-1.2.0-bin/bin-linux32/
   creating: udpipe-1.2.0-bin/bin-linux32/csharp/
   creating: udpipe-1.2.0-bin/bin-linux32/csharp/Ufal/
   creating: udpipe-1.2.0-bin/bin-linux32/csharp/Ufal/UDPipe/
  inflating: udpipe-1.2.0-bin/bin-linux32/csharp/Ufal/UDPipe/Trainer.cs  
  inflating: udpipe-1.2.0-bin/bin-linux32/csharp/Ufal/UDPipe/Evaluator.cs  
  inflating: udpipe-1.2.0-bin/bin-linux32/csharp/Ufal/UDPipe/InputFormat.cs  
  inflating: udpipe-1.2.0-bin/bin-linux32/csharp/Ufal/UDPipe/Comments.cs  
  inflating: udpipe-1.2.0-bin/bin-linux32/csharp/Ufal/UDPipe/EmptyNodes.cs  
  inflating: udpipe-1.2.0-bin/bin-linux32/csharp/Ufal/UDPipe/MultiwordToken.cs  
  inflating: udpipe-1.2.0-bin/bin-linux32/csharp/Ufal/UDPipe/Sentences.cs  
  inflating: udpipe-1.2.0-bin/bin-linux32/csharp/Ufal/UDPipe/udpipe_csharp.cs  
  inflating: udpipe-1.2.0-bin/bin-linux32/csharp/Ufal/UDPipe/Pipeline.cs  
  inflating: udpipe-1.2.0-bin/bin-li

In [22]:
!ls udpipe-1.2.0-bin/

AUTHORS   bin-linux32  bin-osx	  bin-win64  INSTALL  MANUAL	   MANUAL.pdf  src
bindings  bin-linux64  bin-win32  CHANGES    LICENSE  MANUAL.html  README      src_lib_only


Внутри бинарники для всех популярных ОС, выбираем свою. Например, путь к бинарнику может быть такой: `udpipe-1.2.0-bin/bin-linux64`.

Синтаксис:

In [23]:
! udpipe-1.2.0-bin/bin-linux64/udpipe --help

Usage: udpipe-1.2.0-bin/bin-linux64/udpipe [running_opts] model_file [input_files]
       udpipe-1.2.0-bin/bin-linux64/udpipe --train [training_opts] model_file [input_files]
       udpipe-1.2.0-bin/bin-linux64/udpipe --detokenize [detokenize_opts] raw_text_file [input_files]
Running opts: --accuracy (measure accuracy only)
              --input=[conllu|generic_tokenizer|horizontal|vertical]
              --immediate (process sentences immediately during loading)
              --outfile=output file template
              --output=[conllu|epe|matxin|horizontal|plaintext|vertical]
              --tokenize (perform tokenization)
              --tokenizer=tokenizer options, implies --tokenize
              --tag (perform tagging)
              --tagger=tagger options, implies --tag
              --parse (perform parsing)
              --parser=parser options, implies --parse
Training opts: --method=[morphodita_parsito] which method to use
               --heldout=heldout data file name
   

Типичная команда для парсинга будет выглядеть так:

In [24]:
with open('example.txt', 'w') as f:
    f.write(example)

! udpipe-1.2.0-bin/bin-linux64/udpipe --tokenize --tag --parse\
  russian-ud-2.0-170801.udpipe example.txt > parsed_example.conllu
! cat parsed_example.conllu

Loading UDPipe model: done.
# newdoc id = example.txt
# newpar
# sent_id = 1
# text = Эти типы стали есть в цеху.
1	Эти	ЭТОТ	DET	DT	Animacy=Inan|Case=Nom|Number=Plur	2	det	_	_
2	типы	ТИП	NOUN	NN	Animacy=Inan|Case=Nom|Gender=Masc|Number=Plur	4	nsubj	_	_
3	стали	СТАТЬ	AUX	VBC	Aspect=Perf|Mood=Ind|Number=Plur|Tense=Past|VerbForm=Fin	4	aux:pass	_	_
4	есть	БЫТЬ	VERB	VBC	Aspect=Imp|Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin	0	root	_	_
5	в	В	ADP	IN	_	6	case	_	_
6	цеху	цеху	NOUN	NN	Animacy=Inan|Case=Acc|Gender=Fem|Number=Sing	4	obl	_	SpaceAfter=No
7	.	.	PUNCT	.	_	4	punct	_	SpacesAfter=\n



Если нас интересует только тэггинг:

In [25]:
with open('example.txt', 'w') as f:
    f.write(example)

! udpipe-1.2.0-bin/bin-linux64/udpipe --tokenize --tag\
  russian-ud-2.0-170801.udpipe example.txt > tagged_example.conllu
! cat tagged_example.conllu

Loading UDPipe model: done.
# newdoc id = example.txt
# newpar
# sent_id = 1
# text = Эти типы стали есть в цеху.
1	Эти	ЭТОТ	DET	DT	Animacy=Inan|Case=Nom|Number=Plur	_	_	_	_
2	типы	ТИП	NOUN	NN	Animacy=Inan|Case=Nom|Gender=Masc|Number=Plur	_	_	_	_
3	стали	СТАТЬ	AUX	VBC	Aspect=Perf|Mood=Ind|Number=Plur|Tense=Past|VerbForm=Fin	_	_	_	_
4	есть	БЫТЬ	VERB	VBC	Aspect=Imp|Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin	_	_	_	_
5	в	В	ADP	IN	_	_	_	_	_
6	цеху	цеху	NOUN	NN	Animacy=Inan|Case=Acc|Gender=Fem|Number=Sing	_	_	_	SpaceAfter=No
7	.	.	PUNCT	.	_	_	_	_	SpacesAfter=\n



(Ну а потом снова считываем проанализированные предложения питоном).

Вот два способа работать с UDPipe. Choose your fighter!

#### Задание

Напишите функцию, которая проверяет, не состоит ли предложение из большого числа однородных предложений.

## Natasha

In [28]:
!pip install natasha
import natasha

Collecting natasha
  Downloading natasha-1.6.0-py3-none-any.whl (34.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m34.4/34.4 MB[0m [31m46.2 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting pymorphy2 (from natasha)
  Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m55.5/55.5 kB[0m [31m8.9 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting razdel>=0.5.0 (from natasha)
  Downloading razdel-0.5.0-py3-none-any.whl (21 kB)
Collecting navec>=0.9.0 (from natasha)
  Downloading navec-0.10.0-py3-none-any.whl (23 kB)
Collecting slovnet>=0.6.0 (from natasha)
  Downloading slovnet-0.6.0-py3-none-any.whl (46 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m46.7/46.7 kB[0m [31m8.0 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting yargy>=0.16.0 (from natasha)
  Downloading yargy-0.16.0-py3-none-any.whl (33 kB)
Collecting ipymarkup>=0.8.0 (from natasha)
  Downloading ipymarkup-0.9.0-py3-none-any.w

In [29]:
from natasha import (
    Segmenter,
    MorphVocab,
    NewsEmbedding,
    NewsMorphTagger,
    NewsSyntaxParser,
    NewsNERTagger,
    PER,
    NamesExtractor,
    Doc
)


segmenter = Segmenter()
morph_vocab = MorphVocab()

emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)
syntax_parser = NewsSyntaxParser(emb)
ner_tagger = NewsNERTagger(emb)

names_extractor = NamesExtractor(morph_vocab)
#example = "Эти стали есть в цеху."
#example = "Вася ест в цеху вкусную кашу"
example = "Собянин открыл парк, площадку и детский сад."
doc = Doc(example)
doc.segment(segmenter)
doc.parse_syntax(syntax_parser)
print(doc.tokens[:7])
doc.sents[0].syntax.print()

[DocToken(stop=7, text='Собянин', id='1_1', head_id='1_2', rel='nsubj'), DocToken(start=8, stop=14, text='открыл', id='1_2', head_id='1_0', rel='root'), DocToken(start=15, stop=19, text='парк', id='1_3', head_id='1_2', rel='obj'), DocToken(start=19, stop=20, text=',', id='1_4', head_id='1_5', rel='punct'), DocToken(start=21, stop=29, text='площадку', id='1_5', head_id='1_3', rel='conj'), DocToken(start=30, stop=31, text='и', id='1_6', head_id='1_8', rel='cc'), DocToken(start=32, stop=39, text='детский', id='1_7', head_id='1_8', rel='amod')]
        ┌► Собянин  nsubj
┌─────┌─└─ открыл   
│ ┌─┌─└──► парк     obj
│ │ │   ┌► ,        punct
│ │ └──►└─ площадку conj
│ │   ┌──► и        cc
│ │   │ ┌► детский  amod
│ └──►└─└─ сад      conj
└────────► .        punct


## SVO-triples

С помощью синтаксического парсинга можно выделять из предложений тройки субъект-объект-глагол, которые можно использовать для извлечения информации из текста.  

In [30]:
sent = """1	Собянин	_	NOUN	_	Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing|fPOS=NOUN++	2	nsubj	_	_
2	открыл	_	VERB	_	Aspect=Perf|Gender=Masc|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Act|fPOS=VERB++	0	ROOT	_	_
3	новый	_	ADJ	_	Animacy=Inan|Case=Acc|Degree=Pos|Gender=Masc|Number=Sing|fPOS=ADJ++	4	amod	_	_
4	парк	_	NOUN	_	Animacy=Inan|Case=Acc|Gender=Masc|Number=Sing|fPOS=NOUN++	2	dobj	_	_
5	и	_	CONJ	_	fPOS=CONJ++	4	cc	_	_
6	детскую	_	ADJ	_	Case=Acc|Degree=Pos|Gender=Fem|Number=Sing|fPOS=ADJ++	7	amod	_	_
7	площадку	_	NOUN	_	Animacy=Inan|Case=Acc|Gender=Fem|Number=Sing|fPOS=NOUN++	4	conj	_	_
8	.	_	PUNCT	.	fPOS=PUNCT++.	2	punct	_	_"""

Тройки слово-слово-связь:

In [31]:
graph = DependencyGraph(tree_str=sent)
graph
list(graph.triples())

[(('открыл', 'VERB'), 'nsubj', ('Собянин', 'NOUN')),
 (('открыл', 'VERB'), 'dobj', ('парк', 'NOUN')),
 (('парк', 'NOUN'), 'amod', ('новый', 'ADJ')),
 (('парк', 'NOUN'), 'cc', ('и', 'CONJ')),
 (('парк', 'NOUN'), 'conj', ('площадку', 'NOUN')),
 (('площадку', 'NOUN'), 'amod', ('детскую', 'ADJ')),
 (('открыл', 'VERB'), 'punct', ('.', 'PUNCT'))]

Тройки субьект-объект-глагол:

In [32]:
def get_sov(sent):
    graph = DependencyGraph(tree_str=sent)
    sov = {}
    for triple in graph.triples():
        if triple:
            if triple[0][1] == 'VERB':
                sov[triple[0][0]] = {'subj':'','obj':''}
    for triple in graph.triples():
        if triple:
            if triple[1] == 'nsubj':
                if triple[0][1] == 'VERB':
                    sov[triple[0][0]]['subj']  = triple[2][0]
            if triple[1] == 'dobj':
                if triple[0][1] == 'VERB':
                    sov[triple[0][0]]['obj'] = triple[2][0]
    return sov

sov = get_sov(sent)
print(sov)

{'открыл': {'subj': 'Собянин', 'obj': 'парк'}}


#### Задание

Измените код выше так, чтобы учитывались:
    1. Однородные члены предложения
        * (парк, площадка), (Германия, Швейцария)
    2. Сложные сказуемые
        * (начнет продавать), (запретил провозить)
    3. Непрямые объекты
        * (едет, Польшу), (спел, скандале)

In [33]:
example = """
1	Далее	далее	ADV	_	Degree=Pos	3	advmod	_	_
2	она	она	PRON	_	Case=Nom|Gender=Fem|Number=Sing|Person=3	3	nsubj	_	_
3	перебралась	перебраться	VERB	_	Aspect=Perf|Gender=Fem|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Mid	0	root	_	_
4	в	в	ADP	_	_	5	case	_	_
5	Бухарест	Бухарест	PROPN	_	Animacy=Inan|Case=Acc|Gender=Masc|Number=Sing	3	obl	_	SpaceAfter=No
6	,	,	PUNCT	_	_	9	punct	_	_
7	а	а	CCONJ	_	_	9	cc	_	_
8	затем	затем	ADV	_	Degree=Pos	9	advmod	_	_
9	уехала	уехать	VERB	_	Aspect=Perf|Gender=Fem|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Act	3	conj	_	_
10	в	в	ADP	_	_	11	case	_	_
11	Париж	Париж	PROPN	_	Animacy=Inan|Case=Acc|Gender=Masc|Number=Sing	9	obl	_	SpaceAfter=No
12	.	.	PUNCT	_	_	3	punct	_	_"""

# Sentiment Analysis with Recursive Neural Network

* [источник туториала](https://medium.com/@keisukeumezawa/chainer-tutorial-sentiment-analysis-with-recursive-neural-network-180ddde892a2)
* [статья](https://nlp.stanford.edu/~socherr/EMNLP2013_RNTN.pdf); архитектура описана в 4 секции
* [демо с кликабельными картинками](http://nlp.stanford.edu:8080/sentiment/rntnDemo.html)

До сих пор мы смотрели на парсинг зависимостей, но для анализа тональности в этой части используется другой подход, *парсинг составляющих*, или *constituency parsing*.
![Constituеncy parsing](constituency_parsing.png)

### Идея

Сентимент предложения складывается из сентимента его составляющих, а для тех -- в свою очередь, из их составляющих.

![sentiment recursive nn](sentiment_recursiveNN.png)

(в датасете 5 классов тональности: --, -, 0, +, ++)

### Recursive Neural Network

Это нейросети, которые работают с данными переменной длины, используя иерархические структуры (деревья).
Скрытое состояние i-той вершины дерева вычисляются из скрытых состояний её левого и правого ребёнка:

![recursive nn_formula](recursiveNN_formula.jpg)
![recursive nn](recursiveNN.jpg)

Векторные представления фраз (узлов дерева) подаются на вход слою-классификатору тональности и слою softmax (в обучающем датасете все составляющие размечены по тональности).

А теперь давайте посмотрим на код: [jupyter notebook](https://chainer-colab-notebook.readthedocs.io/en/latest/notebook/official_example/sentiment.html), [репозиторий](https://github.com/chainer/chainer/tree/master/examples/sentiment).