# Cинтаксический анализ текста

Синтаксический анализ текста на русском языке с использованием библиотек:
- [spaCy](https://spacy.io).
- [Natasha](https://github.com/natasha/natasha).

In [49]:
import spacy
from spacy import displacy

## Библиотека spaCy
python -m spacy download ru_core_news_sm

In [50]:
nlp = spacy.load('ru_core_news_sm')

In [51]:
text = '''А тут вот она, война. На второй день повестка из военкомата, а на третий — пожалуйте в эшелон. Провожали меня все четверо моих: Ирина, Анатолий и дочери — Настенька и Олюшка. Все ребята держались молодцом. Ну, у дочерей — не без того, посверкивали слезинки. Анатолий только плечами передергивал, как от холода, ему к тому времени уже семнадцатый год шел, а Ирина моя… Такой я ее за все семнадцать лет нашей совместной жизни ни разу не видал. Ночью у меня на плече и на груди рубаха от ее слез не просыхала, и утром такая же история… Пришли на вокзал, а я на нее от жалости глядеть не могу: губы от слез распухли, волосы из-под платка выбились, и глаза мутные, несмысленные, как у тронутого умом человека. Командиры объявляют посадку, а она упала мне на грудь, руки на моей шее сцепила и вся дрожит, будто подрубленное дерево… И детишки ее уговаривают, и я, — ничего не помогает! Другие женщины с мужьями, с сыновьями разговаривают, а моя прижалась ко мне, как лист к ветке, и только вся дрожит, а слова вымолвить не может. Я и говорю ей: «Возьми же себя в руки, милая моя Иринка! Скажи мне хоть слово на прощанье». Она и говорит, и за каждым словом всхлипывает: «Родненький мой… Андрюша… не увидимся мы с тобой… больше… на этом… свете»…

Тут у самого от жалости к ней сердце на части разрывается, а тут она с такими словами. Должна бы понимать, что мне тоже нелегко с ними расставаться, не к теще на блины собрался. Зло меня тут взяло! Силой я разнял ее руки и легонько толкнул в плечи. Толкнул вроде легонько, а сила-то у меня была дурачья; она попятилась, шага три ступнула назад и опять ко мне идет мелкими шажками, руки протягивает, а я кричу ей: «Да разве же так прощаются? Что ты меня раньше времени заживо хоронишь?!» Ну, опять обнял ее, вижу, что она не в себе…'''

In [52]:
doc = nlp(text)

In [53]:
for token in doc:
    print(token.text, token.pos_, token.dep_)

А CCONJ cc
тут ADV ROOT
вот PART advmod
она PRON nsubj
, PUNCT punct
война NOUN conj
. PUNCT punct
На ADP case
второй ADJ amod
день NOUN ROOT
повестка NOUN nmod
из ADP case
военкомата NOUN nmod
, PUNCT punct
а CCONJ cc
на ADP case
третий ADJ obl
— PUNCT punct
пожалуйте VERB conj
в ADP case
эшелон NOUN obl
. PUNCT punct
Провожали VERB ROOT
меня PRON obj
все DET det
четверо NUM nummod:gov
моих DET nsubj
: PUNCT punct
Ирина PROPN parataxis
, PUNCT punct
Анатолий PROPN conj
и CCONJ cc
дочери NOUN conj
— PUNCT punct
Настенька PROPN conj
и CCONJ cc
Олюшка PROPN conj
. PUNCT punct
Все DET det
ребята NOUN nsubj
держались VERB ROOT
молодцом NOUN obl
. PUNCT punct
Ну PART discourse
, PUNCT punct
у ADP case
дочерей NOUN ROOT
— PUNCT punct
не PART advmod
без ADP case
того PRON parataxis
, PUNCT punct
посверкивали VERB parataxis
слезинки NOUN obj
. PUNCT punct
Анатолий PROPN nsubj
только PART advmod
плечами NOUN obl
передергивал VERB ROOT
, PUNCT punct
как SCONJ case
от ADP case
холода NOUN obl
, P

In [54]:
displacy.render(doc, style="dep", jupyter=True)

In [55]:
nlp = spacy.load('en_core_web_sm')
doc1 = nlp(u'We can overtake them.')
doc2 = nlp(u'You must specify it.')
for i in range(len(doc1)-1):
    if doc1[i].dep_ == doc2[i].dep_:
        print(doc1[i].text,'\t', doc2[i].text, '\t', doc1[i].dep_, spacy.explain(doc1[i].dep_))

We 	 You 	 nsubj nominal subject
can 	 must 	 aux auxiliary
overtake 	 specify 	 ROOT root
them 	 it 	 dobj direct object


## Библиотека natasha

In [56]:
from natasha import Segmenter, NewsEmbedding, NewsSyntaxParser, Doc

In [57]:
emb = NewsEmbedding()

In [58]:
segmenter = Segmenter()

In [59]:
syntax_parser = NewsSyntaxParser(emb)

In [60]:
text = '''А тут вот она, война. На второй день повестка из военкомата, а на третий — пожалуйте в эшелон. Провожали меня все четверо моих: Ирина, Анатолий и дочери — Настенька и Олюшка. Все ребята держались молодцом. Ну, у дочерей — не без того, посверкивали слезинки. Анатолий только плечами передергивал, как от холода, ему к тому времени уже семнадцатый год шел, а Ирина моя… Такой я ее за все семнадцать лет нашей совместной жизни ни разу не видал. Ночью у меня на плече и на груди рубаха от ее слез не просыхала, и утром такая же история… Пришли на вокзал, а я на нее от жалости глядеть не могу: губы от слез распухли, волосы из-под платка выбились, и глаза мутные, несмысленные, как у тронутого умом человека. Командиры объявляют посадку, а она упала мне на грудь, руки на моей шее сцепила и вся дрожит, будто подрубленное дерево… И детишки ее уговаривают, и я, — ничего не помогает! Другие женщины с мужьями, с сыновьями разговаривают, а моя прижалась ко мне, как лист к ветке, и только вся дрожит, а слова вымолвить не может. Я и говорю ей: «Возьми же себя в руки, милая моя Иринка! Скажи мне хоть слово на прощанье». Она и говорит, и за каждым словом всхлипывает: «Родненький мой… Андрюша… не увидимся мы с тобой… больше… на этом… свете»…

Тут у самого от жалости к ней сердце на части разрывается, а тут она с такими словами. Должна бы понимать, что мне тоже нелегко с ними расставаться, не к теще на блины собрался. Зло меня тут взяло! Силой я разнял ее руки и легонько толкнул в плечи. Толкнул вроде легонько, а сила-то у меня была дурачья; она попятилась, шага три ступнула назад и опять ко мне идет мелкими шажками, руки протягивает, а я кричу ей: «Да разве же так прощаются? Что ты меня раньше времени заживо хоронишь?!» Ну, опять обнял ее, вижу, что она не в себе…'''

In [61]:
doc = Doc(text)

In [62]:
doc.segment(segmenter)

In [63]:
for tocken in doc.tokens:
    print(tocken)

DocToken(stop=1, text='А')
DocToken(start=2, stop=5, text='тут')
DocToken(start=6, stop=9, text='вот')
DocToken(start=10, stop=13, text='она')
DocToken(start=13, stop=14, text=',')
DocToken(start=15, stop=20, text='война')
DocToken(start=20, stop=21, text='.')
DocToken(start=22, stop=24, text='На')
DocToken(start=25, stop=31, text='второй')
DocToken(start=32, stop=36, text='день')
DocToken(start=37, stop=45, text='повестка')
DocToken(start=46, stop=48, text='из')
DocToken(start=49, stop=59, text='военкомата')
DocToken(start=59, stop=60, text=',')
DocToken(start=61, stop=62, text='а')
DocToken(start=63, stop=65, text='на')
DocToken(start=66, stop=72, text='третий')
DocToken(start=73, stop=74, text='—')
DocToken(start=75, stop=84, text='пожалуйте')
DocToken(start=85, stop=86, text='в')
DocToken(start=87, stop=93, text='эшелон')
DocToken(start=93, stop=94, text='.')
DocToken(start=95, stop=104, text='Провожали')
DocToken(start=105, stop=109, text='меня')
DocToken(start=110, stop=113, text

In [64]:
doc.parse_syntax(syntax_parser)

In [65]:
for tocken in doc.tokens:
    print(tocken)

DocToken(stop=1, text='А', id='1_1', head_id='1_2', rel='cc')
DocToken(start=2, stop=5, text='тут', id='1_2', head_id='1_2', rel='advmod')
DocToken(start=6, stop=9, text='вот', id='1_3', head_id='1_2', rel='advmod')
DocToken(start=10, stop=13, text='она', id='1_4', head_id='1_2', rel='nsubj')
DocToken(start=13, stop=14, text=',', id='1_5', head_id='1_6', rel='punct')
DocToken(start=15, stop=20, text='война', id='1_6', head_id='1_4', rel='conj')
DocToken(start=20, stop=21, text='.', id='1_7', head_id='1_2', rel='punct')
DocToken(start=22, stop=24, text='На', id='2_1', head_id='2_3', rel='case')
DocToken(start=25, stop=31, text='второй', id='2_2', head_id='2_3', rel='amod')
DocToken(start=32, stop=36, text='день', id='2_3', head_id='2_12', rel='obl')
DocToken(start=37, stop=45, text='повестка', id='2_4', head_id='2_12', rel='nsubj')
DocToken(start=46, stop=48, text='из', id='2_5', head_id='2_6', rel='case')
DocToken(start=49, stop=59, text='военкомата', id='2_6', head_id='2_4', rel='nmod

In [66]:
doc.sents[0].syntax.print()

        ┌► А     cc
┌───┌─┌─└─ тут   
│   │ └──► вот   advmod
│ ┌─└────► она   nsubj
│ │     ┌► ,     punct
│ └────►└─ война conj
└────────► .     punct
