# Cинтаксический анализ текста

Синтаксический анализ текста на русском языке с использованием библиотек:
- [spaCy](https://spacy.io).
- [Natasha](https://github.com/natasha/natasha).

In [64]:
import spacy
from spacy import displacy

## Библиотека spaCy
python -m spacy download ru_core_news_sm

In [65]:
nlp = spacy.load('ru_core_news_sm')

In [66]:
text = 'Глокая куздра штеко будланула бокра и кудрячит бокрёнка'

In [67]:
doc = nlp(text)

In [68]:
for token in doc:
    print(token.text, token.pos_, token.dep_)

Глокая ADJ amod
куздра NOUN nsubj
штеко ADV appos
будланула VERB ROOT
бокра PROPN obj
и CCONJ cc
кудрячит VERB conj
бокрёнка NOUN obj


In [69]:
displacy.render(doc, style="dep", jupyter=True)

In [71]:
nlp = spacy.load('en_core_web_sm')
doc1 = nlp(u'We can overtake them.')
doc2 = nlp(u'You must specify it.')
for i in range(len(doc1)-1):
    if doc1[i].dep_ == doc2[i].dep_:
        print(doc1[i].text,'\t', doc2[i].text, '\t', doc1[i].dep_, spacy.explain(doc1[i].dep_))

We 	 You 	 nsubj nominal subject
can 	 must 	 aux auxiliary
overtake 	 specify 	 ROOT root
them 	 it 	 dobj direct object


## Библиотека natasha

In [None]:
from natasha import Segmenter, NewsEmbedding, NewsSyntaxParser, Doc

In [73]:
emb = NewsEmbedding()

In [74]:
segmenter = Segmenter()

In [75]:
syntax_parser = NewsSyntaxParser(emb)

In [84]:
text = 'Владимир Смирнов застал Ахтема за игрой в настольный футбол на занятии'

In [85]:
doc = Doc(text)

In [86]:
doc.segment(segmenter)

In [87]:
for tocken in doc.tokens:
    print(tocken)

DocToken(stop=8, text='Владимир')
DocToken(start=9, stop=16, text='Смирнов')
DocToken(start=17, stop=23, text='застал')
DocToken(start=24, stop=30, text='Ахтема')
DocToken(start=31, stop=33, text='за')
DocToken(start=34, stop=39, text='игрой')
DocToken(start=40, stop=41, text='в')
DocToken(start=42, stop=52, text='настольный')
DocToken(start=53, stop=59, text='футбол')
DocToken(start=60, stop=62, text='на')
DocToken(start=63, stop=70, text='занятии')


In [88]:
doc.parse_syntax(syntax_parser)

In [89]:
for tocken in doc.tokens:
    print(tocken)

DocToken(stop=8, text='Владимир', id='1_1', head_id='1_3', rel='nsubj')
DocToken(start=9, stop=16, text='Смирнов', id='1_2', head_id='1_1', rel='appos')
DocToken(start=17, stop=23, text='застал', id='1_3', head_id='1_0', rel='root')
DocToken(start=24, stop=30, text='Ахтема', id='1_4', head_id='1_3', rel='obj')
DocToken(start=31, stop=33, text='за', id='1_5', head_id='1_6', rel='case')
DocToken(start=34, stop=39, text='игрой', id='1_6', head_id='1_3', rel='obl')
DocToken(start=40, stop=41, text='в', id='1_7', head_id='1_9', rel='case')
DocToken(start=42, stop=52, text='настольный', id='1_8', head_id='1_9', rel='amod')
DocToken(start=53, stop=59, text='футбол', id='1_9', head_id='1_3', rel='obl')
DocToken(start=60, stop=62, text='на', id='1_10', head_id='1_11', rel='case')
DocToken(start=63, stop=70, text='занятии', id='1_11', head_id='1_3', rel='obl')


In [90]:
doc.sents[0].syntax.print()

      ┌► Владимир   nsubj
      │  Смирнов    
┌─┌─┌─└─ застал     
│ │ │ └► Ахтема     obj
│ │ │ ┌► за         case
│ │ └►└─ игрой      obl
│ │ ┌──► в          case
│ │ │ ┌► настольный amod
│ └►└─└─ футбол     obl
│     ┌► на         case
└────►└─ занятии    obl
