# Cинтаксический анализ текста

Синтаксический анализ текста на русском языке с использованием библиотек:
- [spaCy](https://spacy.io).
- [Natasha](https://github.com/natasha/natasha).

In [3]:
import spacy
from spacy import displacy

## Библиотека spaCy
python -m spacy download ru_core_news_sm

In [4]:
nlp = spacy.load('ru_core_news_sm')

In [22]:
text = 'Владимир Смирнов застал Ахтема за игрой в настольный футбол на занятии и увеличил его оплату за обучение'

In [23]:
doc = nlp(text)

In [24]:
for token in doc:
    print(token.text, token.pos_, token.dep_)

Владимир PROPN nsubj
Смирнов PROPN appos
застал VERB ROOT
Ахтема PROPN obj
за ADP case
игрой NOUN obl
в ADP case
настольный ADJ amod
футбол NOUN nmod
на ADP case
занятии NOUN nmod
и CCONJ cc
увеличил VERB conj
его DET det
оплату NOUN obj
за ADP case
обучение NOUN obl


In [25]:
displacy.render(doc, style="dep", jupyter=True)

In [9]:
nlp = spacy.load('en_core_web_sm')
doc1 = nlp(u'We can overtake them.')
doc2 = nlp(u'You must specify it.')
for i in range(len(doc1)-1):
    if doc1[i].dep_ == doc2[i].dep_:
        print(doc1[i].text,'\t', doc2[i].text, '\t', doc1[i].dep_, spacy.explain(doc1[i].dep_))

OSError: [E050] Can't find model 'en_core_web_sm'. It doesn't seem to be a Python package or a valid path to a data directory.

## Библиотека natasha

In [11]:
from natasha import Segmenter, NewsEmbedding, NewsSyntaxParser, Doc

In [12]:
emb = NewsEmbedding()

In [13]:
segmenter = Segmenter()

In [14]:
syntax_parser = NewsSyntaxParser(emb)

In [15]:
text = 'Владимир Смирнов застал Ахтема за игрой в настольный футбол на занятии и увеличил его оплату за обучение'

In [16]:
doc = Doc(text)

In [17]:
doc.segment(segmenter)

In [18]:
for tocken in doc.tokens:
    print(tocken)

DocToken(stop=8, text='Владимир')
DocToken(start=9, stop=16, text='Смирнов')
DocToken(start=17, stop=23, text='застал')
DocToken(start=24, stop=30, text='Ахтема')
DocToken(start=31, stop=33, text='за')
DocToken(start=34, stop=39, text='игрой')
DocToken(start=40, stop=41, text='в')
DocToken(start=42, stop=52, text='настольный')
DocToken(start=53, stop=59, text='футбол')
DocToken(start=60, stop=62, text='на')
DocToken(start=63, stop=70, text='занятии')
DocToken(start=71, stop=72, text='и')
DocToken(start=73, stop=81, text='увеличил')
DocToken(start=82, stop=85, text='его')
DocToken(start=86, stop=90, text='очко')
DocToken(start=91, stop=92, text='и')
DocToken(start=93, stop=99, text='оплату')
DocToken(start=100, stop=102, text='за')
DocToken(start=103, stop=111, text='обучение')


In [19]:
doc.parse_syntax(syntax_parser)

In [20]:
for tocken in doc.tokens:
    print(tocken)

DocToken(stop=8, text='Владимир', id='1_1', head_id='1_3', rel='nsubj')
DocToken(start=9, stop=16, text='Смирнов', id='1_2', head_id='1_1', rel='appos')
DocToken(start=17, stop=23, text='застал', id='1_3', head_id='1_0', rel='root')
DocToken(start=24, stop=30, text='Ахтема', id='1_4', head_id='1_3', rel='obj')
DocToken(start=31, stop=33, text='за', id='1_5', head_id='1_6', rel='case')
DocToken(start=34, stop=39, text='игрой', id='1_6', head_id='1_3', rel='obl')
DocToken(start=40, stop=41, text='в', id='1_7', head_id='1_8', rel='case')
DocToken(start=42, stop=52, text='настольный', id='1_8', head_id='1_9', rel='amod')
DocToken(start=53, stop=59, text='футбол', id='1_9', head_id='1_3', rel='obl')
DocToken(start=60, stop=62, text='на', id='1_10', head_id='1_11', rel='case')
DocToken(start=63, stop=70, text='занятии', id='1_11', head_id='1_3', rel='obl')
DocToken(start=71, stop=72, text='и', id='1_12', head_id='1_13', rel='cc')
DocToken(start=73, stop=81, text='увеличил', id='1_13', head_i

In [21]:
doc.sents[0].syntax.print()

        ┌► Владимир   nsubj
        │  Смирнов    
┌─┌─┌─┌─└─ застал     
│ │ │ │ └► Ахтема     obj
│ │ │ │ ┌► за         case
│ │ │ └►└─ игрой      obl
│ │ │   ┌► в          case
│ │ │ ┌►└─ настольный amod
│ │ └►└─── футбол     obl
│ │     ┌► на         case
│ └────►└─ занятии    obl
│       ┌► и          cc
└────►┌─└─ увеличил   conj
      │ ┌► его        det
    ┌─└►└─ очко       obj
    │   ┌► и          cc
  ┌─└──►└─ оплату     conj
  │     ┌► за         case
  └────►└─ обучение   nmod
