# Cинтаксический анализ текста

Синтаксический анализ текста на русском языке с использованием библиотек:
- [spaCy](https://spacy.io).
- [Natasha](https://github.com/natasha/natasha).

In [26]:
import spacy
from spacy import displacy

## Библиотека spaCy

In [27]:
!python -m spacy download ru_core_news_sm
nlp = spacy.load('ru_core_news_sm')

Collecting ru-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ru_core_news_sm-3.8.0/ru_core_news_sm-3.8.0-py3-none-any.whl (15.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m15.3/15.3 MB[0m [31m8.9 MB/s[0m  [33m0:00:01[0m eta [36m0:00:01[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('ru_core_news_sm')


In [28]:
text = "Тощая торговка вяленой воблой торчала среди ящеров"#"Глокая куздра штеко будланула бокра и кудрячит бокрёнка"#"Как ныне сбирается Вещий Олег отмстить неразумным хазарам"#

In [29]:
doc = nlp(text)

In [30]:
for token in doc:
    print(token.text, token.pos_, token.dep_)

Тощая VERB amod
торговка NOUN nsubj
вяленой ADJ amod
воблой NOUN nmod
торчала VERB ROOT
среди ADP case
ящеров NOUN obl


In [31]:
from spacy import displacy

# получаем HTML-строку (не просим displacy использовать jupyter=True)
html = displacy.render(doc, style="dep", jupyter=False)

# корректный импорт display/HTML из IPython (работает в ноутбуке)
from IPython.display import HTML, display
display(HTML(html))

In [32]:
nlp = spacy.load('en_core_web_sm')
doc1 = nlp(u'We can overtake them.')
doc2 = nlp(u'You must specify it.')
for i in range(len(doc1)-1):
    if doc1[i].dep_ == doc2[i].dep_:
        print(doc1[i].text,'\t', doc2[i].text, '\t', doc1[i].dep_, spacy.explain(doc1[i].dep_))

OSError: [E050] Can't find model 'en_core_web_sm'. It doesn't seem to be a Python package or a valid path to a data directory.

## Библиотека natasha

In [None]:
!pip install natasha
from natasha import Segmenter, NewsEmbedding, NewsSyntaxParser, Doc

Collecting natasha
  Downloading natasha-1.6.0-py3-none-any.whl.metadata (23 kB)
Collecting razdel>=0.5.0 (from natasha)
  Downloading razdel-0.5.0-py3-none-any.whl.metadata (10.0 kB)
Collecting navec>=0.9.0 (from natasha)
  Downloading navec-0.10.0-py3-none-any.whl.metadata (21 kB)
Collecting slovnet>=0.6.0 (from natasha)
  Downloading slovnet-0.6.0-py3-none-any.whl.metadata (34 kB)
Collecting yargy>=0.16.0 (from natasha)
  Downloading yargy-0.16.0-py3-none-any.whl.metadata (3.5 kB)
Collecting ipymarkup>=0.8.0 (from natasha)
  Downloading ipymarkup-0.9.0-py3-none-any.whl.metadata (5.6 kB)
Collecting intervaltree>=3 (from ipymarkup>=0.8.0->natasha)
  Downloading intervaltree-3.1.0.tar.gz (32 kB)
  Installing build dependencies ... [?25ldone
[?25h  Getting requirements to build wheel ... [?25ldone
[?25h  Preparing metadata (pyproject.toml) ... [?25ldone
[?25hCollecting sortedcontainers<3.0,>=2.0 (from intervaltree>=3->ipymarkup>=0.8.0->natasha)
  Downloading sortedcontainers-2.4.0

In [None]:
emb = NewsEmbedding()

In [None]:
segmenter = Segmenter()

In [None]:
syntax_parser = NewsSyntaxParser(emb)

In [None]:
text = "Тощая торговка вяленой воблой торчала среди ящеров"#"Глокая куздра штеко будланула бокра и кудрячит бокрёнка"#'Владимир Смирнов застал Ахтема за игрой в настольный футбол на занятии'

In [33]:
doc = Doc(text)

In [34]:
doc.segment(segmenter)

In [35]:
for tocken in doc.tokens:
    print(tocken)

DocToken(stop=5, text='Тощая')
DocToken(start=6, stop=14, text='торговка')
DocToken(start=15, stop=22, text='вяленой')
DocToken(start=23, stop=29, text='воблой')
DocToken(start=30, stop=37, text='торчала')
DocToken(start=38, stop=43, text='среди')
DocToken(start=44, stop=50, text='ящеров')


In [36]:
doc.parse_syntax(syntax_parser)

In [37]:
for tocken in doc.tokens:
    print(tocken)

DocToken(stop=5, text='Тощая', id='1_1', head_id='1_2', rel='amod')
DocToken(start=6, stop=14, text='торговка', id='1_2', head_id='1_5', rel='amod')
DocToken(start=15, stop=22, text='вяленой', id='1_3', head_id='1_5', rel='amod')
DocToken(start=23, stop=29, text='воблой', id='1_4', head_id='1_5', rel='amod')
DocToken(start=30, stop=37, text='торчала', id='1_5', head_id='1_5', rel='nsubj')
DocToken(start=38, stop=43, text='среди', id='1_6', head_id='1_7', rel='case')
DocToken(start=44, stop=50, text='ящеров', id='1_7', head_id='1_5', rel='amod')


In [38]:
doc.sents[0].syntax.print()

    ┌► Тощая    amod
┌──►└─ торговка amod
│ ┌──► вяленой  amod
│ │ ┌► воблой   amod
└─└─└─ торчала  
│   ┌► среди    case
└──►└─ ящеров   amod
