# Библиотеки синтаксического анализа текста

Курс "Обработка естественного языка".

Синтаксический анализ текста на русском языке с использованием библиотек:
- [spaCy](https://spacy.io).
- [Natasha](https://github.com/natasha/natasha).

In [None]:
!pip install natasha spacy==3.3

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
import spacy
from spacy import displacy

## Библиотека spaCy

In [None]:
!python -m spacy download ru_core_news_sm

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting ru-core-news-sm==3.3.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ru_core_news_sm-3.3.0/ru_core_news_sm-3.3.0-py3-none-any.whl (15.3 MB)
[K     |████████████████████████████████| 15.3 MB 1.4 MB/s 
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('ru_core_news_sm')


In [None]:
nlp = spacy.load('ru_core_news_sm')

In [None]:
text = 'Илья Сегалович родился в семье советского геофизика В.И.Сегаловича'

In [None]:
doc = nlp(text)

In [None]:
for token in doc:
    print(token.text, token.pos_, token.dep_)

Илья PROPN nsubj
Сегалович PROPN appos
родился VERB ROOT
в ADP case
семье NOUN obl
советского ADJ amod
геофизика NOUN nmod
В.И.Сегаловича ADJ punct


In [None]:
displacy.render(doc, style="dep", jupyter=True)

## Библиотека natasha

In [None]:
from natasha import Segmenter, NewsEmbedding, NewsSyntaxParser, Doc

In [None]:
emb = NewsEmbedding()

In [None]:
segmenter = Segmenter()

In [None]:
syntax_parser = NewsSyntaxParser(emb)

In [None]:
text = 'Илья Сегалович родился в семье советского геофизика В.И.Сегаловича'

In [None]:
doc = Doc(text)

In [None]:
doc.segment(segmenter)

In [None]:
for tocken in doc.tokens:
    print(tocken)

DocToken(stop=4, text='Илья')
DocToken(start=5, stop=14, text='Сегалович')
DocToken(start=15, stop=22, text='родился')
DocToken(start=23, stop=24, text='в')
DocToken(start=25, stop=30, text='семье')
DocToken(start=31, stop=41, text='советского')
DocToken(start=42, stop=51, text='геофизика')
DocToken(start=52, stop=53, text='В')
DocToken(start=53, stop=54, text='.')
DocToken(start=54, stop=55, text='И')
DocToken(start=55, stop=56, text='.')
DocToken(start=56, stop=66, text='Сегаловича')


In [None]:
doc.parse_syntax(syntax_parser)

In [None]:
for tocken in doc.tokens:
    print(tocken)

DocToken(stop=4, text='Илья', id='1_1', head_id='1_3', rel='nsubj')
DocToken(start=5, stop=14, text='Сегалович', id='1_2', head_id='1_1', rel='appos')
DocToken(start=15, stop=22, text='родился', id='1_3', head_id='1_0', rel='root')
DocToken(start=23, stop=24, text='в', id='1_4', head_id='1_5', rel='case')
DocToken(start=25, stop=30, text='семье', id='1_5', head_id='1_3', rel='obl')
DocToken(start=31, stop=41, text='советского', id='1_6', head_id='1_7', rel='amod')
DocToken(start=42, stop=51, text='геофизика', id='1_7', head_id='1_5', rel='nmod')
DocToken(start=52, stop=53, text='В', id='1_8', head_id='1_7', rel='appos')
DocToken(start=53, stop=54, text='.', id='1_9', head_id='1_8', rel='punct')
DocToken(start=54, stop=55, text='И', id='1_10', head_id='1_8', rel='flat:name')
DocToken(start=55, stop=56, text='.', id='1_11', head_id='1_8', rel='punct')
DocToken(start=56, stop=66, text='Сегаловича', id='1_12', head_id='1_8', rel='flat:name')


In [None]:
doc.sents[0].syntax.print()

        ┌► Илья       nsubj
        │  Сегалович  
      ┌─└─ родился    
      │ ┌► в          case
    ┌─└►└─ семье      obl
    │   ┌► советского amod
    └►┌─└─ геофизика  nmod
┌─┌─┌─└►┌─ В          appos
│ │ │   └► .          punct
│ │ └────► И          flat:name
│ └──────► .          punct
└────────► Сегаловича flat:name


## Полезные ссылки

1. [Библиотека spaCy](https://spacy.io).
2. [Библиотека Natasha](https://github.com/natasha/natasha).

## Благодарности

Проект реализуется победителем Конкурса на предоставление грантов преподавателям магистратуры 2020/2021 благотворительной программы «Стипендиальная программа Владимира Потанина» Благотворительного фонда Владимира Потанина.