In [1]:
!pip install -U spacy
!python -m spacy download ru_core_news_sm

Collecting spacy
  Downloading spacy-3.0.6-cp38-cp38-win_amd64.whl (11.9 MB)
Collecting srsly<3.0.0,>=2.4.1
  Downloading srsly-2.4.1-cp38-cp38-win_amd64.whl (451 kB)
Collecting wasabi<1.1.0,>=0.8.1
  Downloading wasabi-0.8.2-py3-none-any.whl (23 kB)
Collecting preshed<3.1.0,>=3.0.2
  Downloading preshed-3.0.5-cp38-cp38-win_amd64.whl (112 kB)
Collecting typer<0.4.0,>=0.3.0
  Downloading typer-0.3.2-py3-none-any.whl (21 kB)
Collecting blis<0.8.0,>=0.4.0
  Downloading blis-0.7.4-cp38-cp38-win_amd64.whl (6.5 MB)
Collecting pathy>=0.3.5
  Downloading pathy-0.5.2-py3-none-any.whl (42 kB)
Collecting pydantic<1.8.0,>=1.7.1
  Downloading pydantic-1.7.4-cp38-cp38-win_amd64.whl (1.8 MB)
Collecting spacy-legacy<3.1.0,>=3.0.4
  Downloading spacy_legacy-3.0.6-py2.py3-none-any.whl (12 kB)
Collecting catalogue<2.1.0,>=2.0.3
  Downloading catalogue-2.0.4-py3-none-any.whl (16 kB)
Collecting cymem<2.1.0,>=2.0.2
  Downloading cymem-2.0.5-cp38-cp38-win_amd64.whl (36 kB)
Collecting murmurhash<1.1.0,>=0.28.

In [50]:
from spacy.lang.ru import Russian
import spacy

In [51]:
sentence = 'Пресс-секретарь президента России Дмитрий Песков поддержал заявление главы Роспотребнадзора Анны Поповой о причинах роста заболеваемости COVID-19'

In [52]:
nlp = spacy.load('ru_core_news_sm')
spacy_text = nlp(sentence)
spacy_text

Пресс-секретарь президента России Дмитрий Песков поддержал заявление главы Роспотребнадзора Анны Поповой о причинах роста заболеваемости COVID-19

### Токенизация

In [53]:
for token in spacy_text:
    print(f'{token.text:20} - {token.pos_:7} / {token.dep_}')

Пресс                - NOUN    / nsubj
-                    - NOUN    / nsubj
секретарь            - NOUN    / nsubj
президента           - NOUN    / nmod
России               - PROPN   / nmod
Дмитрий              - PROPN   / appos
Песков               - PROPN   / flat:name
поддержал            - VERB    / ROOT
заявление            - NOUN    / obj
главы                - NOUN    / nmod
Роспотребнадзора     - PROPN   / nmod
Анны                 - PROPN   / appos
Поповой              - PROPN   / flat:name
о                    - ADP     / case
причинах             - NOUN    / nmod
роста                - NOUN    / nmod
заболеваемости       - NOUN    / nmod
COVID-19             - PROPN   / nmod


### Лемматизация

In [54]:
for token in spacy_text:
      print(token, token.lemma, token.lemma_)

Пресс 8690628081204764865 пресс
- 9153284864653046197 -
секретарь 4767713971714693532 секретарь
президента 5901900373163431805 президент
России 2316221633775396228 россия
Дмитрий 15240069678028954905 дмитрий
Песков 6547359120953477038 песков
поддержал 18076303245661033257 поддержать
заявление 2021954556249008583 заявление
главы 13876134169407875187 глава
Роспотребнадзора 3713061416090338349 роспотребнадзор
Анны 13459736110710471239 анна
Поповой 14356648567818917234 попов
о 7798573245933969025 о
причинах 15656759929063343173 причина
роста 3763290123333772882 рост
заболеваемости 6759822635058931423 заболеваемость
COVID-19 7296015427201163752 covid-19


### Выделение (распознавание) именованных сущностей

In [55]:
for entity in spacy_text.ents:
    print(entity.text, entity.label_)

России LOC
Дмитрий Песков PER
Роспотребнадзора ORG
Анны Поповой PER


### Разбор предложения

In [56]:
from spacy import displacy

In [61]:
sentence = len(spacy_text)
for token in spacy_text:
    if token.text == '.':
        sentence = token.i
        break
sentence += 1

In [62]:
displacy.render(spacy_text, style='ent', jupyter=True)

In [63]:
print(spacy.explain("PER"))

Named person or family.


In [64]:
displacy.render(spacy_text[:sentence], style='dep', jupyter=True)