In [1]:
import spacy

#Загрузка английской NLP-модели
nlp = spacy.load('ru_core_news_sm')

#Текст для анализа
text = "Студентка четвертого курса Белорусского государственного технологического университета Алина Хартанович заняла первое место на евроазиатской олимпиаде по программированию в Токио и после этого посетит Канаду для участия в международной олимпиаде."

#Парсинг текста с помощью spaCy. Эта команда запускает целый конвейер
doc = nlp(text)

print(doc.text)

#текст токена, начальная форма, часть речи, является ли стоп-словом
for token in doc:
    print(token.text, token.lemma_, token.pos_, token.is_stop)

Студентка четвертого курса Белорусского государственного технологического университета Алина Хартанович заняла первое место на евроазиатской олимпиаде по программированию в Токио и после этого посетит Канаду для участия в международной олимпиаде.
Студентка студентка NOUN False
четвертого четвёртый ADJ False
курса курс NOUN False
Белорусского белорусский ADJ False
государственного государственный ADJ False
технологического технологический ADJ False
университета университет NOUN False
Алина алина PROPN False
Хартанович хартанович PROPN False
заняла занять VERB False
первое первый ADJ False
место место NOUN False
на на ADP True
евроазиатской евроазиатский ADJ False
олимпиаде олимпиада PROPN False
по по ADP True
программированию программирование NOUN False
в в ADP True
Токио токио PROPN False
и и CCONJ True
после после ADP True
этого это PRON True
посетит посетить VERB False
Канаду канада PROPN False
для для ADP True
участия участие NOUN False
в в ADP True
международной международный ADJ F

In [2]:
#построение дерева зависимостей
#(текст токена (тип зависимости,(согласно Universal Dependency), корневое слово) 
for token in doc:
    print(token.text, token.dep_, token.head)

Студентка nsubj заняла
четвертого amod курса
курса nmod Студентка
Белорусского amod университета
государственного amod университета
технологического amod университета
университета nmod курса
Алина appos Студентка
Хартанович flat:name Алина
заняла ROOT заняла
первое amod место
место obj заняла
на case олимпиаде
евроазиатской amod олимпиаде
олимпиаде nmod место
по case программированию
программированию nmod олимпиаде
в case Токио
Токио nmod программированию
и cc посетит
после case этого
этого obl посетит
посетит conj заняла
Канаду obj посетит
для case участия
участия obl посетит
в case олимпиаде
международной amod олимпиаде
олимпиаде nmod участия
. punct заняла


In [3]:
#визуализация дерева зависимостей, а также распознавание зависимостей
from spacy import displacy
displacy.render(doc, style='dep', jupyter=True) 

In [4]:
#для расшифровки названий тегов можно воспользоваться функцией explain
print(spacy.explain("NOUN")) #существительное
print(spacy.explain("ADJ")) #имя прилагательное
print(spacy.explain("PROPN")) #имя собственное
print(spacy.explain("VERB")) #глагол
print(spacy.explain("ADP")) #сближение
print(spacy.explain("CCONJ")) #координирующее соединение
print(spacy.explain("PRON")) #местоимение

noun
adjective
proper noun
verb
adposition
coordinating conjunction
pronoun


In [5]:
#Распознавание именованных сущностей 
doc2 = nlp("Студентка четвертого курса Белорусского государственного технологического университета Алина Хартанович заняла первое место на евроазиатской олимпиаде по программированию в Токио и после этого посетит Канаду для участия в международной олимпиаде.")

for ent in doc2.ents:
    print(ent.text, ent.label_)
displacy.render(doc2, style='ent', jupyter=True)    

Белорусского государственного технологического университета ORG
Алина Хартанович PER
Токио LOC
Канаду LOC


In [6]:
print(spacy.explain("PER"))
print(spacy.explain("LOC"))
print(spacy.explain("ORG"))

Named person or family.
Non-GPE locations, mountain ranges, bodies of water
Companies, agencies, institutions, etc.
