In [1]:
!pip install nltk spacy
!python -m spacy download ru_core_news_md

Collecting ru-core-news-md==3.7.0
  Using cached https://github.com/explosion/spacy-models/releases/download/ru_core_news_md-3.7.0/ru_core_news_md-3.7.0-py3-none-any.whl (41.9 MB)
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('ru_core_news_md')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


#1. Токенизация
Токенизация заключается в разбиении текста на отдельные слова (токены).

In [2]:
import nltk
nltk.download('punkt')

text = "Иван Иванович Петров отправился в Москву на конференцию по обработке естественного языка."
tokens = nltk.word_tokenize(text, language='russian')
print("Токены:", tokens)


Токены: ['Иван', 'Иванович', 'Петров', 'отправился', 'в', 'Москву', 'на', 'конференцию', 'по', 'обработке', 'естественного', 'языка', '.']


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


#2. Частеречная разметка
Частеречная разметка (POS-tagging) заключается в определении частей речи для каждого слова.

In [3]:
nltk.download('averaged_perceptron_tagger_ru')

pos_tags = nltk.pos_tag(tokens, lang='rus')
print("Части речи:", pos_tags)


[nltk_data] Downloading package averaged_perceptron_tagger_ru to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger_ru is already up-to-
[nltk_data]       date!


Части речи: [('Иван', 'S'), ('Иванович', 'S'), ('Петров', 'S'), ('отправился', 'V'), ('в', 'PR'), ('Москву', 'S'), ('на', 'PR'), ('конференцию', 'S'), ('по', 'PR'), ('обработке', 'S'), ('естественного', 'A=m'), ('языка', 'S'), ('.', 'NONLEX')]


#3. Лемматизация
Лемматизация заключается в приведении слов к их начальной форме (лемме).

In [4]:
import spacy

nlp = spacy.load("ru_core_news_md")
doc = nlp(text)

lemmas = [token.lemma_ for token in doc]
print("Леммы:", lemmas)


Леммы: ['иван', 'иванович', 'петров', 'отправиться', 'в', 'москва', 'на', 'конференция', 'по', 'обработка', 'естественный', 'язык', '.']


#4. Выделение (распознавание) именованных сущностей
Распознавание именованных сущностей (NER) заключается в идентификации имен людей, организаций, мест и т.д.

In [5]:
entities = [(entity.text, entity.label_) for entity in doc.ents]
print("Именованные сущности:", entities)


Именованные сущности: [('Иван Иванович Петров', 'PER'), ('Москву', 'LOC')]


#5. Разбор предложения
Разбор предложения заключается в анализе синтаксической структуры предложения.

In [6]:
for token in doc:
    print(f'{token.text} ({token.dep_}) --> {token.head.text}')


Иван (nsubj) --> отправился
Иванович (appos) --> Иван
Петров (appos) --> Иван
отправился (ROOT) --> отправился
в (case) --> Москву
Москву (obl) --> отправился
на (case) --> конференцию
конференцию (obl) --> отправился
по (case) --> обработке
обработке (nmod) --> конференцию
естественного (amod) --> языка
языка (nmod) --> обработке
. (punct) --> отправился
