Natasha решает базовые задачи NLP для русского языка: токенизация, сегментация предложений, встраивание слов, морфологиz, лемматизация, нормализация фраз, синтаксический анализ, работа с NER, извлечение фактов. 

Natasha объединяет библиотеки проекта Natasha под одним удобным API:

Razdel - токенизация, сегментация предложений для русского языка
Navec - вектора русский слов
Slovnet - библиотека с методами глубокого обучения для русского NLP, компактные модели для русской морфологии, синтаксиса и NER.
Yargy - извлечение фактов на основе правил, аналогичное синтаксическому анализатору Tomita.

Рассмотрим примеры использования

In [1]:
 !pip install natasha

Collecting natasha
  Downloading natasha-1.4.0-py3-none-any.whl (34.4 MB)
[K     |████████████████████████████████| 34.4 MB 29 kB/s 
[?25hCollecting yargy>=0.14.0
  Downloading yargy-0.15.0-py3-none-any.whl (41 kB)
[K     |████████████████████████████████| 41 kB 125 kB/s 
[?25hCollecting navec>=0.9.0
  Downloading navec-0.10.0-py3-none-any.whl (23 kB)
Collecting slovnet>=0.3.0
  Downloading slovnet-0.5.0-py3-none-any.whl (49 kB)
[K     |████████████████████████████████| 49 kB 6.9 MB/s 
[?25hCollecting ipymarkup>=0.8.0
  Downloading ipymarkup-0.9.0-py3-none-any.whl (14 kB)
Collecting razdel>=0.5.0
  Downloading razdel-0.5.0-py3-none-any.whl (21 kB)
Collecting pymorphy2
  Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
[K     |████████████████████████████████| 55 kB 3.7 MB/s 
[?25hCollecting intervaltree>=3
  Downloading intervaltree-3.1.0.tar.gz (32 kB)
Collecting pymorphy2-dicts-ru<3.0,>=2.4
  Downloading pymorphy2_dicts_ru-2.4.417127.4579844-py2.py3-none-any.whl (8.2 MB)


In [2]:
from natasha import (
    Segmenter,
    MorphVocab,
    
    NewsEmbedding,
    NewsMorphTagger,
    NewsSyntaxParser,
    NewsNERTagger,
    
    PER,
    NamesExtractor,

    Doc
)

In [14]:
segmenter = Segmenter()
morph_vocab = MorphVocab()

emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)
syntax_parser = NewsSyntaxParser(emb)
ner_tagger = NewsNERTagger(emb)

names_extractor = NamesExtractor(morph_vocab)

text = '''Студенты и сотрудники лаборатории Машинного обучения Университета ИТМО разработали библиотеку для Python, которая решает ключевую задачу машинного обучения.

Расскажем, почему появился этот инструмент и что он умеет.
Нехватка алгоритмов

Одна из ключевых задач машинного обучения — снижение размерности данных. Дата-саентисты сокращают число переменных, вычленяя среди них значения, наибольшим образом влияющие на результат. После этой операции модель машинного обучения требует меньше памяти, работает быстрее и качественнее. Пример ниже показывает, что исключение дублирующих признаков увеличивает точность классификации с 0,903 до 0,943.

Существует два подхода к уменьшению размерности — конструирование и выбор признаков. В областях вроде биоинформатики и медицины чаще используют последний, так как он позволяет выделить значимые признаки с сохранением семантики, то есть не меняет исходный смысл признаков. Однако в самых распространенных библиотеках машинного обучения на Python — scikit-learn, pytorch, keras, tensorflow — нет полноценного набора методов выбора признаков.

Для решения этой проблемы студенты и аспиранты Университета ИТМО разработали открытую библиотеку — ITMO_FS. Над ней трудится команда под руководством Ивана Сметанникова, доцента факультета информационных технологий и программирования, заместителя заведующего лабораторией Машинного обучения. Ведущий разработчик — Никита Пильненьский, закончивший магистратуру «Машинное обучение и анализ данных». Теперь он поступает в аспирантуру.

«За последние несколько лет в нашу лабораторию приходили запросы на решение задач, для которых не подходил стандартный инструментарий. Например, нам требовались ансамблирующие алгоритмы на основе объединения фильтров, или алгоритмы, учитывающие наличие заранее известных (экспертно-размеченных) значимых признаков.

Посмотрев на существующие решения, мы пришли к выводу, что они не только не содержат необходимые нам инструменты, но и не являются достаточно гибкими для их возможной мягкой интеграции. В контексте того, что среди таких библиотек конкуренция слаба, мы решили сделать свою библиотеку, исправляющую большинство недостатков».

— Иван Сметанников
'''
doc = Doc(text)

# Разделение

После сегментации можно работать как с отдельными токенами, так и с целыми предложениями (которые в себе также содержат токены)

In [15]:
doc.segment(segmenter)
print(doc.tokens[:5])
print(doc.sents[:5])

[DocToken(stop=8, text='Студенты'), DocToken(start=9, stop=10, text='и'), DocToken(start=11, stop=21, text='сотрудники'), DocToken(start=22, stop=33, text='лаборатории'), DocToken(start=34, stop=43, text='Машинного')]
[DocSent(stop=156, text='Студенты и сотрудники лаборатории Машинного обуче..., tokens=[...]), DocSent(start=158, stop=216, text='Расскажем, почему появился этот инструмент и что ..., tokens=[...]), DocSent(start=217, stop=310, text='Нехватка алгоритмов\n\nОдна из ключевых задач маш..., tokens=[...]), DocSent(start=311, stop=424, text='Дата-саентисты сокращают число переменных, вычлен..., tokens=[...]), DocSent(start=425, stop=526, text='После этой операции модель машинного обучения тре..., tokens=[...])]


# Морфология

Библиотека умеет проводить морфологический анализ, можно работать сново с каждым токеном. Также уже есть встроенный "красивый" вывод признаков

Зависит от шага с разделением и дополняет уже существующую информацию о токенах

In [16]:
doc.tag_morph(morph_tagger)
print(doc.tokens[:5])
doc.sents[0].morph.print()

[DocToken(stop=8, text='Студенты', pos='NOUN', feats=<Anim,Nom,Masc,Plur>), DocToken(start=9, stop=10, text='и', pos='CCONJ'), DocToken(start=11, stop=21, text='сотрудники', pos='NOUN', feats=<Anim,Nom,Masc,Plur>), DocToken(start=22, stop=33, text='лаборатории', pos='NOUN', feats=<Inan,Gen,Fem,Sing>), DocToken(start=34, stop=43, text='Машинного', pos='ADJ', feats=<Gen,Pos,Neut,Sing>)]
            Студенты NOUN|Animacy=Anim|Case=Nom|Gender=Masc|Number=Plur
                   и CCONJ
          сотрудники NOUN|Animacy=Anim|Case=Nom|Gender=Masc|Number=Plur
         лаборатории NOUN|Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing
           Машинного ADJ|Case=Gen|Degree=Pos|Gender=Neut|Number=Sing
            обучения NOUN|Animacy=Inan|Case=Gen|Gender=Neut|Number=Sing
        Университета PROPN|Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing
                ИТМО PROPN|Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing
         разработали VERB|Aspect=Perf|Mood=Ind|Number=Plur|Tense=Past|VerbForm=Fin|

# Лемматизация

Зависит от шага с морфологическим разбором и дополняет уже существующую информацию о токенах

Выведем первые 15 примеров приведение слова к его нормальной форме

In [17]:
for token in doc.tokens:
    token.lemmatize(morph_vocab)
    
print(doc.tokens[:5])
{_.text: _.lemma for _ in doc.tokens[:15]}

[DocToken(stop=8, text='Студенты', pos='NOUN', feats=<Anim,Nom,Masc,Plur>, lemma='студент'), DocToken(start=9, stop=10, text='и', pos='CCONJ', lemma='и'), DocToken(start=11, stop=21, text='сотрудники', pos='NOUN', feats=<Anim,Nom,Masc,Plur>, lemma='сотрудник'), DocToken(start=22, stop=33, text='лаборатории', pos='NOUN', feats=<Inan,Gen,Fem,Sing>, lemma='лаборатория'), DocToken(start=34, stop=43, text='Машинного', pos='ADJ', feats=<Gen,Pos,Neut,Sing>, lemma='машинный')]


{',': ',',
 'Python': 'python',
 'ИТМО': 'итмо',
 'Машинного': 'машинный',
 'Студенты': 'студент',
 'Университета': 'университет',
 'библиотеку': 'библиотека',
 'для': 'для',
 'и': 'и',
 'которая': 'который',
 'лаборатории': 'лаборатория',
 'обучения': 'обучение',
 'разработали': 'разработать',
 'решает': 'решать',
 'сотрудники': 'сотрудник'}

# Синтаксический разбор

Зависит от шага с разделением на токены, а именно использует информацию о предложениях

In [18]:
doc.parse_syntax(syntax_parser)
print(doc.tokens[:5])
doc.sents[0].syntax.print()

[DocToken(stop=8, text='Студенты', id='1_1', head_id='1_9', rel='nsubj', pos='NOUN', feats=<Anim,Nom,Masc,Plur>, lemma='студент'), DocToken(start=9, stop=10, text='и', id='1_2', head_id='1_3', rel='cc', pos='CCONJ', lemma='и'), DocToken(start=11, stop=21, text='сотрудники', id='1_3', head_id='1_1', rel='conj', pos='NOUN', feats=<Anim,Nom,Masc,Plur>, lemma='сотрудник'), DocToken(start=22, stop=33, text='лаборатории', id='1_4', head_id='1_3', rel='nmod', pos='NOUN', feats=<Inan,Gen,Fem,Sing>, lemma='лаборатория'), DocToken(start=34, stop=43, text='Машинного', id='1_5', head_id='1_6', rel='amod', pos='ADJ', feats=<Gen,Pos,Neut,Sing>, lemma='машинный')]
  ┌────────► Студенты     nsubj
  │       ┌► и            cc
  │     ┌─└─ сотрудники   
  │ ┌─┌─└──► лаборатории  nmod
  │ │ │   ┌► Машинного    amod
  │ │ └──►└─ обучения     nmod
  │ └────►┌─ Университета nmod
  │       └► ИТМО         nmod
┌─└───────┌─ разработали  
│     ┌─┌─└► библиотеку   obj
│     │ │ ┌► для          case
│     │ └►└

# Распознование именованных сущностей

Зависит от шага с разделением на токены

In [19]:
doc.tag_ner(ner_tagger)
print(doc.spans[:5])
doc.ner.print()

[DocSpan(start=34, stop=52, type='ORG', text='Машинного обучения', tokens=[...]), DocSpan(start=53, stop=70, type='ORG', text='Университета ИТМО', tokens=[...]), DocSpan(start=1130, stop=1147, type='ORG', text='Университета ИТМО', tokens=[...]), DocSpan(start=1233, stop=1251, type='PER', text='Ивана Сметанникова', tokens=[...]), DocSpan(start=1355, stop=1373, type='ORG', text='Машинного обучения', tokens=[...])]
Студенты и сотрудники лаборатории Машинного обучения Университета ИТМО
                                  ORG─────────────── ORG──────────────
 разработали библиотеку для Python, которая решает ключевую задачу 
машинного обучения.
Расскажем, почему появился этот инструмент и что он умеет.
Нехватка алгоритмов
Одна из ключевых задач машинного обучения — снижение размерности 
данных. Дата-саентисты сокращают число переменных, вычленяя среди них 
значения, наибольшим образом влияющие на результат. После этой 
операции модель машинного обучения требует меньше памяти, работает 
быстре

Затем такие сущности можно нормализовать


In [20]:
for span in doc.spans:
   span.normalize(morph_vocab)
print(doc.spans[:5])
{_.text: _.normal for _ in doc.spans if _.text != _.normal}

[DocSpan(start=34, stop=52, type='ORG', text='Машинного обучения', tokens=[...], normal='Машинное обучение'), DocSpan(start=53, stop=70, type='ORG', text='Университета ИТМО', tokens=[...], normal='Университет ИТМО'), DocSpan(start=1130, stop=1147, type='ORG', text='Университета ИТМО', tokens=[...], normal='Университет ИТМО'), DocSpan(start=1233, stop=1251, type='PER', text='Ивана Сметанникова', tokens=[...], normal='Иван Сметанников'), DocSpan(start=1355, stop=1373, type='ORG', text='Машинного обучения', tokens=[...], normal='Машинное обучение')]


{'Ивана Сметанникова': 'Иван Сметанников',
 'Машинного обучения': 'Машинное обучение',
 'Университета ИТМО': 'Университет ИТМО'}

А также рзделить на составные чати (имя, фамилия и тд)

In [21]:
for span in doc.spans:
   if span.type == PER:
       span.extract_fact(names_extractor)

print(doc.spans[:5])
{_.normal: _.fact.as_dict for _ in doc.spans if _.type == PER}

[DocSpan(start=34, stop=52, type='ORG', text='Машинного обучения', tokens=[...], normal='Машинное обучение'), DocSpan(start=53, stop=70, type='ORG', text='Университета ИТМО', tokens=[...], normal='Университет ИТМО'), DocSpan(start=1130, stop=1147, type='ORG', text='Университета ИТМО', tokens=[...], normal='Университет ИТМО'), DocSpan(start=1233, stop=1251, type='PER', text='Ивана Сметанникова', tokens=[...], normal='Иван Сметанников', fact=DocFact(slots=[...])), DocSpan(start=1355, stop=1373, type='ORG', text='Машинного обучения', tokens=[...], normal='Машинное обучение')]


{'Иван Сметанников': {'first': 'Иван', 'last': 'Сметанников'},
 'Никита Пильненьский': {'first': 'Никита', 'last': 'Пильненьский'}}