# Библиотека Natasha для NLP на русском

`Natasha` решает базовые задачи NLP для русского языка: токенизацию, сегментацию предложений, векторное представление слов (word embedding), морфологическую разметку, лемматизацию, нормализацию фраз, синтаксический анализ, извлечение именованных сущностей (NER) и фактов. Качество выполнения каждой задачи сопоставимо или превосходит текущие state-of-the-art (SOTA) решения для русского языка на новостных статьях (см. раздел с оценкой).  
`Natasha` — не исследовательский проект, базовые технологии созданы для промышленного использования. Модели работают на CPU и используют Numpy для вывода.  

`Natasha` объединяет библиотеки проекта Natasha в единый удобный API:  
- **Razdel** — токенизация и сегментация предложений для русского языка  
- **Navec** — компактные векторные представления для русского языка  
- **Slovnet** — современные методы deep learning для русского NLP, компактные модели для морфологии, синтаксиса и NER  
- **Yargy** — правило-ориентированное извлечение фактов (аналогично парсеру Томита)  
- **Ipymarkup** — визуализация NLP-разметки (NER и синтаксис)  


## Установка

`Natasha` требует Python 3.7+ and PyPy3:

In [None]:
$ pip install natasha

## Использование

Импортируйте, инициализируйте модули, создайте объект Doc.  

In [3]:
# Импорт необходимых модулей из библиотеки Natasha
# Natasha - это библиотека для обработки естественного языка (NLP) для русского языка
from natasha import (
    Segmenter,          # Разбивает текст на предложения и токены (слова, знаки препинания)
    MorphVocab,         # Морфологический словарь для нормализации слов
    
    # Модели на основе предобученных эмбеддингов
    NewsEmbedding,      # Предобученные векторные представления слов для новостных текстов
    NewsMorphTagger,    # Морфологический анализатор (часть речи, род, число и др.)
    NewsSyntaxParser,   # Синтаксический анализатор (зависимости между словами)
    NewsNERTagger,      # Распознавание именованных сущностей (персоны, организации и др.)
    
    PER,                # Константа для обозначения типа сущности "Персона"
    NamesExtractor,     # Извлечение и нормализация имен

    Doc                 # Основной класс для работы с документами
)

# Инициализация компонентов Natasha:

# Сегментатор - разбивает текст на токены (слова) и предложения
segmenter = Segmenter()

# Морфологический словарь - используется для нормализации слов (приведение к начальной форме)
morph_vocab = MorphVocab()

# Загрузка предобученных эмбеддингов (векторных представлений слов)
emb = NewsEmbedding()

# Инициализация моделей на основе загруженных эмбеддингов:

# Морфологический теггер - определяет часть речи и грамматические характеристики
morph_tagger = NewsMorphTagger(emb)

# Синтаксический парсер - анализирует грамматическую структуру предложения
syntax_parser = NewsSyntaxParser(emb)

# NER (Named Entity Recognition) теггер - распознает именованные сущности
ner_tagger = NewsNERTagger(emb)

# Инициализация экстрактора имен для нормализации имен собственных
names_extractor = NamesExtractor(morph_vocab)

# Пример текста для анализа - немного классики
text = 'Наш хоббит был весьма состоятельным хоббитом по фамилии Бэггинс. Бэггинсы проживали в окрестностях Холма с незапамятных времен и считались очень почтенным семейством не только потому, что были богаты, но и потому, что с ними никогда и ничего не приключалось и они не позволяли себе ничего неожиданного: всегда можно было угадать заранее, не спрашивая, что именно скажет тот или иной Бэггинс по тому или иному поводу. Но мы вам поведаем историю о том, как одного из Бэггинсов втянули-таки в приключения и, к собственному удивлению, он начал говорить самые неожиданные вещи и совершать самые неожиданные поступки. Может быть, он и потерял уважение соседей, но зато приобрел… впрочем, увидите сами, приобрел он в конце концов или нет. Матушка нашего хоббита… кстати, кто такой хоббит? Пожалуй, стоит рассказать о хоббитах подробнее, так как в наше время они стали редкостью и сторонятся Высокого Народа, как они называют нас, людей. Сами они низкорослый народец, примерно в половину нашего роста и пониже бородатых гномов. Бороды у хоббитов нет. Волшебного в них тоже, в общем-то, ничего нет, если не считать волшебным умение быстро и бесшумно исчезать в тех случаях, когда всякие бестолковые, неуклюжие верзилы, вроде нас с вами, с шумом и треском ломятся, как слоны. У хоббитов толстенькое брюшко; одеваются они ярко, преимущественно в зеленое и желтое; башмаков не носят, потому что на ногах у них от природы жесткие кожаные подошвы и густой теплый бурый мех, как и на голове. Только на голове он курчавится. У хоббитов длинные ловкие темные пальцы на руках, добродушные лица; смеются они густым утробным смехом (особенно после обеда, а обедают они, как правило дважды в день, если получится).'

# Создание объекта Doc - основной объект для работы с текстом в Natasha
# При инициализации текст автоматически сегментируется на токены и предложения
doc = Doc(text)

# Далее обычно выполняются следующие шаги (хотя в этом примере они не показаны):
# 1. doc.segment(segmenter) - сегментация (уже выполнена при создании Doc)
# 2. doc.tag_morph(morph_tagger) - морфологический разбор
# 3. doc.parse_syntax(syntax_parser) - синтаксический разбор
# 4. doc.tag_ner(ner_tagger) - извлечение именованных сущностей
# 5. Обработка результатов, например, нормализация имен с помощью names_extractor

## Сегментация  
Разделяет текст на токены и предложения. Определяет свойства tokens и sents документа. Использует библиотеку `Razdel`.

In [7]:
# Применяем сегментатор к документу (разбиваем текст на предложения и токены)
# segmenter - это объект, который содержит правила для разбиения текста
# doc.segment() модифицирует документ, добавляя информацию о границах предложений и токенов
doc.segment(segmenter)

# Выводим первые 5 токенов документа
# doc.tokens - это список токенов (отдельных слов, знаков препинания и т.д.)
# [:5] - срез списка, который берет первые 5 элементов
print(doc.tokens[:5])

# Выводим первые 5 предложений документа
# doc.sents - это список предложений документа
# Каждое предложение представлено как последовательность токенов
print(doc.sents[:5])

[DocToken(stop=3, text='Наш'), DocToken(start=4, stop=10, text='хоббит'), DocToken(start=11, stop=14, text='был'), DocToken(start=15, stop=21, text='весьма'), DocToken(start=22, stop=35, text='состоятельным')]
[DocSent(stop=64, text='Наш хоббит был весьма состоятельным хоббитом по ф..., tokens=[...]), DocSent(start=65, stop=416, text='Бэггинсы проживали в окрестностях Холма с незапам..., tokens=[...]), DocSent(start=417, stop=611, text='Но мы вам поведаем историю о том, как одного из Б..., tokens=[...]), DocSent(start=612, stop=731, text='Может быть, он и потерял уважение соседей, но зат..., tokens=[...]), DocSent(start=732, stop=781, text='Матушка нашего хоббита… кстати, кто такой хоббит?..., tokens=[...])]


## Морфология  
Для каждого токена извлекаются расширенные морфологические признаки. Зависит от этапа сегментации. Определяет свойства pos (часть речи) и feats (грамматические характеристики) для doc.tokens. Внутри использует морфологическую модель Slovnet.  

Вызовите morph.print(), чтобы визуализировать морфологическую разметку.

In [8]:
# Применяем морфологический анализатор (тэггер) к документу doc
# morph_tagger - это объект, который содержит правила или модель для разбора морфологии
# Метод tag_morph проходит по всем токенам в документе и добавляет к ним морфологические разборы
doc.tag_morph(morph_tagger)

# Выводим первые 5 токенов документа после морфологического разбора
# Это полезно для проверки, что разбор был применён корректно
# Каждый токен будет содержать информацию о лемме, части речи, грамматических признаках и т.д.
print(doc.tokens[:5])

# Обращаемся к первому предложению в документе (doc.sents[0])
# Вызываем метод .morph, который возвращает морфологическую информацию предложения,
# и затем .print() для красивого вывода этой информации в консоль
# Это покажет все морфологические разборы для каждого токена в предложении в удобном формате
doc.sents[0].morph.print()

[DocToken(stop=3, text='Наш', pos='DET', feats=<Nom,Masc,Sing>), DocToken(start=4, stop=10, text='хоббит', pos='NOUN', feats=<Inan,Nom,Masc,Sing>), DocToken(start=11, stop=14, text='был', pos='AUX', feats=<Imp,Masc,Ind,Sing,Past,Fin,Act>), DocToken(start=15, stop=21, text='весьма', pos='ADV', feats=<Pos>), DocToken(start=22, stop=35, text='состоятельным', pos='ADJ', feats=<Ins,Pos,Masc,Sing>)]
                 Наш DET|Case=Nom|Gender=Masc|Number=Sing
              хоббит NOUN|Animacy=Inan|Case=Nom|Gender=Masc|Number=Sing
                 был AUX|Aspect=Imp|Gender=Masc|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Act
              весьма ADV|Degree=Pos
       состоятельным ADJ|Case=Ins|Degree=Pos|Gender=Masc|Number=Sing
            хоббитом NOUN|Animacy=Anim|Case=Ins|Gender=Masc|Number=Sing
                  по ADP
             фамилии NOUN|Animacy=Inan|Case=Dat|Gender=Fem|Number=Sing
             Бэггинс PROPN|Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing
                   . PUN

## Лемматизация  

Лемматизировать каждый токен. Зависит от этапа морфологического анализа. Определяет свойство lemma для doc.tokens. Внутри использует Pymorphy.  

In [10]:
# Итерируемся по всем токенам в документе doc
# doc.tokens - это список токенов (слов, знаков препинания и т.д.), полученных после обработки текста
for token in doc.tokens:
    # Применяем лемматизацию к текущему токену
    # Лемматизация - приведение слова к его нормальной (словарной) форме
    # Например: "бежал" → "бежать", "машины" → "машина"
    # morph_vocab - это морфологический словарь, используемый для лемматизации
    token.lemmatize(morph_vocab)
    
# Выводим первые 5 токенов документа после лемматизации
# Это полезно для проверки результатов обработки
print(doc.tokens[:5])

# Создаем словарь, где ключами являются исходные тексты токенов,
# а значениями - их лемматизированные формы
# Используем генератор словаря для компактной записи
# _ - это временная переменная, представляющая каждый токен в doc.tokens
{_.text: _.lemma for _ in doc.tokens}

[DocToken(stop=3, text='Наш', pos='DET', feats=<Nom,Masc,Sing>, lemma='наш'), DocToken(start=4, stop=10, text='хоббит', pos='NOUN', feats=<Inan,Nom,Masc,Sing>, lemma='хоббит'), DocToken(start=11, stop=14, text='был', pos='AUX', feats=<Imp,Masc,Ind,Sing,Past,Fin,Act>, lemma='быть'), DocToken(start=15, stop=21, text='весьма', pos='ADV', feats=<Pos>, lemma='весьма'), DocToken(start=22, stop=35, text='состоятельным', pos='ADJ', feats=<Ins,Pos,Masc,Sing>, lemma='состоятельный')]


{'Наш': 'наш',
 'хоббит': 'хоббит',
 'был': 'быть',
 'весьма': 'весьма',
 'состоятельным': 'состоятельный',
 'хоббитом': 'хоббит',
 'по': 'по',
 'фамилии': 'фамилия',
 'Бэггинс': 'бэггинс',
 '.': '.',
 'Бэггинсы': 'бэггинс',
 'проживали': 'проживать',
 'в': 'в',
 'окрестностях': 'окрестность',
 'Холма': 'холм',
 'с': 'с',
 'незапамятных': 'незапамятных',
 'времен': 'время',
 'и': 'и',
 'считались': 'считаться',
 'очень': 'очень',
 'почтенным': 'почтенный',
 'семейством': 'семейство',
 'не': 'не',
 'только': 'только',
 'потому': 'потому',
 ',': ',',
 'что': 'что',
 'были': 'быть',
 'богаты': 'богатый',
 'но': 'но',
 'ними': 'они',
 'никогда': 'никогда',
 'ничего': 'ничто',
 'приключалось': 'приключалось',
 'они': 'они',
 'позволяли': 'позволять',
 'себе': 'себя',
 'неожиданного': 'неожиданный',
 ':': ':',
 'всегда': 'всегда',
 'можно': 'можно',
 'было': 'быть',
 'угадать': 'угадать',
 'заранее': 'заранее',
 'спрашивая': 'спрашивать',
 'именно': 'именно',
 'скажет': 'сказать',
 'тот': 'т

## Синтаксический анализ  

Для каждого предложения запускается синтаксический анализатор. Зависит от этапа сегментации. Определяет свойства id, head_id, rel для токенов в doc.tokens. Внутри использует модель синтаксического анализа Slovnet.  

Используйте syntax.print(), чтобы визуализировать синтаксическую разметку. Внутри применяется Ipymarkup.

In [11]:
# Анализ синтаксической структуры документа с использованием указанного синтаксического парсера
# syntax_parser - это объект парсера, который содержит правила и модели для разбора синтаксиса
# (например, Stanford Parser, spaCy, SyntaxNet или другой NLP-инструмент)
doc.parse_syntax(syntax_parser)

# Вывод первых 5 токенов документа после синтаксического разбора
# Токены - это минимальные значимые единицы текста (слова, знаки препинания и т.д.)
# [:5] - срез, берущий первые 5 элементов списка
print(doc.tokens[:5])

# Обращение к первому предложению в документе (индекс 0)
# doc.sents - это список предложений в документе, где каждое предложение - это объект с различными атрибутами
# .syntax - атрибут предложения, содержащий его синтаксическую структуру
# .print() - метод для вывода наглядного представления синтаксического дерева предложения
doc.sents[0].syntax.print()

[DocToken(stop=3, text='Наш', id='1_1', head_id='1_2', rel='det', pos='DET', feats=<Nom,Masc,Sing>, lemma='наш'), DocToken(start=4, stop=10, text='хоббит', id='1_2', head_id='1_6', rel='nsubj', pos='NOUN', feats=<Inan,Nom,Masc,Sing>, lemma='хоббит'), DocToken(start=11, stop=14, text='был', id='1_3', head_id='1_6', rel='cop', pos='AUX', feats=<Imp,Masc,Ind,Sing,Past,Fin,Act>, lemma='быть'), DocToken(start=15, stop=21, text='весьма', id='1_4', head_id='1_5', rel='advmod', pos='ADV', feats=<Pos>, lemma='весьма'), DocToken(start=22, stop=35, text='состоятельным', id='1_5', head_id='1_6', rel='amod', pos='ADJ', feats=<Ins,Pos,Masc,Sing>, lemma='состоятельный')]
        ┌► Наш           det
  ┌────►└─ хоббит        nsubj
  │ ┌────► был           cop
  │ │   ┌► весьма        advmod
  │ │ ┌►└─ состоятельным amod
┌─└─└─└─── хоббитом      
│   │   ┌► по            case
│   └►┌─└─ фамилии       nmod
│     └──► Бэггинс       appos
└────────► .             punct


## NER ("Named Entity Recognition")

Извлекает стандартные именованные сущности: имена, локации, организации. Зависит от этапа сегментации. Определяет свойство spans документа. Внутри использует модель NER от Slovnet.  

Вызовите ner.print(), чтобы визуализировать NER-разметку. Внутри используется `Ipymarkup`.  

In [12]:
# Применяем модель NER (Named Entity Recognition - распознавание именованных сущностей) к документу
# ner_tagger - это предварительно загруженная модель для извлечения именованных сущностей
# Метод tag_ner() добавляет аннотации именованных сущностей к документу
doc.tag_ner(ner_tagger)

# Выводим первые 5 распознанных именованных сущностей из документа
# doc.spans содержит все распознанные сущности в виде списка объектов Span
# Каждый Span содержит информацию о типе сущности (PER, ORG, LOC и т.д.) и её позиции в тексте
print(doc.spans[:5])

# Выводим статистическую информацию о распознанных именованных сущностях
# Метод print() объекта ner показывает:
# - общее количество распознанных сущностей
# - распределение по типам сущностей
# - другие статистические данные о результатах NER
doc.ner.print()

[DocSpan(start=56, stop=63, type='PER', text='Бэггинс', tokens=[...]), DocSpan(start=65, stop=73, type='PER', text='Бэггинсы', tokens=[...]), DocSpan(start=99, stop=104, type='LOC', text='Холма', tokens=[...]), DocSpan(start=383, stop=390, type='PER', text='Бэггинс', tokens=[...]), DocSpan(start=465, stop=474, type='LOC', text='Бэггинсов', tokens=[...])]
Наш хоббит был весьма состоятельным хоббитом по фамилии Бэггинс. 
                                                        PER────  
Бэггинсы проживали в окрестностях Холма с незапамятных времен и 
PER─────                          LOC──                         
считались очень почтенным семейством не только потому, что были 
богаты, но и потому, что с ними никогда и ничего не приключалось и они
 не позволяли себе ничего неожиданного: всегда можно было угадать 
заранее, не спрашивая, что именно скажет тот или иной Бэггинс по тому 
                                                      PER────         
или иному поводу. Но мы вам поведаем

## Нормализация именованных сущностей  
Для каждого NER-спана применяется процедура нормализации. Зависит от этапов NER, морфологии и синтаксиса. Определяет свойство normal для doc.spans.  

Нельзя просто лемматизировать каждое слово внутри спана сущности, иначе «Бороды у хоббитов нет» превратится в «Борода у хоббит нет». Natasha использует синтаксические зависимости, чтобы получить корректный вариант: «Бороды у хоббитов нет».  

In [13]:
# Итерируемся по всем спанам (span) в документе doc
# Спан - это последовательность токенов, которая может представлять именованную сущность или другой значимый фрагмент текста
for span in doc.spans:
    # Нормализуем каждый спан с помощью морфологического словаря morph_vocab
    # Нормализация приводит слово к его начальной форме (лемматизация) или стандартному виду
    span.normalize(morph_vocab)

# Выводим первые 5 спанов документа после нормализации
# Это помогает проверить, как прошла нормализация на небольшом примере
print(doc.spans[:5])

# Создаем словарь, где ключи - оригинальные тексты спанов,
# а значения - их нормализованные формы
# Включаем в словарь только те спаны, где оригинальный текст отличается от нормализованного
# Это позволяет увидеть только те случаи, когда нормализация действительно изменила текст
{_.text: _.normal for _ in doc.spans if _.text != _.normal}

[DocSpan(start=56, stop=63, type='PER', text='Бэггинс', tokens=[...], normal='Бэггинс'), DocSpan(start=65, stop=73, type='PER', text='Бэггинсы', tokens=[...], normal='Бэггинсы'), DocSpan(start=99, stop=104, type='LOC', text='Холма', tokens=[...], normal='Холм'), DocSpan(start=383, stop=390, type='PER', text='Бэггинс', tokens=[...], normal='Бэггинс'), DocSpan(start=465, stop=474, type='LOC', text='Бэггинсов', tokens=[...], normal='Бэггинсов')]


{'Холма': 'Холм', 'Высокого Народа': 'Высокий Народ'}

## Извлечение именованных сущностей  

Разбор именованных сущностей типа PER (личные имена) на компоненты: имя, фамилию и отчество. Зависит от этапа NER (распознавания именованных сущностей). Определяет свойство fact для doc.spans. Внутри использует Yargy-парсер.  

В Natasha также встроены инструменты для извлечения дат, денежных сумм и адресов.  

In [14]:
# Итерируемся по всем спанам (span) в документе (doc.spans)
# Спан - это выделенный фрагмент текста с определенным типом и границами
for span in doc.spans:
    # Проверяем, является ли тип текущего спана PER (Person - персона)
    if span.type == PER:
        # Если это персона, извлекаем факты (например, имя, фамилию) 
        # с помощью специального экстрактора names_extractor
        # Метод extract_fact заполняет атрибут fact у спана
        span.extract_fact(names_extractor)

# Выводим первые 5 спанов документа для отладки/проверки
# Это помогает понять, какие спаны были выделены в тексте
print(doc.spans[:5])

# Создаем словарь, где ключами будут нормализованные имена (normal),
# а значениями - извлеченные факты в виде словаря
# Это делаем только для спанов типа PER (персоны)
# Синтаксис {_.normal: _.fact.as_dict for _ in doc.spans if _.type == PER} - это генератор словаря:
# - _ - это текущий спан в итерации
# - if _.type == PER - фильтрация только персон
# - _.normal - нормализованное представление имени (например, "Иван Иванов" вместо "Иванов И.")
# - _.fact.as_dict - извлеченные факты о персоне в виде словаря
{_.normal: _.fact.as_dict for _ in doc.spans if _.type == PER}

[DocSpan(start=56, stop=63, type='PER', text='Бэггинс', tokens=[...], normal='Бэггинс', fact=DocFact(slots=[...])), DocSpan(start=65, stop=73, type='PER', text='Бэггинсы', tokens=[...], normal='Бэггинсы', fact=DocFact(slots=[...])), DocSpan(start=99, stop=104, type='LOC', text='Холма', tokens=[...], normal='Холм'), DocSpan(start=383, stop=390, type='PER', text='Бэггинс', tokens=[...], normal='Бэггинс', fact=DocFact(slots=[...])), DocSpan(start=465, stop=474, type='LOC', text='Бэггинсов', tokens=[...], normal='Бэггинсов')]


{'Бэггинс': {'first': 'Бэггинс'}, 'Бэггинсы': {'first': 'Бэггинсы'}}