<a href="https://colab.research.google.com/github/mash1negun/ppa-for-da/blob/AddingFile/students/%D0%9C%D0%B0%D0%BC%D0%B0%D1%88%D0%B5%D0%B2_%D0%97%D0%B0%D0%B2%D1%83%D1%80/Natasha(%D0%A0%D0%B5%D0%B2%D1%8C%D1%8E%20%D0%BD%D0%B0%20%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D1%83%20%D0%94%D0%BC%D0%B8%D1%82%D1%80%D0%B8%D1%8F%20%D0%A1%D1%82%D1%80%D0%BE%D0%BA%D0%BE%D0%B2%D0%B0).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Предобработка текстовых данных с помощью фреймворка Natasha

Natasha решает базовые задачи NLP (natural language processing) для русского языка: токенизация, сегментация предложений, встраивание слов, морфология, лемматизация, нормализация фраз, синтаксический анализ, работа с NER, извлечение фактов. 

[Natasha](https://natasha.github.io/ner/) объединяет библиотеки проекта Natasha под одним удобным API:

* [Razdel](https://natasha.github.io/razdel/) - токенизация, сегментация предложений для русского языка

* [Navec](https://natasha.github.io/navec/) - вектора русских слов

* [Slovnet](https://github.com/natasha/slovnet) - библиотека с методами глубокого обучения для русского NLP, компактные модели для русской морфологии, синтаксиса и NER.

* [Yargy](https://github.com/natasha/yargy) - извлечение фактов на основе правил, аналогичное синтаксическому анализатору Tomita.

Рассмотрим примеры использования

In [1]:
 !pip install natasha



In [2]:
from natasha import (
    DatesExtractor,
    MoneyExtractor,
    Segmenter,
    MorphVocab,
    
    NewsEmbedding,
    NewsMorphTagger,
    NewsSyntaxParser,
    NewsNERTagger,
    
    PER,
    NamesExtractor,
    AddrExtractor,

    Doc
)

In [3]:
segmenter = Segmenter()
morph_vocab = MorphVocab()

emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)
syntax_parser = NewsSyntaxParser(emb)
ner_tagger = NewsNERTagger(emb)

addr_extractor = AddrExtractor(morph_vocab)
dates_extractor = DatesExtractor(morph_vocab)
money_extractor = MoneyExtractor(morph_vocab)
names_extractor = NamesExtractor(morph_vocab)

text = '''Студенты и сотрудники лаборатории Машинного обучения Университета ИТМО разработали библиотеку для Python, которая решает ключевую задачу машинного обучения.

Расскажем, почему появился этот инструмент и что он умеет.
Нехватка алгоритмов

Одна из ключевых задач машинного обучения — снижение размерности данных. Дата-саентисты сокращают число переменных, вычленяя среди них значения, наибольшим образом влияющие на результат. После этой операции модель машинного обучения требует меньше памяти, работает быстрее и качественнее. Пример ниже показывает, что исключение дублирующих признаков увеличивает точность классификации с 0,903 до 0,943.

Существует два подхода к уменьшению размерности — конструирование и выбор признаков. В областях вроде биоинформатики и медицины чаще используют последний, так как он позволяет выделить значимые признаки с сохранением семантики, то есть не меняет исходный смысл признаков. Однако в самых распространенных библиотеках машинного обучения на Python — scikit-learn, pytorch, keras, tensorflow — нет полноценного набора методов выбора признаков.

Для решения этой проблемы студенты и аспиранты Университета ИТМО разработали открытую библиотеку — ITMO_FS. Над ней трудится команда под руководством Ивана Сметанникова, доцента факультета информационных технологий и программирования, заместителя заведующего лабораторией Машинного обучения. Ведущий разработчик — Никита Пильненьский, закончивший магистратуру «Машинное обучение и анализ данных». Теперь он поступает в аспирантуру.

«За последние несколько лет в нашу лабораторию приходили запросы на решение задач, для которых не подходил стандартный инструментарий. Например, нам требовались ансамблирующие алгоритмы на основе объединения фильтров, или алгоритмы, учитывающие наличие заранее известных (экспертно-размеченных) значимых признаков.

Посмотрев на существующие решения, мы пришли к выводу, что они не только не содержат необходимые нам инструменты, но и не являются достаточно гибкими для их возможной мягкой интеграции. В контексте того, что среди таких библиотек конкуренция слаба, мы решили сделать свою библиотеку, исправляющую большинство недостатков».

— Иван Сметанников
'''
doc = Doc(text)

# Разделение

После сегментации можно работать как с отдельными токенами, так и с целыми предложениями (которые в себе также содержат токены)

In [4]:
doc.segment(segmenter)
print(doc.tokens[:5])
print(doc.sents[:5])

[DocToken(stop=8, text='Студенты'), DocToken(start=9, stop=10, text='и'), DocToken(start=11, stop=21, text='сотрудники'), DocToken(start=22, stop=33, text='лаборатории'), DocToken(start=34, stop=43, text='Машинного')]
[DocSent(stop=156, text='Студенты и сотрудники лаборатории Машинного обуче..., tokens=[...]), DocSent(start=158, stop=216, text='Расскажем, почему появился этот инструмент и что ..., tokens=[...]), DocSent(start=217, stop=310, text='Нехватка алгоритмов\n\nОдна из ключевых задач маш..., tokens=[...]), DocSent(start=311, stop=424, text='Дата-саентисты сокращают число переменных, вычлен..., tokens=[...]), DocSent(start=425, stop=526, text='После этой операции модель машинного обучения тре..., tokens=[...])]


# Морфология

Библиотека умеет проводить морфологический анализ, можно работать снова с каждым токеном. Также уже есть встроенный "красивый" вывод признаков

Зависит от шага с разделением и дополняет уже существующую информацию о токенах

In [5]:
doc.tag_morph(morph_tagger)
print(doc.tokens[:5])
doc.sents[0].morph.print()

[DocToken(stop=8, text='Студенты', pos='NOUN', feats=<Anim,Nom,Masc,Plur>), DocToken(start=9, stop=10, text='и', pos='CCONJ'), DocToken(start=11, stop=21, text='сотрудники', pos='NOUN', feats=<Anim,Nom,Masc,Plur>), DocToken(start=22, stop=33, text='лаборатории', pos='NOUN', feats=<Inan,Gen,Fem,Sing>), DocToken(start=34, stop=43, text='Машинного', pos='ADJ', feats=<Gen,Pos,Neut,Sing>)]
            Студенты NOUN,Animacy=Anim,Case=Nom,Gender=Masc,Number=Plur
                   и CCONJ
          сотрудники NOUN,Animacy=Anim,Case=Nom,Gender=Masc,Number=Plur
         лаборатории NOUN,Animacy=Inan,Case=Gen,Gender=Fem,Number=Sing
           Машинного ADJ,Case=Gen,Degree=Pos,Gender=Neut,Number=Sing
            обучения NOUN,Animacy=Inan,Case=Gen,Gender=Neut,Number=Sing
        Университета PROPN,Animacy=Inan,Case=Gen,Gender=Masc,Number=Sing
                ИТМО PROPN,Animacy=Inan,Case=Gen,Gender=Masc,Number=Sing
         разработали VERB,Aspect=Perf,Mood=Ind,Number=Plur,Tense=Past,VerbForm=Fin,

# Лемматизация

Зависит от шага с морфологическим разбором и дополняет уже существующую информацию о токенах

Выведем первые 15 примеров приведения слова к его нормальной форме

In [6]:
for token in doc.tokens:
    token.lemmatize(morph_vocab)
    
print(doc.tokens[:5])
{_.text: _.lemma for _ in doc.tokens[:15]}

[DocToken(stop=8, text='Студенты', pos='NOUN', feats=<Anim,Nom,Masc,Plur>, lemma='студент'), DocToken(start=9, stop=10, text='и', pos='CCONJ', lemma='и'), DocToken(start=11, stop=21, text='сотрудники', pos='NOUN', feats=<Anim,Nom,Masc,Plur>, lemma='сотрудник'), DocToken(start=22, stop=33, text='лаборатории', pos='NOUN', feats=<Inan,Gen,Fem,Sing>, lemma='лаборатория'), DocToken(start=34, stop=43, text='Машинного', pos='ADJ', feats=<Gen,Pos,Neut,Sing>, lemma='машинный')]


{',': ',',
 'Python': 'python',
 'ИТМО': 'итмо',
 'Машинного': 'машинный',
 'Студенты': 'студент',
 'Университета': 'университет',
 'библиотеку': 'библиотека',
 'для': 'для',
 'и': 'и',
 'которая': 'который',
 'лаборатории': 'лаборатория',
 'обучения': 'обучение',
 'разработали': 'разработать',
 'решает': 'решать',
 'сотрудники': 'сотрудник'}

# Синтаксический разбор

Зависит от шага с разделением на токены, а именно использует информацию о предложениях

In [7]:
doc.parse_syntax(syntax_parser)
print(doc.tokens[:5])
doc.sents[0].syntax.print()

[DocToken(stop=8, text='Студенты', id='1_1', head_id='1_9', rel='nsubj', pos='NOUN', feats=<Anim,Nom,Masc,Plur>, lemma='студент'), DocToken(start=9, stop=10, text='и', id='1_2', head_id='1_3', rel='cc', pos='CCONJ', lemma='и'), DocToken(start=11, stop=21, text='сотрудники', id='1_3', head_id='1_1', rel='conj', pos='NOUN', feats=<Anim,Nom,Masc,Plur>, lemma='сотрудник'), DocToken(start=22, stop=33, text='лаборатории', id='1_4', head_id='1_3', rel='nmod', pos='NOUN', feats=<Inan,Gen,Fem,Sing>, lemma='лаборатория'), DocToken(start=34, stop=43, text='Машинного', id='1_5', head_id='1_6', rel='amod', pos='ADJ', feats=<Gen,Pos,Neut,Sing>, lemma='машинный')]
  ┌────────► Студенты     nsubj
  │       ┌► и            cc
  │     ┌─└─ сотрудники   
  │ ┌─┌─└──► лаборатории  nmod
  │ │ │   ┌► Машинного    amod
  │ │ └──►└─ обучения     nmod
  │ └────►┌─ Университета nmod
  │       └► ИТМО         nmod
┌─└───────┌─ разработали  
│     ┌─┌─└► библиотеку   obj
│     │ │ ┌► для          case
│     │ └►└

# Распознование именованных сущностей

Зависит от шага с разделением на токены

In [8]:
doc.tag_ner(ner_tagger)
print(doc.spans[:5])
doc.ner.print()

[DocSpan(start=34, stop=52, type='ORG', text='Машинного обучения', tokens=[...]), DocSpan(start=53, stop=70, type='ORG', text='Университета ИТМО', tokens=[...]), DocSpan(start=1130, stop=1147, type='ORG', text='Университета ИТМО', tokens=[...]), DocSpan(start=1233, stop=1251, type='PER', text='Ивана Сметанникова', tokens=[...]), DocSpan(start=1355, stop=1373, type='ORG', text='Машинного обучения', tokens=[...])]
Студенты и сотрудники лаборатории Машинного обучения Университета ИТМО
                                  ORG─────────────── ORG──────────────
 разработали библиотеку для Python, которая решает ключевую задачу 
машинного обучения.
Расскажем, почему появился этот инструмент и что он умеет.
Нехватка алгоритмов
Одна из ключевых задач машинного обучения — снижение размерности 
данных. Дата-саентисты сокращают число переменных, вычленяя среди них 
значения, наибольшим образом влияющие на результат. После этой 
операции модель машинного обучения требует меньше памяти, работает 
быстре

Затем такие сущности можно нормализовать


In [9]:
for span in doc.spans:
   span.normalize(morph_vocab)
print(doc.spans[:5])
{_.text: _.normal for _ in doc.spans if _.text != _.normal}

[DocSpan(start=34, stop=52, type='ORG', text='Машинного обучения', tokens=[...], normal='Машинное обучение'), DocSpan(start=53, stop=70, type='ORG', text='Университета ИТМО', tokens=[...], normal='Университет ИТМО'), DocSpan(start=1130, stop=1147, type='ORG', text='Университета ИТМО', tokens=[...], normal='Университет ИТМО'), DocSpan(start=1233, stop=1251, type='PER', text='Ивана Сметанникова', tokens=[...], normal='Иван Сметанников'), DocSpan(start=1355, stop=1373, type='ORG', text='Машинного обучения', tokens=[...], normal='Машинное обучение')]


{'Ивана Сметанникова': 'Иван Сметанников',
 'Машинного обучения': 'Машинное обучение',
 'Университета ИТМО': 'Университет ИТМО'}

А также рзделить на составные чати (имя, фамилия и тд)

In [10]:
for span in doc.spans:
   if span.type == PER:
       span.extract_fact(names_extractor)

print(doc.spans[:5])
{_.normal: _.fact.as_dict for _ in doc.spans if _.type == PER}

[DocSpan(start=34, stop=52, type='ORG', text='Машинного обучения', tokens=[...], normal='Машинное обучение'), DocSpan(start=53, stop=70, type='ORG', text='Университета ИТМО', tokens=[...], normal='Университет ИТМО'), DocSpan(start=1130, stop=1147, type='ORG', text='Университета ИТМО', tokens=[...], normal='Университет ИТМО'), DocSpan(start=1233, stop=1251, type='PER', text='Ивана Сметанникова', tokens=[...], normal='Иван Сметанников', fact=DocFact(slots=[...])), DocSpan(start=1355, stop=1373, type='ORG', text='Машинного обучения', tokens=[...], normal='Машинное обучение')]


{'Иван Сметанников': {'first': 'Иван', 'last': 'Сметанников'},
 'Никита Пильненьский': {'first': 'Никита', 'last': 'Пильненьский'}}

# Извлечение

В дополнение к names_extractor, Natasha связывает несколько других экстракторов: date_extractor, money_extractor и addr_extractor. Все экстракторы основаны на Yargy-parser, что означает, что они корректно работают только с небольшим предопределенным набором текстов.

**DatesExtractor**

In [11]:
text = '24.01.2017, 2015 год, 2014 г, 1 апреля, май 2017 г., 9 мая 2017 года'
list(dates_extractor(text))

[Match(
     start=0,
     stop=10,
     fact=Date(
         year=2017,
         month=1,
         day=24
     )
 ), Match(
     start=12,
     stop=20,
     fact=Date(
         year=2015,
         month=None,
         day=None
     )
 ), Match(
     start=22,
     stop=28,
     fact=Date(
         year=2014,
         month=None,
         day=None
     )
 ), Match(
     start=30,
     stop=38,
     fact=Date(
         year=None,
         month=4,
         day=1
     )
 ), Match(
     start=40,
     stop=51,
     fact=Date(
         year=2017,
         month=5,
         day=None
     )
 ), Match(
     start=53,
     stop=68,
     fact=Date(
         year=2017,
         month=5,
         day=9
     )
 )]

**MoneyExtractor**

In [12]:
text = '1 599 059, 38 Евро, 420 долларов, 20 млн руб, 20 т. р., 881 913 (Восемьсот восемьдесят одна тысяча девятьсот тринадцать) руб. 98 коп.'
list(money_extractor(text))

[Match(
     start=0,
     stop=18,
     fact=Money(
         amount=1599059.38,
         currency='EUR'
     )
 ), Match(
     start=20,
     stop=32,
     fact=Money(
         amount=420,
         currency='USD'
     )
 ), Match(
     start=34,
     stop=44,
     fact=Money(
         amount=20000000,
         currency='RUB'
     )
 ), Match(
     start=46,
     stop=54,
     fact=Money(
         amount=20000,
         currency='RUB'
     )
 ), Match(
     start=56,
     stop=133,
     fact=Money(
         amount=881913.98,
         currency='RUB'
     )
 )]

**AddrExtractor**

In [13]:
lines = [
    'Россия, Вологодская обл. г. Череповец, пр.Победы 93 б',
    '692909, РФ, Приморский край, г. Находка, ул. Добролюбова, 18',
    'ул. Народного Ополчения д. 9к.3'
]
for line in lines:
    display(addr_extractor.find(line))

Match(
    start=0,
    stop=48,
    fact=Addr(
        parts=[AddrPart(
             value='Россия',
             type='страна'
         ), AddrPart(
             value='Вологодская',
             type='область'
         ), AddrPart(
             value='Череповец',
             type='город'
         ), AddrPart(
             value='Победы',
             type='проспект'
         )]
    )
)

Match(
    start=0,
    stop=56,
    fact=Addr(
        parts=[AddrPart(
             value='692909',
             type='индекс'
         ), AddrPart(
             value='РФ',
             type='страна'
         ), AddrPart(
             value='Приморский',
             type='край'
         ), AddrPart(
             value='Находка',
             type='город'
         ), AddrPart(
             value='Добролюбова',
             type='улица'
         )]
    )
)

Match(
    start=0,
    stop=29,
    fact=Addr(
        parts=[AddrPart(
             value='Народного Ополчения',
             type='улица'
         ), AddrPart(
             value='9к',
             type='дом'
         )]
    )
)

# Источники

https://github.com/natasha

https://natasha.github.io

# Ревью

## Передреев Дмитрий

Туториал прошел. Добавил заголовок и ссылки на документацию модулей проекта - в них более подробно разобраны примеры использования

# Ревью (Мамашев Завур)

Туториал успешно пройден. Добавил примеры и описания (DatesExtractor, MoneyExtractor, AddrExtractor).