[Сравнение моделей](https://github.com/natasha/naeval)

### Natasha

In [130]:
from natasha import (Segmenter,
                     NewsEmbedding,
                     NewsMorphTagger,
                     NewsSyntaxParser,
                     Doc)

In [131]:
segmenter = Segmenter()

emb = NewsEmbedding()

morph_tagger = NewsMorphTagger(emb)

syntax_parser = NewsSyntaxParser(emb)

In [184]:
text = u'''Сегодня эмблему компании наверняка узнаёт множество людей, ведь корпорация apple 
стала действительно одной из самых успешных компаний с рыночной стоимостью 1 286 млрд. доллар

Компанию основали 1 апреля 1976 года Стив Возняк, рональд уэйн, а также Стив Джобс. 
Первоначально троица занялась сборкой домашних компьютеров и выпуском собственных моделей ПК,
но наибольший успех пришёлся именно на последние годы компании, когда Apple представила миру линейки 
своих мобильных продуктов — смартфоны iPhone и планшеты iPad. МВД России. Москва. москва'''

In [185]:
doc = Doc(text)

doc.segment(segmenter)
doc.tag_morph(morph_tagger)
doc.parse_syntax(syntax_parser)

In [186]:
sent = doc.sents[0]

In [187]:
sent.morph.print()

             Сегодня ADV|Degree=Pos
             эмблему NOUN|Animacy=Inan|Case=Acc|Gender=Fem|Number=Sing
            компании NOUN|Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing
           наверняка ADV|Degree=Pos
              узнаёт VERB|Aspect=Imp|Mood=Ind|Number=Sing|Person=3|Tense=Pres|VerbForm=Fin|Voice=Act
           множество NOUN|Animacy=Inan|Case=Acc|Gender=Neut|Number=Sing
               людей NOUN|Animacy=Anim|Case=Gen|Gender=Masc|Number=Plur
                   , PUNCT
                ведь SCONJ
          корпорация NOUN|Animacy=Inan|Case=Nom|Gender=Fem|Number=Sing
               apple PROPN|Foreign=Yes
               стала VERB|Aspect=Perf|Gender=Fem|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Act
       действительно ADV|Degree=Pos
               одной NUM|Case=Ins|Gender=Fem|Number=Sing
                  из ADP
               самых ADJ|Case=Gen|Degree=Pos|Number=Plur
            успешных ADJ|Case=Gen|Degree=Pos|Number=Plur
            компаний NOUN|Animacy=Inan|Ca

In [188]:
sent.syntax.print()

            ┌────► Сегодня       advmod
            │ ┌►┌─ эмблему       obj
            │ │ └► компании      nmod
            │ │ ┌► наверняка     advmod
    ┌─┌─┌─┌─└─└─└─ узнаёт        
┌───│ │ │ │ │ └►┌─ множество     obj
│   │ │ │ │ │   └► людей         nmod
│   │ │ │ │ └────► ,             punct
│   │ │ │ └──────► ведь          mark
│   │ │ └──────►┌─ корпорация    nsubj
│   │ │         └► apple         appos
│ ┌─│ │       ┌─── стала         
│ │ │ │       │ ┌► действительно advmod
│ │ │ │   ┌───└►└─ одной         xcomp
│ │ │ │   │ ┌────► из            case
│ │ │ │   │ │   ┌► самых         amod
│ │ │ │   │ │ ┌►└─ успешных      amod
│ │ │ │   └►└─└─── компаний      nmod
│ │ │ │   │   ┌──► с             case
│ │ │ │   │   │ ┌► рыночной      amod
│ │ │ │ ┌─└──►└─└─ стоимостью    nmod
│ │ │ │ │       ┌► 1             nummod
│ │ │ │ │     ┌►└─ 286           nummod
│ │ │ │ └────►└─── млрд          nmod
│ │ │ └──────────► .             punct
│ │ └────────────► доллар        nsubj
│ │   

## Извлечение именованных сущностей

In [189]:
from natasha import NewsNERTagger

ner_tagger = NewsNERTagger(emb)
doc.tag_ner(ner_tagger)
doc.ner.print()

Сегодня эмблему компании наверняка узнаёт множество людей, ведь 
корпорация apple 
стала действительно одной из самых успешных компаний с рыночной 
стоимостью 1 286 млрд. доллар
Компанию основали 1 апреля 1976 года Стив Возняк, рональд уэйн, а 
                                     PER────────                  
также Стив Джобс. 
      PER───────  
Первоначально троица занялась сборкой домашних компьютеров и выпуском 
собственных моделей ПК,
но наибольший успех пришёлся именно на последние годы компании, когда 
Apple представила миру линейки 
ORG──                          
своих мобильных продуктов — смартфоны iPhone и планшеты iPad. МВД 
                                                              ORG 
России. Москва. москва
LOC───  LOC───        


In [190]:
doc.ner.spans

[Span(
     start=214,
     stop=225,
     type='PER'
 ), Span(
     start=249,
     stop=259,
     type='PER'
 ), Span(
     start=426,
     stop=431,
     type='ORG'
 ), Span(
     start=520,
     stop=523,
     type='ORG'
 ), Span(
     start=524,
     stop=530,
     type='LOC'
 ), Span(
     start=532,
     stop=538,
     type='LOC'
 )]

### Лематизация

In [191]:
from natasha import MorphVocab

In [192]:
morph_vocab = MorphVocab()

In [193]:
for token in doc.tokens:
     token.lemmatize(morph_vocab)

In [194]:
{_.text: _.lemma for _ in doc.tokens}

{'Сегодня': 'сегодня',
 'эмблему': 'эмблема',
 'компании': 'компания',
 'наверняка': 'наверняка',
 'узнаёт': 'узнавать',
 'множество': 'множество',
 'людей': 'человек',
 ',': ',',
 'ведь': 'ведь',
 'корпорация': 'корпорация',
 'apple': 'apple',
 'стала': 'стать',
 'действительно': 'действительно',
 'одной': 'один',
 'из': 'из',
 'самых': 'самый',
 'успешных': 'успешный',
 'компаний': 'компания',
 'с': 'с',
 'рыночной': 'рыночный',
 'стоимостью': 'стоимость',
 '1': '1',
 '286': '286',
 'млрд': 'млрд',
 '.': '.',
 'доллар': 'доллар',
 'Компанию': 'компания',
 'основали': 'основать',
 'апреля': 'апрель',
 '1976': '1976',
 'года': 'год',
 'Стив': 'стив',
 'Возняк': 'возняк',
 'рональд': 'рональд',
 'уэйн': 'уэйн',
 'а': 'а',
 'также': 'также',
 'Джобс': 'джобс',
 'Первоначально': 'первоначально',
 'троица': 'троица',
 'занялась': 'заняться',
 'сборкой': 'сборка',
 'домашних': 'домашний',
 'компьютеров': 'компьютер',
 'и': 'и',
 'выпуском': 'выпуск',
 'собственных': 'собственный',
 'моделей

In [195]:
for span in doc.spans:
    span.normalize(morph_vocab)

In [196]:
{_.text: _.normal for _ in doc.spans}

{'Стив Возняк': 'Стив Возняк',
 'Стив Джобс': 'Стив Джобс',
 'Apple': 'Apple',
 'МВД': 'МВД',
 'России': 'Россия',
 'Москва': 'Москва'}

In [197]:
for span in doc.spans:
    span.normalize(morph_vocab)
display(doc.spans[:3])
{_.text: _.normal for _ in doc.spans if _.text != _.normal}

[DocSpan(start=214, stop=225, type='PER', text='Стив Возняк', tokens=[...], normal='Стив Возняк'),
 DocSpan(start=249, stop=259, type='PER', text='Стив Джобс', tokens=[...], normal='Стив Джобс'),
 DocSpan(start=426, stop=431, type='ORG', text='Apple', tokens=[...], normal='Apple')]

{'России': 'Россия'}

#### Имена

In [198]:
from natasha import (PER,
                     NamesExtractor)

In [199]:
names_extractor = NamesExtractor(morph_vocab)

In [200]:
for span in doc.spans:
    if span.type == PER:
        print(span)
        span.extract_fact(names_extractor)

DocSpan(start=214, stop=225, type='PER', text='Стив Возняк', tokens=[...], normal='Стив Возняк')
DocSpan(start=249, stop=259, type='PER', text='Стив Джобс', tokens=[...], normal='Стив Джобс')


In [201]:
{_.normal: _.fact.as_dict for _ in doc.spans if _.type == PER}

{'Стив Возняк': {'first': 'Стив', 'last': 'Возняк'},
 'Стив Джобс': {'first': 'Стив', 'last': 'Джобс'}}

#### Адреса

In [90]:
from natasha import LOC

In [91]:
for span in doc.spans:
    span.normalize(morph_vocab)

In [92]:
{_.text: _.normal for _ in doc.spans if _.type == LOC}

{'Аргентине': 'Аргентина', 'Буэнос-Айрес': 'Буэнос-Айрес'}

In [94]:
from natasha import AddrExtractor
addr_extractor = AddrExtractor(morph_vocab)

In [95]:
lines = [
    'Россия, Вологодская обл. г. Череповец, пр.Победы 93 б',
    '692909, РФ, Приморский край, г. Находка, ул. Добролюбова, 18',
    'ул. Народного Ополчения д. 9к.3'
]
for line in lines:
    display(addr_extractor.find(line))

Match(
    start=0,
    stop=48,
    fact=Addr(
        parts=[AddrPart(
             value='Россия',
             type='страна'
         ), AddrPart(
             value='Вологодская',
             type='область'
         ), AddrPart(
             value='Череповец',
             type='город'
         ), AddrPart(
             value='Победы',
             type='проспект'
         )]
    )
)

Match(
    start=0,
    stop=56,
    fact=Addr(
        parts=[AddrPart(
             value='692909',
             type='индекс'
         ), AddrPart(
             value='РФ',
             type='страна'
         ), AddrPart(
             value='Приморский',
             type='край'
         ), AddrPart(
             value='Находка',
             type='город'
         ), AddrPart(
             value='Добролюбова',
             type='улица'
         )]
    )
)

Match(
    start=0,
    stop=29,
    fact=Addr(
        parts=[AddrPart(
             value='Народного Ополчения',
             type='улица'
         ), AddrPart(
             value='9к',
             type='дом'
         )]
    )
)

#### Даты

In [96]:
from natasha import DatesExtractor
dates_extractor = DatesExtractor(morph_vocab)

In [104]:
list(dates_extractor(text))

[Match(
     start=83,
     stop=103,
     fact=Date(
         year=1986,
         month=2,
         day=11
     )
 )]

#### Money

In [105]:
from natasha import MoneyExtractor
money_extractor = MoneyExtractor(morph_vocab)

In [106]:
list(money_extractor(text))

[]

In [107]:
text = '''1 599 059, 38 Евро, 420 долларов, 20 млн руб, 20 т. р., 
881 913 (Восемьсот восемьдесят одна тысяча девятьсот тринадцать) руб. 98 коп.'''

In [108]:
list(money_extractor(text))

[Match(
     start=0,
     stop=18,
     fact=Money(
         amount=1599059.38,
         currency='EUR'
     )
 ), Match(
     start=20,
     stop=32,
     fact=Money(
         amount=420,
         currency='USD'
     )
 ), Match(
     start=34,
     stop=44,
     fact=Money(
         amount=20000000,
         currency='RUB'
     )
 ), Match(
     start=46,
     stop=54,
     fact=Money(
         amount=20000,
         currency='RUB'
     )
 ), Match(
     start=57,
     stop=134,
     fact=Money(
         amount=881913.98,
         currency='RUB'
     )
 )]

In [122]:
text = '''Сегодня эмблему компании наверняка узнаёт множество людей, ведь корпорация Apple 
стала действительно одной из самых успешных компаний с рыночной стоимостью 1 286 млрд. доллар

Компанию основали 1 апреля 1976 года Стив Возняк, Рональд Уэйн, а также Стив Джобс. 
Первоначально троица занялась сборкой домашних компьютеров и выпуском собственных моделей ПК,
но наибольший успех пришёлся именно на последние годы компании, когда Apple представила миру линейки 
своих мобильных продуктов — смартфоны iPhone и планшеты iPad. МВД России'''

In [123]:
list(money_extractor(text))

[Match(
     start=157,
     stop=175,
     fact=Money(
         amount=1286000000000,
         currency='USD'
     )
 )]

### ORG

In [117]:
from natasha import (Segmenter,
                     NewsEmbedding,
                     NewsMorphTagger,
                     NewsSyntaxParser,
                     Doc)

In [124]:
segmenter = Segmenter()

emb = NewsEmbedding()

morph_tagger = NewsMorphTagger(emb)

syntax_parser = NewsSyntaxParser(emb)

In [125]:
doc = Doc(text)

In [126]:
doc.segment(segmenter)
doc.tag_morph(morph_tagger)
doc.parse_syntax(syntax_parser)

In [127]:
ner_tagger = NewsNERTagger(emb)
doc.tag_ner(ner_tagger)
doc.ner.print()

Сегодня эмблему компании наверняка узнаёт множество людей, ведь 
корпорация Apple 
           ORG── 
стала действительно одной из самых успешных компаний с рыночной 
стоимостью 1 286 млрд. доллар
Компанию основали 1 апреля 1976 года Стив Возняк, Рональд Уэйн, а 
                                     PER────────  PER─────────    
также Стив Джобс. 
      PER───────  
Первоначально троица занялась сборкой домашних компьютеров и выпуском 
собственных моделей ПК,
но наибольший успех пришёлся именно на последние годы компании, когда 
Apple представила миру линейки 
ORG──                          
своих мобильных продуктов — смартфоны iPhone и планшеты iPad. МВД 
                                                              ORG 
России
LOC───


[Самая свежая статья на habr по natasha](https://habr.com/ru/post/516098/) <br>
<br>
[git](https://github.com/natasha/natasha)