# examples

In [30]:
from natasha import (
    Segmenter,
    MorphVocab,
    
    NewsEmbedding,
    NewsMorphTagger,
    NewsSyntaxParser,
    NewsNERTagger,
    
    PER,
    NamesExtractor,

    Doc
)


segmenter = Segmenter()

emb = NewsEmbedding()
ner_tagger = NewsNERTagger(emb)


In [28]:
from itertools import islice
from os.path import expanduser
from corus import load_lenta

path = expanduser('~/proj/corus-data/lenta-ru-news.csv.gz')
records = load_lenta(path)
records = list(islice(records, 10000))


In [36]:
from tqdm.notebook import tqdm as log_progress

data = []
for record in log_progress(records):
    doc = Doc(record.text)
    doc.segment(segmenter)
    doc.tag_ner(ner_tagger)

    data.append([len(doc.spans), len(doc.tokens), record])

HBox(children=(FloatProgress(value=0.0, max=10000.0), HTML(value='')))




In [37]:
data = sorted(data, key=lambda _: _[0] / _[1], reverse=True)

# readme

In [1]:
>>> from natasha import (
    Segmenter,
    MorphVocab,
    
    NewsEmbedding,
    NewsMorphTagger,
    NewsSyntaxParser,
    NewsNERTagger,
    
    PER,
    NamesExtractor,

    Doc
)


>>> segmenter = Segmenter()
>>> morph_vocab = MorphVocab()

>>> emb = NewsEmbedding()
>>> morph_tagger = NewsMorphTagger(emb)
>>> syntax_parser = NewsSyntaxParser(emb)
>>> ner_tagger = NewsNERTagger(emb)

>>> names_extractor = NamesExtractor(morph_vocab)

In [2]:
>>> text = 'Посол Израиля на Украине Йоэль Лион признался, что пришел в шок, узнав о решении властей Львовской области объявить 2019 год годом лидера запрещенной в России Организации украинских националистов (ОУН) Степана Бандеры. Свое заявление он разместил в Twitter. «Я не могу понять, как прославление тех, кто непосредственно принимал участие в ужасных антисемитских преступлениях, помогает бороться с антисемитизмом и ксенофобией. Украина не должна забывать о преступлениях, совершенных против украинских евреев, и никоим образом не отмечать их через почитание их исполнителей», — написал дипломат. 11 декабря Львовский областной совет принял решение провозгласить 2019 год в регионе годом Степана Бандеры в связи с празднованием 110-летия со дня рождения лидера ОУН (Бандера родился 1 января 1909 года). В июле аналогичное решение принял Житомирский областной совет. В начале месяца с предложением к президенту страны Петру Порошенко вернуть Бандере звание Героя Украины обратились депутаты Верховной Рады. Парламентарии уверены, что признание Бандеры национальным героем поможет в борьбе с подрывной деятельностью против Украины в информационном поле, а также остановит «распространение мифов, созданных российской пропагандой». Степан Бандера (1909-1959) был одним из лидеров Организации украинских националистов, выступающей за создание независимого государства на территориях с украиноязычным населением. В 2010 году в период президентства Виктора Ющенко Бандера был посмертно признан Героем Украины, однако впоследствии это решение было отменено судом. '
>>> doc = Doc(text)
>>> doc.segment(segmenter)
>>> display(doc.tokens[:5])
>>> display(doc.sents[:5])

[DocToken(stop=5, text='Посол'),
 DocToken(start=6, stop=13, text='Израиля'),
 DocToken(start=14, stop=16, text='на'),
 DocToken(start=17, stop=24, text='Украине'),
 DocToken(start=25, stop=30, text='Йоэль')]

[DocSent(stop=218, text='Посол Израиля на Украине Йоэль Лион признался, чт..., tokens=[...]),
 DocSent(start=219, stop=257, text='Свое заявление он разместил в Twitter.', tokens=[...]),
 DocSent(start=258, stop=424, text='«Я не могу понять, как прославление тех, кто непо..., tokens=[...]),
 DocSent(start=425, stop=592, text='Украина не должна забывать о преступлениях, совер..., tokens=[...]),
 DocSent(start=593, stop=798, text='11 декабря Львовский областной совет принял решен..., tokens=[...])]

In [3]:
>>> doc.tag_morph(morph_tagger)
>>> display(doc.tokens[:5])
>>> doc.sents[0].morph.print()

[DocToken(stop=5, text='Посол', pos='NOUN', feats=<Anim,Nom,Masc,Sing>),
 DocToken(start=6, stop=13, text='Израиля', pos='PROPN', feats=<Inan,Gen,Masc,Sing>),
 DocToken(start=14, stop=16, text='на', pos='ADP'),
 DocToken(start=17, stop=24, text='Украине', pos='PROPN', feats=<Inan,Loc,Fem,Sing>),
 DocToken(start=25, stop=30, text='Йоэль', pos='PROPN', feats=<Anim,Nom,Masc,Sing>)]

               Посол NOUN|Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing
             Израиля PROPN|Animacy=Inan|Case=Gen|Gender=Masc|Number=Sing
                  на ADP
             Украине PROPN|Animacy=Inan|Case=Loc|Gender=Fem|Number=Sing
               Йоэль PROPN|Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing
                Лион PROPN|Animacy=Anim|Case=Nom|Gender=Masc|Number=Sing
           признался VERB|Aspect=Perf|Gender=Masc|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Mid
                   , PUNCT
                 что SCONJ
              пришел VERB|Aspect=Perf|Gender=Masc|Mood=Ind|Number=Sing|Tense=Past|VerbForm=Fin|Voice=Act
                   в ADP
                 шок NOUN|Animacy=Inan|Case=Acc|Gender=Masc|Number=Sing
                   , PUNCT
               узнав VERB|Aspect=Perf|Tense=Past|VerbForm=Conv|Voice=Act
                   о ADP
             решении NOUN|Animacy=Inan|Case=Loc|Gender=Neut|Number=Sing
             властей NOUN|Animacy=Inan|Case=Gen|Gender

In [4]:
>>> for token in doc.tokens:
>>>     token.lemmatize(morph_vocab)
    
>>> display(doc.tokens[:5])
>>> {_.text: _.lemma for _ in doc.tokens}

[DocToken(stop=5, text='Посол', pos='NOUN', feats=<Anim,Nom,Masc,Sing>, lemma='посол'),
 DocToken(start=6, stop=13, text='Израиля', pos='PROPN', feats=<Inan,Gen,Masc,Sing>, lemma='израиль'),
 DocToken(start=14, stop=16, text='на', pos='ADP', lemma='на'),
 DocToken(start=17, stop=24, text='Украине', pos='PROPN', feats=<Inan,Loc,Fem,Sing>, lemma='украина'),
 DocToken(start=25, stop=30, text='Йоэль', pos='PROPN', feats=<Anim,Nom,Masc,Sing>, lemma='йоэль')]

{'Посол': 'посол',
 'Израиля': 'израиль',
 'на': 'на',
 'Украине': 'украина',
 'Йоэль': 'йоэль',
 'Лион': 'лион',
 'признался': 'признаться',
 ',': ',',
 'что': 'что',
 'пришел': 'прийти',
 'в': 'в',
 'шок': 'шок',
 'узнав': 'узнать',
 'о': 'о',
 'решении': 'решение',
 'властей': 'власть',
 'Львовской': 'львовский',
 'области': 'область',
 'объявить': 'объявить',
 '2019': '2019',
 'год': 'год',
 'годом': 'год',
 'лидера': 'лидер',
 'запрещенной': 'запретить',
 'России': 'россия',
 'Организации': 'организация',
 'украинских': 'украинский',
 'националистов': 'националист',
 '(': '(',
 'ОУН': 'оун',
 ')': ')',
 'Степана': 'степан',
 'Бандеры': 'бандера',
 '.': '.',
 'Свое': 'свой',
 'заявление': 'заявление',
 'он': 'он',
 'разместил': 'разместить',
 'Twitter': 'twitter',
 '«': '«',
 'Я': 'я',
 'не': 'не',
 'могу': 'мочь',
 'понять': 'понять',
 'как': 'как',
 'прославление': 'прославление',
 'тех': 'тот',
 'кто': 'кто',
 'непосредственно': 'непосредственно',
 'принимал': 'принимать',
 'уча

In [5]:
>>> doc.parse_syntax(syntax_parser)
>>> display(doc.tokens[:5])
>>> doc.sents[0].syntax.print()

[DocToken(stop=5, text='Посол', id='1_1', head_id='1_7', rel='nsubj', pos='NOUN', feats=<Anim,Nom,Masc,Sing>, lemma='посол'),
 DocToken(start=6, stop=13, text='Израиля', id='1_2', head_id='1_1', rel='nmod', pos='PROPN', feats=<Inan,Gen,Masc,Sing>, lemma='израиль'),
 DocToken(start=14, stop=16, text='на', id='1_3', head_id='1_4', rel='case', pos='ADP', lemma='на'),
 DocToken(start=17, stop=24, text='Украине', id='1_4', head_id='1_1', rel='nmod', pos='PROPN', feats=<Inan,Loc,Fem,Sing>, lemma='украина'),
 DocToken(start=25, stop=30, text='Йоэль', id='1_5', head_id='1_1', rel='appos', pos='PROPN', feats=<Anim,Nom,Masc,Sing>, lemma='йоэль')]

        ┌──► Посол         nsubj
        │    Израиля       
        │ ┌► на            case
        │ └─ Украине       
        │ ┌─ Йоэль         
        │ └► Лион          flat:name
┌─────┌─└─── признался     
│     │ ┌──► ,             punct
│     │ │ ┌► что           mark
│     └►└─└─ пришел        ccomp
│     │   ┌► в             case
│     └──►└─ шок           obl
│         ┌► ,             punct
│ ┌────►┌─└─ узнав         advcl
│ │     │ ┌► о             case
│ │ ┌───└►└─ решении       obl
│ │ │ ┌─└──► властей       nmod
│ │ │ │   ┌► Львовской     amod
│ │ │ └──►└─ области       nmod
│ └─└►┌─┌─── объявить      nmod
│     │ │ ┌► 2019          amod
│     │ └►└─ год           obj
│     └──►┌─ годом         obl
│   ┌─────└► лидера        nmod
│   │ ┌►┌─── запрещенной   acl
│   │ │ │ ┌► в             case
│   │ │ └►└─ России        obl
│ ┌─└►└─┌─── Организации   nmod
│ │     │ ┌► украинских    amod
│ │   ┌─└►└─ националистов nmod
│ │   │   ┌► (             punct
│ │   └►┌─└─ ОУН   

In [6]:
>>> doc.tag_ner(ner_tagger)
>>> display(doc.spans[:5])
>>> doc.ner.print()

[DocSpan(start=6, stop=13, type='LOC', text='Израиля', tokens=[...]),
 DocSpan(start=17, stop=24, type='LOC', text='Украине', tokens=[...]),
 DocSpan(start=25, stop=35, type='PER', text='Йоэль Лион', tokens=[...]),
 DocSpan(start=89, stop=106, type='LOC', text='Львовской области', tokens=[...]),
 DocSpan(start=152, stop=158, type='LOC', text='России', tokens=[...])]

Посол Израиля на Украине Йоэль Лион признался, что пришел в шок, узнав
      LOC────    LOC──── PER───────                                   
 о решении властей Львовской области объявить 2019 год годом лидера 
                   LOC──────────────                                
запрещенной в России Организации украинских националистов (ОУН) 
              LOC─── ORG─────────────────────────────────────── 
Степана Бандеры. Свое заявление он разместил в Twitter. «Я не могу 
PER────────────                                ORG────             
понять, как прославление тех, кто непосредственно принимал участие в 
ужасных антисемитских преступлениях, помогает бороться с 
антисемитизмом и ксенофобией. Украина не должна забывать о 
                              LOC────                      
преступлениях, совершенных против украинских евреев, и никоим образом 
не отмечать их через почитание их исполнителей», — написал дипломат. 
11 декабря Львовский областной совет принял решение провозгласить

In [7]:
>>> for span in doc.spans:
>>>    span.normalize(morph_vocab)

>>> display(doc.spans[:5])
>>> {_.text: _.normal for _ in doc.spans if _.text != _.normal}

[DocSpan(start=6, stop=13, type='LOC', text='Израиля', tokens=[...], normal='Израиль'),
 DocSpan(start=17, stop=24, type='LOC', text='Украине', tokens=[...], normal='Украина'),
 DocSpan(start=25, stop=35, type='PER', text='Йоэль Лион', tokens=[...], normal='Йоэль Лион'),
 DocSpan(start=89, stop=106, type='LOC', text='Львовской области', tokens=[...], normal='Львовская область'),
 DocSpan(start=152, stop=158, type='LOC', text='России', tokens=[...], normal='Россия')]

{'Израиля': 'Израиль',
 'Украине': 'Украина',
 'Львовской области': 'Львовская область',
 'России': 'Россия',
 'Организации украинских националистов (ОУН)': 'Организация украинских националистов (ОУН)',
 'Степана Бандеры': 'Степан Бандера',
 'Петру Порошенко': 'Петр Порошенко',
 'Бандере': 'Бандера',
 'Украины': 'Украина',
 'Верховной Рады': 'Верховная Рада',
 'Бандеры': 'Бандера',
 'Организации украинских националистов': 'Организация украинских националистов',
 'Виктора Ющенко': 'Виктор Ющенко'}

In [8]:
>>> for span in doc.spans:
>>>    if span.type == PER:
>>>        span.extract_fact(names_extractor)

>>> display(doc.spans[:5])
>>> {_.normal: _.fact.as_dict for _ in doc.spans if _.type == PER}

[DocSpan(start=6, stop=13, type='LOC', text='Израиля', tokens=[...], normal='Израиль'),
 DocSpan(start=17, stop=24, type='LOC', text='Украине', tokens=[...], normal='Украина'),
 DocSpan(start=25, stop=35, type='PER', text='Йоэль Лион', tokens=[...], normal='Йоэль Лион', fact=DocFact(slots=[...])),
 DocSpan(start=89, stop=106, type='LOC', text='Львовской области', tokens=[...], normal='Львовская область'),
 DocSpan(start=152, stop=158, type='LOC', text='России', tokens=[...], normal='Россия')]

{'Йоэль Лион': {'first': 'Йоэль', 'last': 'Лион'},
 'Степан Бандера': {'first': 'Степан', 'last': 'Бандера'},
 'Петр Порошенко': {'first': 'Петр', 'last': 'Порошенко'},
 'Бандера': {'last': 'Бандера'},
 'Виктор Ющенко': {'first': 'Виктор', 'last': 'Ющенко'}}

# api

In [None]:
# doc = Doc('...')
# doc.segment(segmenter)
# doc.tag_morph(morph_tagger)
# doc.parse_syntax(syntax_parser)
# doc.tag_ner(ner_tagger)

# for token in doc.tokens:
#     token.lemmatize(morph_vocab)

# doc.ner.show()

# sent = doc.sents[0]
# sent.morph.show()

# for span in doc.spans:
#     span.norm(morph_vocab)
    
# for span in doc.spans:
#     for parser in [...]:
#         if span.type == parser.type:
#             span.parse(parser)

In [1]:
%load_ext autoreload
%autoreload 2
%run -n main.py

segmenter = Segmenter()
morph_vocab = MorphVocab()

emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)
syntax_parser = NewsSyntaxParser(emb)
ner_tagger = NewsNERTagger(emb)

names_extractor = NamesExtractor(morph_vocab)

In [1]:
# text = 'Посол Израиля на Украине Йоэль Лион признался, что пришел в шок, узнав о решении властей Львовской области объявить 2019 год годом лидера запрещенной в России Организации украинских националистов (ОУН) Степана Бандеры. Свое заявление он разместил в Twitter. «Я не могу понять, как прославление тех, кто непосредственно принимал участие в ужасных антисемитских преступлениях, помогает бороться с антисемитизмом и ксенофобией. Украина не должна забывать о преступлениях, совершенных против украинских евреев, и никоим образом не отмечать их через почитание их исполнителей», — написал дипломат. 11 декабря Львовский областной совет принял решение провозгласить 2019 год в регионе годом Степана Бандеры в связи с празднованием 110-летия со дня рождения лидера ОУН (Бандера родился 1 января 1909 года). В июле аналогичное решение принял Житомирский областной совет. В начале месяца с предложением к президенту страны Петру Порошенко вернуть Бандере звание Героя Украины обратились депутаты Верховной Рады. Парламентарии уверены, что признание Бандеры национальным героем поможет в борьбе с подрывной деятельностью против Украины в информационном поле, а также остановит «распространение мифов, созданных российской пропагандой». Степан Бандера (1909-1959) был одним из лидеров Организации украинских националистов, выступающей за создание независимого государства на территориях с украиноязычным населением. В 2010 году в период президентства Виктора Ющенко Бандера был посмертно признан Героем Украины, однако впоследствии это решение было отменено судом. '
# doc = Doc(text)
# doc.segment(segmenter)
# doc.tag_morph(morph_tagger)
# doc.parse_syntax(syntax_parser)
# doc.tag_ner(ner_tagger)

# for span in doc.spans:
#     span.normalize(morph_vocab)
#     if span.type == PER:
#         span.extract_fact(names_extractor)

# doc.ner.print()

# sent = doc.sents[-1]
# sent.morph.print()
# sent.syntax.print()

# display(doc.spans)

In [19]:
# from os.path import expanduser
# from itertools import islice
# from random import seed, sample

# from corus import load_lenta

# path = expanduser('~/proj/corus-data/lenta-ru-news.csv.gz')
# records = load_lenta(path)
# texts = [_.text for _ in islice(records, 1000)]

# data = []
# seed(3)
# for text in sample(texts, 200):
#     doc = Doc(text)
#     doc.segment(segmenter)
#     doc.tag_morph(morph_tagger)
#     doc.parse_syntax(syntax_parser)
#     doc.tag_ner(ner_tagger)

#     for span in doc.spans:
#         span.normalize(morph_vocab)
#         if span.type == PER:
#             span.extract_fact(names_extractor)

#     a = -len(doc.sents)
#     b = len({_.type for _ in doc.spans}) == 3
#     c = sum(_.text != _.normal for _ in doc.spans)
#     print(b, c, a)
#     data.append([(b, c, a), text])

In [20]:
items = sorted(data, reverse=True)

In [24]:
[_[0] for _ in items[:10]]

[(True, 24, -17),
 (True, 21, -14),
 (True, 19, -13),
 (True, 19, -19),
 (True, 18, -11),
 (True, 18, -15),
 (True, 18, -16),
 (True, 17, -11),
 (True, 16, -10),
 (True, 16, -12)]

In [26]:
items[8]

[(True, 16, -10),
 'Посол Израиля на Украине Йоэль Лион признался, что пришел в шок, узнав о решении властей Львовской области объявить 2019 год годом лидера запрещенной в России Организации украинских националистов (ОУН) Степана Бандеры. Свое заявление он разместил в Twitter. «Я не могу понять, как прославление тех, кто непосредственно принимал участие в ужасных антисемитских преступлениях, помогает бороться с антисемитизмом и ксенофобией. Украина не должна забывать о преступлениях, совершенных против украинских евреев, и никоим образом не отмечать их через почитание их исполнителей», — написал дипломат. 11 декабря Львовский областной совет принял решение провозгласить 2019 год в регионе годом Степана Бандеры в связи с празднованием 110-летия со дня рождения лидера ОУН (Бандера родился 1 января 1909 года). В июле аналогичное решение принял Житомирский областной совет. В начале месяца с предложением к президенту страны Петру Порошенко вернуть Бандере звание Героя Украины обратились деп

# extractor

In [1]:
import re
from os.path import expanduser
from collections import Counter

from naeval.io import (
    load_gz_lines,
    parse_jl
)
from naeval.norm.markup import (
    Markup,
    show_markup
)

path = expanduser('~/proj/naeval/data/norm/dataset/persons.jl.gz')
lines = load_gz_lines(path)
items = parse_jl(lines)
markups = (Markup.from_json(_) for _ in items)


strings = Counter()
for markup in markups:
    for span in markup.spans:
        string = re.sub(r'(\w+)', lambda _: _.group(1).capitalize(), span.normal)
        string = re.sub(r'\b([А-Я])\b', lambda _: _.group(1) + '.', string)
        strings[string] += 1

In [2]:
from natasha import NamesExtractor, MorphVocab

morph_vocab = MorphVocab()
extractor = NamesExtractor(morph_vocab)


In [13]:
# from json import dumps
# from random import seed, sample

# for string, count in strings.most_common(1000):
# # seed(1)
# # for string in sample(sorted(strings), 100):
#     match = extractor.parser.match(string)
#     if not match:
#         print(string)
#         print(extractor.find(string))
#         print()
# #     if match:
# #         print(string)
# #         print(dumps(match.fact.as_json, ensure_ascii=False))
# #         print()

# norm

In [39]:
from os.path import expanduser
from naeval.io import (
    load_gz_lines,
    parse_jl
)
from naeval.norm.markup import (
    Markup,
    show_markup
)

markups = []
path = expanduser('~/proj/naeval/data/norm/dataset/bsnlp.jl.gz')
lines = load_gz_lines(path)
items = parse_jl(lines)
markups.extend(Markup.from_json(_) for _ in items)

# path = expanduser('~/proj/naeval/data/norm/dataset/persons.jl.gz')
# lines = load_gz_lines(path)
# items = parse_jl(lines)
# markups.extend(Markup.from_json(_) for _ in items)

In [2]:
%load_ext autoreload
%autoreload 2
%run -n main.py

segmenter = Segmenter()
morph_vocab = MorphVocab()

emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)
syntax_parser = NewsSyntaxParser(emb)
ner_tagger = NewsNERTagger(emb)

In [41]:
# %run -n main.py
# markup = markups[0]
# doc = Doc(markup.text)
# doc.segment(segmenter)
# doc.tag_morph(morph_tagger)
# doc.parse_syntax(syntax_parser)
# add_spans(doc, markup.spans)

# for span in doc.spans:
#     span.normalize(morph_vocab)
    
# doc.spans

In [42]:
pairs = []
for markup in log_progress(markups):
    doc = Doc(markup.text)
    doc.segment(segmenter)
    doc.tag_morph(morph_tagger)
    doc.parse_syntax(syntax_parser)
    add_spans(doc, markup.spans)

    for span in doc.spans:
        span.normalize(morph_vocab)

    for pred, target in zip(doc.spans, markup.spans):
        pairs.append([pred, target])            

HBox(children=(FloatProgress(value=0.0, max=464.0), HTML(value='')))




In [18]:
# 464/464 [00:34<00:00, 13.37it/s]
# 464/464 [00:38<00:00, 12.00it/s] + span normalize (11% more time)

In [49]:
# items = set()
# for pred, target in pairs:
#     items.add((target.type, normal_word(pred.normal), normal_word(target.normal)))

# counts = defaultdict(Counter)
# for type, pred, target in items:
#     counts[type]['total'] += 1
#     if pred == target:
#         counts[type]['correct'] += 1
        
# for type in counts:
#     correct = counts[type]['correct']
#     total = counts[type]['total']
#     print(type, correct, total, correct / total)

In [27]:
# bsnlp
# PER 2129 2323 0.9164873009040034
# LOC 3661 3787 0.966728280961183
# ORG 3001 3045 0.9855500821018063

# person 1000
# PER 8381 10600 0.7906603773584906

# non uniq
# bsnlp
# PER 333 391 0.8516624040920716
# LOC 219 270 0.8111111111111111
# ORG 455 494 0.9210526315789473

In [47]:
# morph_vocab('Затулину')

In [48]:
# from natasha.syntax import print_markup, SyntaxMarkup

# uniq = {}
# counts = Counter()
# for pair in pairs:
#     pred, target = pair
#     if target.type == 'LOC':
#         pred, target = normal_word(pred.normal), normal_word(target.normal)
#         if pred != target:
#             uniq[pred, target] = pair
#             counts[pred, target] += 1

# for key in uniq:
#     count = counts[key]
#     span, target = uniq[key]
# #     if span.text != 'Европейской комиссией':
# #         continue
#     normal = span.normalize(morph_vocab)
#     print([count, span.text, span.normal, target.normal])
# #     print_markup(SyntaxMarkup(span.tokens))
# #     print()

# lemma

In [1]:
from os.path import expanduser

from naeval.const import NEWS, FICTION, WIKI, SOCIAL, POETRY
from naeval.io import (
    load_gz_lines,
    parse_jl
)
from naeval.lemma.markup import (
    Token, Markup,
    show_markup, 
    show_markup_diff
)


datasets = {}
for name in [NEWS, FICTION, WIKI, SOCIAL, POETRY]:
    path = expanduser('~/proj/naeval/data/lemma/dataset/%s.jl.gz' % name)
    lines = load_gz_lines(path)
    items = parse_jl(lines)
    datasets[name] = [Markup.from_json(_) for _ in items]
    
    
def process_token(token, lemmatize):
    text, _, pos, feats = token
    lemma = lemmatize(text, pos, feats)
    return Token(text, lemma, pos, feats)


def process_markup(markup, lemmatize):
    return Markup([
        process_token(_, lemmatize)
        for _ in markup.tokens
    ])

In [77]:
# %run -n main.py
# morph = MorphAnalyzer()
# lemmatize = Lemmatizer(morph)

# total = 0
# errs = []
# for target in datasets[NEWS]:
#     pred = process_markup(target, lemmatize)
#     for a, b in zip(target.tokens, pred.tokens):
#         total += 1
#         if a.lemma != b.lemma:
#             errs.append([a, b])
# len(errs), total, 1 - len(errs) / total

In [None]:
# (451, 6498, 0.9305940289319791)
# (395, 6498, 0.9392120652508464)
# (322, 6498, 0.9504462911665128)

# (257, 6498, 0.9604493690366267)
# (181, 6498, 0.9721452754693752)
# (150, 6498, 0.976915974145891)
# just 35 fixable, other pymorpy errors

In [76]:
# from collections import Counter
# counts = Counter()
# for a, b in errs:
#     norms = {
#         _.normal
#         for _ in morph(a.text)
#     }
#     if a.lemma not in norms:
#         # have a chance for correct answer
#         continue

#     print(a.text)
#     print(a.lemma)
#     print(b.lemma)
#     print(b.pos, b.feats)

#     print()
#     forms = morph(a.text)
#     for form in forms:
#         print(form.normal, form.tag, form.pos, form.feats)
#     print()


In [79]:
%run -n main.py
morph = MorphAnalyzer()
lemmatize = Lemmatizer(morph)

for name in [NEWS, FICTION, WIKI, SOCIAL, POETRY]:
    count, total = 0, 0
    for target in datasets[name]:
        pred = process_markup(target, lemmatize)
        for a, b in zip(target.tokens, pred.tokens):
            total += 1
            if a.lemma == b.lemma:
                count += 1
    print(count, total, count / total, name, sep='\t')

6348	6498	0.976915974145891	news
17311	17837	0.9705107361103325	fiction
18857	19539	0.9650954501253902	wiki
10657	11117	0.9586219303769002	social
13241	13759	0.9623519151101098	poetry
