In [22]:
import json
from pprint import pprint
from collections import Counter, defaultdict

In [5]:
from natasha import (
    Segmenter,
    MorphVocab,
    
    NewsEmbedding,
    NewsMorphTagger,
    NewsSyntaxParser,
    NewsNERTagger,
    
    Doc
)

In [10]:
segmenter = Segmenter()
morph_vocab = MorphVocab()

emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)
syntax_parser = NewsSyntaxParser(emb)
ner_tagger = NewsNERTagger(emb)

In [11]:
with open('knife_corpus.json', 'r') as file:
    corpus = json.load(file)

In [12]:
tag_stat = defaultdict(Counter)

In [23]:
for entry in corpus:
    text = entry['Text']
    tags = entry['Tags']
    
    doc = Doc(text)
    doc.segment(segmenter)
    doc.tag_morph(morph_tagger)
    doc.parse_syntax(syntax_parser)
    doc.tag_ner(ner_tagger)

    for span in doc.spans:
        span.normalize(morph_vocab)

    spans = [span.normal for span in doc.spans]
    
    for tag in tags:
        tag_stat[tag].update(spans)

In [28]:
# В издании "Нож" нет разделения новостей по категориям, но каждой новости присваиются теги (один или более). Теги
# более кокретны, чем категории, но их, соотвественно, и больше. Вот список тегов, встречающихся в корпусе:

In [24]:
print(list(tag_stat.keys()))

['технологии', 'наркотики', 'здоровье', 'россия', 'китай', 'находка', 'искусство', 'история', 'люди', 'животные', 'мир', 'книги', 'литература', 'секс', 'женщины', 'мужчины', 'законы', 'общество', 'кино', 'ЛГБТ', 'события', 'космос', 'исследование', 'эксперимент', 'тесты', 'еда', 'экология', 'медицина', 'наука', 'благотворительность', 'музыка', 'политика', 'сша', 'бесплатно и полезно', 'смерть', 'нож', 'приложение', 'порно', 'соцсети', 'нейросети', 'образование', 'театр', 'культура', 'игры', 'видео', 'дети', 'сайт', 'деньги', 'рейтинг', 'криминал', 'изобретения', 'химия', 'мозг', 'фотография', 'великобритания', 'сон', 'журналистика', 'москва', 'добро', 'интернет', 'бизнес', 'премьера', 'школьники', 'психология', 'путешествия', 'языки', 'физика', 'статистика', 'музей', 'религия', 'сериалы', 'работа', 'гендер', 'мода', 'дизайн', 'города', 'общение', 'отношения', 'истории', 'депрессия', 'экономика', 'математика', 'япония', 'философия', 'алкоголь', 'спорт', 'поколения', 'архитектура', 'прив

In [None]:
# А вот наиболее частотные именованные сущности для некоторых из тегов:

In [25]:
pprint(tag_stat['россия'].most_common(10))

[('Россия', 384),
 ('Москва', 332),
 ('Петербург', 122),
 ('ВКонтакте', 100),
 ('РФ', 78),
 ('Санкт-Петербург', 76),
 ('ТАСС', 58),
 ('США', 54),
 ('МГУ', 52),
 ('Ночлежка', 48)]


In [27]:
pprint(tag_stat['языки'].most_common(20))

[('США', 10),
 ('Пушкин', 10),
 ('Паттон', 8),
 ('Google', 8),
 ('Китай', 6),
 ('Localingual', 6),
 ('Дэвид', 6),
 ('Collins Dictionary', 6),
 ('Япония', 4),
 ('Яндекс', 4),
 ('Дина Рубина', 4),
 ('The Sims', 4),
 ('Ассоциация американских диалектов', 4),
 ('The Guardian', 4),
 ('Merriam-Webster', 4),
 ('Оксфордского словарь', 4),
 ('Кембриджский словарь', 4),
 ('Дитмар Эльяшевич Розенталь', 2),
 ('Розенталь', 2),
 ('Мел', 2)]
