In [1]:
import json
from pprint import pprint
from collections import Counter, defaultdict

In [2]:
from natasha import (
    Segmenter,
    MorphVocab,
    
    NewsEmbedding,
    NewsMorphTagger,
    NewsSyntaxParser,
    NewsNERTagger,
    
    Doc
)

In [3]:
segmenter = Segmenter()
morph_vocab = MorphVocab()

emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)
syntax_parser = NewsSyntaxParser(emb)
ner_tagger = NewsNERTagger(emb)

In [4]:
with open('knife_corpus.json', 'r') as file:
    corpus = json.load(file)

In [5]:
tag_stat = defaultdict(Counter)

In [6]:
for entry in corpus:
    text = entry['Text']
    tags = entry['Tags']
    
    doc = Doc(text)
    doc.segment(segmenter)
    doc.tag_morph(morph_tagger)
    doc.parse_syntax(syntax_parser)
    doc.tag_ner(ner_tagger)

    spans = []
    for span in doc.spans:
        span.normalize(morph_vocab)
        spans.append(span.normal)
    
    for tag in tags:
        tag_stat[tag].update(spans)

In [7]:
# В издании "Нож" нет разделения новостей по категориям, но каждой новости присваиются теги (один или более). Теги
# более кокретны, чем категории, но их, соотвественно, и больше. Вот список тегов, встречающихся в корпусе:

In [8]:
print(list(tag_stat.keys()))

['история', 'мир', 'смерть', 'дети', 'искусство', 'сайт', 'журналистика', 'будущее', 'города', 'животные', 'великобритания', 'еда', 'люди', 'находка', 'сша', 'наука', 'экология', 'китай', 'деньги', 'работа', 'физика', 'исследование', 'религия', 'книги', 'литература', 'соцсети', 'интернет', 'россия', 'здоровье', 'технологии', 'архитектура', 'партнерский материал', 'медицина', 'языки', 'нейросети', 'бесплатно и полезно', 'события', 'москва', 'музыка', 'секс', 'общество', 'благотворительность', 'школьники', 'видео', 'наркотики', 'музей', 'женщины', 'мужчины', 'законы', 'кино', 'ЛГБТ', 'космос', 'эксперимент', 'тесты', 'политика', 'нож', 'приложение', 'порно', 'образование', 'театр', 'культура', 'игры', 'рейтинг', 'криминал', 'изобретения', 'химия', 'мозг', 'фотография', 'сон', 'добро', 'бизнес', 'премьера', 'отношения', 'психология', 'путешествия', 'феминизм', 'статистика', 'сериалы', 'гендер', 'мода', 'дизайн', 'общение', 'истории', 'депрессия', 'экономика', 'математика', 'япония', 'фило

In [9]:
# А вот наиболее частотные именованные сущности для некоторых из тегов:

In [10]:
pprint(tag_stat['россия'].most_common(10))

[('Россия', 209),
 ('Москва', 179),
 ('Петербург', 62),
 ('ВКонтакте', 51),
 ('РФ', 43),
 ('Санкт-Петербург', 41),
 ('ТАСС', 30),
 ('США', 28),
 ('МГУ', 27),
 ('Нож', 27)]


In [11]:
pprint(tag_stat['языки'].most_common(20))

[('Пушкин', 6),
 ('США', 5),
 ('Паттон', 4),
 ('Google', 4),
 ('Россия', 3),
 ('Китай', 3),
 ('Localingual', 3),
 ('Дэвид', 3),
 ('Collins Dictionary', 3),
 ('Япония', 2),
 ('Украина', 2),
 ('Яндекс', 2),
 ('Дина Рубина', 2),
 ('The Sims', 2),
 ('Ассоциация американских диалектов', 2),
 ('The Guardian', 2),
 ('Merriam-Webster', 2),
 ('Оксфордского словарь', 2),
 ('Кембриджский словарь', 2),
 ('Издательский дом «ПостНаука', 1)]
