# 100 самых популярных слов

In [1]:
import json
news = []
with open('/data/kasandra/news-4965.json', encoding="utf8") as f:
    for line in f:
        news.append(json.loads(line))

list(map(lambda w: w['title'], news[:5]))

['На Алтае заработала первая в РФ система контроля космического пространства',
 'ЛНР: Действия украинских диверсантов — одна из версий покушения на Плотницкого',
 'Bild не публикует результаты России в медальном зачёте Олимпиады',
 'Глава ЛНР связал покушение на свою жизнь с украинскими спецслужбами',
 'Мэра города в США арестовали за попытку расплатиться наркотиками за секс с мужчинами']

In [2]:
stopwords = []

with open('../main/python/res/stopwords.txt', mode="r", encoding="utf8") as file:
    for line in file:
        stopwords.append(line.replace('\n', ''))

In [3]:
from pymystem3 import Mystem
import re

mystem = Mystem(entire_input=False)

# Оставляем только русские слова
r = re.compile('^[А-ЯЙа-яй]*$')

def lemmatize(text):
    return list(filter(r.match, mystem.lemmatize(text)))

In [4]:
newsContent = list(map(lambda n: lemmatize(n['content']), news))

lemmes = []
for lems in newsContent:
    lemmes.extend(lems)
    
lemmes = list(filter(lambda w: w not in stopwords, lemmes))

In [5]:
from collections import Counter
counter = Counter(lemmes)

## total words

In [6]:
len(counter)

42614

## 100 top words

In [7]:
counter.most_common(100)

[('год', 11379),
 ('россия', 10767),
 ('новость', 9702),
 ('российский', 6227),
 ('человек', 5998),
 ('страна', 5888),
 ('москва', 5558),
 ('заявлять', 5311),
 ('сообщать', 5062),
 ('мочь', 4901),
 ('сша', 4168),
 ('становиться', 4024),
 ('время', 3957),
 ('слово', 3911),
 ('президент', 3807),
 ('украина', 3363),
 ('отмечать', 3296),
 ('решение', 3040),
 ('турция', 2962),
 ('июль', 2921),
 ('первый', 2773),
 ('самый', 2724),
 ('военный', 2682),
 ('ранее', 2635),
 ('принимать', 2623),
 ('глава', 2605),
 ('отношение', 2586),
 ('данные', 2508),
 ('новый', 2505),
 ('вопрос', 2455),
 ('международный', 2444),
 ('дело', 2423),
 ('должный', 2412),
 ('результат', 2363),
 ('май', 2314),
 ('получать', 2287),
 ('день', 2252),
 ('проходить', 2208),
 ('место', 2110),
 ('представитель', 2084),
 ('сторона', 2081),
 ('сборная', 2074),
 ('происходить', 2063),
 ('игра', 2025),
 ('город', 2023),
 ('против', 2020),
 ('власть', 2008),
 ('ес', 1973),
 ('считать', 1949),
 ('находиться', 1940),
 ('мир', 1938),

## 1000 least words

In [8]:
counter.most_common()[:-1000-1:-1]

[('лавровый', 1),
 ('выбродить', 1),
 ('сухобок', 1),
 ('перенаселенный', 1),
 ('фрахт', 1),
 ('темирбек', 1),
 ('лохалит', 1),
 ('стерильный', 1),
 ('взмах', 1),
 ('облеплять', 1),
 ('мэв', 1),
 ('лоскут', 1),
 ('мимино', 1),
 ('проказа', 1),
 ('ММГ', 1),
 ('комагатакэ', 1),
 ('куратова', 1),
 ('лисина', 1),
 ('затылок', 1),
 ('яшма', 1),
 ('служивый', 1),
 ('савчук', 1),
 ('унасура', 1),
 ('вагинальный', 1),
 ('тактически', 1),
 ('смиренно', 1),
 ('алькатрас', 1),
 ('лафайетт', 1),
 ('завалейк', 1),
 ('вивисекция', 1),
 ('щитовидный', 1),
 ('амиэль', 1),
 ('экзальтация', 1),
 ('фоновый', 1),
 ('алавит', 1),
 ('дюрвангер', 1),
 ('беспрекословно', 1),
 ('теплоходный', 1),
 ('дьяков', 1),
 ('ратеновский', 1),
 ('митрофанович', 1),
 ('сокольник', 1),
 ('созидательный', 1),
 ('айзенберг', 1),
 ('моррис', 1),
 ('джодхпур', 1),
 ('ревальвировать', 1),
 ('пищать', 1),
 ('жилберто', 1),
 ('незамедлительность', 1),
 ('магнетит', 1),
 ('пошатнуть', 1),
 ('техмаш', 1),
 ('бритва', 1),
 ('установ

# stop words

In [9]:
stopwords

['без',
 'более',
 'больше',
 'будет',
 'будто',
 'бы',
 'был',
 'была',
 'были',
 'было',
 'быть',
 'вам',
 'вас',
 'ведь',
 'весь',
 'вдоль',
 'вдруг',
 'вместо',
 'вне',
 'вниз',
 'внизу',
 'внутри',
 'во',
 'вокруг',
 'вот',
 'впрочем',
 'все',
 'всегда',
 'всего',
 'всех',
 'всю',
 'вы',
 'где',
 'да',
 'давай',
 'давать',
 'даже',
 'для',
 'до',
 'достаточно',
 'другой',
 'его',
 'ему',
 'ее',
 'её',
 'ей',
 'если',
 'есть',
 'ещё',
 'еще',
 'же',
 'за',
 'за исключением',
 'здесь',
 'из',
 'из-за',
 'или',
 'им',
 'иметь',
 'иногда',
 'их',
 'как-то',
 'когда',
 'кроме',
 'кто',
 'куда',
 'ли',
 'либо',
 'между',
 'меня',
 'мне',
 'много',
 'может',
 'мое',
 'моё',
 'мои',
 'мой',
 'мы',
 'на',
 'навсегда',
 'над',
 'надо',
 'наконец',
 'нас',
 'наш',
 'не',
 'него',
 'неё',
 'нее',
 'ней',
 'нет',
 'ни',
 'нибудь',
 'никогда',
 'ним',
 'них',
 'ничего',
 'но',
 'ну',
 'об',
 'однако',
 'он',
 'она',
 'они',
 'оно',
 'опять',
 'от',
 'отчего',
 'очень',
 'перед',
 'по',
 'под',
