In [50]:
import json
import numpy as np
from itertools import groupby
from sklearn.cluster import KMeans
from sklearn.cluster import DBSCAN
from collections import Counter
from sklearn.feature_extraction.text import HashingVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import make_pipeline

In [51]:
class News:
    def __init__(self, id, date, title, content, url, siteType):
        self.id = id
        self.date = date
        self.title = title
        self.content = content
        self.url = url
        self.siteType = siteType
    
    @classmethod
    def from_json(cls, json_str):
        json_dict = json.loads(json_str)
        return cls(**json_dict)

In [52]:
news = []
with open('/data/kasandra/year/all.normalized.json', encoding="utf8") as f:
    for line in f:
        news.append(News.from_json(line))

In [53]:
words = []
for n in news:
    words.extend(n.content.split())
counts = Counter(words)
one_time = [k for k, v in dict(counts).items() if v == 1]
print("total words: %s" % (len(words) - len(one_time)))

total words: 47479434


In [54]:
stopwords = set(one_time)

In [55]:
def zip_news(n,l):
    return list(map(assign_label_to_news, zip(n, l)))

def assign_label_to_news(tuplezz):
    (nws, lbl) = tuplezz
    nws.label = lbl.item()
    return nws

def filter_words(text):
    words_list = text.split()
    newWords = [x for x in words_list if len(x) > 3]
    return " ".join(newWords)

def print_clusters(cluster_news, clustre_labels):
    newsLabels = zip_news(cluster_news, clustre_labels)
    newsLabels = sorted(newsLabels, key=lambda n: n.label)
    for label, group in groupby(newsLabels, lambda n: n.label):
        groupList = list(group)
        print("Cluster: %s, count news: %s, titles:" % (label, len(groupList)))
        for gr in groupList:
            print("\t" + gr.title)
            
def print_topics(components, feature_names, n_top_words):
    for topic_idx, topic in enumerate(components):
        print("Topic #%d:" % topic_idx)
        print(" ".join([feature_names[i] for i in topic.argsort()[:-n_top_words - 1:-1]]))

# Март 2015

In [56]:
mart_start = 1425157200000
mart_end = 1427835600000

In [57]:
mart_news = list(filter(lambda x: x.date > mart_start and x.date < mart_end, news))
mart_content = [filter_words(x.content) for x in mart_news]
print("count mart news: %s" % len(mart_content))

count mart news: 2684


In [64]:
tfidf_vectorizer = TfidfVectorizer(use_idf=True, tokenizer=lambda text: text.split(" "), stop_words=stopwords) # , ngram_range=(1, 3)

tfidf_matrix = tfidf_vectorizer.fit_transform(mart_content)
print("vocabulary size: %s" % len(tfidf_vectorizer.vocabulary_))

vocabulary size: 36964


# DBScan

In [69]:
db = DBSCAN(eps=1.11, min_samples=10).fit(tfidf_matrix)
labels = db.labels_

print('count clusters: %d' % (len(set(db.labels_)) - (1 if -1 in db.labels_ else 0)))

labels = db.labels_
print("-1: %s, 0: %s" % (labels.tolist().count(-1), labels.tolist().count(0)))

count clusters: 19
-1: 2077, 0: 206


In [68]:
print_clusters(mart_news, labels)

Cluster: -1, count news: 1734, titles:
	Американский астронавт почтил память Леонарда Нимоя в космосе
	Власти Севастополя национализировали завод Порошенко
	Что изменилось с 1 марта: Кредиты - в хорошие руки, лекарства - под госконтроль
	Лондон заблокировал сделку по покупке фондом Фридмана «дочки» RWE
	ЦБ назвал «немного чрезмерным» прогноз Moody's по инфляции в 22%
	С 1 марта россияне смогут въехать на Украину только по загранпаспорту
	В Севастополе национализирован завод Порошенко
	С 1 марта россиян пустят на Украину только по загранпаспорту
	Знаменитые Интернет-котики празднуют 1 марта
	Путеводитель по удивительным местам России: три самые необычные пещеры
	20 лет назад не стало Владислава Листьева
	Со дня гибели Владислава Листьева исполнилось 20 лет
	Два кота в одном доме: как сделать из них дружную банду?
	Турецкий суд обязал мужчину заплатить жене за нелюбовь
	Хью Джекман покатался на велосипеде по Красной площади и рассказал о своих "секретах красоты"
	Charlie Hedbo оскандалил

# KMeans

In [39]:
km = KMeans(n_clusters=50, n_jobs=-1).fit(tfidf_matrix)
labels = km.labels_

In [40]:
print_clusters(mart_news, labels)

Cluster: 0, count news: 34, titles:
	С 1 марта россияне смогут въехать на Украину только по загранпаспорту
	С 1 марта россиян пустят на Украину только по загранпаспорту
	Участники силовой операции записали видеопослание Порошенко
	Россия отказалась от военного самолета украинской сборки Ан-70
	На украинском КПП умер россиянин, которого не пустили к сыну без загранпаспорта
	Трагедия на российско-украинской границе: пенсионер умер после того, как его не пустили на Украину
	Украина прекратит малое приграничное сообщение с Россией
	На Украине хотят запретить Партию Регионов
	Американский генерал призвал убивать россиян, чтобы помочь Украине
	В России возбудили дело из-за призыва американского генерала к убийству русских
	За призывы "убивать русских" американскому генералу грозит пять лет российской тюрьмы
	Исландия официально отказалась от вступления в Евросоюз
	Американский генерал призвал убивать русских, в Москве сделают выводы
	Исландия официально отказалась от вступления в ЕС
	Джен Пс

## Сохранение данных

In [48]:
news_clusters = {}
for i in range(0, len(labels)):
    n = mart_news[i]
    l = labels[i]
    news_clusters[n.id] = int(l)

In [49]:
cluster_file = '/data/kasandra/year/result/50_kmens.json'

with open(cluster_file, encoding="utf8", mode="w") as f:
    d_json = json.dumps(news_clusters, ensure_ascii=False)
    f.write(d_json + '\n')