In [15]:
import numpy as np
import pickle
import json
from sklearn.cluster import MeanShift, DBSCAN, Birch

In [16]:
from_date = '2019-05-01'
to_date = '2019-05-10'
domains = [
    'Thế giới',
    'Thể thao',
    'Kinh doanh',
    'Xã hội',
    'Chính trị',
    'Giáo dục',
    'Pháp luật',
    'Khoa học',
    'all'
]
algs = ['mean_shift', 'dbscan', 'birch']

In [36]:
def print_doc(doc, fields):
    source = doc['_source']

    for field in fields:
        if field in source:
            print ('{}: {}'.format(field, source[field]))
    
def report_model(model_file, docs_file):
    model = pickle.load(open(model_file, 'rb'))
    with open(docs_file, 'r', encoding='utf-8') as f:
        docs = json.load(f)
    
    label_count = {}
    labels = model.labels_.tolist()
    
    for idx, label in enumerate(labels):
        if not label in label_count:
            label_count[label] = [idx]
        else:
            label_count[label].append(idx)
    
    # sort label count
    count_pair = []
    for label, idxes in label_count.items():
        count_pair.append((label, len(idxes)))

    count_pair.sort(key=lambda p: -p[1])
    
    for label, count in count_pair[1:5]:
        if not label == -1:
            print ('Label {} has {} articles'.format(label, count))
            for idx in label_count[label]:
                print_doc(docs[idx], ['title'])

In [37]:
PREFIX = '/media/sinhblack/Media1/works/article_research/'
for domain in domains:
    for alg in algs:
        model_file = '{}data/models/{}_{}_{}_{}.pkl'.format(PREFIX, domain, from_date, to_date, alg)
        docs_file = '{}data/by_domain/{}_{}_{}.json'.format(PREFIX, domain.replace(' ', '_'), from_date, to_date)
        
        print ('###### START -> DOMAIN: {}, ALGORITHM: {} <- ######'.format(domain, alg))
        report_model(model_file, docs_file)
        print ('###### END -> DOMAIN: {}, ALGORITHM: {} <- ######'.format(domain, alg))

###### START -> DOMAIN: Thế giới, ALGORITHM: mean_shift <- ######
Label 1 has 12 articles
title: Mỹ để ngỏ khả năng can thiệp quân sự vào Venezuela sau đảo chính bất thành
title: Xe bọc thép Trung Quốc sản xuất xuất hiện trong cuộc bạo động tại Venezuela
title: Tổng thống Venezuela chúc mừng quân đội đánh bại âm mưu đảo chính của phe đối lập
title: Cánh cửa hẹp cho phe đối lập sau đảo chính bất thành tại Venezuela
title: “Dấu chân” của Mỹ trong kế hoạch đảo chính bất thành tại Venezuela
title: Tổng thống Venezuela hô hào quân đội đánh bại 'kẻ chủ mưu đảo chính'
title: Lộ kế hoạch 5.000 lính đánh thuê lật đổ ông Maduro
title: Cảnh tượng hỗn loạn như chiến trường tại Venezuela sau âm mưu đảo chính
title: Mỹ tìm cách rót tiền cho thủ lĩnh đối lập để lật đổ tổng thống Venezuela
title: Phản ứng trái chiều của các nước về đảo chính Venezuela
title: Hé lộ nguyên nhân khiến cuộc đảo chính tại Venezuela đổ vỡ vào phút chót
title: Tổng thống Venezuela tuyên bố không bỏ trốn sang Cuba
Label 2 has

Label 2 has 2 articles
title: Nghi can sát hại 3 người thân ở Sài Gòn vì 'mẹ mắng'
title: Gia đình ở Sài Gòn giấu hết dao trước khi 3 người bị sát hại
Label 1 has 2 articles
title: Tạm giữ 9 đối tượng trong vụ bắn người tại trường gà
title: Truy bắt nhóm đối tượng bắn người tại trường gà
Label 41 has 1 articles
title: Cô gái nghi bị người yêu đâm chết vì đòi về quê
Label 147 has 1 articles
title: Vụ 5 học sinh và cô giáo bị đâm tại trường: Cô giáo kể lại giây phút kinh hoàng
###### END -> DOMAIN: Pháp luật, ALGORITHM: mean_shift <- ######
###### START -> DOMAIN: Pháp luật, ALGORITHM: dbscan <- ######
Label 0 has 61 articles
title: Vụ 5 học sinh và cô giáo bị đâm tại trường: Cô giáo kể lại giây phút kinh hoàng
title: Vụ đánh bạc qua mạng 30.000 tỷ đồng: Xác định ông trùm người nước ngoài
title: Hành trình truy tìm gã trai to khỏe chuyên lừa tình, cướp tiền các cô gái trẻ
title: Xô xát tại quán ăn đêm, một nam thanh niên tử vong
title: Giám đốc công ty tài chính cùng đàn em chém nhóm đối

Label 2 has 5 articles
title: Đáp án câu 3
title: Rèn luyện trí não với bốn câu đố cuối tuần
title: Đáp án câu 4
title: Đáp án câu 1
title: Đáp án câu 2
Label 4 has 4 articles
title: Phần 2
title: Đáp án phần 2
title: Đáp án phần 1
title: Học tiếng Anh: Bài phát biểu của nữ sinh được đề cử Nobel Hòa Bình
Label 10 has 4 articles
title: Giá vàng miếng bật tăng theo thế giới vì căng thẳng Mỹ - Trung
title: Giá vàng bật tăng phiên cuối tuần
title: Giá vàng miếng tăng theo thế giới
title: Giá vàng miếng giảm cả trăm nghìn đồng mỗi lượng
###### END -> DOMAIN: all, ALGORITHM: dbscan <- ######
###### START -> DOMAIN: all, ALGORITHM: birch <- ######
Label 1063 has 6 articles
title: Đáp án câu 3
title: Đáp án câu 2
title: Đáp án câu 1
title: Đáp án câu 5
title: Đáp án câu 4
title: Năm câu đố tìm sự khác biệt
Label 1149 has 5 articles
title: Chính xác, ông là Michael Faraday
title: Chưa chính xác, ông là Michael Faraday
title: Chưa chính xác, ông đã tìm ra hợp chất benzene
title: Thiên tài khoa h