# Phân cụm văn bản
Bài toán giúp tự động phân cụm văn bản có cùng nội dùng vào với nhau
<br>
**Đầu vào:** Một tập các văn bản.
<br>
**Đầu ra:** Các văn bản được tự động gom vào với nhau.

In [1]:
import numpy as np
import pickle
import json
from sklearn.cluster import MeanShift, DBSCAN, Birch

In [2]:
from_date = '2019-05-01'
to_date = '2019-05-10'
domains = [
    'Thế giới',
    'Thể thao',
    'Kinh doanh',
    'Xã hội',
    'Chính trị',
    'Giáo dục',
    'Pháp luật',
    'Khoa học',
    'all'
]
# algs = ['mean_shift', 'dbscan', 'birch']
algs = ['mean_shift', 'dbscan']

In [3]:
def print_doc(doc, fields):
    source = doc['_source']

    for field in fields:
        if field in source:
            print ('{}: {}'.format(field, source[field]))
    
def report_model(model_file, docs_file):
    model = pickle.load(open(model_file, 'rb'))
    with open(docs_file, 'r', encoding='utf-8') as f:
        docs = json.load(f)
    
    label_count = {}
    labels = model.labels_.tolist()
    
    for idx, label in enumerate(labels):
        if not label in label_count:
            label_count[label] = [idx]
        else:
            label_count[label].append(idx)
    
    # sort label count
    count_pair = []
    for label, idxes in label_count.items():
        count_pair.append((label, len(idxes)))

    count_pair.sort(key=lambda p: -p[1])
    
    print ('Total labels: {}, Total docs: {}'.format(len(count_pair), len(docs)))
    for label, count in count_pair[0:5]:
        if not label == -1:
            print ('Label {} has {} articles'.format(label, count))
            for idx in label_count[label]:
                print_doc(docs[idx], ['title'])
            print ('\n')

In [4]:
PREFIX = '/media/sinhblack/Media1/works/article_research/'
for domain in domains:
    for alg in algs:
        model_file = '{}data/models/{}_{}_{}_{}.pkl'.format(PREFIX, domain, from_date, to_date, alg)
        docs_file = '{}data/by_domain/{}_{}_{}.json'.format(PREFIX, domain.replace(' ', '_'), from_date, to_date)
        
        print ('###### START -> DOMAIN: {}, ALGORITHM: {} <- ######'.format(domain, alg))
        report_model(model_file, docs_file)
        print ('###### END -> DOMAIN: {}, ALGORITHM: {} <- ######'.format(domain, alg))
        print ('\n\n\n')

###### START -> DOMAIN: Thế giới, ALGORITHM: mean_shift <- ######
Total labels: 326, Total docs: 327
Label 0 has 2 articles
title: Tàu sân bay đầu tiên của Thổ Nhĩ Kỳ bốc cháy tại cảng
title: Tàu sân bay đầu tiên của Thổ Nhĩ Kỳ bốc cháy tại cảng


Label 321 has 1 articles
title: Triều Tiên phóng thử hàng loạt tên lửa tầm ngắn


Label 310 has 1 articles
title: Đoàn Thị Hương được trả tự do


Label 205 has 1 articles
title: Mỹ để ngỏ khả năng can thiệp quân sự vào Venezuela sau đảo chính bất thành


Label 271 has 1 articles
title: Mẫu pháo phòng không thảm họa từng chĩa nòng vào nhiều tướng Mỹ


###### END -> DOMAIN: Thế giới, ALGORITHM: mean_shift <- ######




###### START -> DOMAIN: Thế giới, ALGORITHM: dbscan <- ######
Total labels: 18, Total docs: 327
Label 0 has 26 articles
title: Mỹ để ngỏ khả năng can thiệp quân sự vào Venezuela sau đảo chính bất thành
title: Thủ lĩnh đối lập Venezuela lý giải việc đảo chính thất bại
title: Ông Trump úp mở về kế hoạch lớn ở Venezuela vào tuần tới

Total labels: 222, Total docs: 225
Label 1 has 2 articles
title: Giá vàng miếng bật tăng theo thế giới vì căng thẳng Mỹ - Trung
title: Giá vàng miếng tăng theo thế giới


Label 0 has 2 articles
title: Richard Mille lần đầu ra mắt dây đồng hồ carbon TPT siêu nhẹ
title: Richard Mille lần đầu ra mắt dây đồng hồ Carbon TPT siêu nhẹ


Label 2 has 2 articles
title: TEKCOM ra mắt sản phẩm ECO FORM cho thị trường cốp-pha phổ thông Việt Nam
title: TEKCOM ra mắt sản phẩm ECO FORM cho thị trường cốp-pha phổ thông tại Việt Nam


Label 14 has 1 articles
title: “Ông chủ” doanh nghiệp thủy sản trúng số độc đắc gần 120 tỷ đồng


Label 123 has 1 articles
title: Tuyệt phẩm cây cảnh cứ đụng vào là tỏa hương, giá bán tới 2 tỷ đồng


###### END -> DOMAIN: Kinh doanh, ALGORITHM: mean_shift <- ######




###### START -> DOMAIN: Kinh doanh, ALGORITHM: dbscan <- ######
Total labels: 13, Total docs: 225
Label 3 has 6 articles
title: Thủ tướng chỉ đạo làm rõ việc tăng giá điện
title: Bộ Công Thương sẽ kiểm tra t

Total labels: 1271, Total docs: 1291
Label 0 has 10 articles
title: Đáp án câu 3
title: Đáp án câu 2
title: Đáp án câu 3
title: Đáp án câu 1
title: Đáp án câu 5
title: Đáp án câu 2
title: Đáp án câu 4
title: Đáp án câu 4
title: Năm câu đố tìm sự khác biệt
title: Đáp án câu 1


Label 1 has 4 articles
title: Đáp án câu 3
title: Đáp án câu 4
title: Đáp án câu 1
title: Đáp án câu 2


Label 2 has 3 articles
title: Phần 2
title: Đáp án phần 2
title: Đáp án phần 1


Label 6 has 2 articles
title: Chính xác, ông là Michael Faraday
title: Chưa chính xác, ông là Michael Faraday


Label 5 has 2 articles
title: Chưa chính xác, ông đã tìm ra hợp chất benzene
title: Chính xác, ông đã tìm ra hợp chất benzene


###### END -> DOMAIN: all, ALGORITHM: mean_shift <- ######




###### START -> DOMAIN: all, ALGORITHM: dbscan <- ######
Total labels: 36, Total docs: 1291
Label 2 has 265 articles
title: Chính xác, ông là Michael Faraday
title: Đáp án câu 3
title: Đáp án câu 2
title: Đáp án câu 3
title: Đáp án c