# Phân cụm văn bản
Bài toán giúp tự động phân cụm văn bản có cùng nội dùng vào với nhau
<br>
**Đầu vào:** Một tập các văn bản.
<br>
**Đầu ra:** Các văn bản được tự động gom vào với nhau.

In [17]:
import numpy as np
import pickle
import json
from sklearn.cluster import MeanShift, DBSCAN, Birch

In [18]:
from_date = '2019-05-01'
to_date = '2019-05-12'
domains = [
    'Thế giới',
    'Thể thao',
    'Kinh doanh',
    'Xã hội',
    'Chính trị',
    'Giáo dục',
    'Pháp luật',
    'Khoa học',
    'all'
]
# algs = ['mean_shift', 'dbscan', 'birch']
algs = ['mean_shift', 'dbscan']

In [19]:
def print_doc(doc, fields):
    source = doc['_source']

    for field in fields:
        if field in source:
            print ('{}: {}'.format(field, source[field]))
    
def report_model(model_file, docs_file):
    model = pickle.load(open(model_file, 'rb'))
    with open(docs_file, 'r', encoding='utf-8') as f:
        docs = json.load(f)
    
    label_count = {}
    labels = model.labels_.tolist()
    
    for idx, label in enumerate(labels):
        if not label in label_count:
            label_count[label] = [idx]
        else:
            label_count[label].append(idx)
    
    # sort label count
    count_pair = []
    for label, idxes in label_count.items():
        count_pair.append((label, len(idxes)))

    count_pair.sort(key=lambda p: -p[1])
    
    print ('Total labels: {}, Total docs: {}'.format(len(count_pair), len(docs)))
    for label, count in count_pair[0:5]:
        if not label == -1 and count <= 30:
            print ('Label {} has {} articles'.format(label, count))
            for idx in label_count[label]:
                print_doc(docs[idx], ['title'])
            print ('\n')

In [20]:
PREFIX = '/media/sinhblack/Media1/works/article_research/'
for domain in domains:
    for alg in algs:
        model_file = '{}data/models/{}_{}_{}_{}.pkl'.format(PREFIX, domain, from_date, to_date, alg)
        docs_file = '{}data/by_domain/{}_{}_{}.json'.format(PREFIX, domain.replace(' ', '_'), from_date, to_date)
        
        print ('###### START -> DOMAIN: {}, ALGORITHM: {} <- ######'.format(domain, alg))
        report_model(model_file, docs_file)
        print ('###### END -> DOMAIN: {}, ALGORITHM: {} <- ######'.format(domain, alg))
        print ('\n\n\n')

###### START -> DOMAIN: Thế giới, ALGORITHM: mean_shift <- ######
Total labels: 438, Total docs: 486
Label 1 has 9 articles
title: Vai trò biểu tượng quốc gia của Vua Thái Lan
title: 300 UAV trình diễn ánh sáng mừng Quốc vương Thái Lan đăng quang
title: Quốc vương Thái Lan bái Phật trước khi đăng quang
title: Voi quý được coi là biểu tượng cho quyền uy của quốc vương Thái Lan
title: Quốc vương Thái Lan ban danh hiệu mới cho thành viên hoàng gia
title: Dân Thái Lan vui mừng khi nữ đại tướng được tấn phong Hoàng hậu
title: Quốc vương Thái Lan kêu gọi người dân đoàn kết sau khi đăng quang
title: Các nghi thức trong lễ đăng quang của tân vương Thái Lan
title: Thái Lan rước bảo vật hoàng gia trước lễ đăng quang của tân vương


Label 0 has 8 articles
title: Những con số choáng ngợp về lễ đăng cơ của Quốc vương Thái Lan
title: Con đường từ tiếp viên hàng không đến Hoàng hậu Thái Lan
title: Sứ mệnh lớn lao của tân Quốc vương Thái Lan
title: Quốc vương Thái Lan tuyên bố trị vì bằng chính nghĩa 

Total labels: 266, Total docs: 272
Label 0 has 4 articles
title: Vụ án mạng tại trường học ở Thanh Hóa: Hung thủ âm tính với ma túy
title: Hai nhóm thanh niên hỗn chiến vì tranh giành nữ tiếp viên quán bar
title: Đối tượng đổ xăng phóng hỏa cửa hàng quần áo trẻ em bị bắt giữ
title: 4 người trộm vịt thoát tội, gia chủ bị truy tố


Label 1 has 3 articles
title: Văn Kính Dương: 'Bị cáo cần tiền để lo cho 5 con'
title: Những người đã bỏ trốn trong đường dây của Văn Kính Dương
title: Trùm ma túy Văn Kính Dương gặp lại người tình 'hot girl' tại tòa


Label 2 has 2 articles
title: Nghệ sĩ hài Hồng Tơ bị bắt vì đánh bạc
title: Nghệ sĩ Hồng Tơ bị bắt như thế nào


Label 70 has 1 articles
title: Cô gái nghi bị người yêu đâm chết vì đòi về quê


Label 257 has 1 articles
title: Vụ 5 học sinh và cô giáo bị đâm tại trường: Cô giáo kể lại giây phút kinh hoàng


###### END -> DOMAIN: Pháp luật, ALGORITHM: mean_shift <- ######




###### START -> DOMAIN: Pháp luật, ALGORITHM: dbscan <- ######
Total lab