# News Clustering using KMeans Algorithm
By Datetime : 2016-08-29 ~ 2016-09-05

In [1]:
import numpy as np
import pandas as pd

## Load data from Pickle 

In [2]:
train = pd.read_pickle("../datastore/clustering.p")
train = train.reset_index(drop=True)

In [3]:
headline = pd.read_pickle("../datastore/headline.p")
headlines = headline['headline'].tolist()

In [4]:
headlines

['지표로 보는 경제',
 '오늘의',
 '화제의 분양현장',
 '뉴스룸',
 '카드뉴스',
 '조선일보',
 'TV조선',
 '특집',
 '이슈',
 'Weekly BIZ',
 '금주의',
 '사회공헌 Together',
 '신나는 공부',
 '포토',
 '리빙포인트']

## Select Categories
- 포함 : 경제, 문화, 건강, 과학, 사회, 정치, 스포츠
- 제외 : 종합, 정보없음, 인물, 사설

In [5]:
categories = ['경제', '과학', '사회', '정치']

In [6]:
train = train[train['name'].isin(categories)]
train.name.unique()

array(['경제', '사회', '정치', '과학'], dtype=object)

## Preprocessing
1. Datetime (16-09-11 ~ 16-09-17)
2. Remove stopwords (regex, hanja)
3. POS Tagging with KoNLPy, Mecab
4. Using bigram

In [7]:
import datetime
from konlpy.tag import Mecab
import hanja
import re

In [8]:
mecab = Mecab()

In [9]:
def text_cleaning(text):
    text = hanja.translate(text, 'substitution')
    text = re.sub('[^가-힝0-9a-zA-Z\\s]', ' ', text)
    for headline in headlines:
        text = text.replace(headline, ' ')
    return text

In [10]:
def tokenize(data):
    return [' '.join(e for e in mecab.nouns(data))]

In [11]:
train['title_flat'] = train['title'].apply(lambda text: text_cleaning(text))
title = [tokenize(each[1]['title_flat']) for each in train.iterrows()]

## Training
1. Feature extraction - TfidVectorizer
2. Decomposition - PCA
3. Cluster - KMeans

In [12]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans

In [13]:
vectorizer = TfidfVectorizer(lowercase=False, ngram_range=(1,2))
title_flat = [item for sublist in title for item in sublist]
x_list = vectorizer.fit_transform(title_flat)

In [14]:
x_list_100d = PCA(n_components=100).fit_transform(x_list.toarray())
x_list_100d.shape

(1821, 100)

### Scoring

In [15]:
from sklearn.metrics import silhouette_samples, silhouette_score
from IPython.display import display, HTML
import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning) 

### Best Silhoutte Score

In [16]:
best_score = 0.0
best_k = 0

In [17]:
for k in range(15, 35):
    km = KMeans(n_clusters=k, n_jobs=-1).fit(x_list_100d)
    score = silhouette_score(x_list_100d, km.labels_)
    if best_score < score:
        best_score = score
        best_k = k
    print("In Clusters =", k, ", Score is : %0.3f" % score)
print("In Clusters =", best_k, ", Best score is : %0.3f" % best_score)

In Clusters = 15 , Score is : 0.149
In Clusters = 16 , Score is : 0.164
In Clusters = 17 , Score is : 0.148
In Clusters = 18 , Score is : 0.165
In Clusters = 19 , Score is : 0.138
In Clusters = 20 , Score is : 0.183
In Clusters = 21 , Score is : 0.152
In Clusters = 22 , Score is : 0.194
In Clusters = 23 , Score is : 0.134
In Clusters = 24 , Score is : 0.140
In Clusters = 25 , Score is : 0.182
In Clusters = 26 , Score is : 0.204
In Clusters = 27 , Score is : 0.174
In Clusters = 28 , Score is : 0.155
In Clusters = 29 , Score is : 0.204
In Clusters = 30 , Score is : 0.159
In Clusters = 31 , Score is : 0.189
In Clusters = 32 , Score is : 0.190
In Clusters = 33 , Score is : 0.174
In Clusters = 34 , Score is : 0.216
In Clusters = 34 , Best score is : 0.216


### K-Means Algorithm

In [18]:
km = KMeans(n_clusters=best_k, n_jobs=-1).fit(x_list_100d)
labels = km.labels_
centroids = km.cluster_centers_
print(km.inertia_)

182.933718698


In [19]:
x_list_vector = x_list_100d.tolist()
train['cluster'] = labels

## Choose Best Cluster
1. Cluster size < 500
2. Recent published
3. Minimum inertia

### Compare best cluster

In [20]:
sample_silhouette_values = silhouette_samples(x_list_100d, labels)
sample_silhouette_score = []
best_cluster = []
cluster_num = best_k

for i in range(cluster_num):
    ith_cluster_silhouette_values = \
        sample_silhouette_values[labels == i]
        
    print('Cluster %d: ' % (i), abs(ith_cluster_silhouette_values.mean()))
    sample_silhouette_score.append(abs(ith_cluster_silhouette_values.mean()))

sample_silhouette_score.sort(reverse=True)
sample_silhouette_score = sample_silhouette_score[:8]

Cluster 0:  0.206478622999
Cluster 1:  0.272453233603
Cluster 2:  0.537759448427
Cluster 3:  0.376042782516
Cluster 4:  0.0786037551068
Cluster 5:  0.81862332498
Cluster 6:  0.393096902791
Cluster 7:  0.341249807914
Cluster 8:  0.0313095461725
Cluster 9:  0.198292899413
Cluster 10:  0.381157763162
Cluster 11:  0.262273137905
Cluster 12:  0.14002149528
Cluster 13:  0.10535034579
Cluster 14:  0.531592004613
Cluster 15:  0.734832239566
Cluster 16:  0.125031510166
Cluster 17:  0.184253567703
Cluster 18:  0.404095099753
Cluster 19:  0.351243622591
Cluster 20:  0.270412912409
Cluster 21:  0.765922900947
Cluster 22:  0.242597978439
Cluster 23:  0.506234811171
Cluster 24:  0.441109938388
Cluster 25:  0.167373343666
Cluster 26:  0.486571775299
Cluster 27:  0.185789767109
Cluster 28:  0.216261601589
Cluster 29:  0.178137176313
Cluster 30:  0.388362285518
Cluster 31:  0.599060635348
Cluster 32:  0.11225036692
Cluster 33:  0.41828787275


In [21]:
sample_silhouette_score

[0.8186233249801248,
 0.76592290094741899,
 0.7348322395664687,
 0.59906063534763088,
 0.53775944842650314,
 0.53159200461278289,
 0.50623481117103164,
 0.48657177529937845]

In [22]:
for i in range(cluster_num):
    ith_cluster_silhouette_values = \
        sample_silhouette_values[labels == i]
        
    if abs(ith_cluster_silhouette_values.mean()) in sample_silhouette_score:
        best_cluster.append(i)

In [23]:
best_cluster

[2, 5, 14, 15, 21, 23, 26, 31]

In [24]:
train = train[train['cluster'].isin(best_cluster)]
train.cluster.unique()

array([26,  2,  5, 14, 31, 23, 21, 15])

## Result

In [25]:
cluster_data = []

for cluster_index in range(cluster_num):
    if cluster_index in best_cluster:
        cluster_data.append(train[train['cluster'] == cluster_index])
    
for i, d in enumerate(cluster_data):
    print('Cluster %d:' % (i), 'Size %d' % (len(d)))

    display(d[['title', 'category']].sample(min(10, len(d))))
    print('\n\n')

Cluster 0: Size 12


Unnamed: 0,title,category
1161,‘정운호 금품’ 받은 부장판사 구속,뉴스 > 사회 > 사건·범죄
2621,‘정운호 금품 수수 의혹’ 현직 부장판사 긴급체포,사회 > 사회일반
1635,[사설]‘정운호 뇌물’ 부장판사 구속…대한민국 法治가 무너진다,뉴스 > 사회 > 검찰-법원판결
2644,‘정운호 금품수수’ 의혹 현직 부장판사 소환 조사,사회 > 사회일반
1081,충격의 사법부… 정운호에 억대수수 혐의 현직 부장판사 영장,뉴스 > 사회 > 사회일반
2575,정운호한테 뇌물받은 부장판사 구속...대법원 “참담하다”,사회 > 사회일반
417,"'부장판사 수뢰' 꽃놀이패 쥐고 골탕 먹이나… 법원, 검찰에 부글",사회 > 법원ㆍ검찰ㆍ경찰
408,"'레인지로버 부장판사' 구속… 대법원 ""뼈저리게 반성""",사회 > 법원ㆍ검찰ㆍ경찰
1112,‘공짜 외제차’ 부장판사 9월 첫째 주내 소환,뉴스 > 사회 > 사회일반
1162,"檢, ‘공짜 외제차’ 부장판사 구속영장 방침",뉴스 > 사회 > 사건·범죄





Cluster 1: Size 4


Unnamed: 0,title,category
2686,"대법, 상주 ‘농약사이다’ 할머니 무기징역 확정",사회 > 사회일반
1638,대법 ‘상주 농약사이다’ 할머니 무기징역 확정,뉴스 > 사회 > 검찰-법원판결
2684,‘상주 농약 사이다’ 주범 할머니 무기징역 확정,사회 > 사회일반
435,"[땅, 땅… 오늘의 판결] '농약 사이다'로 6명 사상… 大法, 할머니에 무기징역",사회 > 법원ㆍ검찰ㆍ경찰





Cluster 2: Size 8


Unnamed: 0,title,category
1002,"朴대통령, 러-中-美와 연쇄 정상회담",뉴스 > 정치 > 정치일반
497,9월4~5일 항저우 G20 정상회의 때 한-중 정상회담 열릴 듯,정치 > 외교
507,"박 대통령, 러시아·중국·미국 연쇄 정상회담",정치 > 청와대
503,"박 대통령, 5일 오전 시진핑 주석과 한-중 정상회담",정치 > 청와대
490,朴대통령·시진핑 '사드 정상회담',정치 > 외교
492,한중·한미 정상회담 잇달아 열릴 듯,정치 > 외교
456,정상들은 어떤 선물 주고받을까,사회
2350,미·중 3일 정상회담…사드 평행선 달릴 듯,국제 > 미국·중남미





Cluster 3: Size 4


Unnamed: 0,title,category
2404,이청연 인천교육감 영장 기각되자 정치자금법 수사,사회 > 전국
2466,이청연 인천교육감 “시민들에게 죄송” 사과,사회 > 전국
2494,이청연 인천 교육감 영장 기각,사회 > 전국
2520,이청연 인천교육감 오늘 영장실질심사,사회 > 전국





Cluster 4: Size 3


Unnamed: 0,title,category
2305,‘청와대 낙하산’ 한국증권금융 감사로,경제 > 경제일반
2313,한국증권금융 감사에 ‘청와대 낙하산’,경제 > 경제일반
2077,"‘靑의 펜’, 증권금융 감사 낙하산 논란",뉴스 > 정치 > 대통령





Cluster 5: Size 5


Unnamed: 0,title,category
2106,안희정 “DJ·친노·친문 뛰어넘겠다” 대선도전 선언,정치 > 정치BAR
1044,김부겸 “대세론 안돼… 대선출마 준비”,뉴스 > 정치 > 정치일반
553,"문재인 ""김부겸·안희정 출마선언 환영""",정치
1015,김부겸 이어 안희정도 사실상 대선출마 선언,뉴스 > 정치 > 정치일반
526,"김부겸 ""문재인 대세론 깨겠다""… 대선 출마 선언",정치 > 국회ㆍ정당





Cluster 6: Size 7


Unnamed: 0,title,category
2093,국내 11번째 지카 바이러스 환자 발생,뉴스 > IT/의학 > 건강
1560,싱가포르 지카비상… 나흘간 82명 확진,뉴스 > 국제 > 국제일반
1084,"김기춘 前비서실장, 농심 비상임법률고문으로",뉴스 > 사회 > 사회일반
937,지카 바이러스 치료길 열린다,경제 > 과학
2357,닷새만에 151명 감염…싱가포르 지카 바이러스 비상,국제 > 아시아·태평양
307,동남아 지카 비상,국제 > 아시아
3031,"김기춘, 농심 비상임 법률고문으로 ‘취직’",정치 > 행정·자치





Cluster 7: Size 4


Unnamed: 0,title,category
2924,박 대통령 “북핵 위협 제거되면 사드 필요성도 없어질 것”,정치 > 국방·북한
505,박 대통령 “북 핵 위협 제거되면 사드 배치 필요성도 없어질 것”,정치 > 청와대
495,박 대통령 “북 도발 위협 제거되면 남·북·러 협력 재점화”,정치 > 외교
489,"朴대통령 ""北核 제거되면 사드 필요없어""",정치 > 외교







## Save Dataframe to MongoDB

In [None]:
from pymongo import MongoClient

In [None]:
client = MongoClient('mongodb://ssomanews:ssomanews1029@ds033987-a0.mlab.com:33987/somanews')
db = client.get_database('somanews')
articles = db.get_collection('articles')

In [None]:
articles.insert_many(train.to_dict(orient='records'))
client.close()