# Baseline script for SomaNews Clustering
By Datetime : 2016-08-29 ~ 2016-09-05

In [1]:
import numpy as np
import pandas as pd

## Load Data
Load Data from database

In [2]:
train = pd.read_pickle("../datastore/weekly.p")
train.head()

Unnamed: 0_level_0,author,category,content,description,imageURL,link,provider,providerNewsID,publishedAt,title
publishedAt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2016-09-04 23:28:00,김재철 숭실대 전기공학부 교수(부총장),경제,모든 사물이 인터넷으로 연결된다는 사물인터넷(IoT·Internet of Thing...,"[ESS산업, 현재와 미래]\n\n- 배터리로 움직이는 'BoT 시대'\nESS 발...",http://image.chosun.com/sitedata/image/201609/...,http://news.chosun.com/site/data/html_dir/2016...,chosun,2016090500409,2016-09-04 23:28:00,電氣 저장했다 꺼내 쓰는 ESS… 4년 뒤 150억달러 시장 선다
2016-09-04 23:24:00,이위재 기자,nativeAD > 기업뉴스,지난달 말 산업통상자원부는 ESS 관련 산업 도약을 위해 민·관·학계가 함께하는 '...,"산업부, 신산업 규제 대폭 손질… 할인 기간 늘려 기업 투자 활성\n'ESS 융합 ...",http://image.chosun.com/sitedata/image/201609/...,http://news.chosun.com/site/data/html_dir/2016...,chosun,2016090501185,2016-09-04 23:24:00,ESS 할인 요금제 기간 10년으로
2016-09-04 23:20:00,김승범 기자,경제,정유업계에 긴장감이 돌고 있다. 올 상반기에는 세계 경기 불황 속에서도 사상 최고 ...,[8월 정제마진 배럴당 3.9달러 … '4~5달러' 손익분기점 밑돌아]\n\n- 공...,http://image.chosun.com/sitedata/image/201609/...,http://news.chosun.com/site/data/html_dir/2016...,chosun,2016090500403,2016-09-04 23:20:00,중국發 공급과잉·低유가 먹구름… 잘나가던 정유업계 긴장
2016-09-04 22:54:00,베를린=심현정 기자,경제,지난 3일(현지 시각) 오후 유럽 최대 가전박람회 'IFA 2016'이 열리고 있는...,독일 IFA 전시회\n\n- 中 유비텍 '지무로봇'\n레고 블록에 모터 등 연결해 ...,http://image.chosun.com/sitedata/image/201609/...,http://news.chosun.com/site/data/html_dir/2016...,chosun,2016090500405,2016-09-04 22:54:00,레고 로봇·스마트 캐디·게임 칫솔… 獨서 빛나는 작은 기업들
2016-09-04 22:52:00,베를린=심현정 기자,nativeAD > LG전자,"""기술력에 대한 자신감이 없다면 우리 가전제품의 핵심 부품을 다른 경쟁 업체에 판매...",[독일 IFA 전시회]\n\n조성진 LG전자 가전담당 사장,http://image.chosun.com/sitedata/image/201609/...,http://news.chosun.com/site/data/html_dir/2016...,chosun,2016090501158,2016-09-04 22:52:00,"""경쟁社에 핵심부품 파는 건, 기술력에 자신감 있기 때문"""


## Preprocessing
0. Datetime (16-09-11 ~ 16-09-17)
1. Remove stopwords (regex, hanja)
2. POS Tagging with KoNLPy, Mecab

In [3]:
import datetime
from konlpy.tag import Mecab
import hanja
import re

In [4]:
mecab = Mecab()
print(mecab.pos(u'네, 안녕하세요 나는 정답'))

[('네', 'IC'), (',', 'SC'), ('안녕', 'NNG'), ('하', 'XSV'), ('세요', 'EP+EF'), ('나', 'NP'), ('는', 'JX'), ('정답', 'NNG')]


In [5]:
def text_cleaning(text):
    text = hanja.translate(text, 'substitution')
    text = re.sub('[^가-힝0-9a-zA-Z\\s]', '', text)
    text = text.replace(u"카드뉴스", '').replace(u"조선일보", '')
    return text

### POS Tagging
일반명사, 고유명사, 외국어 (NNG, NNP, SL)

In [6]:
def tokenize(data):
    return [' '.join(e for e in mecab.nouns(data))]

In [7]:
train['title'] = train['title'].apply(lambda text: text_cleaning(text))
title = [tokenize(each[1]['title']) for each in train.iterrows()]

## Training
1. Feature extraction - TfidVectorizer
2. Decomposition - PCA
3. Cluster - KMeans

In [8]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans

In [9]:
vectorizer = TfidfVectorizer(lowercase=False)
title_flat = [item for sublist in title for item in sublist]
x_list = vectorizer.fit_transform(title_flat)

In [11]:
x_list_10d = PCA(n_components=100).fit_transform(x_list.toarray())
x_list_10d.shape

(3068, 100)

### Scoring

In [12]:
from sklearn.metrics import silhouette_samples, silhouette_score
from IPython.display import display, HTML
import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning) 

### Best Silhoutte Score

In [13]:
best_score = 0.0
best_k = 0

In [14]:
for k in range(10, 25):
    km = KMeans(n_clusters=k, n_jobs=-1).fit(x_list_10d)
    score = silhouette_score(x_list, km.labels_)
    if best_score < score:
        best_score = score
        best_k = k
    print("In Clusters =", k, ", Score is : %0.3f" % score)
print("In Clusters =", best_k, ", Best score is : %0.3f" % best_score)

In Clusters = 10 , Score is : 0.012
In Clusters = 11 , Score is : 0.013
In Clusters = 12 , Score is : 0.013
In Clusters = 13 , Score is : 0.016
In Clusters = 14 , Score is : 0.015
In Clusters = 15 , Score is : 0.015
In Clusters = 16 , Score is : 0.017
In Clusters = 17 , Score is : 0.018
In Clusters = 18 , Score is : 0.016
In Clusters = 19 , Score is : 0.020
In Clusters = 20 , Score is : 0.018
In Clusters = 21 , Score is : 0.018
In Clusters = 22 , Score is : 0.023
In Clusters = 23 , Score is : 0.021
In Clusters = 24 , Score is : 0.020
In Clusters = 22 , Best score is : 0.023


### K-Means Algorithm

In [15]:
km = KMeans(n_clusters=best_k, n_jobs=-1).fit(x_list)
labels = km.labels_
centroids = km.cluster_centers_
print(km.inertia_)

2898.2128598488016


In [16]:
train = train.reset_index(drop=True)
x_list_vector = x_list_10d.tolist()
train['cluster'] = labels
train['vector'] = x_list_vector
train.head(2)

Unnamed: 0,author,category,content,description,imageURL,link,provider,providerNewsID,publishedAt,title,cluster,vector
0,김재철 숭실대 전기공학부 교수(부총장),경제,모든 사물이 인터넷으로 연결된다는 사물인터넷(IoT·Internet of Thing...,"[ESS산업, 현재와 미래]\n\n- 배터리로 움직이는 'BoT 시대'\nESS 발...",http://image.chosun.com/sitedata/image/201609/...,http://news.chosun.com/site/data/html_dir/2016...,chosun,2016090500409,2016-09-04 23:28:00,전기 저장했다 꺼내 쓰는 ESS 4년 뒤 150억달러 시장 선다,19,"[-0.013763079439635596, -0.015551843547112382,..."
1,이위재 기자,nativeAD > 기업뉴스,지난달 말 산업통상자원부는 ESS 관련 산업 도약을 위해 민·관·학계가 함께하는 '...,"산업부, 신산업 규제 대폭 손질… 할인 기간 늘려 기업 투자 활성\n'ESS 융합 ...",http://image.chosun.com/sitedata/image/201609/...,http://news.chosun.com/site/data/html_dir/2016...,chosun,2016090501185,2016-09-04 23:24:00,ESS 할인 요금제 기간 10년으로,0,"[-0.010411064433675359, -0.010700426667365417,..."


## Choose Best Cluster
1. Cluster size < 500
2. Recent published
3. Minimum inertia

### Compare best cluster

In [62]:
sample_silhouette_values = silhouette_samples(x_list_10d, labels)
sample_silhouette_score = []
best_cluster = []
cluster_num = best_k

for i in range(cluster_num):
    ith_cluster_silhouette_values = \
        sample_silhouette_values[labels == i]
        
    print('Cluster %d: ' % (i + 1), abs(ith_cluster_silhouette_values.mean()))
    sample_silhouette_score.append(abs(ith_cluster_silhouette_values.mean()))

sample_silhouette_score.sort()
sample_silhouette_score = sample_silhouette_score[:8]

Cluster 1:  0.00961884620919
Cluster 2:  0.0212616670536
Cluster 3:  0.272663224706
Cluster 4:  0.228436269399
Cluster 5:  0.0493090627147
Cluster 6:  0.282643845803
Cluster 7:  0.0534744345398
Cluster 8:  0.230344292583
Cluster 9:  0.103958259459
Cluster 10:  0.016690414179
Cluster 11:  0.121631960119
Cluster 12:  0.141472186759
Cluster 13:  0.133416583816
Cluster 14:  0.190304604249
Cluster 15:  0.309731105291
Cluster 16:  0.0187654905993
Cluster 17:  0.103949137684
Cluster 18:  0.366946161523
Cluster 19:  0.18713714927
Cluster 20:  0.0150458296667
Cluster 21:  0.0124724787646
Cluster 22:  0.331535249665


In [63]:
for i in range(cluster_num):
    ith_cluster_silhouette_values = \
        sample_silhouette_values[labels == i]
        
    if abs(ith_cluster_silhouette_values.mean()) in sample_silhouette_score:
        best_cluster.append(i+1)
        
best_cluster

[1, 2, 5, 7, 10, 16, 20, 21]

In [67]:
cluster_data = []

for cluster_index in range(cluster_num):
    if cluster_index in best_cluster:
        cluster_data.append(train[train['cluster'] == cluster_index])
    
for i, d in enumerate(cluster_data):
    print('Cluster %d:' % (i + 1), 'Size %d' % (len(d)))

    display(d[['title', 'category']].sample(min(10, len(d))))
    print('\n\n')

Cluster 1: Size 28


Unnamed: 0,title,category
1830,사설압수수색 받는 민정수석이 현직에 있는 게 정상인가,뉴스 > 정치 > 정치일반
2149,전직 경찰 총경 경찰 멱살 잡은 한선교 의원 고발할 것,정치 > 국회·정당
2352,박 대통령 러시아중국미국 연쇄 정상회담,정치 > 청와대
773,온라인 당원 위세에 친문의원들도 꼼짝못하네,정치 > 국회ㆍ정당
2128,박 대통령 5일 오전 시진핑 주석과 한중 정상회담,정치 > 청와대
2511,포토못배운 표난다는 의원님 배운 티는 이런건가요,정치 > 국회·정당
883,친문 독식 이끈 온라인 파워에 말조심하는 의원들,정치 > 국회ㆍ정당
2415,청주대 학생들 학교 정상화 위한 언론 독립선언,사회 > 전국
2517,민병두 의원 정의기억재단에 1천만원 기부,정치 > 국회·정당
2577,9월45일 항저우 G20 정상회의 때 한중 정상회담 열릴 듯,정치 > 외교





Cluster 2: Size 49


Unnamed: 0,title,category
2016,사회공헌 Together우리다문화장학재단 출범 총 2380명에 장학금,뉴스 > 경제 > 기업·CEO
2788,아기 울음소리 들리는 사회를 위해 신혼부부 지원 패키지 마련,경제 > 경제일반
1993,사회공헌 Together매년 영업이익 3 이상 사회공헌사업에 지출,뉴스 > 경제 > 기업·CEO
2001,사회공헌 Together푸르메재단 넥슨어린이재활병원에 200억 기부,뉴스 > 경제 > 기업·CEO
1995,사회공헌 Together출산 장려아동학대 근절에 온힘,뉴스 > 경제 > 기업·CEO
2018,사회공헌 Together기업 CEO단체장 명예이장 위촉해 마을에 활력,뉴스 > 경제 > 기업·CEO
1992,사회공헌 Together국내 산지 농산물 활용 농가와의 상생 힘써,뉴스 > 경제 > 기업·CEO
2002,사회공헌 Together임직원 교육 기부 미래 소프트웨어 인재 육성,뉴스 > 경제 > 기업·CEO
2014,사회공헌 Together서울 중구청에 소외 계층 생계비 1억 원 전달,뉴스 > 경제 > 기업·CEO
2000,사회공헌 Together국립묘지와 1사1묘역 자매결연 맺어 나라사랑,뉴스 > 경제 > 기업·CEO





Cluster 3: Size 49


Unnamed: 0,title,category
1617,2017 대입수시 필승전략지식서비스공대 신설 80 수시서 뽑아,뉴스 > 사회 > 교육
1619,2017 대입수시 필승전략화공생명공소프트웨어 등 공과대학 5개 학부로 재편성,뉴스 > 사회 > 교육
1637,2017 대입수시 필승전략농어촌학생전형 희망나눔전형 지원 자격 확대,뉴스 > 사회 > 교육
1604,2017 대입수시 필승전략학교전형 교과성적 우수자 유리 학종전형 내신생활기록부 챙겨야,뉴스 > 사회 > 교육
1610,2017 대입수시 필승전략학생부종합전형 면접자기소개서 폐지,뉴스 > 사회 > 교육
1622,2017 대입수시 필승전략융합특성화 자유전공학부 신설 미래인재 82명 선발,뉴스 > 사회 > 교육
1615,2017 대입수시 필승전략지역학생 학생부교과종합 중복 지원,뉴스 > 사회 > 교육
1631,2017 대입수시 필승전략총 3268명 선발 신설 소프트웨어융합학과 주목,뉴스 > 사회 > 교육
1616,2017 대입수시 필승전략적성우수자 학생부 60적성고사 40,뉴스 > 사회 > 교육
1646,2017 대입수시 필승전략학생부교과전형 확대 수험생 서류면접 부담 줄여,뉴스 > 사회 > 교육





Cluster 4: Size 32


Unnamed: 0,title,category
2684,새누리당 사드 배치 당론 박수 통과,정치 > 국회·정당
2960,사드 배치와 생화학무기 실험제조실 철회하라,사회 > 전국
107,박대통령 북핵 제거되면 사드 필요없어,정치 > 외교
250,우병우 거론땐 잠잠 공수처 나오자 웅성 사드에 폭발,정치 > 국회ㆍ정당
1016,푸틴에 한러 상생 강조 사드 우군 만든다,뉴스 > 정치 > 정치일반
2805,사드 불똥 튄 경북 김천에서도 3000명 모여 촛불집회,사회 > 전국
2546,세상 읽기 사드 반대가 아니라 비핵화다 서재정,사설.칼럼 > 칼럼
1438,압박나선 여 사드 찬성 당론 만장일치 신중모드 추미애 민생은 민생 사드는 사드,뉴스 > 정치 > 정치일반
525,통도사 스님 북이 핵개발 난리인데 걱정 문재인 사드는 최후의 수단 최선 아니다,정치
2978,세월호백남기사드 언론 피해자 증언대 서다,사회 > 미디어





Cluster 5: Size 51


Unnamed: 0,title,category
761,땅 땅 오늘의 판결 농약 사이다로 6명 사상 대법 할머니에 무기징역,사회 > 법원ㆍ검찰ㆍ경찰
1678,오늘의 채널A후한말 황실 고부간 암투,뉴스 > 연예 > 방송/연예일반
1749,오늘의 장면8월30일스위스 천하장사 탄생,뉴스 > 스포츠 > 스포츠일반
1190,오늘의 채널A탈북미녀들 씨름대회에 도전,뉴스 > 연예 > 방송/연예일반
275,오늘의 운세 9월 2일 금요일음력 8월 2일 정해,문화 > 오늘의 운세
1210,오늘의 채널A김재수 부동산 의혹 여야 공방,뉴스 > 연예 > 방송/연예일반
127,갤노트7 오늘부터 대리점서 환불기종 교체 가능,경제 > IT
1546,오늘의 장면8월31일30년간 부인하더니 마라도나 내 아들,뉴스 > 스포츠 > 스포츠일반
788,오늘의 운세 8월 30일 화요일음력 7월 28일 갑신,문화 > 오늘의 운세
638,원성진 오늘 커제와 결승행 최종 결판,스포츠ㆍ연예 > 스포츠 > 종합 > 바둑





Cluster 6: Size 25


Unnamed: 0,title,category
143,만물상 C형 간염,사설ㆍ칼럼 > 내부칼럼 > 만물상
1425,사설세 번째 콜레라 발생 보건당국 초기대응 또 뚫렸나,뉴스 > 사회 > 보건·복지
1033,이번엔 대학병원서 C형 간염 감염 사태,뉴스 > 사회 > 사회일반
2385,종합병원인 건국대 충주병원에서도 C형 간염 3명 발생,사회 > 의료·건강
2423,거제 콜레라 환자 3명은 같은 종류의 균에 감염,사회 > 의료·건강
2640,경남 거제에서 3번째 콜레라 환자 나와,사회 > 의료·건강
1899,테니스 엘보 환자 10명 중 6명이 40 50대,뉴스 > IT/의학 > 건강
1467,암환자 세균감염 예방주사 부담 84만 4만원,뉴스 > 사회 > 사회일반
1243,거제서 세 번째 콜레라 환자,뉴스 > 사회 > 보건
2399,C형 간염 예방접종 없지만 치료율은 최대 90,사회 > 의료·건강





Cluster 7: Size 29


Unnamed: 0,title,category
2953,대전시 고도정수처리시설 준공식,사회 > 전국
372,여야 오늘 본회의서 추경 처리키로,정치
2836,정진석 야당 추경 처리 않으면 구조조정백남기 청문회 안돼,정치 > 정치일반
2314,여야 합의한 추경교육청에 2천억 누리과정 간접 지원,정치 > 국회·정당
1007,아무 일도 안한 정기국회 첫날,뉴스 > 정치 > 정치일반
1437,반칙왕 야당 부실 추경안 이정현추미애 체제 하루만에 충돌,뉴스 > 정치 > 정치일반
2169,국회 하루만에 정상화 추경 처리,정치 > 정치일반
2915,국회 교문위 추경 누리예산 야 단독 처리여 날치기,정치 > 국회·정당
2047,정기국회 전운 고조 노동검찰개혁 등 곳곳 지뢰,정치 > 국회·정당
906,찾아가는 뱅킹 서비스 은행 업무 대부분 현장에서 바로 처리,경제 > 재테크





Cluster 8: Size 69


Unnamed: 0,title,category
2330,9월 2일 인사,사회 > 인사
1121,인사인천환경공단,뉴스 > 사람속으로 > 인사일반
1336,인사아주대병원,뉴스 > 사람속으로 > 인사일반
1327,인사한국감정원,뉴스 > 사람속으로 > 인사일반
1338,인사한겨레신문,뉴스 > 사람속으로 > 인사일반
331,인사 황주호 한국원자력학회장 취임 외,사회 > 인물 > 인사
1333,인사서울여대,뉴스 > 사람속으로 > 인사일반
1915,인사국가보훈처,뉴스 > 사람속으로 > 인사일반
1331,인사강북삼성병원,뉴스 > 사람속으로 > 인사일반
1119,인사인천시,뉴스 > 사람속으로 > 인사일반







### Compare full cluster

In [31]:
cluster_data = []

for cluster_index in range(cluster_num):
    cluster_data.append(train[train['cluster'] == cluster_index])
    
for i, d in enumerate(cluster_data):
    print('Cluster %d:' % (i + 1), 'Size %d' % (len(d)))

    display(d[['title', 'category']].sample(min(10, len(d))))
    print('\n\n')

Cluster 1: Size 788


Unnamed: 0,title,category
2500,NH투자증권 세계적 투자은행 에버코어와 손잡아,경제 > 증권
910,은퇴 설계 늦었다고 생각할 때가 가장 빠른 시기,경제 > 재테크
19,국내 최대 규모 지상군 전시회,사회 > 국방
2444,법원 유우성 대북송금 기소는 공소권 남용검찰의 보복 기소 인정,사회 > 사회일반
2082,조달청 마피아 오명 조우회 순수 친목단체로 전환,사회 > 전국
1028,글로벌 특허괴물 2800여개 활개 툭하면 로열티 내라 경고장,뉴스 > 경제 > 경제일반
2470,이재오 우병우 놔두고 언론과 전면전하는 나쁜 권력,정치 > 정치일반
1768,한옥에 살다장명희요즘 한옥들 왜 판박이 모양일까,뉴스 > 문화 > 사설/칼럼
425,공항홍대공항 환승시간이 즐거워졌다,경제
199,멕시코 트럼프에게 이용당했다 부글부글,국제 > 미국ㆍ중남미





Cluster 2: Size 28


Unnamed: 0,title,category
524,의원 불체포특권 이번엔 손보나,정치 > 국회ㆍ정당
2128,박 대통령 5일 오전 시진핑 주석과 한중 정상회담,정치 > 청와대
773,온라인 당원 위세에 친문의원들도 꼼짝못하네,정치 > 국회ㆍ정당
2149,전직 경찰 총경 경찰 멱살 잡은 한선교 의원 고발할 것,정치 > 국회·정당
2831,우상호 김진태 동료 의원으로서 치욕스럽다,정치 > 정치BAR
1830,사설압수수색 받는 민정수석이 현직에 있는 게 정상인가,뉴스 > 정치 > 정치일반
2690,두테르테 초법적 살인에 맞선 강심장 의원,국제 > 아시아·태평양
365,한중한미 정상회담 잇달아 열릴 듯,정치 > 외교
2142,막말한다 인천 시의원 2명 술 취해 몸싸움,사회 > 사회일반
520,61개국 의원 참여 단체 서울서 북인권 규탄,정치 > 외교





Cluster 3: Size 49


Unnamed: 0,title,category
2009,사회공헌 Together캄보디아 중국 베트남 글로벌 교육지원,뉴스 > 경제 > 기업·CEO
2903,콜롬비아 반군 사회복귀 순탄할까,국제 > 미국·중남미
2015,사회공헌 Together다문화센터 다린 운영 통해 한국 정착 지원,뉴스 > 경제 > 기업·CEO
2017,사회공헌 Together35t 트럭 개조 홀몸노인 위한 밥차 운영,뉴스 > 경제 > 기업·CEO
2001,사회공헌 Together푸르메재단 넥슨어린이재활병원에 200억 기부,뉴스 > 경제 > 기업·CEO
1998,사회공헌 Together146개 복지시설에 태양광 발전설비 해피 선샤인,뉴스 > 경제 > 기업·CEO
1381,MCM 40돌 사회공헌 캠페인 클러치백 팔아 디자이너 후원,뉴스 > 경제 > 경제일반
329,플라자 바른 과학기술사회 실현을 위한 국민연합 제104차 오픈포럼 개최 외,사회 > 인물 > 동정
1348,박제균의 휴먼정치내부자들의 주술에 걸린 사회,뉴스 > 정치 > 정치일반
484,흡연은 개인 문제 아닌 사회적 재난,사회 > 인물 > 사람들





Cluster 4: Size 55


Unnamed: 0,title,category
1540,부고최상태 별세송건자 남편상동훈 병훈 부친상,뉴스 > 사람속으로 > 인사일반
1112,부고김의식 별세학정 주심 부친상권진영 시부상,뉴스 > 사람속으로 > 인사일반
1736,부고김두열 준호 모친상,뉴스 > 사람속으로 > 인사일반
1741,부고전병문 모친상,뉴스 > 사람속으로 > 인사일반
951,부고김선호 민호 모친상,뉴스 > 사람속으로 > 인사일반
1099,부고1984년 KS 7차전 역전 3점포 롯데 우승 주역 유두열 전코치,뉴스 > 사람속으로 > 인사일반
1318,부고박철 훈 민아 부친상,뉴스 > 사람속으로 > 인사일반
80,부음 권덕준 별세 외,사회 > 인물 > 부음
1108,부고신운영 부친상,뉴스 > 사람속으로 > 인사일반
1742,부고정재훈 수연 부친상장만석 장인상박경미 시부상,뉴스 > 사람속으로 > 인사일반





Cluster 5: Size 30


Unnamed: 0,title,category
2195,사설 새누리당의 좌충우돌 국회 운영 위태롭고 걱정된다,사설.칼럼 > 사설
2647,정운호 금품수수 의혹 현직 부장판사 소환 조사,사회 > 사회일반
2435,경찰조사 통해 밝히겠다성폭행 피소 엄태웅 경찰출석,사회 > 사회일반
2059,클린턴의 모르쇠FBI 조사 불리한 질문엔 39차례나 기억 안 나,국제 > 미국·중남미
2818,전두환 대기업 부동산 조사만 하고 끝재벌 압박 목적,경제 > 부동산
2221,삼성전자 오후 5시 갤럭시노트7 조사 결과리콜 발표,경제 > 경제일반
1705,대구지하철 생존자 30명 뇌 5년간 추적조사 트라우마서 탈출과정 밝혀내,뉴스 > IT/의학 > 정보/과학일반
1924,인사국회사무처 외,뉴스 > 사람속으로 > 인사일반
2227,검찰 김한표 새누리당 국회의원 소환 조사,사회 > 전국
1912,인사국회입법조사처,뉴스 > 사람속으로 > 인사일반





Cluster 6: Size 49


Unnamed: 0,title,category
1623,2017 대입수시 필승전략학생부종합전형 선발 늘리고 교사추천서 폐지,뉴스 > 사회 > 교육
1619,2017 대입수시 필승전략화공생명공소프트웨어 등 공과대학 5개 학부로 재편성,뉴스 > 사회 > 교육
1624,2017 대입수시 필승전략지난해 취업률 832로 전국 1위,뉴스 > 사회 > 교육
1614,2017 대입수시 필승전략학생부교과전형 도입 융합전공학부도 신설,뉴스 > 사회 > 교육
1607,2017 대입수시 필승전략교과우수자전형 신설 134명 뽑아,뉴스 > 사회 > 교육
1638,2017 대입수시 필승전략신설 소프트웨어융합대 337명 모집,뉴스 > 사회 > 교육
1620,2017 대입수시 필승전략수능 최저기준 폐지 학생부 전형 확대,뉴스 > 사회 > 교육
749,2017 대입 수시 입학전형 숭실대홍익대,사회 > 교육ㆍ시험 > 대학입시
1622,2017 대입수시 필승전략융합특성화 자유전공학부 신설 미래인재 82명 선발,뉴스 > 사회 > 교육
1637,2017 대입수시 필승전략농어촌학생전형 희망나눔전형 지원 자격 확대,뉴스 > 사회 > 교육





Cluster 7: Size 28


Unnamed: 0,title,category
890,당원 65가 조직적으로 움직였다 친문당의 완성,정치 > 국회ㆍ정당
2613,친문 일색 더민주 약인가 독인가벌써부터 파열음,정치 > 정치BAR
1262,영남대 자동차 기능안전 SW연구센터 문열어,뉴스 > 사회 > 지방뉴스
683,이익현 법제연구원장,사회 > 인물 > 사람들
1831,새누리 친박당 이어 더민주 친문당 정계개편 꿈틀,뉴스 > 정치 > 정치일반
772,더민주 사무총장 안규백 정책위의장엔 윤호중,정치 > 국회ㆍ정당
887,더민주 전대 날 제3세력론 불 지피는 국민의당,정치 > 국회ㆍ정당
2523,한상균 민주노총 위원장 사의 표명,사회 > 노동
886,새로 뽑힌 더민주 최고위원 8명 프로필,정치 > 국회ㆍ정당
1087,사이언스 브리핑한국극지연구진흥회와 동아사이언스 외,뉴스 > IT/의학 > 정보/과학일반





Cluster 8: Size 32


Unnamed: 0,title,category
2960,사드 배치와 생화학무기 실험제조실 철회하라,사회 > 전국
497,북 SLBM 지상배치도 가능 한국은 사드 포대 2개 필요,사회 > 국방
2910,사드 제3지역 찬성 집회에 성주군 개입 논란,정치 > 국방·북한
2199,크리틱 사드 한류 청년 이명원,사설.칼럼 > 칼럼
1438,압박나선 여 사드 찬성 당론 만장일치 신중모드 추미애 민생은 민생 사드는 사드,뉴스 > 정치 > 정치일반
889,추미애 사드반대 당론 나서자 정진석 사드배치 당론 나섰다,정치 > 국회ㆍ정당
1672,한미 사드 제3후보지 3곳 현장 실사,뉴스 > 정치 > 국방
2829,새누리당 의총서 박수로 사드 당론 채택,정치 > 정치일반
2970,사드 제3지역 찬성 집회에 성주군 개입 논란,사회 > 전국
2546,세상 읽기 사드 반대가 아니라 비핵화다 서재정,사설.칼럼 > 칼럼





Cluster 9: Size 22


Unnamed: 0,title,category
2659,구글 차량공유사업 본격 진출우버와 정면승부,경제 > 경제일반
2484,8월 소비자물가 상승률 0416개월만에 최저,경제 > 경제일반
2563,검찰 송희영 전 주필 수사 본격화,사회 > 사회일반
1363,서울 전세가율 662 44개월만에 하락세,뉴스 > 경제 > 부동산
1887,터키 시리아내전 본격 개입 쿠르드군과 충돌,뉴스 > 국제 > 국제일반
1953,한국 경제 수출침체로 내수성장 착시 고부가 창출RD로 수출회복 시급,뉴스 > 경제 > 경제일반
1144,수출 20개월만에 증가세 본격 회복으로 보긴 일러,뉴스 > 경제 > 경제일반
2388,8월 수출 20개월 만에 증가로 돌아서,경제 > 경제일반
1786,한류관련 소비재 수출 상반기 두자릿수 껑충,뉴스 > 경제 > 기업
2466,이게 얼마만 8월 수출 20개월 만에 증가,경제 > 경제일반





Cluster 10: Size 58


Unnamed: 0,title,category
2214,탄식 나오는 사회단식 내몰린 사람들,사회 > 사회일반
1720,단독빈 필만의 특색 잘 살리는 사람이 좋은 지휘자,뉴스 > 문화 > 음악
119,독일 가는 안철수 선진 경제 배우겠다,정치
1782,경제 카페스스로 신뢰 깎아먹은 오락가락 기재부,뉴스 > 경제 > 경제일반
616,김철중의 생로병사 사소한 충격에도 사달 나는 사람의 몸,사설ㆍ칼럼 > 리스트칼럼 > 전문기자칼럼
1708,한수원 경주 이전후 지역사회 활력 서라벌 경제지도 다시 그린다,뉴스 > 경제 > 경제일반
1157,경제계 인사크록스 한국지사장 조세프씨,뉴스 > 경제 > 경제일반
1947,호가 올리는 집주인들 마음 급해진 살 사람들,뉴스 > 경제 > 경제일반
192,빈자의 성녀가 남긴 사랑 눈앞의 사람과 지금 나누세요,문화 > 종교ㆍ학술
1963,한에콰도르 경제협정 협상 재개,뉴스 > 경제 > 경제일반





Cluster 11: Size 51


Unnamed: 0,title,category
343,오늘의 날씨 2016년 9월 1일,사회 > 날씨
1601,오늘의 운세8월31일,뉴스 > 문화 > 문화 일반
1436,오늘의 채널A연기학원 찾은 김구라,뉴스 > 연예 > 방송/연예일반
1550,오늘의 스타8월31일두산 에반스 복귀전서 홈런 두방,뉴스 > 스포츠 > 스포츠일반
1012,오늘의 채널A반려견 위한 노래 만들기,뉴스 > 연예 > 방송/연예일반
761,땅 땅 오늘의 판결 농약 사이다로 6명 사상 대법 할머니에 무기징역,사회 > 법원ㆍ검찰ㆍ경찰
127,갤노트7 오늘부터 대리점서 환불기종 교체 가능,경제 > IT
1189,오늘의 채널A협치 없는 국회 해법은,뉴스 > 연예 > 방송/연예일반
1985,오늘의 운세8월29일,뉴스 > 문화 > 문화 일반
606,오늘의 날씨 2016년 8월 30일,사회 > 날씨





Cluster 12: Size 34


Unnamed: 0,title,category
2266,강정호 트리플A 재활경기서 홈런 폭발,스포츠 > 스포츠일반
41,내일의 경기 2016년 9월 4일,스포츠ㆍ연예 > 스포츠 > 종합
1432,재정으로 경기 살리기 내년 400조 슈퍼예산,뉴스 > 정치 > 정치일반
2062,경기조작올림픽폭염에도 700만 관중 쏘다,스포츠 > 야구·MLB
166,내년 9월까지 10경기 상위 4팀 월드컵 직행,스포츠ㆍ연예 > 스포츠 > 축구
844,전북 28경기 무패행진,스포츠ㆍ연예 > 스포츠 > 축구 > 프로축구
1249,경기 생활임금 2019년까지 1만원으로 인상,뉴스 > 사회 > 지방뉴스
1552,오늘의 경기8월31일프로야구,뉴스 > 스포츠 > 스포츠일반
42,스포츠 브리핑 강정호 재활 경기서 홈런 터트려,스포츠ㆍ연예 > 스포츠 > 종합
2628,경기 용인에 카바나 품은 아파트 첫선,경제 > 경제일반





Cluster 13: Size 43


Unnamed: 0,title,category
137,피아니스트 백건우의 선물,사회 > 카드뉴스
1039,마음만받겠습니다 김영란법 앞둔 추석 백화점 등 콜센터 확인단계서부터 선물 안받겠다 거절,뉴스 > 사회 > 정치일반
1266,김영란법 수혜 삼진어묵 명절선물로 인기,뉴스 > 사회 > 지방뉴스
1365,추석 한복 직접 만들어요,뉴스 > 경제 > 경제일반
303,70주년 춘천마라톤이 준비한 특별한 선물,스포츠ㆍ연예 > 스포츠 > 종합
2660,경기 나빠도 역시 한가위택배물류업계 추석 전쟁,사회 > 사회일반
1390,LoveGift녹용 아시죠 녹용을 업그레이드 한 구전녹용 건강을 선물하세요,뉴스 > 경제 > 기업·CEO
261,고르기 어려운 명절 선물 품격실속 한 번에,경제 > 유통ㆍ소비자
1389,LoveGift올 추석 선물 키워드는 실용성,뉴스 > 경제 > 기업·CEO
2246,추석 차례상 음식 배달 서비스배민프레시 13일까지 주문받아,경제 > 쇼핑·소비자





Cluster 14: Size 49


Unnamed: 0,title,category
93,강만수 특혜대출 개입 의혹 한성기업 압수수색,사회 > 법원ㆍ검찰ㆍ경찰
2031,Economic Review기업공감 원스톱서비스 우리 기업의 혁신을 돕는다,뉴스 > 경제 > 경제일반
1362,대기업 순환출자 1년반새 80 해소,뉴스 > 경제 > 기업
1171,기업인태양광 발전기술 독보적 직원 행복이 최우선,뉴스 > 경제 > 기업·CEO
2042,Economic Review기업이 원하는 에이스 인재를 배출하는 대학,뉴스 > 사회 > 교육
602,하반기 취업시즌 시작 대기업 채용 설명회박람회,nativeAD > 기업뉴스
350,포스텍 기업 추천 인력으로 교수 30 채용,사회 > 교육ㆍ시험
2882,한국 기업이 테슬라에서 배울 혁신은,경제 > 경제일반
1174,기업인정도외길상생이 힘 성공비결은 틈새시장 공략,뉴스 > 경제 > 기업·CEO
500,강남패치 뒤엔 기업회장 외손녀 향한 질투,사회 > 사건ㆍ사고





Cluster 15: Size 34


Unnamed: 0,title,category
849,팔면봉 새누리당은 전남 출신 대표 더민주는 대구 출신 대표 외,사설ㆍ칼럼 > 내부칼럼 > 팔면봉
1683,이승만 참배하고 건국절 비판하고 추미애 대표 이중 포석,뉴스 > 정치 > 정당
252,당대표가 복당 문제없다는데 자리 박찬 친박 최고위원,정치
306,월드컵대표팀 6일 시리아전 마카오 개최 취소,스포츠ㆍ연예 > 스포츠 > 축구
2372,쪽지뉴스패럴림픽 대표팀 리우 입성,스포츠 > 스포츠일반
1840,호남 여대표 vs TK 야대표 대선 관리자 첫 결전지는 호남,뉴스 > 정치 > 정치일반
2642,백화점 대표님의 갑질 폭행 혐의로 벌금,사회 > 사회일반
576,일평균 구인 22만건 대한민국 대표 취업 포털,경제 > 유통ㆍ소비자
1220,대표 언론인 일탈행위 사과,뉴스 > 사회 > 사회일반
1973,한식재단 평창 올림픽서 대표한식 홍보,뉴스 > 경제 > 경제일반





Cluster 16: Size 85


Unnamed: 0,title,category
724,일반학생전형 수능 최저학력기준 폐지,사회 > 교육ㆍ시험 > 대학입시
747,학생부종합 일반 3단계서 수능 최저학력 적용,사회 > 교육ㆍ시험 > 대학입시
414,사설 학생수 주는데 계속 늘기만 하는 교육 예산,사설ㆍ칼럼 > 내부칼럼 > 사설
2844,가톨릭관동대학교 전체 모집인원의 80 1791명 선발,사회 > 교육
2809,학령인구 감소 속 다문화 학생은 20 증가올 10만명,사회 > 교육
744,적성SDA추천전형 학생부 60적성고사 40,사회 > 교육ㆍ시험 > 대학입시
709,학생부종합전형 사범대 지원자 교사 추천서 필요,사회 > 교육ㆍ시험 > 대학입시
2807,대학 기숙사 위약금 과다부과학생부재시 방점검 아웃,경제 > 경제일반
752,학생종합전형 면접고사 없이 100 서류평가,사회 > 교육ㆍ시험 > 대학입시
716,적성 검사 중심 전형 폐지 일반kit인재전형 확대,사회 > 교육ㆍ시험 > 대학입시





Cluster 17: Size 25


Unnamed: 0,title,category
1031,환자 3명 연관성 없는 거제 콜레라 감염경로 깜깜,뉴스 > 사회 > 사회일반
657,C형간염 관리 구멍 25만명 치료 없이 지낸다,사회 > 의료ㆍ보건
243,한 줄 뉴스 건국대 충주병원서 C형간염 3명 발생 외,사회
2950,콜레라 왜 2명만 풀리지 않는 의문들,사회 > 의료·건강
2939,메르스 환자 발생한 병원명 일찍 공개했더라면,사회 > 의료·건강
2625,올해 첫 일본뇌염 환자 발생,사회 > 의료·건강
1905,국내 11번째 지카 바이러스 환자 발생,뉴스 > IT/의학 > 건강
1425,사설세 번째 콜레라 발생 보건당국 초기대응 또 뚫렸나,뉴스 > 사회 > 보건·복지
1243,거제서 세 번째 콜레라 환자,뉴스 > 사회 > 보건
2637,일본 뇌염 환자 광주서 올해 첫 발생,사회 > 전국





Cluster 18: Size 37


Unnamed: 0,title,category
2290,한진해운 선박 수에즈운하 통과 거부돼,경제 > 경제일반
2980,법정관리 초읽기 한진해운이 현대상선과 다른 점은,경제 > 경제일반
2580,한진해운 선박 외국 항구서 가압류와 입항 거부 잇따라,경제 > 경제일반
2890,해운 빅2 운명 왜 갈렸을까,경제 > 경제일반
1430,국내 1위 한진해운 끝내 법정관리로,뉴스 > 경제 > 정치일반
2293,법원 신청 하루만에 결정한진해운 회생절차 개시,경제 > 경제일반
2369,기고 한진해운 법정관리의 손익 계산 김우호,사설.칼럼 > 칼럼
2573,국내 1위 국적선사 한진해운 법정관리 이후 어떻게 될까,경제 > 경제일반
609,사설 퇴출 위기 몰린 한진해운 합병까지 검토해봐야,사설ㆍ칼럼 > 내부칼럼 > 사설
2570,정부 한진해운 청산 가능성에 무게 둬,경제 > 경제일반





Cluster 19: Size 24


Unnamed: 0,title,category
1951,데스크 진단불안한 미래와 폴리네시아인의 비만,뉴스 > 경제 > 경제일반
175,불안한 현실 예술에 미래를 묻다,문화 > 전시ㆍ공연 > 전시
930,미래부 갑질 간부 직위해제,뉴스 > 사회 > 사회일반
704,줄기세포재생ICT융합미래자동차 공학과 대거 신설,사회 > 교육ㆍ시험 > 대학입시
1079,예술의 본질을 직시하고 그 미래를 엿보다,뉴스 > 문화 > 문화 일반
1478,게시판과학축전과학 대구의 미래를 열다 외,뉴스 > 사회 > 지방뉴스
940,인사미래창조과학부,뉴스 > 사람속으로 > 인사일반
1568,알립니다신기후체제 미래 에너지 세미나에 초대합니다,뉴스 > 경제 > 경제일반
1590,간추린 뉴스미래부 첨단우주기술기반 사업 6개팀 지원 외,뉴스 > 경제 > 경제일반
2024,공감 감동경영공간정보 융복합 산업의 미래 체험하세요,뉴스 > 경제 > 기업·CEO





Cluster 20: Size 1449


Unnamed: 0,title,category
1078,김주원의 독서일기새로운 시작은 익숙한 것과의 결별,뉴스 > 문화 > 문화 일반
1143,한진해운발 물류 쇼크 운임 48 폭등,뉴스 > 경제 > 경제일반
2140,흉기난동 전 남편 목졸라 죽인 여성대법 정당방위 아냐,사회 > 사회일반
2571,김기춘이정현 등 증인 대거 불참120석 좁은 공간에 밀린 세월호 3차 청문회,사회 > 사회일반
2275,지동원이 날았다,스포츠 > 축구·해외리그
2930,사설 속으로 한겨레중앙일보 정운호 게이트 법조 비리 사설 비교해보기,사회 > 교육
1547,베이스볼 비키니선수는 노오력 지나 덕력의 시대로 가는데,뉴스 > 스포츠 > 스포츠일반
439,오승환 시즌 14세이브,스포츠ㆍ연예 > 스포츠 > 야구 > MLB > 코리안리거
289,한현우의 팝 컬처 위대한 코미디언들의 시대,사설ㆍ칼럼 > 내부칼럼 > 한현우의 팝 컬처
831,경주 신라왕경 복원 사업 2035년까지 1조4749억 투입,문화





Cluster 21: Size 29


Unnamed: 0,title,category
174,팔면봉 20대 첫 정기국회 개막날부터 국회의장 발언 정파성 논란으로 파행 외,사설ㆍ칼럼 > 내부칼럼 > 팔면봉
2836,정진석 야당 추경 처리 않으면 구조조정백남기 청문회 안돼,정치 > 정치일반
2165,새누리당의 강경투쟁 속에서도 막후접촉추경안 처리 도출,정치 > 국회·정당
2953,대전시 고도정수처리시설 준공식,사회 > 전국
906,찾아가는 뱅킹 서비스 은행 업무 대부분 현장에서 바로 처리,경제 > 재테크
1204,사설20대 첫 정기국회 파행 이젠 정의장까지 민생에 재 뿌리나,뉴스 > 정치 > 정치일반
2169,국회 하루만에 정상화 추경 처리,정치 > 정치일반
899,꽃도 정기구독 시대,경제 > 기업
249,100일간의 정기국회 대선 앞둬 곳곳 지뢰밭,정치 > 국회ㆍ정당
2515,추경 처리 9월 정기국회로 넘어간다,정치 > 국회·정당





Cluster 22: Size 69


Unnamed: 0,title,category
1158,경제계 인사대한건설협회 외,뉴스 > 경제 > 경제일반
1121,인사인천환경공단,뉴스 > 사람속으로 > 인사일반
1334,인사아주대,뉴스 > 사람속으로 > 인사일반
1118,인사한국철도기술연구원,뉴스 > 사람속으로 > 인사일반
1094,인사해양수산부,뉴스 > 사람속으로 > 인사일반
1331,인사강북삼성병원,뉴스 > 사람속으로 > 인사일반
1376,인사중소기업중앙회,뉴스 > 사람속으로 > 인사일반
1120,인사인천교통공사,뉴스 > 사람속으로 > 인사일반
1531,인사행정자치부,뉴스 > 사람속으로 > 인사일반
2071,9월 5일 인사,사회 > 인사





