[박현우] 간단한 클러스터링 예제
========================

이 노트북에서는 클러스터링을 하는 방식을 간단하게 다뤄봅니다.

In [1]:
%matplotlib inline
from IPython.display import display, HTML

import matplotlib
krfont = {'family' : 'nanumgothic', 'weight' : 'bold', 'size'   : 10}
matplotlib.rc('font', **krfont)

In [2]:
import numpy as np
import pandas as pd
from tqdm import tqdm_notebook as tqdm

In [3]:
from multiprocessing import Pool
import multiprocessing

cores = multiprocessing.cpu_count()

In [4]:
chosun_data = pd.read_pickle("chosun_news.df")

1. Corpus 로딩하기
---------------------

In [5]:
from konlpy.tag import Mecab, Hannanum, Twitter
mecab = Mecab()
hannanum = Hannanum()
twitter = Twitter()

In [6]:
import re, hanja
import numba

def tokenizeText(text):
    text = ' '.join(hanja.split_hanja(text))
    text = hanja.translate(text, 'substitution')
    return mecab.nouns(text)

print(tokenizeText('[사설] 美가 증거 내밀자 수사 나선 中 이중 플레이'))

['사설', '미', '증거', '수사', '나선', '중', '이중', '플레이']


In [7]:
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.WARNING)

In [8]:
from gensim import corpora

In [9]:
words = []
# using mecab
with Pool(cores) as p:
    words = list(tqdm(p.imap(tokenizeText, chosun_data['title']), total=len(chosun_data)))
# words = [tokenizeText(text) for text in tqdm(chosun_data['content'])]
dictionary = corpora.Dictionary(words)

Widget Javascript not detected.  It may not be installed properly. Did you enable the widgetsnbextension? If not, then run "jupyter nbextension enable --py --sys-prefix widgetsnbextension"





2. Doc2Vec를 이용한 문서->벡터 변환
------------------------------

In [10]:
counts = {}
for sentence in tqdm(words):
    for word in sentence:
        counts[word] = counts.get(word, 0) + 1




Widget Javascript not detected.  It may not be installed properly. Did you enable the widgetsnbextension? If not, then run "jupyter nbextension enable --py --sys-prefix widgetsnbextension"


In [11]:
counts['의']

18

In [12]:
import gensim
from gensim.models.word2vec import Word2Vec, Text8Corpus
from collections import OrderedDict
import itertools

In [13]:
import random

sentences = [gensim.models.doc2vec.LabeledSentence(
        words=words, tags=[i])
        for i, words in enumerate(words)]
tmp = [(i, sentence) for i, sentence in enumerate(sentences)]
random.shuffle(tmp)
train_set = [x[1] for x in tmp[:len(tmp) * 3 // 10]]

In [14]:
w2v_model = Word2Vec(size=64, workers=cores)
w2v_model.build_vocab(words)

In [15]:
w2v_model.train(words)

1000127

In [16]:
w2v_model.similarity('이명박', '대통령')

0.72399169342167857

* paragraph2vec의 알고리즘에서 word2vec를 쓴다.
* Word2Vec은 전체 뉴스에 대해서 하는게 어떤가. 너무 word/content 갯수가 적지 않은가.
* 전처리 과정이 필요한가?

3. sklearn을 이용한 Agglomerative Clustering
------------------------------------------

In [17]:
def vectorizeWords(ws):
    vsum = np.zeros(64)
    fsum = 0.0
    for w in ws:
        if w in w2v_model.vocab:
            f = counts[w]
            if f == 0:
                print(w)
            fsum += 1 / f
            vsum += w2v_model[w] / f
    if fsum < 0.001:
        return np.zeros(64)
    else:
        return vsum / fsum

In [18]:
vectorizeWords(['사설', '미', '증거', '수사', '나선', '중', '이중', '플레이'])

array([ 0.02326744, -0.07676168,  0.03696233,  0.00987689,  0.05502864,
        0.05866513, -0.01148869,  0.04847459, -0.16405456,  0.0139331 ,
        0.16142796, -0.00276149, -0.02363969,  0.11010678, -0.05427916,
        0.06599977,  0.15847055, -0.1199093 , -0.02340623, -0.05826076,
        0.01110925,  0.04290614, -0.11823361,  0.12032168,  0.05085335,
        0.04675043, -0.0072211 ,  0.15575176,  0.12219956,  0.08567622,
        0.02464284, -0.09451726,  0.01727629, -0.03601583,  0.0477478 ,
       -0.04698411,  0.19029253,  0.11677974,  0.11509391, -0.09544056,
        0.05337664,  0.0851169 , -0.1139282 , -0.11747369, -0.02468912,
       -0.02794749, -0.090407  , -0.11354564,  0.06161017, -0.04227237,
       -0.07465349,  0.00030149,  0.06177193,  0.13517344,  0.11186998,
       -0.03922398, -0.02496146,  0.11335936, -0.06517375,  0.07318591,
        0.03461071, -0.01050999,  0.08935292,  0.04567676])

In [19]:
content_vectors = []
for i, sentence in enumerate(tqdm(sentences)):
    v = vectorizeWords(sentence.words)
    content_vectors.append(v)
content_vectors = np.asarray(content_vectors)

Widget Javascript not detected.  It may not be installed properly. Did you enable the widgetsnbextension? If not, then run "jupyter nbextension enable --py --sys-prefix widgetsnbextension"





In [20]:
from sklearn.cluster import AgglomerativeClustering, DBSCAN, KMeans, SpectralClustering, MeanShift
from spherecluster import SphericalKMeans

In [21]:
cluster_num = 50
# cluster_model = AgglomerativeClustering(n_clusters=cluster_num, linkage="average", affinity='cosine')
# cluster_model = DBSCAN(eps=.30, min_samples=3, metric='cosine', algorithm='brute')
# cluster_model = KMeans(n_clusters=cluster_num)
cluster_model = SphericalKMeans(n_clusters=cluster_num)
# cluster_model = SpectralClustering(n_clusters=cluster_num, affinity='cosine')
# cluster_model = MeanShift(n_jobs=cores)
cluster_model.fit(content_vectors)

cluster_num = len(set(cluster_model.labels_)) - (1 if -1 in cluster_model.labels_ else 0)
print('# of clusters : %d' % cluster_num)
if -1 in cluster_model.labels_:
    noiseNum = np.sum(cluster_model.labels_ == -1)
    totNum = len(content_vectors)
    print('Noise : %d/%d (%.2f%%)' % (noiseNum, totNum, noiseNum / totNum * 100))

# of clusters : 50


In [22]:
cluster_data = []
for cluster_index in range(cluster_num):
    cluster_data.append(chosun_data[cluster_model.labels_ == cluster_index])

In [None]:
cluster_model.cluster_centers_[0]

array([ 0.00906142, -0.11755657,  0.03440735,  0.01343728,  0.08631227,
        0.08654681, -0.00665735,  0.10412623, -0.25305292,  0.04015826,
        0.25743564, -0.00388694, -0.04156394,  0.1668861 , -0.08814424,
        0.10953267,  0.23459355, -0.17656178, -0.03165278, -0.05350388,
        0.03358564,  0.05574028, -0.1952626 ,  0.17438948,  0.07549638,
        0.05782397, -0.01364027,  0.22175321,  0.1757884 ,  0.11781355,
        0.05328186, -0.14409947,  0.02025538, -0.0455035 ,  0.07910068,
       -0.07356098,  0.29458924,  0.16772723,  0.15780507, -0.12697357,
        0.07419625,  0.12043047, -0.17074333, -0.18910623, -0.01703443,
       -0.05430681, -0.12772772, -0.16863227,  0.09750941, -0.06981467,
       -0.1114451 , -0.01439235,  0.12030905,  0.1985726 ,  0.14701027,
       -0.0631576 , -0.04437923,  0.15126495, -0.10236627,  0.12339782,
        0.04960776, -0.01291204,  0.13977099,  0.07583495])

In [None]:
for i in range(cluster_num):
    print('Cluster #%d' % i)
    
    display(list(filter(
                lambda x: counts[x[0]] < 100,
                w2v_model.most_similar(
                    positive=[cluster_model.cluster_centers_[i]],
                    topn=10))))
    display(cluster_data[i][['category', 'title']].sample(10))

Cluster #0


[('미군', 0.9992335438728333),
 ('지정', 0.9989767074584961),
 ('절반', 0.9989298582077026),
 ('회계', 0.998836874961853),
 ('작전', 0.9988340139389038),
 ('합병', 0.9988318085670471),
 ('층', 0.9987736344337463),
 ('러시아', 0.9987475872039795),
 ('독일', 0.9986741542816162)]

Unnamed: 0,category,title
29512,국제,[글로벌 콕콕] 시크교도 美대위 터번·수염 소송 승리 외
35652,사회,타는 자와 걷는 자 '아찔한 동행'
44779,사회 > 국방,"南 확성기 방송 이후 ""北, 삐라 100만장 살포"""
665,사회 > 교육ㆍ시험,부동산 반짝 뜨자… 공인중개사 시험에 19만명 몰려
51980,스포츠ㆍ연예 > 스포츠 > 종합 > 동계,"'아이언 맨' 윤성빈, 金같은 銅"
5103,사회,梨大사태 23일… '느린 민주주의'의 비극
60207,사회 > 인물 > 사람들,히딩크 첫 방북… 오늘 평양 풋살구장 착공
69307,사설ㆍ칼럼 > 내부칼럼 > 오늘의 100자평,"[오늘의 100자평] ""문재인 '학자금 대출 금리 0%로'… 靑年 대책 곧 발표"""
1470,사회 > 법원ㆍ검찰ㆍ경찰,"홍만표·우병우 변론 '도나도나 사건'… 大法 ""유죄 취지로 다시 재판하라"""
11201,사회 > 법원ㆍ검찰ㆍ경찰,"[핫코너] 모기는 알고있다, 누가 범인인지"


Cluster #1


[('상상', 0.9972658157348633),
 ('순간', 0.9971310496330261),
 ('리뷰', 0.9970732927322388),
 ('죽음', 0.9968907237052917),
 ('인간', 0.9966734647750854),
 ('언니', 0.996556282043457),
 ('피부', 0.995757520198822),
 ('진짜', 0.9957261085510254)]

Unnamed: 0,category,title
52860,사설ㆍ칼럼 > 외부칼럼 > 가슴으로 읽는…,[가슴으로 읽는 동시] 키 작은 아이
46763,문화 > 북스 > 신간소개,[어린이책] 화장실 '응가'는 어디로 가는 걸까
58343,문화 > 북스,[당신의 리스트] 피아니스트 백건우의 연습이 끝난 뒤 펼치는 책 5
12053,사회 > 인물 > 사람들,"[내 인생의 100℃] ""이제 발레 밖 인생도 음미해야죠"""
122716,문화,[트렌드+] 힘들수록 찾게 된다 '무지갯빛 위로'
34835,사설ㆍ칼럼 > 외부칼럼 > 일사일언,[일사일언] 새로운 발견의 즐거움
27707,사회 > 교육ㆍ시험 > 일본어,[입에 착착 붙는 일본어] ~을 절제하다
5342,nativeAD > 삼성전자,"무난한 검은색? ""남자라면 핑크지"""
9197,사회 > 교육ㆍ시험 > 일본어,[입에 착착 붙는 일본어] 이야기를 딴 데로 돌리다
22569,사회 > 카드뉴스,[카드뉴스] 흉악범의 드러난 얼굴


Cluster #2


[('월요일', 0.9899840354919434),
 ('금요일', 0.9897873997688293),
 ('일요일', 0.989763617515564),
 ('화요일', 0.9897189736366272),
 ('토요일', 0.9879075884819031)]

Unnamed: 0,category,title
56973,사회 > 날씨,[오늘의 날씨] 2015년 11월 20일
20215,사회 > 날씨,[오늘의 날씨] 2016년 5월 24일
66144,사회 > 날씨,[오늘의 날씨] 2015년 10월 9일
14034,사회 > 날씨,[오늘의 날씨] 2016년 6월 27일
60062,사회 > 날씨,[오늘의 날씨] 2015년 11월 6일
37373,스포츠ㆍ연예 > 스포츠 > 종합,[오늘의 경기] 2016년 2월 25일
123176,스포츠ㆍ연예 > 스포츠 > 종합,[오늘의 경기] 2016년 9월 28일
655,사회 > 날씨,[오늘의 날씨] 2016년 9월 18일
12957,사회 > 날씨,[오늘의 날씨] 2016년 7월 2일
15027,스포츠ㆍ연예 > 스포츠 > 종합,[오늘의 경기] 2016년 6월 21일


Cluster #3


[('시계', 0.9993937015533447),
 ('강원', 0.9991089701652527),
 ('베이징', 0.9991000890731812),
 ('보호', 0.9990666508674622),
 ('독일', 0.9989525079727173),
 ('날개', 0.9989141225814819),
 ('공포', 0.9989113807678223),
 ('층', 0.9988776445388794),
 ('투자자', 0.9988032579421997),
 ('메르스', 0.9988014101982117)]

Unnamed: 0,category,title
43630,사회 > 의료ㆍ보건,색깔로 알려주는 혈당 수치… 5초면 결과 확인
33126,사설ㆍ칼럼 > 외부칼럼 > 발언대,[발언대] 너무 가난한 대한민국 文人들
30474,사회,"퇴근후에도 카톡, 카톡… 직장인 60% ""스마트폰 불편"""
49371,경제,[Weekly BIZ] 중국 일대일로가 성공할 수밖에 없는 이유 두 가지
51041,경제,"""거대한 변화 시작됐다는 의미… 한국은 안전"""
14767,사설ㆍ칼럼 > 내부칼럼 > 경제포커스,[경제포커스] 주가 폭락 대비하는 소로스와 아이칸
49448,사설ㆍ칼럼 > 내부칼럼 > 만물상,[만물상] 산타의 선물
9376,사회 > 법원ㆍ검찰ㆍ경찰,[Why] 동료 경찰에 권총을 빼들어?… 요즘 공무원 왜 이러나
55351,스포츠ㆍ연예 > 스포츠 > 축구,"홍명보 前감독, 중국행 급부상"
30519,경제 > 부동산,"美공군전용 하우스, 군인·가족 8만명 유입 예상"


Cluster #4


[('코레', 0.9350157976150513),
 ('경진', 0.9330222606658936),
 ('육사', 0.9313944578170776),
 ('매주', 0.924437403678894),
 ('출발점', 0.923674464225769)]

Unnamed: 0,category,title
51894,정치 > 나눔 통일,[통일나눔펀드 참여 현황] 2015년 12월 14일
39680,정치 > 나눔 통일,[통일나눔펀드 참여 현황] 2016년 2월 15일
45245,정치 > 나눔 통일,[통일나눔펀드 참여 현황] 2016년 1월 18일
56530,정치 > 나눔 통일,[통일나눔펀드 참여 현황] 2015년 11월 23일
38764,정치 > 나눔 통일,[통일나눔펀드 참여 현황] 2016년 2월 19일
58626,정치 > 나눔 통일,[통일나눔펀드 참여 현황] 2015년 11월 13일
28943,정치 > 나눔 통일,[통일나눔펀드 참여 현황] 2016년 4월 8일
35467,정치 > 나눔 통일,[통일나눔펀드 참여 현황] 2016년 3월 7일
57686,정치 > 나눔 통일,[통일나눔펀드 참여 현황] 2015년 11월 18일
47948,정치 > 나눔 통일,[통일나눔펀드 참여 현황] 2016년 1월 4일


Cluster #5


[('주필', 0.9242385625839233),
 ('중국식', 0.9137383699417114),
 ('편집', 0.8951913714408875),
 ('예절', 0.8773351907730103),
 ('산업체', 0.8652300834655762),
 ('신문협회', 0.8619397878646851)]

Unnamed: 0,category,title
36364,사회 > 교육ㆍ시험 > 생활한자,[신문으로 배우는 실용한자] 득실(得失)
22013,사회 > 교육ㆍ시험 > 생활한자,[신문으로 배우는 실용한자] 제망매가(祭亡妹歌)
16096,사회 > 교육ㆍ시험 > 생활한자,[신문으로 배우는 실용한자] 연등(燃燈)
32384,사회 > 교육ㆍ시험 > 생활한자,[신문으로 배우는 실용한자] 초충도(草蟲圖)
48248,사회 > 교육ㆍ시험 > 생활한자,[신문으로 배우는 실용한자] 무병장수(無病長壽)
31857,사회 > 교육ㆍ시험 > 생활한자,[신문으로 배우는 실용한자] 용장(勇將)
36612,사회 > 교육ㆍ시험 > 생활한자,[신문으로 배우는 실용한자] 선당후사(先黨後私)
16314,사회 > 교육ㆍ시험 > 생활한자,[신문으로 배우는 실용한자] 요물(妖物)
11182,사회 > 교육ㆍ시험 > 생활한자,[신문으로 배우는 실용한자] 오판(誤判)
50103,"사회 > 두근두근 뇌 운동, 신문은 의사선생님",[두근두근 뇌 운동] [274] 신문은 스케치북


Cluster #6


[('통학', 0.9501463174819946),
 ('기숙', 0.9501328468322754),
 ('어휘', 0.942747175693512),
 ('절대', 0.9418768882751465),
 ('언어', 0.9399248957633972),
 ('델리', 0.93730229139328),
 ('연세', 0.9365417957305908),
 ('평촌', 0.9352841377258301),
 ('토킹', 0.9348889589309692)]

Unnamed: 0,category,title
22757,사회 > 교육ㆍ시험 > 영어,[스피킹이 강해지는 영어] narrow it down to
56983,사회 > 교육ㆍ시험 > 영어,[스피킹이 강해지는 영어] Whatever makes you happy.
30461,사회 > 교육ㆍ시험 > 영어,[스피킹이 강해지는 영어] ruffle some feathers
54946,사회 > 교육ㆍ시험 > 영어,[스피킹이 강해지는 영어] start all over again
5884,사회 > 교육ㆍ시험 > 영어,[스피킹이 강해지는 영어] He has an off-putting personality.
14070,사회 > 교육ㆍ시험 > 영어,[스피킹이 강해지는 영어] You should have taken my side.
20045,사회 > 교육ㆍ시험 > 영어,[스피킹이 강해지는 영어] You're one to talk.
61373,사회 > 교육ㆍ시험 > 중국어,[스피킹이 강해지는 중국어] 실마리가 잡히다
41213,사회 > 교육ㆍ시험 > 영어,[스피킹이 강해지는 영어] hit a nerve
37490,사회 > 교육ㆍ시험 > 영어,[스피킹이 강해지는 영어] pull your socks up


Cluster #7


[('허정구', 0.984905481338501),
 ('농심', 0.9667046666145325),
 ('박돈규', 0.9571049213409424),
 ('토목', 0.9446415901184082),
 ('면적', 0.9446142911911011)]

Unnamed: 0,category,title
49616,스포츠ㆍ연예 > 스포츠 > 종합 > 바둑,[제20회 LG배 조선일보 기왕전] 수훈의 一局
123436,스포츠ㆍ연예 > 스포츠 > 종합 > 바둑,[제21회 LG배 조선일보 기왕전] 드러나는 罪過
25519,스포츠ㆍ연예 > 스포츠 > 종합 > 바둑,[제20회 LG배 조선일보 기왕전] 흑 불계승
37145,스포츠ㆍ연예 > 스포츠 > 종합 > 바둑,[제20회 LG배 조선일보 기왕전]
6948,스포츠ㆍ연예 > 스포츠 > 종합 > 바둑,[제21회 LG배 조선일보 기왕전] 정밀한 手順
21906,스포츠ㆍ연예 > 스포츠 > 종합 > 바둑,[제21회 LG배 조선일보 기왕전] 紅一點
41793,스포츠ㆍ연예 > 스포츠 > 종합 > 바둑,[제20회 LG배 조선일보 기왕전] 흑 불계승
5395,스포츠ㆍ연예 > 스포츠 > 종합 > 바둑,[제21회 LG배 조선일보 기왕전] 未生馬 각축장
61990,스포츠ㆍ연예 > 스포츠 > 종합 > 바둑,[제20회 LG배 조선일보 기왕전] 깊숙한 侵入
14444,사회 > 교통ㆍ관광ㆍ항공,새 'V字 활주로' 이착륙 횟수 2배로 늘어난다


Cluster #8


[('겨울철', 0.9785867929458618),
 ('냄새', 0.9763165712356567),
 ('달걀', 0.9718624353408813),
 ('껍질', 0.9693838953971863),
 ('속옷', 0.96842360496521),
 ('흰색', 0.9666528701782227),
 ('얼룩', 0.9665070176124573),
 ('냄비', 0.9652026295661926),
 ('객원', 0.9650499820709229)]

Unnamed: 0,category,title
58774,사회 > 리빙포인트,[리빙포인트] 와이셔츠 목때 지울 땐
6075,사설ㆍ칼럼 > 리스트칼럼 > 송희영 칼럼,[송희영 칼럼] 미국이 화내는 건 무섭지 않나
15159,사회 > 리빙포인트,[리빙포인트] 주방에 몰리는 초파리 없애려면
12468,사회 > 리빙포인트,[리빙포인트] 달걀 신선하게 보관하려면
53383,사설ㆍ칼럼 > 내부칼럼 > 기자의 시각,[기자의 시각] 한 점 부끄러움
29683,사회 > 리빙포인트,[리빙포인트] 집 안에 밴 청국장 냄새 없애는 법
2994,사회 > 리빙포인트,[리빙포인트] 욕실 비누 오래 쓰려면
123468,사회 > 리빙포인트,[리빙포인트] 환절기 비염·아토피 예방하려면
6886,사회 > 리빙포인트,"[리빙포인트] 설익은 밥, 고슬고슬하게 하려면"
51070,스포츠ㆍ연예 > 엔터테인먼트 > TV/방송 > 예능,[TV조선 ch19] 성교육에 나선 황신혜


Cluster #9


[('무대', 0.9984275102615356),
 ('안대희', 0.998355507850647),
 ('친', 0.9983426928520203),
 ('기구', 0.9982569217681885),
 ('호랑이', 0.9981874227523804),
 ('홍기택', 0.9981817007064819),
 ('상황', 0.9981433749198914),
 ('집필', 0.9981359243392944)]

Unnamed: 0,category,title
41520,사설ㆍ칼럼 > 외부칼럼 > 발언대,[발언대] '증오차별 방지법' 미루지 말라
14654,사회 > 교통ㆍ관광ㆍ항공,김해 V자 활주로… '콜럼버스의 달걀'
20350,사설ㆍ칼럼 > 내부칼럼 > 기자수첩,"[기자수첩] ""공익법인 시리즈, 그만 좀…"" 제발 저린 사람들"
18931,사설ㆍ칼럼 > 외부칼럼 > 시론ㆍ기고,[기고] 아베에게 히로시마의 정신을 묻는다
56461,사회 > 전국뉴스 > 영남 > 경남뉴스,"거제 주민들 ""대통령 당선 잔치 벌이던 때가 엊그제 같은데…"""
56166,국제,"'위안부 否定' 역사왜곡 책, 美 학자들에게 뿌린 일본"
18318,국제 > 미국ㆍ중남미,[who] 부통령 후보 떠오른 트럼프캠프 좌장… 충성도 높고 '코드' 비슷해 자주 獨對
44626,경제,"""중국서 살아남으려면 '중국에 뼈 묻겠다' 각오하라"""
22082,사회 > 카드뉴스,[카드뉴스] 정부까지 나서서 베끼는게 '창조경제'인가요
69647,사설ㆍ칼럼 > 내부칼럼 > 만물상,[만물상] 대통령의 '휴가 선물'


Cluster #10


[('귀성', 0.8826271891593933),
 ('자다', 0.880496621131897),
 ('체면', 0.8655592799186707),
 ('밤새', 0.8626766204833984),
 ('언어', 0.8499035835266113),
 ('절제', 0.8484327793121338),
 ('궁지', 0.8466356992721558),
 ('흥미', 0.8443588614463806)]

Unnamed: 0,category,title
3024,사회 > 교육ㆍ시험 > 일본어,[입에 착착 붙는 일본어] 차가 크게 부서지다
1116,사회 > 교육ㆍ시험 > 일본어,[입에 착착 붙는 일본어] 몸이 유연하다
39399,사회 > 교육ㆍ시험 > 일본어,[입에 착착 붙는 일본어] ~에 버티고 앉다
57303,사회 > 교육ㆍ시험 > 일본어,[입에 착착 붙는 일본어] 인재를 찾다
66408,사회 > 교육ㆍ시험 > 일본어,[스피킹이 강해지는 일본어] 식욕을 돋우다
124102,사회 > 교육ㆍ시험 > 일본어,[입에 착착 붙는 일본어] 소매를 걷어 올리다
542,사회 > 교육ㆍ시험 > 일본어,[입에 착착 붙는 일본어] 다방면에 걸치다
52055,사회 > 교육ㆍ시험 > 일본어,[입에 착착 붙는 일본어] ~이 쇠약해지다
4928,사회 > 교육ㆍ시험 > 일본어,[입에 착착 붙는 일본어] 큰 차로 이기다
4751,사회 > 교육ㆍ시험 > 일본어,[입에 착착 붙는 일본어] 일제히 달아나다


Cluster #11


[('보유자', 0.967165470123291),
 ('교통부', 0.9612691402435303),
 ('노동부', 0.9558401107788086),
 ('경희대', 0.9533736109733582),
 ('교장', 0.9494696259498596),
 ('원로', 0.9478127360343933)]

Unnamed: 0,category,title
4900,사회 > 인물 > 부음,[부음] 김경희 별세 외
23931,사회 > 인물 > 부음,[부음] 강봉순씨 별세 외
54109,사회 > 인물 > 부음,[부음] 김석한씨 별세 외
8810,사회 > 인물 > 부음,[부음] 김국자씨 별세 외
53729,사회 > 인물 > 부음,[부음] 송숙희씨 별세 외
60444,사회 > 인물 > 부음,[부음] 공노길씨 별세 외
45158,사회 > 인물 > 부음,[부음] 김남순 별세 외
28444,사회 > 인물 > 부음,[부음] 고순이씨 별세 외
65021,사회 > 인물 > 부음,[부음] 국옥진 별세 외
14421,사회 > 인물 > 부음,[부음] 박등무 좌수영어방놀이 보유자 별세 외


Cluster #12


[('게요', 0.8547637462615967),
 ('양해원', 0.8502042889595032),
 ('체면', 0.8383005857467651),
 ('애니메이션', 0.8327479958534241),
 ('귀성', 0.8327317833900452),
 ('리듬', 0.819180965423584)]

Unnamed: 0,category,title
7487,사회 > 교육ㆍ시험 > 중국어,[매일매일 중국어 한마디] 스스로 하다
33027,사회 > 교육ㆍ시험 > 중국어,[매일매일 중국어 한마디] 병세가 위중하다
27535,사회 > 교육ㆍ시험 > 중국어,[매일매일 중국어 한마디] 영원히 알 수 없다
28904,사회 > 교육ㆍ시험 > 중국어,[매일매일 중국어 한마디] 가출하다
971,사회 > 교육ㆍ시험 > 중국어,[매일매일 중국어 한마디] 알람을 맞추다
26524,사회 > 교육ㆍ시험 > 중국어,[매일매일 중국어 한마디] 왜 진작 말 안 했어요?
52960,사회 > 교육ㆍ시험 > 중국어,[매일매일 중국어 한마디] 깜짝 놀라다
1115,사회 > 교육ㆍ시험 > 중국어,[매일매일 중국어 한마디] 고의가 아니에요
10181,사회 > 교육ㆍ시험 > 중국어,[매일매일 중국어 한마디] 그럼 그렇게 해요
14454,사회 > 교육ㆍ시험 > 중국어,[매일매일 중국어 한마디] 멀리 내다보다


Cluster #13


[('오리온', 0.9974108338356018),
 ('우승', 0.9958072900772095),
 ('프로', 0.995680570602417),
 ('테니스', 0.9954463243484497),
 ('첼시', 0.9950322508811951),
 ('컵', 0.9946343898773193),
 ('투수', 0.9943892955780029),
 ('경기장', 0.9941338896751404),
 ('육상', 0.9939630031585693)]

Unnamed: 0,category,title
61123,사회 > 인물 > 사람들,"""혼백만이라도 고국에서 쉬시길"""
63761,스포츠ㆍ연예 > 스포츠 > 종합,"[스포츠 브리핑] 농구 모비스, 삼성 상대 22연승 외"
5971,사회 > 법원ㆍ검찰ㆍ경찰,"[땅, 땅… 오늘의 판결] 군대서 축구하다 다치면 ""국가유공자는 안돼도 보훈대상자로..."
48733,스포츠ㆍ연예 > 스포츠 > 종합 > 바둑,[바둑 소식] 심종식 六단 50년 기사 생활 마감
122787,스포츠ㆍ연예 > 스포츠 > 종합,"[스포츠 브리핑] 이용대·유연성組, 코리아오픈 4강行"
18483,스포츠ㆍ연예 > 스포츠 > 야구 > 프로야구,"한화, 8년만에 5연승 달렸다"
16212,스포츠ㆍ연예 > 스포츠 > 종합,"[스포츠 브리핑] 피츠버그, 북미아이스하키리그 우승"
48747,스포츠ㆍ연예 > 스포츠 > 축구 > 프로축구,"데얀, K리그 컴백"
45840,사회 > 인물 > 사람들,"성낙인, 경기高 '자랑스런 경기인'"
36960,스포츠ㆍ연예 > 스포츠 > 종합,[스포츠 브리핑] 대한육상연맹 회장에 오동진 외


Cluster #14


[('삼행시', 0.9879584312438965),
 ('암송', 0.9665622711181641),
 ('꽈배기', 0.9625203013420105),
 ('계산기', 0.9594970941543579),
 ('이어가기', 0.9510075449943542),
 ('초성', 0.9313068389892578),
 ('날짜', 0.9028805494308472),
 ('강세', 0.8932898044586182)]

Unnamed: 0,category,title
62258,"사회 > 두근두근 뇌 운동, 신문은 의사선생님",[두근두근 뇌 운동] [233] 그때를 기억하시나요
18103,"사회 > 두근두근 뇌 운동, 신문은 의사선생님",[두근두근 뇌 운동] [390] 암호로 바꿔 쓰기
62866,"사회 > 두근두근 뇌 운동, 신문은 의사선생님",[두근두근 뇌 운동] [232] 제목 외우기
50375,"사회 > 두근두근 뇌 운동, 신문은 의사선생님",[두근두근 뇌 운동] [273] 칼럼 풀어 읽기
38677,"사회 > 두근두근 뇌 운동, 신문은 의사선생님",[두근두근 뇌 운동] [315] 사다리를 타자
39596,"사회 > 두근두근 뇌 운동, 신문은 의사선생님",[두근두근 뇌 운동] [311] 문장 꽈배기
39363,"사회 > 두근두근 뇌 운동, 신문은 의사선생님",[두근두근 뇌 운동] [312] 로꾸거 암송클럽
6358,"사회 > 두근두근 뇌 운동, 신문은 의사선생님",[두근두근 뇌 운동] [440] 양손으로 또박또박
15055,"사회 > 두근두근 뇌 운동, 신문은 의사선생님",[두근두근 뇌 운동] [402] 로꾸거 암송클럽
21626,"사회 > 두근두근 뇌 운동, 신문은 의사선생님",[두근두근 뇌 운동] [376] 초성 이어가기


Cluster #15


[('유승민', 0.9973349571228027),
 ('현역', 0.9963376522064209),
 ('원내대표', 0.9961423873901367),
 ('여야', 0.9960534572601318),
 ('호남', 0.9953433275222778)]

Unnamed: 0,category,title
63216,정치,"김무성 ""이렇게 개혁적인 대통령은 앞으로 없을 것"""
4613,정치,한곳서 세곳으로 늘어난 '사드 반대'
16353,정치 > 국회ㆍ정당,"朴대통령 ""더 많이 소통할 것"" 丁의장 ""국회 가장 많이 찾은 대통령"""
7382,정치 > 외교,"""사드 배치 왜 반대하나""… 미국도 野의원들 만나"
32451,정치,국회 심판론 다시 꺼낸 朴대통령
26986,사설ㆍ칼럼 > 내부칼럼 > 사설,"[사설] 골육상쟁 끝에 참패 자초한 親朴, 이제 당권 못잡아 안달하나"
123520,정치 > 여론조사,"핵무장은 51.5%, 사드배치는 58.8%가 찬성"
24514,사설ㆍ칼럼 > 내부칼럼 > 팔면봉,"[팔면봉] 靑, '親朴' 이름으로 원내대표 등 출마하려는 의원에 제동 외"
67382,사설ㆍ칼럼 > 내부칼럼 > 팔면봉,"[팔면봉] 與野 의원들, 선관위에 ""선거구 획정 미뤄달라""고 외"
14392,문화 > 종교ㆍ학술,문수보살 팔이 쭉~ 늘어난 이유는?


Cluster #16


[('배상', 0.9162426590919495)]

Unnamed: 0,category,title
32309,국제 > 미국ㆍ중남미,88년 만에 마주 앉다
29853,정치 > 국회ㆍ정당,노회찬 39.9 강기윤 29.1… 엄용수 34.3 조해진 24%
19668,사회 > 인물 > 사람들,70년 만에 더 예뻐져 돌아오는 '미스김 라일락'
49357,경제 > 부동산,3.3㎡당 5억5500만원!
27635,경제 > 과학,"""3만년 걸리는 다른 태양계, 20년이면 간다"""
2816,사회 > 인물 > 사람들,이영애 육군사관학교에 1억 쾌척
11694,사회 > 인물 > 사람들,9년 만에 '본'으로 돌아온 맷 데이먼
13335,사회 > 인물 > 사람들,"'아침마당' 안주인 이금희, 18년 만에 떠난다"
59427,스포츠ㆍ연예 > 스포츠 > 야구,147억원
123863,국제 > 미국ㆍ중남미,1700억:370억원


Cluster #17


[('서지문', 0.8757438063621521),
 ('건가요', 0.8457963466644287),
 ('멘탈', 0.8363375663757324),
 ('아빠', 0.8363243341445923)]

Unnamed: 0,category,title
42235,사회 > 카드뉴스,[카드뉴스] 홍광호가 7년만에 '빨래'합니다.
52817,사회 > 카드뉴스,[카드뉴스] 구세군 자선냄비가 '동네북'인가요?
63995,사회 > 카드뉴스,[카드뉴스] 절대 터지지 않는 축구공
16387,사회 > 카드뉴스,[카드뉴스] Y염색체는 알고 있다
48692,사회 > 카드뉴스,"[카드뉴스] 님아, 아직 '주모'를 부르지 마오."
44632,사회 > 카드뉴스,[카드뉴스] JYP를 떼 내니 Jay Park이 보였다
17263,사회 > 카드뉴스,"[카드뉴스] '46(괜찮으냐), 47(괜찮다)'"
5747,사설ㆍ칼럼 > 외부칼럼 > 서지문의 뉴스로 책읽기,[서지문의 뉴스로 책읽기] [9] 아직도 무궁무진한 6·25 祕史
20282,사회 > 카드뉴스,"[카드뉴스] 그럼 그렇지, 울 아배는 난봉꾼이 아니었어요."
67533,사회 > 카드뉴스,[카드뉴스] 킹스맨 콜린퍼스 구하기 PROJECT


Cluster #18


[('세평', 0.9911118149757385),
 ('시조', 0.9514538645744324),
 ('한시', 0.9429572820663452),
 ('동시', 0.9330354332923889),
 ('서초동', 0.9258646965026855),
 ('새벽', 0.8807963728904724),
 ('오전', 0.8566190004348755)]

Unnamed: 0,category,title
17701,사설ㆍ칼럼 > 외부칼럼 > 가슴으로 읽는…,[가슴으로 읽는 시] 써레
65556,사설ㆍ칼럼 > 외부칼럼 > 가슴으로 읽는…,[가슴으로 읽는 시] 유리창
38194,스포츠ㆍ연예 > 엔터테인먼트 > TV/방송 > 드라마,[삼시세평(三視世評)] 장영실이 '지동설' 발견?… 그러시면 아니되옵니다
53377,사설ㆍ칼럼 > 외부칼럼 > 가슴으로 읽는…,[가슴으로 읽는 시] 강변 유정 -소월에게
4522,문화 > 더테이블,"다시, 詩다"
15809,문화 > 생활ㆍ여성 > 음식,[삼시세평(三視世評)] 달고 짜고 저렴한 중독성… 끝맛은 씁쓸
18924,사설ㆍ칼럼 > 외부칼럼 > 가슴으로 읽는…,[가슴으로 읽는 시] 유월
31131,사설ㆍ칼럼 > 외부칼럼 > 가슴으로 읽는…,[가슴으로 읽는 시] 춘신(春信)
62809,사설ㆍ칼럼 > 외부칼럼 > 가슴으로 읽는…,[가슴으로 읽는 시조] 작은 시
33871,사설ㆍ칼럼 > 외부칼럼 > 가슴으로 읽는…,[가슴으로 읽는 시] 적멸보궁


Cluster #19


[('보관', 0.9166784286499023),
 ('냄새', 0.9141029119491577),
 ('얼룩', 0.9128220677375793),
 ('양파', 0.8984675407409668),
 ('달걀', 0.878505289554596),
 ('흰색', 0.8781532049179077)]

Unnamed: 0,category,title
1090,사회 > 리빙포인트,"[리빙포인트] 멀미약, 출발 몇 분 전에 먹을까?"
20145,사회 > 리빙포인트,"[리빙포인트] 야채, 신선하게 보관하는 법"
22917,사회 > 리빙포인트,[리빙포인트] 우산살 녹슬었을 땐
61800,사회 > 리빙포인트,[리빙포인트] 무 오래두고 먹으려면
48373,사회 > 리빙포인트,[리빙포인트] 털목도리 구겨졌을 땐
1899,사회 > 리빙포인트,[리빙포인트] 새 프라이팬 오래 쓰려면
29086,사회 > 리빙포인트,[리빙포인트] 도배·페인트 냄새 없애는 법
59231,사회 > 리빙포인트,[리빙포인트] 파인애플 보관법
69031,사회 > 리빙포인트,[리빙포인트] 젖먹이 손톱 깎아줄 땐
51889,사회 > 리빙포인트,[리빙포인트] 귤껍질 활용하는 법


Cluster #20


[('성적표', 0.9925395846366882),
 ('일자', 0.9897547960281372),
 ('무패', 0.9896954894065857),
 ('금요일', 0.9886354207992554),
 ('기미', 0.9881421327590942),
 ('일요일', 0.9864299297332764),
 ('리거', 0.9863869547843933),
 ('부양', 0.986000657081604),
 ('정사', 0.9857887029647827)]

Unnamed: 0,category,title
25697,스포츠ㆍ연예 > 스포츠 > 종합,[내일의 경기] 2016년 4월 24일
19269,사회 > 날씨,[이진희의 날씨 레터] 꿈과 사랑 있으면 '靑春'
8524,경제 > 글로벌경제,"아베 ""경기 부양에 300조원 넘게 풀겠다"""
35525,스포츠ㆍ연예 > 스포츠 > 종합,[내일의 경기] 2016년 3월 6일
59664,스포츠ㆍ연예 > 스포츠 > 종합,[내일의 경기] 2015년 11월 8일
123614,스포츠ㆍ연예 > 스포츠 > 종합,[내일의 경기] 2016년 9월 25일
38568,문화 > 오늘의 운세,[오늘의 운세] 2월 20일 토요일(음력 1월 13일 壬申)
29893,스포츠ㆍ연예 > 스포츠 > 종합,[내일의 경기] 2016년 4월 3일
51509,사회 > 전국뉴스 > 수도권 > 서울뉴스,"서울광장 스케이트장, 내일부터 타러가세요"
12870,스포츠ㆍ연예 > 스포츠 > 종합,[내일의 경기] 2016년 7월 3일


Cluster #21


[('강원', 0.9991183280944824),
 ('시계', 0.9991153478622437),
 ('보호', 0.999061107635498),
 ('베이징', 0.9990077614784241),
 ('비상', 0.9988688230514526),
 ('날개', 0.9988593459129333),
 ('수지', 0.9988554120063782),
 ('독일', 0.9988448619842529),
 ('성과', 0.998841404914856),
 ('작전', 0.9988151788711548)]

Unnamed: 0,category,title
17788,정치 > 북한,"탈북민 1호 외과전문의, 의사 고시 준비 탈북민에 무료 강의"
149,사설ㆍ칼럼 > 외부칼럼 > 발언대,[발언대] '쌀 풍년 재앙' 해법은 보리와 밀 농사
15843,국제,폴란드와 발트 3國에 美·나토 대대 병력 주둔
40096,사회 > 날씨,주말까지 많은 비… 내주부터 다시 한파
60323,경제,포토샵 조작 들통… 조롱당한 캐머런 총리
26078,사회 > 환경ㆍ재해,"""12년간 환경문제에 대한 대중 관심 이끌어""… 올해는 84편 상영"
64456,정치 > 정부ㆍ지자체,몸에 밴 안전문화… '안심 전력' 공급한다
32320,사회 > 의료ㆍ보건,파스처럼… 붙이는 당뇨 진단·투약 장치 개발
42111,사회 > 교육ㆍ시험 > 맛있는 공부,아이 스스로 만들어 본 경험이 창직의 밑거름
69794,사회 > 법원ㆍ검찰ㆍ경찰,선임계 안 내고 '몰래 변론'한 검사장급 前官 1명 더 있다


Cluster #22


[('시계', 0.9991640448570251),
 ('추락', 0.9990720748901367),
 ('계층', 0.9990494251251221),
 ('외곽', 0.998991847038269),
 ('소음', 0.9989585876464844),
 ('이슬람', 0.9988457560539246),
 ('주문', 0.9987982511520386),
 ('날개', 0.9987930059432983),
 ('샷', 0.9987726807594299),
 ('족', 0.9987245202064514)]

Unnamed: 0,category,title
27414,스포츠ㆍ연예 > 스포츠 > 농구 > NBA,"태양이 저문 날, 또 하나의 태양이 떴다"
35305,문화 > 전시ㆍ공연 > 공연 > 연극,[연극 리뷰] 잊혔던 '분단' 현실 되살아나 일상을 뒤흔드네
17343,문화,"韓·中 文人, 시와 소설을 노래하다"
50030,스포츠ㆍ연예 > 엔터테인먼트 > 연예 > 음악 > 대중음악,난 '시행착오'의 아이콘… 그래도 본업은 음악이죠
12205,사설ㆍ칼럼 > 외부칼럼 > 가슴으로 읽는…,[가슴으로 읽는 동시] '반쪽'이라는 말
33770,경제,"""두뇌 게임은 모두 정복… 의학 등 현실문제 다룰때"""
17898,문화 > 북스,"[김시덕의 종횡무진 인문학] 잘 살아보려 복개한 청계천, 정작 가난의 아픔은 덮지 못했다"
33636,문화,"출판사 ""우리 서점 냅니다, 독자 만나려고"""
38638,문화 > 생활ㆍ여성 > 뷰티,"그녀의 20대, 곡물 발아 에너지로 피부 속까지 건강한 아름다움을"
15318,경제 > 기업,아파트·주택 장점 합친 프리미엄 빌라 건축


Cluster #23


[('추락', 0.999536395072937),
 ('시계', 0.9991633296012878),
 ('항공', 0.9991072416305542),
 ('기준', 0.9990927577018738),
 ('날개', 0.9990295171737671),
 ('수영', 0.9990037083625793),
 ('연결', 0.9989597797393799),
 ('모바일', 0.9989444613456726),
 ('트럭', 0.9989348649978638),
 ('의무', 0.9989312887191772)]

Unnamed: 0,category,title
49830,사설ㆍ칼럼 > 외부칼럼 > 발언대,[발언대] 진정한 명문 구단을 기다린다
62052,문화,"골방 '덕후' 아닙니다, 靑春의 '취향공동체'죠"
48761,사설ㆍ칼럼 > 외부칼럼,[열린 포럼] '광주型 일자리' 가능하려면
66303,문화 > 생활ㆍ여성 > 패션,모던 핏으로 품격 살려주는 '멋쟁이 필수 아이템'
68813,사회 > 인물 > 사람들,전윤철 산학연종합센터 상임고문
9732,사회 > 교육ㆍ시험,"모양은 다르지만 본질은 하나, 세계화·융합교육… 그리고 혁신"
65631,사회 > 교육ㆍ시험 > 맛있는 공부,디지털 디자인 기술로 만나는 '살아있는 교과서 체험展' 오픈
122862,사회,"[Why] 유치원 다니는 강아지들… 셔틀버스는 기본, 과목별 시간표도"
26270,사설ㆍ칼럼 > 내부칼럼 > 만물상,[만물상] 토종 천연 효모
53472,사회 > 교육ㆍ시험 > 맛있는 공부,올해 '불수능' ?… 쉬운 문제에 적응돼 체감 난도 높아


Cluster #24


[('마중물', 0.951356053352356),
 ('육사', 0.9464383721351624),
 ('열망', 0.9452709555625916),
 ('출발점', 0.9425193071365356),
 ('임직원', 0.9380306005477905)]

Unnamed: 0,category,title
10416,정치 > 나눔 통일,통일나눔펀드에 동참하세요
18394,정치 > 나눔 통일,통일나눔펀드에 동참하세요
28002,정치 > 나눔 통일,통일나눔펀드에 동참하세요
3664,정치 > 나눔 통일,통일나눔펀드에 동참하세요
9009,정치 > 나눔 통일,통일나눔펀드에 동참하세요
4028,정치 > 나눔 통일,통일나눔펀드에 동참하세요
59779,정치 > 나눔 통일,生後 72일… 최연소 '통일 기부'
15298,정치 > 나눔 통일,통일나눔펀드에 동참하세요
19972,정치 > 나눔 통일,통일나눔펀드에 동참하세요
8309,정치 > 나눔 통일,통일나눔펀드에 동참하세요


Cluster #25


[('토요일', 0.999538779258728),
 ('화요일', 0.9988112449645996),
 ('일요일', 0.9985345602035522),
 ('금요일', 0.9984485507011414),
 ('월요일', 0.9982478022575378),
 ('목요일', 0.9939917325973511),
 ('수요일', 0.9917510151863098)]

Unnamed: 0,category,title
4802,문화 > 오늘의 운세,[오늘의 운세] 8월 23일 화요일(음력 7월 21일 丁丑)
57732,문화 > 오늘의 운세,[오늘의 운세] 11월 18일 수요일(음력 10월 7일 戊戌)
17735,"사회 > 두근두근 뇌 운동, 신문은 의사선생님",[두근두근 뇌 운동] [391] 날씨 따라 삼천리
64220,문화 > 오늘의 운세,[오늘의 운세] 10월 17일 토요일(음력 9월 5일 丙寅)
24442,문화 > 오늘의 운세,[오늘의 운세] 5월 1일 일요일(음력 3월 25일 癸未)
40185,문화 > 오늘의 운세,[오늘의 운세] 2월 12일 금요일(음력 1월 5일 甲子)
19357,문화 > 오늘의 운세,[오늘의 운세] 5월 29일 일요일(음력 4월 23일 辛亥)
3400,문화 > 오늘의 운세,[오늘의 운세] 8월 31일 수요일(음력 7월 29일 乙酉)
123286,문화 > 오늘의 운세,[오늘의 운세] 9월 28일 수요일(음력 8월 28일 癸丑)
60584,문화 > 오늘의 운세,[오늘의 운세] 11월 4일 수요일(음력 9월 23일 甲申)


Cluster #26


[('합병', 0.9991604685783386),
 ('계층', 0.9987947344779968),
 ('관', 0.9987038373947144),
 ('폭발', 0.9986853003501892),
 ('화학', 0.9986725449562073),
 ('날개', 0.9985700845718384),
 ('유물', 0.9985643625259399),
 ('드', 0.9985404014587402),
 ('샷', 0.9985191822052002),
 ('심장', 0.9985110759735107)]

Unnamed: 0,category,title
6855,스포츠ㆍ연예 > 스포츠 > 리우올림픽,패셔니스타 신태용 감독
52149,국제 > 아시아,여의도 1.7배 中 고속철 생산 기지… 공장끼리 철도로 연결
4303,사설ㆍ칼럼 > 내부칼럼 > 사설,[사설] 北 SLBM 성공 보면서도 내 집값 땅값이 우선인가
23378,사회,"소백산 방사 여우, 야생에서 세 마리 출산"
35027,스포츠ㆍ연예 > 스포츠 > 농구 > 남자프로농구,"에밋의 에너지, 인삼을 꿀꺽"
38601,스포츠ㆍ연예 > 스포츠 > 종합,"""행복이 이런걸까요? 매스 스타트, 평창 종목 됐잖아요"""
35176,사회,[단독] 토익 대체하겠다던 텝스… 응시자 5년새 60% 급감
61846,사회 > 교육ㆍ시험,"성추행 등 非違 서울대 교수, 징계前엔 사표 못낸다"
54641,사회 > 인물 > 사람들,"두산 4세 박서원, 면세점 전무 겸임"
4727,사회 > 인물 > 사람들,"올해의 亞 영화인, 故 키아로스타미"


Cluster #27


[('면적', 0.991008460521698),
 ('토목', 0.9863497018814087),
 ('박돈규', 0.9859874248504639),
 ('챔프', 0.9848889112472534),
 ('법제', 0.981955885887146),
 ('박영훈', 0.9816439151763916),
 ('소', 0.9807136654853821),
 ('도라지', 0.9785926342010498),
 ('창간', 0.9772262573242188),
 ('디젤차', 0.9770920276641846)]

Unnamed: 0,category,title
29028,스포츠ㆍ연예 > 스포츠 > 종합 > 바둑,[제20회 LG배 조선일보 기왕전] 낭떠러지 對決
18670,스포츠ㆍ연예 > 스포츠 > 종합 > 바둑,[제21회 LG배 조선일보 기왕전] 黑 반집 승
11824,스포츠ㆍ연예 > 스포츠 > 종합 > 바둑,[제21회 LG배 조선일보 기왕전] 힘 對 힘
34295,스포츠ㆍ연예 > 스포츠 > 종합 > 바둑,[제20회 LG배 조선일보 기왕전] 40초 전쟁
52298,스포츠ㆍ연예 > 스포츠 > 종합 > 바둑,[제20회 LG배 조선일보 기왕전] 두 개의 민낯
57755,스포츠ㆍ연예 > 스포츠 > 종합 > 바둑,[제20회 LG배 조선일보 기왕전] 强弱의 예술
9489,스포츠ㆍ연예 > 스포츠 > 종합 > 바둑,[제21회 LG배 조선일보 기왕전] 소중한 資産
5791,스포츠ㆍ연예 > 스포츠 > 종합 > 바둑,[제21회 LG배 조선일보 기왕전] 빛나는 침입수
47403,스포츠ㆍ연예 > 스포츠 > 종합 > 바둑,[제20회 LG배 조선일보 기왕전] 廢墟를 기다
24477,스포츠ㆍ연예 > 스포츠 > 종합 > 바둑,[제21회 LG배 조선일보 기왕전] 공 넘기기


Cluster #28


[('동시', 0.9917731285095215),
 ('시조', 0.9901942014694214),
 ('한시', 0.9833300113677979),
 ('서초동', 0.9795401096343994),
 ('새벽', 0.9781548976898193),
 ('순위', 0.9737285375595093),
 ('오전', 0.9686974883079529),
 ('현재', 0.9635395407676697),
 ('진', 0.9583823680877686)]

Unnamed: 0,category,title
63322,사설ㆍ칼럼 > 외부칼럼 > 가슴으로 읽는…,[가슴으로 읽는 동시] 잠자리
122781,사설ㆍ칼럼 > 외부칼럼 > 가슴으로 읽는…,[가슴으로 읽는 한시] 병석의 나를 위로하다
20305,스포츠ㆍ연예 > 엔터테인먼트 > TV/방송 > 드라마,[삼시세평(三視世評)] 조선시대 감옥·변호사 등장… 신선한 史劇 납시오
27878,사설ㆍ칼럼 > 외부칼럼 > 가슴으로 읽는…,[가슴으로 읽는 동시] 따라와 따라와
40632,사설ㆍ칼럼 > 외부칼럼 > 가슴으로 읽는…,[가슴으로 읽는 한시] 친구에게
8237,문화 > 북스 > 신간소개,짧지만 강렬하다… 마음 울릴 '한 뼘 詩'
101,사회,오후 8시 33분
5602,사설ㆍ칼럼 > 외부칼럼 > 가슴으로 읽는…,[가슴으로 읽는 동시] 이사 온 날
21539,스포츠ㆍ연예 > 엔터테인먼트 > TV/방송,[삼시세평(三視世評)] 연기 경력 300년의 맛깔난 '好演성찬'
14137,사설ㆍ칼럼 > 외부칼럼 > 가슴으로 읽는…,[가슴으로 읽는 한시] 6월 23일 취중에


Cluster #29


[('압박', 0.9979954957962036),
 ('규탄', 0.9979151487350464),
 ('외교', 0.9978691935539246),
 ('겨냥', 0.9976714253425598),
 ('국방', 0.9966545104980469),
 ('군사', 0.9959686994552612),
 ('방중', 0.995792806148529),
 ('논의', 0.995775580406189),
 ('선제', 0.9956284761428833)]

Unnamed: 0,category,title
50748,정치 > 북한,통일부 작성 北인명록에 김정은 고모 김경희 사라져
25113,정치 > 북한,"""김정은, 전쟁할 생각 없어… 분해서 미사일 쏜 것"""
68459,국제,"美·中정상 ""北核·미사일 공동대응"""
68560,정치,"""北 추가도발 강행 땐 분명히 대가 치를 것"""
29146,정치 > 국회ㆍ정당,오늘부터 한 여론조사 공표 금지
37523,정치 > 외교,[NEWS&VIEW] 사드 뒤엔… 韓·美·中 '막후 외교 삼국지'
60991,정치 > 외교,"韓·日정상회담 전날까지도… 양국 외무, 위안부 접점 못찾아"
16988,정치 > 국회ㆍ정당,국민의黨 억대 뒷돈 의혹… 지도부 개입했다면 核폭풍
64692,정치 > 외교,"""추석과 추수감사절 사이에 韓·美 4번째 정상회담… 풍성한 수확 보여줄 것"""
47008,국제 > 미국ㆍ중남미,"""오바마 행정부가 北核 방치""… 美 공화 주자들 공세"


Cluster #30


[('입학', 0.9944021701812744),
 ('정경원', 0.9909757375717163),
 ('브런치', 0.9890155792236328),
 ('초등', 0.9886536598205566),
 ('수강', 0.9884547591209412),
 ('저널리즘', 0.987750232219696),
 ('여름', 0.9871525168418884),
 ('모의유엔', 0.9870320558547974),
 ('집중력', 0.9867691397666931)]

Unnamed: 0,category,title
12797,사회,[알립니다] 사연 공모 하고 캐나다 여행 기회 잡으세요
20108,사고 > 조선일보 사고,[알립니다] 50회 청룡봉사상 주인공 8명을 공개합니다
19067,사회 > 교육ㆍ시험 > 맛있는 공부,[알립니다] 美·英 디자인대 여름방학 특강 外
21645,사회 > 교육ㆍ시험 > 맛있는 공부,[알립니다] 미국·영국·필리핀… 여름방학 해외 캠프 신청하세요
538,사회 > 교육ㆍ시험 > 맛있는 공부,[알립니다] 2017년 1·9월 학기 美 국무부 교환학생 모집
6957,사고 > 조선일보 사고,[알립니다] '이중섭 세미나' '제주문화탐방' 내달 6일부터 제주서 열립니다
56482,사회 > 교육ㆍ시험 > 맛있는 공부,연세대 송도 국제캠퍼스에서 열리는 제2회 겨울방학 연세드림영어캠프
55606,사고 > 조선일보 사고,[알립니다] 내달 4일 서울 주거 복지 페스티벌
8077,스포츠ㆍ연예 > 스포츠 > 리우올림픽,밥심이 활심
13504,사고 > 조선일보 사고,[알립니다] 일본 속 한민족사 탐방… 初中高 선생님 모십니다


Cluster #31


[('아빠', 0.9838719367980957), ('연습생', 0.983847975730896)]

Unnamed: 0,category,title
31433,사회,[Why] 낳으세요… 아이가 살맛 나게 해줄 거요
2511,사회 > 카드뉴스,"[카드뉴스] ""아가야, 네가 꼭 세상을 살아보게 해줄게."""
123197,문화 > 더테이블,그도 '아버지'였습니다
1028,사회 > 카드뉴스,"[카드뉴스] ""너는 내 운명"""
38378,사회 > 카드뉴스,[카드뉴스] 게으른 일개미가 필요한 이유
51885,사회 > 카드뉴스,[카드뉴스] 박기량이 친구 술자리에도 안 가는 이유
45355,문화 > 북스 > 신간소개,[한줄읽기] '책이 너무 많아' 외
34315,스포츠ㆍ연예 > 스포츠 > 축구 > 프로축구,서울 남자 데얀
40602,사회 > 카드뉴스,"[카드뉴스] 영화는 끝났지만, 그의 인생은 다시 시작됩니다"
29428,사회 > 카드뉴스,[카드뉴스] 원영이의 마지막 말은 '엄마'였습니다


Cluster #32


[('수익', 0.9986109137535095),
 ('배후', 0.9985027313232422),
 ('소득', 0.9982773065567017),
 ('분기', 0.9980108141899109),
 ('수입', 0.9979649782180786),
 ('해', 0.9979110956192017),
 ('정원', 0.9978821277618408),
 ('채용', 0.9977090954780579),
 ('영업', 0.9975252151489258),
 ('어린이집', 0.9973700642585754)]

Unnamed: 0,category,title
40859,스포츠ㆍ연예 > 엔터테인먼트 > TV/방송,국내 3대 만두 명인들의 요리 경연
24351,사회 > 날씨,오늘 수도권 빗방울… 내일은 화창
22235,사회 > 국방,수백억 훈련장비 불량 눈감아준 軍간부
21474,사회 > 법원ㆍ검찰ㆍ경찰,"'126억 대박' 검사장 진경준, 내일부터 무단결근?"
32248,nativeAD > CJ,"CJ제일제당, 中 하이더社 360억원에 인수"
61387,사회 > 법원ㆍ검찰ㆍ경찰,"[땅, 땅… 오늘의 판결] 세월호 청해진해운 대표, 징역 7년에 벌금 200만원 외"
18640,경제,현대상선 빚 6300억원은 재조정 성공
24347,사회 > 노동ㆍ복지,"""어린이집 짓는데 10억… 차라리 벌금 2억 낸다"""
28356,nativeAD > 기업뉴스,"한국GM, 당기 순손실 1조원 육박… 사상 최대 적자"
987,사회,"경기도 아파트 556개 단지, 관리비 152억 줄줄 샜다"


Cluster #33


[('대학교', 0.9966583847999573),
 ('화백', 0.9955437183380127),
 ('전자', 0.994918704032898),
 ('언론', 0.9947186708450317),
 ('건축가', 0.9946141839027405),
 ('기념', 0.9945170879364014),
 ('의대', 0.9941728115081787),
 ('중앙', 0.9936357736587524),
 ('축산', 0.9935234785079956)]

Unnamed: 0,category,title
23902,문화 > 전시ㆍ공연 > 전시,"[미술 소식] 부산 벡스코, 로베르토 듀테스코 사진전 외"
37986,사회 > 인물 > 사람들,김창은 한국경영공학회장
123659,사회 > 인물 > 인사,[인사] 문화체육관광부 외
46933,스포츠ㆍ연예 > 엔터테인먼트 > 영화,[이번주 개봉영화 딱 10자평] '유스' 외
29538,사회 > 인물 > 사람들,곽영진 한국문화산업교류재단 이사장
23930,사회 > 인물 > 동정,[플라자] 21세기국가발전연구원 조찬세미나 개최 외
39143,사회 > 인물 > 동정,[플라자] 심장대사증후군연구회 춘계국제심포지엄 개최 외
5065,사회 > 인물 > 동정,[플라자] 한국신문방송편집인협회 '정세균 국회의장 초청 세미나' 개최
43077,사설ㆍ칼럼 > 외부칼럼,"[정보의 창] 한국, 4차 산업혁명에서 이미 뒤처지고 있다"
63131,사회 > 교육ㆍ시험 > 맛있는 공부 plus+,영어로 진행하는 모의 유엔 사전 준비 과정 '제4회 리더스 서밋' 개최


Cluster #34


[('강성', 0.9702820181846619), ('비박', 0.9689769744873047)]

Unnamed: 0,category,title
35653,사회,"박 대통령 ""계급장에 담긴 책임 다해주길"""
20890,사설ㆍ칼럼 > 내부칼럼 > 사설,"[사설] 親朴, 黨 와해시키고도 득의만만해한다니"
23846,사설ㆍ칼럼 > 내부칼럼 > 사설,"[사설] 北은 우방국 이란 대통령의 ""核 반대"" 새겨들으라"
8842,정치 > 외교,中의 '사드 몽니'
29851,정치 > 국회ㆍ정당,82 : 35 : 20 (새누리 : 더민주 : 국민의黨)
44818,정치 > 청와대,국회를 건너뛴 대통령
68480,사회 > 인물 > 사람들,"윤미향 대표, 의암주논개상"
26371,정치 > 국회ㆍ정당,"더민주 ""말조심하고 싸우지 말자"""
9910,사회 > 의료ㆍ보건,'당'찬 빙수
20863,정치 > 국회ㆍ정당,"""친박은 賣朴"", ""비박은 反大"""


Cluster #35


[('위원장', 0.9990642070770264),
 ('주류', 0.9984194040298462),
 ('정권', 0.9982433319091797),
 ('지도부', 0.9981841444969177),
 ('지지', 0.9981796741485596),
 ('법안', 0.9978229999542236),
 ('박지원', 0.9978095293045044),
 ('이한구', 0.9977580904960632),
 ('지지율', 0.9975807070732117),
 ('개헌', 0.9975318312644958)]

Unnamed: 0,category,title
16362,정치,"김수민, 朴대통령에게 '90도 인사'"
32137,정치 > 청와대,"朴대통령 ""VR·AI 등이 창업의 寶庫 될것"""
34231,정치 > 국회ㆍ정당,"더민주 ""자리 비워뒀다""… 김한길·천정배에 復黨 타진"
1318,정치,"與보다 먼저 움직인 2野 ""北 도발 대가 치를 것"""
47953,정치 > 국회ㆍ정당,이젠 대놓고 감정싸움… 親朴·非朴 공천룰 갈등 격화
998,정치,"美전술핵 배치에… 與주자 3人 찬성, 野 4人 모두 반대"
9503,사설ㆍ칼럼 > 내부칼럼 > 팔면봉,"[팔면봉] 정부 고위 인사, 野 대표에게 ""난 우병우 사단 아니다""라고 했다고 외"
7362,정치 > 국회ㆍ정당,"사드·추경·증세… 與, 잇단 '野 오버'에 역공"
3831,정치 > 국회ㆍ정당,새로 뽑힌 더민주 최고위원 8명 프로필
57948,정치 > 국회ㆍ정당,"김무성 대표·서청원 최고위원, 공천 놓고 또 충돌"


Cluster #36


[('노동부', 0.9908287525177002),
 ('교통부', 0.9894793629646301),
 ('경희대', 0.9861196279525757),
 ('재정부', 0.9853649139404297),
 ('원로', 0.9837847352027893),
 ('해양수산부', 0.983583927154541),
 ('국무총리실', 0.9826067090034485),
 ('보유자', 0.981834888458252),
 ('교장', 0.9783048629760742)]

Unnamed: 0,category,title
65276,사회 > 인물 > 인사,[인사] 행정자치부 외
7022,사회 > 인물 > 부음,[부음] 애국지사 전상엽 선생 별세 외
10905,사회 > 인물 > 인사,[인사] 국토교통부 외
32775,사회 > 인물 > 부음,[부음] 허길 前 국회의원 별세 외
36338,사회 > 인물 > 인사,[인사] 국무총리실 외
40313,사회 > 인물 > 인사,[인사] 보건복지부 외
42069,사회 > 인물 > 인사,[인사] 국무총리실 외
12049,사회 > 인물 > 인사,[인사] 미래창조과학부 외
63629,사회 > 인물 > 부음,[부음] 권희봉씨 별세 외
66327,사회 > 인물 > 인사,[인사] 통계청 외


Cluster #37


[('스트레스', 0.9985671043395996),
 ('조절', 0.9985244274139404),
 ('파악', 0.998429536819458),
 ('조합', 0.9981520771980286),
 ('기능', 0.9980584383010864),
 ('인공지능', 0.9980407953262329),
 ('자극', 0.998038649559021),
 ('세포', 0.998026967048645),
 ('전수', 0.9979896545410156),
 ('소재', 0.9979875087738037)]

Unnamed: 0,category,title
65463,경제 > 유통ㆍ소비자,고객 수면 습관 측정… 최적의 수면 환경 컨설팅
53466,사회 > 교육ㆍ시험 > 맛있는 공부,2016 수능 만점자 4人 어떻게 공부했을까?
33608,사설ㆍ칼럼 > 외부칼럼 > 최재천의 자연과 문화,[최재천의 자연과 문화] [358] 무서운 건 여전히 사람이다
6133,문화 > 북스 > 신간소개,인간의 本性은 없다… 그때그때 달라질 뿐
49635,사설ㆍ칼럼 > 외부칼럼 > 김대식 브레인,[김대식의 브레인 스토리] [167] 12월의 메시지
54906,사회 > 교육ㆍ시험 > 맛있는 공부,자녀 공부 의욕 일깨워주는 SKY 재학생 멘토링 캠프 41기 外
34795,스포츠ㆍ연예 > 엔터테인먼트 > TV/방송 > 시사/교양,[TV조선 ch19] 총선 전 여의도 정가 탐색
6470,사설ㆍ칼럼 > 외부칼럼 > 일사일언,"[일사일언] 여름 보양식의 왕, 민어"
37893,경제,"스마트폰, 가상현실에서 미래를 봤다"
12576,경제 > 유통ㆍ소비자,'힐빙' 분야 융복합 창의 전문 인력 양성의 요람


Cluster #38


[('역대', 0.9967982769012451),
 ('감축', 0.9959598183631897),
 ('법인세', 0.995909571647644),
 ('수당', 0.9958556294441223),
 ('최소', 0.9956035614013672),
 ('자금', 0.9952266216278076),
 ('정기', 0.9948452711105347),
 ('사흘', 0.9948326349258423),
 ('사기', 0.9946725368499756)]

Unnamed: 0,category,title
21777,국제 > 미국ㆍ중남미,점령군처럼… 上下院 훑은 트럼프
13645,경제,朴정부 3번째 추경… 어정쩡한 '불쏘시개'로 景氣 살릴까
24857,사회,'5% 주식룰' 탓에… 200억 기부에 세금 140억
23819,경제 > 기업,"현대重, 다음주 희망퇴직… 3000명 줄이기로"
940,국제 > 미국ㆍ중남미,"美 역대 대통령 44명 중 4명 재임중 病死… 9대 대통령 해리슨, 취임 한달 만에 숨져"
28458,사회 > 노동ㆍ복지,"光州 공무원노조, 법외노조 전공노 가입 의결"
20700,스포츠ㆍ연예 > 스포츠 > 축구 > 해외축구,"골대·벤치·샤워꼭지까지… ""돈 되는 건 다 팔아요"""
123120,정치 > 북한,"제2, 제3의 훙샹… 단둥에만 그런 企業 15개쯤 있다"
27723,정치 > 북한,北 노동당 36년 만의 黨대회 대표자 선출 일정 돌입
34885,사회 > 인물 > 사람들,미스코리아 60년… 역대 최고의 미인은?


In [None]:
end = if # Intentionally left errornous