# Baseline script for SomaNews Clustering
By Datetime : 2016-08-29 ~ 2016-09-05

In [1]:
import numpy as np
import pandas as pd

## Load Data
Load Data from database

In [2]:
train = pd.read_pickle("../datastore/weekly.p")
train.head()

Unnamed: 0_level_0,author,category,content,description,imageURL,link,provider,providerNewsID,publishedAt,title
publishedAt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2016-09-04 23:28:00,김재철 숭실대 전기공학부 교수(부총장),경제,모든 사물이 인터넷으로 연결된다는 사물인터넷(IoT·Internet of Thing...,"[ESS산업, 현재와 미래]\n\n- 배터리로 움직이는 'BoT 시대'\nESS 발...",http://image.chosun.com/sitedata/image/201609/...,http://news.chosun.com/site/data/html_dir/2016...,chosun,2016090500409,2016-09-04 23:28:00,電氣 저장했다 꺼내 쓰는 ESS… 4년 뒤 150억달러 시장 선다
2016-09-04 23:24:00,이위재 기자,nativeAD > 기업뉴스,지난달 말 산업통상자원부는 ESS 관련 산업 도약을 위해 민·관·학계가 함께하는 '...,"산업부, 신산업 규제 대폭 손질… 할인 기간 늘려 기업 투자 활성\n'ESS 융합 ...",http://image.chosun.com/sitedata/image/201609/...,http://news.chosun.com/site/data/html_dir/2016...,chosun,2016090501185,2016-09-04 23:24:00,ESS 할인 요금제 기간 10년으로
2016-09-04 23:20:00,김승범 기자,경제,정유업계에 긴장감이 돌고 있다. 올 상반기에는 세계 경기 불황 속에서도 사상 최고 ...,[8월 정제마진 배럴당 3.9달러 … '4~5달러' 손익분기점 밑돌아]\n\n- 공...,http://image.chosun.com/sitedata/image/201609/...,http://news.chosun.com/site/data/html_dir/2016...,chosun,2016090500403,2016-09-04 23:20:00,중국發 공급과잉·低유가 먹구름… 잘나가던 정유업계 긴장
2016-09-04 22:54:00,베를린=심현정 기자,경제,지난 3일(현지 시각) 오후 유럽 최대 가전박람회 'IFA 2016'이 열리고 있는...,독일 IFA 전시회\n\n- 中 유비텍 '지무로봇'\n레고 블록에 모터 등 연결해 ...,http://image.chosun.com/sitedata/image/201609/...,http://news.chosun.com/site/data/html_dir/2016...,chosun,2016090500405,2016-09-04 22:54:00,레고 로봇·스마트 캐디·게임 칫솔… 獨서 빛나는 작은 기업들
2016-09-04 22:52:00,베를린=심현정 기자,nativeAD > LG전자,"""기술력에 대한 자신감이 없다면 우리 가전제품의 핵심 부품을 다른 경쟁 업체에 판매...",[독일 IFA 전시회]\n\n조성진 LG전자 가전담당 사장,http://image.chosun.com/sitedata/image/201609/...,http://news.chosun.com/site/data/html_dir/2016...,chosun,2016090501158,2016-09-04 22:52:00,"""경쟁社에 핵심부품 파는 건, 기술력에 자신감 있기 때문"""


## Preprocessing
0. Datetime (16-09-11 ~ 16-09-17)
1. Remove stopwords (regex, hanja)
2. POS Tagging with KoNLPy, Mecab

In [3]:
import datetime
from konlpy.tag import Mecab
import hanja
import re

In [4]:
mecab = Mecab()
print(mecab.pos(u'네, 안녕하세요 나는 정답'))

[('네', 'IC'), (',', 'SC'), ('안녕', 'NNG'), ('하', 'XSV'), ('세요', 'EP+EF'), ('나', 'NP'), ('는', 'JX'), ('정답', 'NNG')]


In [5]:
def text_cleaning(text):
    text = hanja.translate(text, 'substitution')
    text = re.sub('[^가-힝0-9a-zA-Z\\s]', '', text)
    text = text.replace(u"카드뉴스", '').replace(u"조선일보", '')
    return text

### POS Tagging
일반명사, 고유명사, 외국어 (NNG, NNP, SL)

In [6]:
def tokenize(data):
    return [' '.join(e for e in mecab.nouns(data))]

In [7]:
train['title'] = train['title'].apply(lambda text: text_cleaning(text))
title = [tokenize(each[1]['title']) for each in train.iterrows()]

## Training
1. Feature extraction - TfidVectorizer
2. Decomposition - PCA
3. Cluster - KMeans

In [8]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans

In [9]:
vectorizer = TfidfVectorizer(lowercase=False)
title_flat = [item for sublist in title for item in sublist]
x_list = vectorizer.fit_transform(title_flat)

In [10]:
x_list_10d = PCA(n_components=10).fit_transform(x_list.toarray())
x_list_10d.shape

(3068, 10)

### Scoring

In [11]:
from sklearn.metrics import silhouette_samples, silhouette_score
from IPython.display import display, HTML
import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning) 

### Best Silhoutte Score

In [12]:
best_score = 0.0
best_k = 0

In [13]:
for k in range(5, 15):
    km = KMeans(n_clusters=k, n_jobs=-1).fit(x_list_10d)
    score = silhouette_score(x_list, km.labels_)
    if best_score < score:
        best_score = score
        best_k = k
    print("In Clusters =", k, ", Score is : %0.3f" % score)
print("In Clusters =", best_k, ", Best score is : %0.3f" % best_score)

In Clusters = 5 , Score is : 0.010
In Clusters = 6 , Score is : 0.011
In Clusters = 7 , Score is : 0.012
In Clusters = 8 , Score is : 0.013
In Clusters = 9 , Score is : 0.014
In Clusters = 10 , Score is : 0.014
In Clusters = 11 , Score is : 0.013
In Clusters = 12 , Score is : 0.013
In Clusters = 13 , Score is : 0.014
In Clusters = 14 , Score is : 0.010
In Clusters = 13 , Best score is : 0.014


### K-Means Algorithm

In [14]:
km = KMeans(n_clusters=best_k, n_jobs=-1).fit(x_list)
labels = km.labels_
centroids = km.cluster_centers_
print(km.inertia_)

2939.7356770465694


In [15]:
train = train.reset_index(drop=True)
x_list_vector = x_list_10d.tolist()
train['cluster'] = labels
train['vector'] = x_list_vector
train.head(2)

Unnamed: 0,author,category,content,description,imageURL,link,provider,providerNewsID,publishedAt,title,cluster,vector
0,김재철 숭실대 전기공학부 교수(부총장),경제,모든 사물이 인터넷으로 연결된다는 사물인터넷(IoT·Internet of Thing...,"[ESS산업, 현재와 미래]\n\n- 배터리로 움직이는 'BoT 시대'\nESS 발...",http://image.chosun.com/sitedata/image/201609/...,http://news.chosun.com/site/data/html_dir/2016...,chosun,2016090500409,2016-09-04 23:28:00,전기 저장했다 꺼내 쓰는 ESS 4년 뒤 150억달러 시장 선다,0,"[-0.013763079439635596, -0.015551843547112382,..."
1,이위재 기자,nativeAD > 기업뉴스,지난달 말 산업통상자원부는 ESS 관련 산업 도약을 위해 민·관·학계가 함께하는 '...,"산업부, 신산업 규제 대폭 손질… 할인 기간 늘려 기업 투자 활성\n'ESS 융합 ...",http://image.chosun.com/sitedata/image/201609/...,http://news.chosun.com/site/data/html_dir/2016...,chosun,2016090501185,2016-09-04 23:24:00,ESS 할인 요금제 기간 10년으로,0,"[-0.010411064433675359, -0.010700426667365417,..."


## Save DataFrame to MongoDB

In [16]:
from pymongo import MongoClient

In [18]:
client = MongoClient('mongodb://ssomanews:ssomanews1029@ds033987-a0.mlab.com:33987/somanews', 33987)
db = client.get_database('somanews')
clusters = db.get_collection('articles')

In [19]:
clusters.insert_many(train.to_dict(orient='records'))

<pymongo.results.InsertManyResult at 0x7f32556d91b0>

### Print Clusters

In [19]:
cluster_data = []
cluster_num = best_k

for cluster_index in range(cluster_num):
    cluster_data.append(train[train['cluster'] == cluster_index])
    
for i, d in enumerate(cluster_data):
    print('Cluster %d' % (i + 1))

    display(d[['title', 'category']].sample(min(10, len(d))))
    print('\n\n')

Cluster 1


Unnamed: 0,title,category
2101,세상 읽기 국경 없는 유럽에서 동북아를 생각한다 김누리,사설.칼럼 > 칼럼
2227,검찰 김한표 새누리당 국회의원 소환 조사,사회 > 전국
1080,눈과 귀가 즐거운 주말사랑과 어둠의 이야기 외,뉴스 > 문화 > 문화 일반
2411,콘텐츠 회사 차린 송은이 저더러 코미디계 잔다르크래요 하하하,문화 > 방송·연예
408,왜 원자력잠수함이 필요한가,사회 > 카드뉴스
2963,잊고 싶은가 당신은박근혜 정부 소녀상 망각의 정치,사회 > 사회일반
2079,상금이요 집 대출금 갚아야죠,스포츠 > 골프
130,오늘의 운세 9월 4일 일요일음력 8월 4일 기축,문화 > 오늘의 운세
1455,블랙호크 이용 부상장병 이송 훈련,뉴스 > 사회 > 정치일반
1868,인천 인구 23개월 연속 증가 299만4800명,뉴스 > 사회 > 사회일반





Cluster 2


Unnamed: 0,title,category
1309,인사헌법재판소 외,뉴스 > 사람속으로 > 인사일반
1114,인사중앙대병원,뉴스 > 사람속으로 > 인사일반
674,인사 미래창조과학부 외,사회 > 인물 > 인사
1097,인사국무조정실국무총리비서실 외,뉴스 > 사람속으로 > 인사일반
1121,인사인천환경공단,뉴스 > 사람속으로 > 인사일반
1094,인사해양수산부,뉴스 > 사람속으로 > 인사일반
1264,대구판내고장 인사영남이공대,뉴스 > 사회 > 지방뉴스
943,인사금융위원회,뉴스 > 사람속으로 > 인사일반
210,인사 교육부 외,사회 > 인물 > 인사
1338,인사한겨레신문,뉴스 > 사람속으로 > 인사일반





Cluster 3


Unnamed: 0,title,category
1033,이번엔 대학병원서 C형 간염 감염 사태,뉴스 > 사회 > 사회일반
348,스피킹이 강해지는 영어 if it makes you feel any better,사회 > 교육ㆍ시험 > 영어
1401,LoveGift부담은 확 줄이고 실속으로 가득 채운 닭고기 선물세트,뉴스 > 경제 > 기업·CEO
2794,대법 제자에 가혹행위 인분 교수 징역 8년 확정,사회 > 사회일반
2510,신격호 성년후견인 지정 결정신동주 측 타격,경제 > 경제일반
1940,이슈트렌드전승민과학의 탈을 쓴 유사과학,뉴스 > IT/의학 > 정보/과학일반
875,알립니다 수능 단기 완성 학습 프로그램 대성 IC 파이널 신청하세요 외,사회 > 교육ㆍ시험 > 맛있는 공부
2260,현대상선 새 CEO 후보자에 유창근 인천항만공사 사장,경제 > 경제일반
715,인문자연계열 한국사 5등급 이내여야,사회 > 교육ㆍ시험 > 대학입시
2591,1일부터 세월호 특조위 3차 청문회 tbs TV로 생중계,사회 > 사회일반





Cluster 4


Unnamed: 0,title,category
1993,사회공헌 Together매년 영업이익 3 이상 사회공헌사업에 지출,뉴스 > 경제 > 기업·CEO
1987,사회공헌 Together나눔꿈 업종을 넘어선 참여 국경을 초월한 사랑,뉴스 > 경제 > 기업·CEO
1997,사회공헌 Together임직원발달장애아동 짝짓기로 사회적응 도와,뉴스 > 경제 > 기업·CEO
1348,박제균의 휴먼정치내부자들의 주술에 걸린 사회,뉴스 > 정치 > 정치일반
2947,왜냐면 비판의 자유와 열린 사회 김영윤,사설.칼럼 > 왜냐면
2016,사회공헌 Together우리다문화장학재단 출범 총 2380명에 장학금,뉴스 > 경제 > 기업·CEO
2008,사회공헌 Together전국에 희망장난감도서관 55개소 운영,뉴스 >
1995,사회공헌 Together출산 장려아동학대 근절에 온힘,뉴스 > 경제 > 기업·CEO
2012,사회공헌 Together전국 6개 광역지자체와 손잡고 농약 음독자살 막기,뉴스 > 경제 > 기업·CEO
484,흡연은 개인 문제 아닌 사회적 재난,사회 > 인물 > 사람들





Cluster 5


Unnamed: 0,title,category
1739,부고문재철 모친상,뉴스 > 사람속으로 > 인사일반
1110,부고정성한 모친상장지현 시모상,뉴스 > 사람속으로 > 인사일반
1108,부고신운영 부친상,뉴스 > 사람속으로 > 인사일반
1738,부고김영관 장인상,뉴스 > 사람속으로 > 인사일반
954,부고박택상 응상부친상 고재구 장인상,뉴스 > 사람속으로 > 인사일반
1535,부고김선돈 별세형준 혜원 부친상정현주 시부상,뉴스 > 사람속으로 > 인사일반
1534,부고김선돈 별세형준 혜원 부친상정현주 시부상 외,뉴스 > 사람속으로 > 부고
1311,부고권봉택 영택 항택 명택 오택 부친상김은정 장길자 시부상 외,뉴스 > 사람속으로 > 인사일반
1736,부고김두열 준호 모친상,뉴스 > 사람속으로 > 인사일반
1908,부고시조문학 큰 별 정완영 시인,뉴스 > 사람속으로 > 인사일반





Cluster 6


Unnamed: 0,title,category
2848,광운대학교 학생부종합 확대 수능최저 없어,사회 > 교육
2866,서울여자대학교 모든 학생부전형서 수능최저 폐지해,사회 > 교육
1607,2017 대입수시 필승전략교과우수자전형 신설 134명 뽑아,뉴스 > 사회 > 교육
1605,2017 대입수시 필승전략강원도서 유일하게 코어사업 선정,뉴스 > 사회 > 교육
1610,2017 대입수시 필승전략학생부종합전형 면접자기소개서 폐지,뉴스 > 사회 > 교육
1608,2017 대입수시 필승전략올해 코어프라임사업에 모두 선정 정원 77 수시모집,뉴스 > 사회 > 교육
1613,2017 대입수시 필승전략평생 학습자 선발 등 고른기회 전형 확대,뉴스 > 사회 > 교육
1626,2017 대입수시 필승전략일반전형 1단계 합격자 5배수로 늘려,뉴스 > 사회 > 교육
707,전형간 중복지원 가능 수능 최저학력기준 폐지,사회 > 교육ㆍ시험 > 대학입시
1615,2017 대입수시 필승전략지역학생 학생부교과종합 중복 지원,뉴스 > 사회 > 교육





Cluster 7


Unnamed: 0,title,category
183,가볍게 걸쳤을 뿐인데 가을 스타일 완성,문화 > 생활ㆍ여성 > 패션
1763,KIALGSK 안갯속 가을야구 티켓 전쟁,뉴스 > 스포츠 > 야구
1422,골든걸골든걸이 깐깐하게 골랐어요 올 가을 꼭 사고 싶은 뷰티 신제품 13,뉴스 > 경제 > 기업·CEO
2973,825 가계부채 대책 올 가을 청약열기 식히기엔 별무효과,경제 > 경제일반
1423,골든걸New Perfume 우아하고 매혹적인 향 가을 향수 컬렉션,뉴스 > 경제 > 기업·CEO
901,고급 소가죽으로 만든 수제화에 세련된 가을 담았다,경제 > 기업
438,테임즈 뒤에서 딱 가을의 추격자 정로환,스포츠ㆍ연예 > 스포츠 > 야구 > 프로야구
2076,가을야구 꼼짝마경찰청 예비역 떴다,스포츠 > 야구·MLB
216,발자취 역전 3점 홈런으로 가을 야구 MVP 롯데의 전설,사회 > 인물 > 사람들
2160,날씨 흐린 가을 하늘에서 비가 내립니다,사회 > 환경





Cluster 8


Unnamed: 0,title,category
401,우수한 한국 기록문화 알리고 전자정부 노하우 다른나라와 공유하는 기회로,문화
287,기고 한국 관광산업은 돈을 안 벌기로 작정한 건가,사설ㆍ칼럼 > 외부칼럼 > 시론ㆍ기고
2186,1990년 한국을 움직이는 단체 3위의 주인공,정치 > 정치일반
2289,한국 월드컵 최종예선 첫 승중국에 32 진땀승,스포츠 > 축구·해외리그
898,서포터즈에 15개국 유학생 한국 관광 세계에 알려요,경제 > 기업
2921,한국증권금융 감사에 청와대 낙하산,경제 > 경제일반
1091,인사한국생명공학연구원,뉴스 > 사람속으로 > 인사일반
1745,세계한민족여성네트워크 참석 지구촌 무대서 활약하는 한국 여성 2인,뉴스 > 사람속으로 > 인사일반
672,플라자 한국농촌경제연구원 KREI 현장 토론회 개최 외,사회 > 인물 > 동정
1364,한국 여성 노동참여율 아태 16개국중 12위,뉴스 > 경제 > 경제일반





Cluster 9


Unnamed: 0,title,category
781,파산위기 한진해운 현대상선과 합병해야 생존,경제
1433,법정관리 해운동맹 퇴출 청산 유력 해운무역 연17조 피해,뉴스 > 경제 > 정치일반
2724,한진해운 기업 존속 가치 낮은 땐 청산 불가피,경제 > 경제일반
268,한진 미유럽 노선에 현대상선 선박 13척 투입,경제
2369,기고 한진해운 법정관리의 손익 계산 김우호,사설.칼럼 > 칼럼
584,한진해운 법정관리는 곧 사망 선고 대마불사 깨지나,경제 > 기업
1218,2위 현대상선 1위 한진해운 흡수하나,뉴스 > 경제 > 기업
609,사설 퇴출 위기 몰린 한진해운 합병까지 검토해봐야,사설ㆍ칼럼 > 내부칼럼 > 사설
2566,한진그룹 한진해운 법정관리 앞두고 자산 빼돌렸나,경제 > 경제일반
2764,한진해운 법정관리 사실상 확정,경제 > 경제일반





Cluster 10


Unnamed: 0,title,category
1856,우병우 가족회사 정강 계좌추적 이석수 특감팀 증거인멸도 수사,뉴스 > 사회 > 사회일반
2935,언론의 일탈 비판속 우병우 구하기 음모 경계,사회 > 미디어
257,정세균 우병우사드 발언 여 정기국회 첫날부터 보이콧,정치
775,이석수 감찰관 사표,정치
1440,완강한 청 우병우 거취 달라진게 없다,뉴스 > 정치 > 정치일반
2568,우병우는 왜 버티나,사회 > 사회일반
2553,사설 청와대 공작정치 총연출자는 우병우 수석 아닌가,사설.칼럼 > 사설
1443,검 우병우 아들 경찰상관 통화기록 조회 보직청탁 의혹 추적,뉴스 > 정치 > 정치일반
760,감찰관본지기자 압수수색 우병우 수석 집사무실은 제외,사회 > 법원ㆍ검찰ㆍ경찰
250,우병우 거론땐 잠잠 공수처 나오자 웅성 사드에 폭발,정치 > 국회ㆍ정당





Cluster 11


Unnamed: 0,title,category
2575,내년도 생활임금 경기도 7910원 인천시 6880원,사회 > 전국
1552,오늘의 경기8월31일프로야구,뉴스 > 스포츠 > 스포츠일반
3042,공급 뜸했던 경기 의왕시에 분양 봇물,경제 > 경제일반
1936,오늘의 경기8월29일농구,뉴스 > 스포츠 > 스포츠일반
2062,경기조작올림픽폭염에도 700만 관중 쏘다,스포츠 > 야구·MLB
2266,강정호 트리플A 재활경기서 홈런 폭발,스포츠 > 스포츠일반
41,내일의 경기 2016년 9월 4일,스포츠ㆍ연예 > 스포츠 > 종합
2505,7월 생산소비투자 모두 부진 흐려지는 경기하반기 먹구름,경제 > 경제일반
1759,경기 연천 자유로CC 9월 1일 개장,뉴스 > 스포츠 > 스포츠일반
1300,오늘의 경기9월1일축구 외,뉴스 > 스포츠 > 야구





