In [2]:
from konlpy.tag import Okt
try:
    import ujson
except ImportError:
    import json

In [3]:
okt = Okt()

In [4]:
with open('./data/2017_03.json') as f:
    data = json.load(f)

In [5]:
data[0]

{'date': '2017-03-01',
 'text': '플레이어 이동시키기 플레이어 닫기\n\n<앵커>\n\n\n\n98년 전 3월 1일 태극기를 들고 거리로 나서서 독립을 외치던 우리의 할아버지, 할머니들이 오늘(1일) 서울 한복판이 이렇게 둘로 갈라진 모습을 보면 뭐라고 생각하실까요? 탄핵 찬성과 반대, 각각 목소리를 높인 집회 참가자들 머리 위로는 비가 내렸고, 날씨는 을씨년스러웠습니다.\n\n\n\n먼저 권란 기자가 오늘 집회 상황 종합했습니다.\n\n\n\n<기자>\n\n\n\n광화문 광장과 맞닿은 세종대로 남쪽에서 먼저 탄핵 반대 집회가 시작됐습니다.\n\n\n\n서울광장에 이어 숭례문까지 태극기를 든 참가자들로 꽉 찼습니다.\n\n\n\n대형 태극기에다 성조기까지 등장했고, 고 박정희 전 대통령의 얼굴이 그려진 깃발도 배포됐습니다.\n\n\n\n참가자들은 헌재의 탄핵 결정을 앞두고 목청 높여 탄핵에 반대했습니다.\n\n\n\n \n\n\n\n집회 시작 네 시간쯤 뒤부터는 탄핵 반대 집회 측으로선 처음으로 청와대 방향 행진을 시작했습니다.\n\n\n\n헌재와 도심 등 5개 경로로 행진을 이어갔습니다.\n\n\n\n탄핵 반대 집회가 끝나갈 무렵인 오후 5시쯤부터는 탄핵 찬성 집회가 세종대로 북쪽 광화문광장에서 열렸습니다.\n\n\n\n충돌을 우려해 경찰이 차벽으로 양측을 막아선 가운데, 촛불을 든 시민들은 헌재의 탄핵 인용 결정을 촉구하며 목소리를 높였습니다.\n\n\n\n \n\n\n\n특히 3.1절을 맞아 위안부 피해자 이용수 할머니가 무대에 올라 아리랑을 부르자, 참가자 모두 따라 부르기도 했습니다.\n\n\n\n \n\n\n\n박근혜 대통령 탄핵 여부가 결정되는 운명의 3월 첫날에 서울 도심 광장을 둘로 나눈 대규모 집회여서 충돌이 걱정됐지만 다행히 아직 불상사는 없는 상황입니다.\n\n\n\n(영상취재 : 신진수·김성일·박진호, 영상편집 : 윤선영)',
 'title': '대통령 운명 결정할 3월…탄핵 찬반에 둘로 나뉜 3·1절'}

In [6]:
tags = set(['Noun', 'Adjective', 'Verb'])
article_list = []
for i, article in enumerate(data):
    if i % 1000 == 0:
        print(i)
    
    text = article['text'].strip()
    if len(text) > 10:
        article_list.append([w for w, t in okt.pos(text, stem=True) if t in tags and len(w) > 1])

        if len(article_list) == 10000:
            break

0
1000
2000
3000
4000
5000
6000
7000
8000
9000
10000


In [7]:
from collections import Counter

word_count = Counter()

for words_list in article_list:
    word_count.update(words_list)
    
voca = [w for w, freq in word_count.most_common(10000)]
word2id = {w: i for i, w in enumerate(voca)}

article_list_ = []
for words_list in article_list:
    words = [w for w in words_list if w in word2id]
    if len(words) >= 5:
        article_list_.append(words)

In [8]:
import numpy as np
from sklearn.preprocessing import normalize

tdm = np.zeros((len(article_list_), len(voca)), dtype=np.float32)
for i, words in enumerate(article_list_):
    for word in words:
        try:
            tdm[i, word2id[word]] += 1
        except KeyError:
            pass
        
normalize(tdm, copy=False)

array([[0.44556642, 0.        , 0.09901476, ..., 0.        , 0.        ,
        0.        ],
       [0.32769278, 0.        , 0.40961596, ..., 0.        , 0.        ,
        0.        ],
       [0.33836982, 0.284943  , 0.39179662, ..., 0.        , 0.        ,
        0.        ],
       ...,
       [0.03627381, 0.18136907, 0.        , ..., 0.        , 0.        ,
        0.        ],
       [0.02931052, 0.02931052, 0.05862104, ..., 0.        , 0.        ,
        0.        ],
       [0.        , 0.        , 0.        , ..., 0.        , 0.        ,
        0.        ]], dtype=float32)

In [9]:
from sklearn.decomposition import NMF

K = 10
nmf = NMF(n_components=K)
W = nmf.fit_transform(tdm)
H = nmf.components_

In [10]:
for k in range(K):
    print(f"{k}th topic")
    for i in H[k].argsort()[::-1][:20]:
        print(voca[i], end=' ')
    print()

0th topic
탄핵 기각 대통령 국민 운동 궐기 본부 집회 반대 주최 탄기 서울 사진 취재 있다 공동 열리고 오후 사거리 뉴스 
1th topic
대표 민주당 대선 지사 후보 문재인 더불어 의원 주자 탄핵 안희정 하는 정당 국민의당 한국 참석 경선 지지율 토론회 이재명 
2th topic
등장 부부 스타 행복 웃음 사탕 방송사고 켈리 하는 안희정 뉴스 남편 들어 지사 민주 사람 있는 대해 출연 본다 
3th topic
서울 있다 기자 열린 뉴스 오후 뉴시스 광화문 광장 참가자 종로구 박근혜 외치 촉구 하고 구호 주년 호남 수습 전신 
4th topic
대선 지원 출마 보통사람 한국 검찰 정부 황교안 인상 금리 소환 주택 청춘 수사 선언 홍준표 출시 이상 사업 변경 
5th topic
태극기 집회 탄핵 하는 반대 행진 참가자 오후 경찰 참석 단체 촛불 사거리 청와대 기자 대한문 광장 입니다 했습니다 오늘 
6th topic
박근혜 퇴진 광장 탄핵 행동 광화문 촛불집회 국민 오후 집회 인용 촉구 촛불 시민 구속 황교안 대통령 정권 만세 행진 
7th topic
탄핵 헌재 심판 선고 재판관 헌법재판소 결정 대행 하는 권한 입니다 평의 했습니다 국회 있습니다 인용 정미 최종 대통령 의견 
8th topic
했다 한다 하는 있다 한국 우리 국민 라며 의원 해야 대해 대한민국 정치 있는 대한 밝혔다 주장 자유 정부 위해 
9th topic
대통령 박근혜 특검 수사 탄핵 검찰 있다 하는 청와대 혐의 대리인 대한 기자 변호사 주장 재단 국정 사건 심판 조사 
