# Script for extract keywords

In [1]:
import numpy as np
import pandas as pd

## Load Data

In [2]:
from pymongo import MongoClient

In [3]:
client = MongoClient('mongodb://ssomanews:ssomanews1029@ds033987-a0.mlab.com:33987/somanews', 33987)
db = client.get_database('somanews')
articles = db.get_collection('articles')

In [4]:
train = pd.DataFrame(list(articles.find()))
client.close()

## Preprocessing
1. Remove stopwords (regex, hanja)
2. POS Tagging with KoNLPy, Mecab
3. NNP to English

In [5]:
from konlpy.tag import Mecab
import hanja
import cnouns
import re

In [6]:
mecab = Mecab()
pos = lambda d: ['/'.join(p) for p in mecab.pos(d)]

In [7]:
def text_cleaning(text):
    text = hanja.translate(text, 'substitution')
    text = re.sub('[^가-힝0-9a-zA-Z\\s]', ' ', text)
    text = text.replace(u"카드뉴스", ' ').replace(u"조선일보", ' ').replace(u"오늘", ' ')
    return text

In [8]:
train['content'] = train['content'].apply(lambda text: text_cleaning(text))
content = [mecab.nouns(each[1]['content']) for each in train.iterrows()]

## TF-IDF Vectorizer

In [9]:
from sklearn.feature_extraction.text import TfidfVectorizer
from tqdm import tqdm

In [10]:
vectorizer = TfidfVectorizer(lowercase=False)

## NMF vs LDA
- 수행시간 : 0.005 vs 0.520
- 정확도 1 : [체코 도시 중세 동유럽 양식] vs [체코 도시 중세 관광 광장]
- 정확도 2 : [해운 현대 한진 상선 금융] vs [상선 현대 한진 해운 금융]

In [11]:
from sklearn.decomposition import NMF
from sklearn.decomposition import LatentDirichletAllocation

In [12]:
def top_words(model, feature_names, n_top_words):
    for topic_idx, topic in enumerate(model.components_):
        keywords = [" ".join([feature_names[i] for i in topic.argsort()[:-n_top_words - 1:-1]])]
    return keywords

In [13]:
keywords = []
for i in tqdm(range(len(content))):
    if not content[i]: 
        keywords.append('NULL')
        continue
    x_list = vectorizer.fit_transform(content[i])
    nmf = NMF(n_components=1).fit(x_list)
    feature_names = vectorizer.get_feature_names()
    keywords.append(top_words(nmf, feature_names, 5))

100%|██████████| 179/179 [00:01<00:00, 106.94it/s]


## Add keywords to DataFrame

In [14]:
train['keywords'] = keywords

In [16]:
train.content

0      한진해운의 법정관리 신청으로 물류 대란이 현실화되면서 금융권도 급박하게 돌아갔다  ...
1       한진해운의 법정관리 신청이 세계 무역을 뒤흔들다  \n\n미국 월스트리트저널 WS...
2      내년 나라 살림이 처음으로 400조원을 돌파해 400조7000억원으로 꾸려진다  고...
3      파산 위기에 처한 국내 1위 세계 7위  해운사 한진해운을 일단 정상화한 뒤 국내 ...
4      중세의 향기를 고스란히 간직하고 있는 나라  골목마다 문화와 예술이 살아 숨쉬는 곳...
5      한진해운은 결국 법정관리라는 최악의 항로 항로 로 들어서게 됐다  채권단은 30일 ...
6      해운업 불황으로 경영 위기에 몰린 국내 1위 해운사 한진해운이 끝내 회생하지 못하고...
7      꽃은 아름다움을 대변한다  흔히 아름다운 여인을 꽃으로 비유하며 여인의 마음을 사로...
8      TV조선은 4일 밤 11시 생활정보쇼  살림9단의 만물상 을 방송한다 \n\n십여일...
9                                                       
10                                                      
11                                                      
12                                                      
13     리우올림픽에서 아쉬움의 눈물을 삼켰던  리듬체조 요정  손연재 21 가 환한 웃음을...
14                                                      
15                                                      
16     지우마 호세프 브라질 대통령이 탄핵당한 데 이어 최악의 경제난을 겪고 있는 남미 베...
17     지우마 호세프 브라질 대통령이 탄핵으로 물러

In [17]:
train.keywords

0          [상선 현대 해운 한진 선박]
1          [해운 한진 운송 선박 화물]
2          [예산 올해 복지 정부 내년]
3          [해운 한진 세계 국내 경쟁]
4          [체코 중세 도시 관광 맥주]
5          [해운 한진 법정 관리 구조]
6          [해운 한진 관리 법정 권단]
7          [소비 화훼 선물 시장 한국]
8          [명절 소개 정리 살림 시기]
9                      NULL
10                     NULL
11                     NULL
12                     NULL
13        [손연재 리듬 세계 체조 리우]
14                     NULL
15                     NULL
16        [투표 대통령 소환 시위 국민]
17     [테메르 호세프 브라질 대통령 정치]
18       [대통령 탄핵 룰라 호세프 수감]
19      [탄핵 상원 호세프 대통령 브라질]
20        [판사 부장 혐의 구속 대법원]
21         [판사 부장 검찰 대표 법원]
22        [판사 부장 대표 법원 대법원]
23      [시장 주차 전통 경찰청 홈페이지]
24        [대표 대통령 친문 탄핵 의원]
25         [제품 노트 리콜 판매 교환]
26     [배터리 삼성 노트 삼성전자 갤럭시]
27      [배터리 노트 갤럭시 센터 서비스]
28      [배터리 노트 서비스 갤럭시 센터]
29      [배터리 삼성전자 리콜 출시 문제]
               ...         
149        [한진 해운 그룹 회장 관리]
150        [한진 해운 그룹 회장 경영]
151        [추석 국립 기간 물가 지급]
152        [업체 엘지 협력 대금 지급]
153    [브라질 경제 정권 베네