In [20]:
from konlpy.tag import *
import datetime
from IPython.display import display

import re
import numpy as np
import pandas as pd
from pprint import pprint
from konlpy.tag import Hannanum

# Gensim
import gensim
import gensim.corpora as corpora
from gensim.utils import simple_preprocess
from gensim.models import CoherenceModel

# spacy for lemmatization
import spacy

# Plotting tools
import pyLDAvis
import pyLDAvis.gensim  # don't skip this
import matplotlib.pyplot as plt
%matplotlib inline

# Enable logging for gensim - optional
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.ERROR)

import warnings
warnings.filterwarnings("ignore",category=DeprecationWarning)

In [2]:
df = pd.read_csv('tuned_df.csv')
df.tail()

Unnamed: 0,click,content,time,title,noun_tuned
8436,3190,이더리움 비트코인 비트코인과 함께 이더리움에 관심이 쏠리고 있다한 매체 보도에 따...,05-25,비트코인 이어 이더리움도 관심 스마트 콘트랙트 전자계약이 뭐길래,"['더', '리움', '비트코인', '비트코인', '더', '리움', '관심', '..."
8437,2706,비트코인 AFP뉴스1대표적인 전자화폐 비트코인의 랠리가 눈부시다 올 들어서만 그 ...,05-25,비트코인보다 눈부신 이더리움…올해 들어 2300 급등,"['비트코인', '뉴스', '대표', '전자화폐', '비트코인', '랠리', '그'..."
8438,3067,Photo pixabay비트코인Bitcoin이 화제다 비트코인은 2009년 나카모...,05-25,비트코인 이더리움 가상화폐 수요 급증 이유는,"['비트코인', '이', '화제', '비트코인', '나카', '모토', '사토시',..."
8439,2801,사진게티이미지뱅크 비트코인 가상화폐비트코인 이더리움 등 가상화폐의 가격이 계속해서 ...,05-25,몸값 오르는 가상화폐…비트코인·이더리움 뭐길래,"['사진', '티', '이미지', '뱅크', '비트코인', '가상', '화폐', '..."
8440,2341,비트코인이 2000달러를 돌파한지 닷새만에 또다시 최고치를 새로 썼다고 24일현지시...,05-25,비트코인 2500달러 또 사상최고치,"['비트코인', '돌파', '한지', '닷새', '최고', '보도', '비트코인',..."


In [3]:
data = df['noun_tuned'].tolist()

In [4]:
stop_words = list(pd.read_csv('kor_stop_words.csv').T.iloc[:1,:].values[0])
stop_words[:10]

['아', '휴', '아이구', '아이쿠', '아이고', '어', '나', '우리', '저희', '따라']

In [7]:
def remove_stopwords(texts):
    return [[word for word in simple_preprocess(str(doc)) if word not in stop_words] for doc in texts]

In [12]:
data_lemmatized = remove_stopwords(data)

- LDA 모델에 들어가야 하는 두 가지 입력변수는 딕셔너리와(id2word) 코퍼스(corpus)이다.
- gensim 은 문서 내에 있는 단어별로 유니크한 아이디를 할당해준다.
- 아래의 각각의 엘리먼트 튜플당 의미하는 것은 [word_id,word_frequency] 이다.

In [13]:
# Create Dictionary
id2word = corpora.Dictionary(data_lemmatized)

# Create Corpus
texts = data_lemmatized

# Term Document Frequency
corpus = [id2word.doc2bow(text) for text in texts]

# View
print(corpus[:1])

[[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1), (7, 1)]]


만약 해당 id에 속한 단어를 보고싶으면

In [14]:
id2word[0]

'기회'

위의 표는 컴퓨터가 읽기 쉽게끔 만들어준 것이고, Counter 객체처럼 사람이 읽기 쉽게 만든 것은 아래와 같다.

In [15]:
# Human readable format of corpus (term-frequency)
[[(id2word[id], freq) for id, freq in cp] for cp in corpus[:1]]

[[('기회', 1),
  ('넥시빗', 1),
  ('도전', 1),
  ('아이폰', 1),
  ('이벤트', 1),
  ('정말', 1),
  ('크게', 1),
  ('핸드폰', 1)]]

여태까지 해온 것이 LDA 모델 생성에 필요한 것들을 전부 한 것이다. 코퍼스와 딕셔너리를 생성한 것에 더해서, 우리는 몇 개의 토픽을 할당할 것인지에 대한 결정을 해주어야 한다.

- alpha , eta 는 토픽들의 떨어진 정도(sparsity)에 영향을 끼치는 하이퍼 파라미터이다. 도큐먼트에 따르면, 디폴트값은 1.0/num_topics prior 이다.
- chunksize 는 각각의 training chunk 에 사용될 문서의 갯수를 의미한다. 확실하지는 않지만, batch_size 와 유사한 의미를 갖는 것로 해석된다.

    - IN ADDITION : Text chunking, also referred to as shallow parsing, is a task that follows Part-Of-Speech Tagging and that adds more structure to the sentence. The result is a grouping of the words in “chunks”.


In [16]:
# Build LDA model
lda_model = gensim.models.ldamodel.LdaModel(corpus=corpus,
                                           id2word=id2word,
                                           num_topics=5, 
                                           random_state=100,
                                           update_every=1,
                                           chunksize=100,
                                           passes=10,
                                           alpha='auto',
                                           per_word_topics=True)

In [17]:
# Compute Perplexity
print('\nPerplexity: ', lda_model.log_perplexity(corpus))  # a measure of how good the model is. lower the better.

# Compute Coherence Score
coherence_model_lda = CoherenceModel(model=lda_model, texts=data_lemmatized, dictionary=id2word, coherence='c_v')
coherence_lda = coherence_model_lda.get_coherence()
print('\nCoherence Score: ', coherence_lda)


Perplexity:  -7.4899471352874984

Coherence Score:  0.4121598797091758


pyLDAvis 만큼 jupyter notebook에서 LDA랄 잘 작동하면서 시각화하는 툴도 없다.

In [21]:
# Visualize the topics
pyLDAvis.enable_notebook()
vis = pyLDAvis.gensim.prepare(lda_model, corpus, id2word)
vis