## 토픽 모델링

### 관련 라이브러리 호출

In [None]:
# 관련 라이브러리를 호출합니다.
import os, joblib
from gensim import corpora 
from gensim import models
from gensim.models import CoherenceModel

### 실습 데이터셋 준비

In [None]:
# 현재 작업 경로를 확인합니다.
os.getcwd()

In [None]:
# data 폴더로 작업 경로를 변경합니다.
os.chdir(path = '../data')

In [None]:
# 현재 작업 경로에 저장된 폴더명과 파일명을 출력합니다.
os.listdir()

In [None]:
# 말뭉치 압축파일을 호출합니다.
corpus = joblib.load(filename = 'Corpus.z')

In [None]:
# 문서-단어 행렬 압축파일을 호출합니다.
dtm = joblib.load(filename = 'DTM.z')

In [None]:
# DTM 단어 목록을 terms에 할당합니다.
terms = dtm.columns

In [None]:
# corpus에서 DTM 단어 목록에 있는 단어만 남깁니다.
corpus = [' '.join([i for i in c.split() if i in terms]) for c in corpus]

### LDA 모형 생성

In [None]:
# 말뭉치를 공백 기준으로 분리하여 LDA용 문서 리스트를 생성합니다.
docs = [i.split() for i in corpus]

In [None]:
# LDA용 문서 리스트로 사전을 생성합니다.
dctn = corpora.Dictionary(documents = docs)

In [None]:
# 사전에 포함된 단어 개수를 확인합니다.
len(dctn)

In [None]:
# 사전으로 LDA용 말뭉치를 생성합니다.
corpus4LDA = [dctn.doc2bow(document = doc) for doc in docs]

In [None]:
# 토픽 개수를 설정합니다.
topic_nums = 3

In [None]:
# LDA 모형을 생성합니다.
LDAmodel = models.ldamodel.LdaModel(
    corpus = corpus4LDA, 
    num_topics = 3, 
    id2word = dctn, 
    random_state = 0
)

In [None]:
# LDA용 말뭉치 길이(문서 개수)를 n에 할당합니다.
n = len(corpus4LDA)

In [None]:
# 문서의 토픽 비중을 출력합니다.
for i in range(n):
    print(LDAmodel.get_document_topics(bow = corpus4LDA[i]))

In [None]:
# 토픽의 단어 비중을 출력합니다.
LDAmodel.get_topics()

In [None]:
# 첫 번째 토픽의 확률 상위 10개 단어를 출력합니다.
topicTerms = LDAmodel.get_topic_terms(topicid = 0, topn = 10)
topicTerms

In [None]:
# 사전에 있는 단어로 변경하여 출력합니다.
[(dctn[term], prob) for term, prob in topicTerms]

### LDA 시각화

In [None]:
# 관련 라이브러리를 호출합니다.
import pyLDAvis.gensim_models

In [None]:
# 주피터 노트북에서 시각화할 수 있도록 설정합니다.
pyLDAvis.enable_notebook()

In [None]:
# LDA 시각화 객체를 생성합니다.
LDAvis = pyLDAvis.gensim_models.prepare(
    topic_model = LDAmodel, 
    corpus = corpus4LDA, 
    dictionary = dctn
)

In [None]:
# LDA 모형을 시각화합니다.
pyLDAvis.display(data = LDAvis)

### End of Document