## LDA 토픽 모델링

### 데이터 준비

In [None]:
# 관련 라이브러리를 호출합니다.
import os
import numpy as np
import pandas as pd
from gensim import corpora 
from gensim import models
from gensim.models import CoherenceModel
import pyLDAvis.gensim_models

In [None]:
# 현재 작업 경로를 확인합니다.
os.getcwd()

In [None]:
# data 폴더로 작업 경로를 변경합니다.
os.chdir(path = '../data')

In [None]:
# 현재 작업 경로에 있는 폴더명과 파일명을 확인합니다.
sorted(os.listdir())

In [None]:
# pkl 파일을 읽고 morphs와 dtm을 생성합니다.
# [참고] pkl 파일로 저장할 때 지정한 파이썬 객체의 개수만큼 변수를 지정해야 합니다.
morphs, dtm = pd.read_pickle(filepath_or_buffer = 'Text_Data_Prep.pkl')

In [None]:
# morphs의 처음 10개 원소를 출력합니다.
for i in range(10):
    print(f'{i}: {morphs[i]}', end = '\n\n')

### LDA 모델 생성

In [None]:
# morphs의 원소에서 dtm의 열이름에 있는 단어만 남겨서 LDA용 문서 리스트를 생성합니다.
# [참고] morphs의 원소는 리스트입니다.
documents = [[term for term in morph if term in dtm.columns] for morph in morphs]

In [None]:
# LDA용 문서 리스트로 사전을 생성합니다.
dictionary = corpora.Dictionary(documents = documents)

In [None]:
# 사전에 포함된 단어 개수를 확인합니다.
# [참고] dictionary의 단어 개수는 dtm의 열 개수와 같아야 합니다.
len(dictionary)

In [None]:
# 사전으로 LDA용 말뭉치를 생성합니다.
corpus4LDA = [dictionary.doc2bow(document = document) for document in documents]

In [None]:
# 토픽 개수(k)를 설정합니다.
topic_nums = 5

In [None]:
# LDA 모델을 생성합니다.
LDAmodel = models.ldamodel.LdaModel(
    corpus = corpus4LDA, 
    num_topics = topic_nums, 
    id2word = dictionary, 
    random_state = 0
)

### LDA 모델 시각화

In [None]:
# 경고를 출력하지 않도록 설정합니다.
import warnings
warnings.filterwarnings(action = 'ignore')

In [None]:
# LDA 모델 시각화 객체를 생성합니다.
LDAvis = pyLDAvis.gensim_models.prepare(
    topic_model = LDAmodel, 
    corpus = corpus4LDA, 
    dictionary = dictionary
)

In [None]:
# LDA 모델 시각화 객체를 html 파일로 저장합니다.
# [참고] 탐색기 또는 파인더에서 html을 더블클릭하면 웹 브라우저에서 열립니다.
pyLDAvis.save_html(data = LDAvis, fileobj = 'LDA.html')

In [None]:
# 현재 작업 경로에 있는 폴더명과 파일명을 확인합니다.
sorted(os.listdir())

## End of Document