## 토픽 모델링

In [1]:
# 라이브러리 호출
import os
import numpy as np
import pandas as pd
from gensim import corpora 
from gensim import models
from gensim.models import CoherenceModel
import pyLDAvis.gensim_models

In [2]:
# 현재 작업 경로 확인
os.getcwd()

'/Users/seonghona/Documents/Lectures/Customer/DBR/code'

In [3]:
# data 폴더로 작업 경로 변경
os.chdir(path = '../data')

In [4]:
# 현재 작업 경로에 있는 폴더명과 파일명 확인
os.listdir()

['Text_Prep.pkl', 'Naver_News_Reply.pkl', 'Naver_News_List.pkl']

In [5]:
# pkl 파일을 읽고 corpus, tfs 및 dtm 생성
# [참고] pkl 파일로 저장할 때 지정한 파이썬 객체의 개수만큼 변수를 지정해야 함
corpus, tfs, dtm = pd.read_pickle(filepath_or_buffer = 'Text_Prep.pkl')

In [6]:
# corpus의 처음 5개 원소 확인
corpus[0:5]

['본인 책 홍보 사진 찍다 파리 가다 축구협회 회장 정치인',
 '회장 만나다 정몽규 우러러보다 월드컵 나가다 전전긍긍 알다 택 소리 축구협회 자체 썩다 빠지다 국민 모두 분노 넘치다 이러다 피파 징계 먹다 말다 이번 월드컵 포기 지금 협회 조지다 만들다 그러다 올해 국회 국정 감사 눈 불 켜다 기다리다 축구협회 배드민턴 협회 박살나다 저러다 문체부 포함 야당 여당 국회의원 조지다 조지다 어설프다 질문 협회 질타 이상 질타 순간 순간 뭇매 맞다',
 '크다 린스 위약금 본인 충당',
 '몽규 비행기 호텔 값 자비 가다',
 '피파에자리좀없슈']

In [7]:
# dtm 단어 목록을 terms에 할당
terms = dtm.columns

In [8]:
# corpus에서 dtm의 열이름에 있는 단어만 남김
# [참고] dtm은 단어 빈도수가 작은 일부 단어를 삭제하였음
corpus = [' '.join([i for i in c.split() if i in terms]) for c in corpus]

# corpus의 처음 5개 원소 확인
corpus[0:5]

['본인 파리 가다 축구협회 회장',
 '회장 만나다 정몽규 월드컵 나가다 알다 소리 축구협회 자체 썩다 빠지다 국민 이러다 먹다 말다 이번 월드컵 지금 협회 만들다 그러다 국회 감사 축구협회 배드민턴 협회 저러다 문체부 협회 이상 맞다',
 '크다 린스 본인',
 '몽규 가다',
 '']

### LDA 모형 생성

In [9]:
# 말뭉치를 공백 기준으로 분리하여 LDA용 문서 리스트 생성
documents = [i.split() for i in corpus]

In [10]:
# LDA용 문서 리스트로 사전 생성
dictionary = corpora.Dictionary(documents = documents)

In [11]:
# 사전에 포함된 단어 개수 확인
# [참고] dictionary의 단어 개수는 dtm의 열 개수와 같아야 함
len(dictionary)

224

In [12]:
# 사전으로 LDA용 말뭉치 생성
corpus4LDA = [dictionary.doc2bow(document = document) for document in documents]

In [13]:
# 토픽 개수(k) 설정
topic_nums = 5

In [14]:
# LDA 모형 생성
LDAmodel = models.ldamodel.LdaModel(
    corpus = corpus4LDA, 
    num_topics = topic_nums, 
    id2word = dictionary, 
    random_state = 0
)

### LDA 시각화

In [15]:
# 경고를 출력하지 않도록 설정
import warnings
warnings.filterwarnings('ignore')

In [16]:
# 주피터 노트북에서 시각화할 수 있도록 설정
pyLDAvis.enable_notebook()

In [17]:
# LDA 시각화 객체 생성
LDAvis = pyLDAvis.gensim_models.prepare(
    topic_model = LDAmodel, 
    corpus = corpus4LDA, 
    dictionary = dictionary
)

In [18]:
# LDA 모형 시각화
pyLDAvis.display(data = LDAvis)

### End of Document