## LDA 토픽 모델링

### 데이터 준비

In [1]:
# 관련 라이브러리를 호출합니다.
import os
import numpy as np
import pandas as pd
from gensim import corpora 
from gensim import models
from gensim.models import CoherenceModel
import pyLDAvis.gensim_models

In [2]:
# 현재 작업 경로를 확인합니다.
os.getcwd()

'/Users/seonghona/Documents/Lectures/Customer/Archive/DBR_Project/code'

In [3]:
# data 폴더로 작업 경로를 변경합니다.
os.chdir(path = '../data')

In [4]:
# 현재 작업 경로에 있는 폴더명과 파일명을 확인합니다.
sorted(os.listdir())

['LDA.html',
 'Naver_News_Link.pkl',
 'Naver_News_ReCnt.pkl',
 'Naver_News_Reply.pkl',
 'Naver_News_Text.pkl',
 'Text_Data_Prep.pkl',
 'User_Dictionary.txt']

In [5]:
# pkl 파일을 읽고 morphs와 dtm을 생성합니다.
# [참고] pkl 파일로 저장할 때 지정한 파이썬 객체의 개수만큼 변수를 지정해야 합니다.
morphs, dtm = pd.read_pickle(filepath_or_buffer = 'Text_Data_Prep.pkl')

In [6]:
# morphs의 처음 10개 원소를 출력합니다.
for i in range(10):
    print(f'{i}: {morphs[i]}', end = '\n\n')

0: ['백종원', '싫어하다', '백종원', '까이', '있다', '보이다']

1: ['정도', '뒤', '성질', '부리다', '다니다', '생각', '이상']

2: ['빽', '잘나다', '알다', '죽이다', '안달', '주가', '조작', '악재', '퍼뜨리다', '곳', '천지', '맘', '죽이다']

3: ['언론', '문제', '키우다', '마녀사냥', '지금', '헐뜯다', '악의적', '기사', '인', '이미지', '추락', '지', '밥벌이', '이용', '기자', '가다', '행사장', '취재', '다니다', '위생', '관련', '백종원', '그렇다', '마녀사냥', '죽이다', '옮기다', '문제', '대한민국', '언론', '문제', '부모', '자식', '부끄럽다', '모범', '사회', '언론', '바라다']

4: ['더본코리아', '죽이다', '중국', '자본', '요식업', '기업', '들어오다']

5: ['악의적', '패다', '팩트', '백종원', '식당', '동네', '배달', '마라탕', '집', '배', '비위생']

6: ['요리', '자', '모르다', '자', '정식', '배우다', '기웃거리다', '운', '맞다', '대박', '치다', '백', '양심', '우선']

7: ['스토커', '수준', '정도', '업무방해']

8: ['잡다', '보도', '알다', '시정', '조치', '자발적', '개선', '시간', '주다', '회사', '망하다', '죽다']

9: ['백종원', '기자', '시', '물다', '뜯다', '망하다', '기세', '이러다', '망하다']



### LDA 모델 생성

In [7]:
# morphs의 원소에서 dtm의 열이름에 있는 단어만 남겨서 LDA용 문서 리스트를 생성합니다.
# [참고] morphs의 원소는 리스트입니다.
documents = [[term for term in morph if term in dtm.columns] for morph in morphs]

In [8]:
# LDA용 문서 리스트로 사전을 생성합니다.
dictionary = corpora.Dictionary(documents = documents)

In [9]:
# 사전에 포함된 단어 개수를 확인합니다.
# [참고] dictionary의 단어 개수는 dtm의 열 개수와 같아야 합니다.
len(dictionary)

1003

In [10]:
# 사전으로 LDA용 말뭉치를 생성합니다.
corpus4LDA = [dictionary.doc2bow(document = document) for document in documents]

In [11]:
# 토픽 개수(k)를 설정합니다.
topic_nums = 5

In [12]:
# LDA 모델을 생성합니다.
LDAmodel = models.ldamodel.LdaModel(
    corpus = corpus4LDA, 
    num_topics = topic_nums, 
    id2word = dictionary, 
    random_state = 0
)

### LDA 모델 시각화

In [13]:
# 경고를 출력하지 않도록 설정합니다.
import warnings
warnings.filterwarnings(action = 'ignore')

In [14]:
# LDA 모델 시각화 객체를 생성합니다.
LDAvis = pyLDAvis.gensim_models.prepare(
    topic_model = LDAmodel, 
    corpus = corpus4LDA, 
    dictionary = dictionary
)

In [15]:
# LDA 모델 시각화 객체를 html 파일로 저장합니다.
# [참고] 탐색기 또는 파인더에서 html을 더블클릭하면 웹 브라우저에서 열립니다.
pyLDAvis.save_html(data = LDAvis, fileobj = 'LDA.html')

In [16]:
# 현재 작업 경로에 있는 폴더명과 파일명을 확인합니다.
sorted(os.listdir())

['LDA.html',
 'Naver_News_Link.pkl',
 'Naver_News_ReCnt.pkl',
 'Naver_News_Reply.pkl',
 'Naver_News_Text.pkl',
 'Text_Data_Prep.pkl',
 'User_Dictionary.txt']

## End of Document