# Topic Modeling 주제 모델링

- Topic Modeling : 텍스트 문서 집합에서 숨겨진 주제 구조를 찾는 기법
- 이 기술은 문서를 사이의 유사성을 기반으로, 문서 집합을 구성하고 있는 여러 주제들을 자동으로 식별
- Topic Modeling을 활용해, 문서 요약, 정보 탐색, 주제 탐색, 분류 ...
- LDA (Latent Dirichlet Allocation) : 대표적인 Topic modeling
  - 비지도 학습에 대해 많이 사용되는 알고리즘
  - 자연어 처리 -> 문서 집합 내 주제를 찾는 Topic Modeling에 주로 사용
  - 특정 문서 집합이 여러가지 혼합된 주제들로 구성되어 있고, 각 주제가 특정 단어의 분포로 표현될 수 있다는 것을 가정해 확률 분포로 주제어를 찾는 방식
  - 변분 베이즈 추론 (Variational Bayes) / 깁스 샘플링 (Gibbs Sampling)
   - 변분 베이즈 추론 (Variational Bayes) : 사후 분포를 근사할 수 있는 더 간단한 분포를 찾는 방식으로 주저어에 대한 확률을 추정
   - 깁스 샘플링 : 몬테카를로 체인을 이용해, 상태공간이 취할 수 있는 모든 집합의 확률 분포를 계산

- 학습 단계
  1. 초기화 : 각 문서, 문장에서 임의의 주제 단어를 선택 (주제 단어는 아래의 절차로 갱신)
  2. 업데이트 : 주제 단어를 제외한 나머지 단어들로 부터 주제 단어를 추출
     - 문서/문장에 어떤 단어가 많이 등장하는가 ?
     - 문서 내 다른 단어들이 어떤 주제에 일관적으로 등장하는가 ?
  3.  선택된 주제를 이용해 단어들에 대한 분포 추정 실시
  4.  가장 분포의 변화가 적은 단어가 등장핼 때 까지 위의 과정을 반복

In [18]:
import pandas as pd
import numpy as np
import scipy.stats as stats
import plotly.express as px
from konlpy.tag import Okt

In [2]:
from gensim import corpora, models
from nltk.tokenize import word_tokenize, sent_tokenize

In [5]:
# 예시 문서
with open(r'C:\Users\UserK\Desktop\Ranee\data\ML\data3.txt', 'r', encoding ='utf-8') as file :
    text1 = file.read()

In [15]:
# 문장/분단 처리
sent1 = [x for x in sent_tokenize(text1)]

In [16]:
# 불용어 처리
df_stopword = pd.read_csv(r'C:\Users\UserK\Desktop\Ranee\data\ML\stopword.txt')
# 불용어 정리가 되어있는 텍스트 파일을 리스트로 선언 + 내 데이터에 맞는 불용어 추가
stop_list = df_stopword['불용어'].tolist() + ['용','체','정','식','사업','방법','재']

In [19]:
okt = Okt()

In [21]:
# 불용어 처리 + 형태소 분석(명사 추출)
pos_text1 = [[y for y in okt.nouns(x) if y not in stop_list] for x in sent1]

In [22]:
# LDA 분석을 위한 단어 사전을 먼저 구축
word_dict = corpora.Dictionary(pos_text1)
# 단어 사전을 활용해, 문장 내 명사를 숫자로 변환
[word_dict.doc2bow(x) for x in pos_text1]
# 하나의 단어가 (n,m) 으로 표현 / n : 해당 단어의 ID / m : 해당 단어의 문장 내 빈도수

[[(0, 3),
  (1, 1),
  (2, 1),
  (3, 1),
  (4, 1),
  (5, 1),
  (6, 2),
  (7, 1),
  (8, 1),
  (9, 1),
  (10, 1),
  (11, 1),
  (12, 2),
  (13, 1),
  (14, 1),
  (15, 1),
  (16, 10),
  (17, 1),
  (18, 1),
  (19, 3),
  (20, 1),
  (21, 1),
  (22, 2),
  (23, 1)],
 [(5, 1),
  (6, 1),
  (12, 1),
  (21, 1),
  (24, 1),
  (25, 1),
  (26, 1),
  (27, 1),
  (28, 1),
  (29, 1),
  (30, 1),
  (31, 1),
  (32, 1),
  (33, 1),
  (34, 1),
  (35, 1),
  (36, 1),
  (37, 1),
  (38, 1)],
 [(12, 1), (32, 1), (34, 1), (37, 1), (39, 1), (40, 1)],
 [(0, 2),
  (3, 1),
  (7, 1),
  (12, 2),
  (16, 3),
  (19, 1),
  (30, 1),
  (32, 1),
  (41, 1),
  (42, 1),
  (43, 1),
  (44, 1),
  (45, 1),
  (46, 1),
  (47, 1),
  (48, 1),
  (49, 1),
  (50, 1),
  (51, 1)],
 [(0, 2),
  (5, 1),
  (7, 2),
  (12, 2),
  (13, 1),
  (16, 1),
  (30, 2),
  (34, 1),
  (39, 1),
  (43, 2),
  (44, 1),
  (45, 2),
  (46, 2),
  (48, 1),
  (52, 1),
  (53, 1),
  (54, 1),
  (55, 1),
  (56, 1),
  (57, 1),
  (58, 1),
  (59, 1),
  (60, 1),
  (61, 1),
  (62, 1),


In [25]:
# LDA 분석을 위한 단어 사전을 먼저 구축
word_dict = corpora.Dictionary(pos_text1)
# 단어 사전을 활용해, 문장 내 명사를 숫자로 변환
corpus = [word_dict.doc2bow(x) for x in pos_text1]
# 하나의 단어가 (n,m) 으로 표현 / n : 해당 단어의 ID / m : 해당 단어의 문장 내 빈도수
corpus[0]

[(0, 3),
 (1, 1),
 (2, 1),
 (3, 1),
 (4, 1),
 (5, 1),
 (6, 2),
 (7, 1),
 (8, 1),
 (9, 1),
 (10, 1),
 (11, 1),
 (12, 2),
 (13, 1),
 (14, 1),
 (15, 1),
 (16, 10),
 (17, 1),
 (18, 1),
 (19, 3),
 (20, 1),
 (21, 1),
 (22, 2),
 (23, 1)]

In [26]:
# LDA Modeling 실시
lda_model = models.LdaModel(corpus, num_topics=4, id2word=word_dict, passes=15)

- num_topice = : 모델이 찾아 내야할 주제 수
- id2word = : 단어 ID와 해당 단어를 연결하는 사전 지정
- passes = : 학습 알고리즘이 문서 집합을 통과하는 횟수
  - 반복 횟수가 많을 수록 학습이 잘 수행되지만, 연산이 오래걸리며 주제어가 한정적으로 도출

In [28]:
lda_model.print_topics()
# 가중치 : 단어 앞에 곱해진 숫자 / 해당 단어가 주제 내에서 갖는 상대적 중요도

[(0,
  '0.048*"비밀" + 0.039*"공개" + 0.038*"출처" + 0.038*"보고서" + 0.038*"정보" + 0.029*"백악관" + 0.020*"북한" + 0.020*"신문" + 0.020*"말" + 0.020*"모든"'),
 (1,
  '0.140*"정보" + 0.038*"공개" + 0.031*"출처" + 0.031*"오신트" + 0.024*"수집" + 0.016*"정책" + 0.016*"민트" + 0.016*"말" + 0.016*"주요" + 0.016*"트"'),
 (2,
  '0.031*"미국" + 0.031*"정보" + 0.017*"번역" + 0.017*"뉴스" + 0.017*"대사관" + 0.017*"문제" + 0.017*"결정" + 0.017*"영어" + 0.017*"서버" + 0.017*"고용"'),
 (3,
  '0.045*"오신트" + 0.035*"분석" + 0.034*"인터넷" + 0.024*"설립" + 0.024*"미국" + 0.024*"사이트" + 0.024*"수집" + 0.024*"민간" + 0.024*"공개" + 0.024*"오늘날"')]

In [29]:
!pip install pyLDAvis

Collecting pyLDAvis
  Downloading pyLDAvis-3.4.1-py3-none-any.whl.metadata (4.2 kB)
Collecting funcy (from pyLDAvis)
  Downloading funcy-2.0-py2.py3-none-any.whl.metadata (5.9 kB)
Collecting FuzzyTM>=0.4.0 (from gensim->pyLDAvis)
  Downloading FuzzyTM-2.0.9-py3-none-any.whl.metadata (7.9 kB)
Collecting pyfume (from FuzzyTM>=0.4.0->gensim->pyLDAvis)
  Downloading pyFUME-0.3.4-py3-none-any.whl.metadata (9.7 kB)
Collecting scipy (from pyLDAvis)
  Downloading scipy-1.10.1-cp311-cp311-win_amd64.whl.metadata (58 kB)
     ---------------------------------------- 0.0/59.0 kB ? eta -:--:--
     ---------------------------------------- 59.0/59.0 kB 1.5 MB/s eta 0:00:00
Collecting numpy>=1.24.2 (from pyLDAvis)
  Downloading numpy-1.24.4-cp311-cp311-win_amd64.whl.metadata (5.6 kB)
Collecting simpful==2.12.0 (from pyfume->FuzzyTM>=0.4.0->gensim->pyLDAvis)
  Downloading simpful-2.12.0-py3-none-any.whl.metadata (4.8 kB)
Collecting fst-pso==1.8.1 (from pyfume->FuzzyTM>=0.4.0->gensim->pyLDAvis)
  Downl

In [30]:
import pyLDAvis.gensim_models

In [33]:
pyLDAvis.enable_notebook() # 주피터 노트북 내 토픽모델링 결과를 시각화
vis1 = pyLDAvis.gensim_models.prepare(lda_model, corpus, word_dict)
vis1

- Intertopic Distance Map : 좌측 그래프 / 주제 간의 거리를 시각화
  - (다차원의 스케일링을 통해 시각화 된 결과 / MDS)
- Marginal Topic Distrigution : 원의 크기 / 전체 문서에서 각 토픽이 차지하는 중요도 (또는 비중)
- Overall term frequency : 우측 막대 그래프 파란색 바 / 전체 문서 집합해서 해당 단어가 등장하는 빈도수
- Estimated term frequency within the selected topic : 선택된 주제어 중에 해당 단어가 등장하는 추정 빈도
  - 추정 빈도가 높을 수록, 해당 단어가 이 문서에 가장 핵심적인 주제어를 나타낸다고 해석