# 복합 토픽 모델링(Combined Topic Modeling)

이 튜토리얼에서는 복합 토픽 모델(**Combined Topic Model**)을 사용하여 문서의 집합에서 토픽을 추출해보겠습니다.

## 토픽 모델(Topic Models)

토픽 모델을 사용하면 비지도 학습 방식으로 문서에 잠재된 토픽을 추출할 수 있습니다.

## 문맥을 반영한 토픽 모델(Contextualized Topic Models)
문맥을 반영한 토픽 모델(Contextualized Topic Models, CTM)이란 무엇일까요? CTM은 BERT 임베딩의 표현력과 토픽 모델의 비지도 학습의 능력을 결합하여 문서에서 주제를 가져오는 토픽 모델의 일종입니다.


## 파이썬 패키지(Python Package)

패키지는 여기를 참고하세요 [링크](https://github.com/MilaNLProc/contextualized-topic-models).

![https://github.com/MilaNLProc/contextualized-topic-models/actions](https://github.com/MilaNLProc/contextualized-topic-models/workflows/Python%20package/badge.svg) ![https://pypi.python.org/pypi/contextualized_topic_models](https://img.shields.io/pypi/v/contextualized_topic_models.svg) ![https://pepy.tech/badge/contextualized-topic-models](https://pepy.tech/badge/contextualized-topic-models)

# **시작하기 전에...**

이 튜토리얼과 관련하여 추가적인 의문 사항이 있다면 아래 링크를 참고하시기 바랍니다:

- 영어가 아닌 다른 언어로 작업하고 싶으시다면: [여기를 클릭!](https://contextualized-topic-models.readthedocs.io/en/latest/language.html#language-specific)
- 토픽 모델에서 좋은 결과가 나오지 않는다면: [여기를 클릭!](https://contextualized-topic-models.readthedocs.io/en/latest/faq.html#i-am-getting-very-poor-results-what-can-i-do)
- 여러분의 임베딩을 사용하고 싶다면: [여기를 클릭!](https://contextualized-topic-models.readthedocs.io/en/latest/faq.html#can-i-load-my-own-embeddings)


# GPU를 사용하세요

우선, Colab에서 실습하기 전에 GPU 설정을 해주세요:

- 런타임 > 런타임 유형 변경을 클릭하세요.
- 노트 설정 > 하드웨어 가속기에서 'GPU'를 선택해주세요.

[Reference](https://colab.research.google.com/notebooks/gpu.ipynb)

# Contextualized Topic Models, CTM 설치

contextualized topic model 라이브러리를 설치합시다.

In [1]:
%%capture
!pip install contextualized-topic-models==2.2.0

In [2]:
%%capture
!pip install pyldavis

In [3]:
# Colab에 Mecab 설치
!git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git
%cd Mecab-ko-for-Google-Colab
!bash install_mecab-ko_on_colab190912.sh

Cloning into 'Mecab-ko-for-Google-Colab'...
remote: Enumerating objects: 138, done.[K
remote: Counting objects: 100% (47/47), done.[K
remote: Compressing objects: 100% (38/38), done.[K
remote: Total 138 (delta 26), reused 22 (delta 8), pack-reused 91[K
Receiving objects: 100% (138/138), 1.72 MiB | 8.69 MiB/s, done.
Resolving deltas: 100% (65/65), done.
/content/Mecab-ko-for-Google-Colab
Installing konlpy.....
Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m47.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (488 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m488.6/488.6 kB[0m [31m49.8 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.5.0 konlpy-0.6.0
Done
Installing mecab-0.996-

In [18]:
# # Mecab 설치
# !apt-get update
# !apt-get install g++ openjdk-8-jdk
# !pip3 install konlpy JPype1-py3
# !bash <(curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh)

# # mecab-python의 버전 오류로 인해 아래 패키지를 설치하면 코랩에서 Mecab을 사용가능
!pip install mecab-python3
# -> 정말 이것때문에 되나

0% [Working]            Hit:1 https://cloud.r-project.org/bin/linux/ubuntu jammy-cran40/ InRelease
0% [Connecting to archive.ubuntu.com] [Connecting to security.ubuntu.com (91.189.91.81)] [Connecting                                                                                                    Hit:2 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease
Get:3 http://security.ubuntu.com/ubuntu jammy-security InRelease [110 kB]
Hit:4 http://archive.ubuntu.com/ubuntu jammy InRelease
Get:5 http://archive.ubuntu.com/ubuntu jammy-updates InRelease [119 kB]
Hit:6 https://ppa.launchpadcontent.net/c2d4u.team/c2d4u4.0+/ubuntu jammy InRelease
Hit:7 https://ppa.launchpadcontent.net/deadsnakes/ppa/ubuntu jammy InRelease
Hit:8 https://ppa.launchpadcontent.net/graphics-drivers/ppa/ubuntu jammy InRelease
Hit:9 http://archive.ubuntu.com/ubuntu jammy-backports InRelease
Hit:10 https://ppa.launchpadcontent.net/ubuntugis/ppa/ubuntu jammy InRelease
Get:11 http://arc

## 노트북 재시작

원활한 실습을 위해서 노트북을 재시작 할 필요가 있습니다.

상단에서 런타임 > 런타임 재시작을 클릭해주세요.

# 데이터

학습을 위한 데이터가 필요합니다. 여기서는 하나의 라인(line)에 하나의 문서로 구성된 파일이 필요한데요. 우선, 여러분들의 데이터가 없다면 여기서 준비한 파일로 실습을 해봅시다.

In [1]:
# %%capture
# !wget https://raw.githubusercontent.com/lovit/soynlp/master/tutorials/2016-10-20.txt

In [2]:
# !head -n 1 2016-10-20.txt

In [3]:
# !head -n 3 2016-10-20.txt

In [4]:
# !head -n 5 2016-10-20.txt

In [5]:
# !head -n 20 2016-10-20.txt

In [6]:
# text_file = "2016-10-20.txt"
text_file = "test.txt"

# 필요한 것들을 임포트

In [7]:
from contextualized_topic_models.models.ctm import CombinedTM
from contextualized_topic_models.utils.data_preparation import TopicModelDataPreparation, bert_embeddings_from_list
from contextualized_topic_models.utils.preprocessing import WhiteSpacePreprocessing
from sklearn.feature_extraction.text import CountVectorizer
from konlpy.tag import Mecab
from tqdm import tqdm

## 전처리

In [8]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [9]:
documents = [line.strip() for line in open("/content/test.txt", encoding="utf-8").readlines()]

In [10]:
documents[:5]

['청강', '청강신청', '레인보우시스템', '전과는 어떻게 할 수 있나요', '레인보우']

In [11]:
not '19  1990  52 1 22'.replace(' ', '').isdecimal()

False

In [12]:
preprocessed_documents = []

for line in tqdm(documents):
  # 빈 문자열이거나 숫자로만 이루어진 줄은 제외
  if line and not line.replace(' ', '').isdecimal():
    preprocessed_documents.append(line)

100%|██████████| 5986/5986 [00:00<00:00, 233998.51it/s]


In [13]:
len(preprocessed_documents)

5982

In [14]:
class CustomTokenizer:
    def __init__(self, tagger):
        self.tagger = tagger
    def __call__(self, sent):
        word_tokens = self.tagger.morphs(sent)
        result = [word for word in word_tokens if len(word) > 1]
        return result

In [15]:
custom_tokenizer = CustomTokenizer(Mecab())

In [16]:
vectorizer = CountVectorizer(tokenizer=custom_tokenizer, max_features=3000)

In [17]:
train_bow_embeddings = vectorizer.fit_transform(preprocessed_documents)



In [18]:
print(train_bow_embeddings.shape)

(5982, 1070)


In [20]:
# vocab = vectorizer.get_feature_names() -> https://stackoverflow.com/questions/76117262/countvectorizer-object-has-no-attribute-get-feature-names-how-to-fix-this
vocab = vectorizer.get_feature_names_out()
id2token = {k: v for k, v in zip(range(0, len(vocab)), vocab)}

In [21]:
len(vocab)

1070

In [22]:
train_contextualized_embeddings = bert_embeddings_from_list(preprocessed_documents, \
                                                            "sentence-transformers/xlm-r-100langs-bert-base-nli-stsb-mean-tokens")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/4.09k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/731 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.11G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/527 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.10M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/150 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Batches:   0%|          | 0/30 [00:00<?, ?it/s]

In [23]:
qt = TopicModelDataPreparation()

training_dataset = qt.load(train_contextualized_embeddings, train_bow_embeddings, id2token)

## Combined TM 학습하기
이제 토픽 모델을 학습합니다. 여기서는 하이퍼파라미터에 해당하는 토픽의 개수(n_components)로는 50개를 선정합니다.

In [24]:
ctm = CombinedTM(bow_size=len(vocab), contextual_size=768, n_components=50, num_epochs=20)
ctm.fit(training_dataset)

  self.pid = os.fork()
Epoch: [20/20]	 Seen Samples: [119640/119640]	Train Loss: 37.246816784990386	Time: 0:00:01.757305: : 20it [00:40,  2.04s/it]


# 토픽들

학습 후에는 토픽 모델이 선정한 토픽들을 보려면 아래의 메소드를 사용합니다.

```
get_topic_lists
```
해당 메소드에는 각 토픽마다 몇 개의 단어를 보고 싶은지에 해당하는 파라미터를 넣어즐 수 있습니다.

In [25]:
ctm.get_topics(5)

defaultdict(list,
            {0: ['재무회계', '경제학', '들어야', '원론', '냐고'],
             1: ['학식', '할래요', '확인', '메뉴', '캠퍼스'],
             2: ['등록', '편의', '학생증', '신청', '전화'],
             3: ['어요', '이수', '학점', '클래스', '시간표'],
             4: ['학식', '할래요', '확인', '메뉴', '나요'],
             5: ['확인', '할래요', '교내', '검색', '연락처'],
             6: ['학생', '센터', '상담', '부서', '인권'],
             7: ['들어야', '재무회계', '원론', '한글', '을까요'],
             8: ['석식', '다빈치', '서울', '내일', '메뉴'],
             9: ['대학', '교학', '지원', '알려', '세요'],
             10: ['확인', '할래요', '학식', '메뉴', '항자'],
             11: ['재무회계', '들어야', '찰리', '원론', '심리'],
             12: ['내일', '서울', '메뉴', '캠퍼스', '중식'],
             13: ['확인', '할래요', '학식', '메뉴', '분식'],
             14: ['내일', '서울', '다빈치', '캠퍼스', '메뉴'],
             15: ['서울', '중식', '메뉴', '조식', '학년'],
             16: ['교학', '대학', '지원', '연락처', '알려'],
             17: ['다빈치', '캠퍼스', '내일', '을래', '아침밥'],
             18: ['궁금', '나요', '해요', '언제', '등록'],
             19: ['중식', '서울', '메

In [26]:
ctm.get_topics(10)

defaultdict(list,
            {0: ['재무회계',
              '경제학',
              '들어야',
              '원론',
              '냐고',
              '찰리',
              '야야',
              '심리',
              '적십자',
              '배송'],
             1: ['학식',
              '할래요',
              '확인',
              '메뉴',
              '캠퍼스',
              '을래',
              '아침밥',
              '내일',
              '다빈치',
              '학생증'],
             2: ['등록', '편의', '학생증', '신청', '전화', '문의', '번호', '신청서', '시설', '교육'],
             3: ['어요',
              '이수',
              '학점',
              '클래스',
              '시간표',
              '캠퍼스',
              '강의',
              '사용',
              '셔틀버스',
              '수업'],
             4: ['학식',
              '할래요',
              '확인',
              '메뉴',
              '나요',
              '공심',
              '교직원',
              '시설',
              '경조사',
              '해요'],
             5: ['확인',
              '할래요',
              '교내',
    

# 시각화

우리의 토픽들을 시각화하기 위해서는 PyLDAvis를 사용합니다.

위에서 출력한 토픽 번호는 pyLDAvis에서 할당한 토픽 번호와 일치하지 않으므로 주의합시다.  
가령, 48번 토픽이었던 ['원유', '유가', '뉴욕', '오른', '연방', '마쳤', '서부', '달러', '51', '지수']가 아래의 PyLDAvis에서는 24번 토픽이 되었습니다.


In [27]:
import pyLDAvis as vis

lda_vis_data = ctm.get_ldavis_data_format(vocab, training_dataset, n_samples=10)

ctm_pd = vis.prepare(**lda_vis_data)
vis.display(ctm_pd)

[1;30;43mStreaming output truncated to the last 5000 lines.[0m
  if type(self.X_bow[i]) == scipy.sparse.csr.csr_matrix:
  if type(self.X_bow[i]) == scipy.sparse.csr.csr_matrix:
  if type(self.X_bow[i]) == scipy.sparse.csr.csr_matrix:
  if type(self.X_bow[i]) == scipy.sparse.csr.csr_matrix:
  if type(self.X_bow[i]) == scipy.sparse.csr.csr_matrix:
  if type(self.X_bow[i]) == scipy.sparse.csr.csr_matrix:
  if type(self.X_bow[i]) == scipy.sparse.csr.csr_matrix:
  if type(self.X_bow[i]) == scipy.sparse.csr.csr_matrix:
  if type(self.X_bow[i]) == scipy.sparse.csr.csr_matrix:
  if type(self.X_bow[i]) == scipy.sparse.csr.csr_matrix:
  if type(self.X_bow[i]) == scipy.sparse.csr.csr_matrix:
  if type(self.X_bow[i]) == scipy.sparse.csr.csr_matrix:
  if type(self.X_bow[i]) == scipy.sparse.csr.csr_matrix:
  if type(self.X_bow[i]) == scipy.sparse.csr.csr_matrix:
  if type(self.X_bow[i]) == scipy.sparse.csr.csr_matrix:
  if type(self.X_bow[i]) == scipy.sparse.csr.csr_matrix:
  if type(self.X_bow[i]

참고 자료 : https://github.com/MilaNLProc/contextualized-topic-models