In [1]:
# ==========================================
# 1. Package Installation
# ==========================================

!pip install bertopic
#!pip install --upgrade gensim

# Choose an embedding backend
!pip install bertopic[flair,gensim,spacy,use,visualization]

# Topic modeling with images
# !pip install bertopic[vision]

Collecting bertopic
  Downloading bertopic-0.17.3-py3-none-any.whl.metadata (24 kB)
Downloading bertopic-0.17.3-py3-none-any.whl (153 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m153.0/153.0 kB[0m [31m2.5 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: bertopic
Successfully installed bertopic-0.17.3
Collecting flair>=0.7 (from bertopic[flair,gensim,spacy,use,visualization])
  Downloading flair-0.15.1-py3-none-any.whl.metadata (12 kB)
Collecting gensim>=4.0.0 (from bertopic[flair,gensim,spacy,use,visualization])
  Downloading gensim-4.3.3-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (8.1 kB)
Collecting boto3>=1.20.27 (from flair>=0.7->bertopic[flair,gensim,spacy,use,visualization])
  Downloading boto3-1.40.54-py3-none-any.whl.metadata (6.6 kB)
Collecting conllu<5.0.0,>=4.0 (from flair>=0.7->bertopic[flair,gensim,spacy,use,visualization])
  Downloading conllu-4.5.3-py2.py3-none-any.whl.metadata (19 kB)
Collecting deprecated

In [1]:
!pip install konlpy
!pip install pyLDAvis

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl.metadata (1.9 kB)
Collecting JPype1>=0.7.0 (from konlpy)
  Downloading jpype1-1.6.0-cp312-cp312-manylinux2014_x86_64.manylinux_2_17_x86_64.whl.metadata (5.0 kB)
Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m67.1 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading jpype1-1.6.0-cp312-cp312-manylinux2014_x86_64.manylinux_2_17_x86_64.whl (495 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m495.9/495.9 kB[0m [31m21.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: JPype1, konlpy
Successfully installed JPype1-1.6.0 konlpy-0.6.0
Collecting pyLDAvis
  Downloading pyLDAvis-3.4.1-py3-none-any.whl.metadata (4.2 kB)
Collecting funcy (from pyLDAvis)
  Downloading funcy-2.0-py2.py3-none-any.whl.metadata (5.9 kB)
Downloading pyLDAvis-3.4.1-py3-none-any.whl (2.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

In [2]:
"""
한국어 텍스트 데이터를 위한 BERTopic 모델링
파일: trade_success_case_data.csv의 bdtCntnt 컬럼 분석
"""

import pandas as pd
import numpy as np
from bertopic import BERTopic
from sentence_transformers import SentenceTransformer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from konlpy.tag import Okt, Hannanum, Kkma, Komoran
#from konlpy.tag import Okt

from sklearn.cluster import KMeans, AgglomerativeClustering
from umap import UMAP
from hdbscan import HDBSCAN

import string
import re
import warnings
warnings.filterwarnings('ignore')

  $max \{ core_k(a), core_k(b), 1/\alpha d(a,b) \}$.


#### ============================================
#### 1. 데이터 로드
#### ============================================

In [3]:
# ============================================
# 1. 데이터 로드
# ============================================
print("=" * 60)
print("1. 데이터 로드 중...")
print("=" * 60)

df = pd.read_csv('https://raw.githubusercontent.com/datadigger01/AI-Trade/main/Data/trade_success_case_data.csv')
df['othbcDt'] = pd.to_datetime(df['othbcDt'])

print(f"전체 데이터 수: {len(df)}")

# bdtCntnt 컬럼 추출 및 결측치 제거
texts = df['bdtCntnt'].dropna().tolist()
timestamps = df['othbcDt'].dt.year.to_list() # 토픽별 Time Series를 위한 년단위 timestamps

print(f"유효한 텍스트 수: {len(texts)}")
print(f"평균 텍스트 길이: {np.mean([len(text) for text in texts]):.0f}자\n")
print(f"데이터셋 정보:{df.info()}")

1. 데이터 로드 중...
전체 데이터 수: 194
유효한 텍스트 수: 194
평균 텍스트 길이: 2746자

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 194 entries, 0 to 193
Data columns (total 10 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   bdtCntnt   194 non-null    object        
 1   dataType   194 non-null    object        
 2   ovrofInfo  0 non-null      float64       
 3   dmgeAmt    0 non-null      float64       
 4   fraudType  0 non-null      float64       
 5   othbcDt    194 non-null    datetime64[ns]
 6   bbstxSn    194 non-null    int64         
 7   titl       194 non-null    object        
 8   natn       194 non-null    object        
 9   regn       194 non-null    object        
dtypes: datetime64[ns](1), float64(3), int64(1), object(5)
memory usage: 15.3+ KB
데이터셋 정보:None


In [4]:
texts[11]
#timestamps[3]

'국내 최초 UV-C LED 칫솔 살균기 개발2000년 설립된 비에네스소프트는 소프트웨어 개발 기업이자 \'울트라웨이브\'라는 브랜드로살균에 초점을 맞춘 퍼스널 헬스케어 제품을 개발&middot;제조&middot;수출하는 기업이다.독립채산제로 운영되는 특성상 회사 내 아이담 사업부에서 \'울트라웨이브\' 사업을 총괄한다.원래 아이담 사업부에서는 보이스레코더와 MP3 같은 음향기기를 대부분 ODM 방식으로납품해 왔다. 스마트폰 사용이 보편화되면서 음향기기 시장 규모가 줄어들자 친환경 반도체 광원인UV LED로 눈을 돌려 2018년 국내 최초로 UV-C LED 칫솔 살균기 개발에 성공했다.기존 UV램프 칫솔 살균기는 UV램프 안에 수은이 들어 있고, 살균 과정에서 오존을 발생기키기때문에 비릿한 냄새가 나는 단점이 있었다. UV LED 파장 중 UV-C를 사용한 울트라웨이브칫솔 살균기는 3분이면 뮤탄스균&middot;녹농균&middot;대장균&middot;황색포도상구균을 99.9%를 살균한다.수은을 함유하고 있지 않아 친환경적이고, 오존을 발생시키지 않아 불쾌감 없이 쓸 수 있다.EU의 전기&middot;전자제품 유해물질사용제한(RoHS) 인증을 취득했고,미국 FDA 승인, 미국 FOC 인증, 유럽 CD 인증도 완료했다.화상상담으로 해외 시장 확대 가능성을 보다비에네스소프트는 칫솔 살균기, 면도기 살균기, 마스크 살균기 등 UV LED 살균기 라인과 함께EARPET(반려동물의 귀 질환&middot;염증을 치료하는 동물의료기기,PEPPI3(반려동물 전용 MP3) 등펫헬스케어 라인을 구성했지만 2020년, 코로나19라는 변수를 맞았다.코로나19로 참가 예정이었던 해외 전시회가 줄줄이 취소되는 상황이 발생한 것이다.   "2019년에 해외 시장 조사와 신규 바이어 영업을 위해 KOTRA에 도움을 요청했다면, 2020년에는 영국, 스페인, 독일, 미국, 싱가포르, 홍콩, 말레이시아, 태국, 칠레 등 여러 국가의 기업들과 화상상담회를 진행했습니다. 해외 시장을 확대하려는 중

#### ============================================
#### 2. 텍스트 전처리
#### ============================================

In [5]:
# ============================================
# 2. 텍스트 전처리
# ============================================
print("=" * 60)
print("2. 텍스트 전처리 중...")
print("=" * 60)

def combine_specific_words(text, word_pairs):
    """특정 단어 조합을 하나로 합치는 함수"""
    for word_pair in word_pairs:
        # 공백이 있는 형태를 공백 없는 형태로 변환
        text = text.replace(word_pair, word_pair.replace(' ', ''))
    return text

def replace_specific_words(text, word_dict):
    """특정 단어를 다른 단어로 치환하는 함수"""
    for old_word, new_word in word_dict.items():
        text = text.replace(old_word, new_word)
    return text

def preprocess_korean_text(text):
    """한국어 텍스트 전처리"""
    if pd.isna(text):
        return ""  ## doucument가 결측인경우 NaN return

    #########  특수문자 포함 정제처리할 단어 처리(삭제)
    # HTML 태그 제거
    pattern = r'<[^>]*>'
    text = re.sub(pattern, '', text)
    ## HTML 태그 제거
    ##text = re.sub(r'&[a-z]+;', ' ', text)

    # E-mail제거
    pattern = r'([a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+)'
    text = re.sub(pattern, '', text)

    # URL제거
    pattern = r'(http|ftp|https)://(?:[-\w.]|(?:%[\da-fA-F]{2}))+'
    text = re.sub(pattern, '', text)
    ## Remove URLs
    # text = re.sub(r'http\S+|www.\S+', '', text)

    # 특수문자 제거 (한글, 영문, 공백만 유지)
    text = re.sub(r'[^가-힣a-zA-Z\s]', ' ', text)
    #text = re.sub(r'[^가-힣a-zA-Z0-9\s]', ' ', text)

    # 한글 자음, 모음 제거
    pattern = r'([ㄱ-ㅎㅏ-ㅣ]+)'
    text = re.sub(pattern, '', text)

    # 연속된 공백 제거
    text = re.sub(r'\s+', ' ', text)
    # # 연속 공백 정리
    # text = ' '.join(text.split())

    # 특수기호제거
    #pattern = r'[^\w\s]'
    text = re.sub(r'[^\w\s]', '', text)

    # Remove mentions and hashtags
    text = re.sub(r'@\w+|#\w+', '', text)

    # Remove punctuation
    text = text.translate(str.maketrans('', '', string.punctuation))

    # 영어는 모두 대문자로 전환
    text = text.upper()

    ###########################################################################
    ##  특정 단어에 대한 변환, 조합 및 제거
    ###########################################################################
    # 토큰화 전에 특정 단어를 다른 단어로 치환
    word_replacements = {
        'KOTRA': '코트라',
        '어플리케이션': '애플리케이션',
        '카메라': '캠코더',  # 예시
        # 필요한 단어 치환을 여기에 추가하세요
    }
    text = replace_specific_words(text, word_replacements)

    # 토큰화 전에 특정 단어 조합을 먼저 결합
    word_pairs_to_combine = [
        '성공 사례',
        '중소 기업',
        '수출 전략',
        '시장 조사',
        '데이터 분석',
        '제품 개발',
        '생활 용품'
        # 필요한 단어 조합을 여기에 추가하세요
    ]
    text = combine_specific_words(text, word_pairs_to_combine)

    # 특정 단어 제거
    remove_words = ['바로가기',
                    '성공사례',
                    'RSQUO','LSQUO','LDQUO','RDQUO',
                    '원문 슬기로운 코트라 활용법',
                    '수출전문위원이 전하는 중소기업 수출성공스토리'
                    ]
    for word in remove_words:
        text = text.replace(word, '')

    return text.strip()

# 전처리 적용
cleaned_texts = [preprocess_korean_text(text) for text in texts]
print("전처리 완료!\n")

2. 텍스트 전처리 중...
전처리 완료!



In [6]:
cleaned_texts[11]

'국내 최초 UV C LED 칫솔 살균기 개발 년 설립된 비에네스소프트는 소프트웨어 개발 기업이자 울트라웨이브 라는 브랜드로살균에 초점을 맞춘 퍼스널 헬스케어 제품을 개발 MIDDOT 제조 MIDDOT 수출하는 기업이다 독립채산제로 운영되는 특성상 회사 내 아이담 사업부에서 울트라웨이브 사업을 총괄한다 원래 아이담 사업부에서는 보이스레코더와 MP 같은 음향기기를 대부분 ODM 방식으로납품해 왔다 스마트폰 사용이 보편화되면서 음향기기 시장 규모가 줄어들자 친환경 반도체 광원인UV LED로 눈을 돌려 년 국내 최초로 UV C LED 칫솔 살균기 개발에 성공했다 기존 UV램프 칫솔 살균기는 UV램프 안에 수은이 들어 있고 살균 과정에서 오존을 발생기키기때문에 비릿한 냄새가 나는 단점이 있었다 UV LED 파장 중 UV C를 사용한 울트라웨이브칫솔 살균기는 분이면 뮤탄스균 MIDDOT 녹농균 MIDDOT 대장균 MIDDOT 황색포도상구균을 를 살균한다 수은을 함유하고 있지 않아 친환경적이고 오존을 발생시키지 않아 불쾌감 없이 쓸 수 있다 EU의 전기 MIDDOT 전자제품 유해물질사용제한 ROHS 인증을 취득했고 미국 FDA 승인 미국 FOC 인증 유럽 CD 인증도 완료했다 화상상담으로 해외 시장 확대 가능성을 보다비에네스소프트는 칫솔 살균기 면도기 살균기 마스크 살균기 등 UV LED 살균기 라인과 함께EARPET 반려동물의 귀 질환 MIDDOT 염증을 치료하는 동물의료기기 PEPPI 반려동물 전용 MP 등펫헬스케어 라인을 구성했지만 년 코로나 라는 변수를 맞았다 코로나 로 참가 예정이었던 해외 전시회가 줄줄이 취소되는 상황이 발생한 것이다 년에 해외 시장조사와 신규 바이어 영업을 위해 코트라에 도움을 요청했다면 년에는 영국 스페인 독일 미국 싱가포르 홍콩 말레이시아 태국 칠레 등 여러 국가의 기업들과 화상상담회를 진행했습니다 해외 시장을 확대하려는 중소기업 특히 신제품을 개발한 기업에게는 해외 전시회 참여가 필수인데 코로나 로 인해 해외 출장마저 갈 수 없는 막막한

#### ============================================
#### 3. 한국어 형태소 분석 및 불용어 처리
#### ============================================

In [7]:
# ============================================
# 3. 한국어 형태소 분석 및 불용어 처리
# ============================================
print("=" * 60)
print("3. 형태소 분석기 설정...")
print("=" * 60)

# Okt 형태소 분석기 초기화
okt = Okt()
# kkma = Kkma()
# komoran = Komoran()
# hannanum = Hannanum()

# 한국어 불용어 리스트
korean_stopwords = [
    '의', '가', '이', '은', '들', '는', '좀', '잘', '걍', '과', '도', '를', '으로', '자',
    '에', '와', '한', '하다', '을', '를', '에서', '으로', '로', '에게', '의해', '까지',
    '수', '것', '등', '및', '그', '저', '것', '또', '또한', '더', '매우', '정말'
]


def tokenize_korean(text):
    """한국어 토큰화 (명사 추출)"""
    # 명사만 추출
    nouns = okt.nouns(text)
    # nouns = kkma.nouns(text)
    # nouns = komoran.nouns(text)
    # nouns = hannanum.nouns(text)

    # 불용어 제거 및 2글자 이상만 선택
    tokens = [noun for noun in nouns if noun not in korean_stopwords and len(noun) > 1]
    return ' '.join(tokens)

print("형태소 분석기 설정 완료!\n")


3. 형태소 분석기 설정...
형태소 분석기 설정 완료!



In [8]:
tokenize_korean(cleaned_texts[11])

'국내 최초 칫솔 살균 개발 설립 에네스 소프트 소프트웨어 개발 기업 이자 울트라 웨이브 브랜드 살균 초점 퍼스 스케 제품 개발 제조 수출 기업 독립채산제 운영 특성 회사 아이 사업 울트라 웨이브 사업 총괄 원래 아이 사업 보이스 레코 음향 기기 대부분 방식 납품 스마트폰 사용 보편화 음향 기기 시장 규모 친환경 반도체 광원 국내 최초 칫솔 살균 개발 기존 램프 칫솔 살균 램프 수은 살균 과정 오존 발생 기키 때문 비릿 냄새 단점 파장 사용 울트라 웨이브 칫솔 살균 뮤탄스균 녹농균 대장균 황색포도상구균 살균 수은 함유 친환경 오존 발생 불쾌감 전기 전자제품 유해 물질 사용제한 인증 취득 미국 승인 미국 인증 유럽 인증 완료 화상 상담 해외 시장 확대 가능성 다비 에네스 소프트 칫솔 살균 면도기 살균 마스크 살균 살균 라인 반려동물 질환 염증 치료 동물 의료기기 반려동물 전용 펫헬 스케 라인 구성 코로나 변수 코로나 참가 예정 해외 전시회 줄줄이 취소 상황 발생 해외 시장조사 신규 바이어 영업 위해 코트라 도움 요청 영국 스페인 독일 미국 싱가포르 홍콩 말레이시아 태국 칠레 여러 국가 기업 화상 상담 진행 해외 시장 확대 중소기업 신제품 개발 기업 해외 전시회 참여 필수 코로나 해외 출장 상황 화상 상담 희망이 진행 함부르크 무역 화상 상담 무엇 성과 화상 상담 에네스 소프트 함부르크 무역 제품 유통 화상 상담 제안 화상 상담 진행 쿠쿠 전자 유럽 업체 아마존 독일 유럽 온라인 플랫폼 한국 롯데 하이마트 오프라인 유통 라인 보유 화상 상담 덕분 독일 샘플 물량 추출 세계 퍼스 스케 살균 시장 울트라 웨이브 제품 대해 관심 대감 표현 제품 기능 위주 질문 답변 양사 추구 유통 방향 대해 서도 협의 테스트 물량 수출 에네스 소프트 현재 아마존 독일 론칭 준비 중이 독일 전체 제품 유통 대해 서도 논의 에네스 소프트 여러 차례 화상 상담 계기 하반기 달러 규모 신규 수출 예상 코로나 오히려 에네스 소프트 기회 코로나 이전 바이어 퍼스 스케 살균 시간 설득 코로나 대유

#### ============================================
#### 4. BERTopic 모델 설정
#### ============================================

In [9]:
# ============================================
# 4. BERTopic 모델 설정
# ============================================
print("=" * 60)
print("4. BERTopic 모델 설정 중...")
print("=" * 60)

# 4-1. 한국어 임베딩 모델 선택
# 옵션 1: 다국어 모델 (추천)
embedding_model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')

# 옵션 2: 한국어 특화 모델 (더 좋은 성능을 원한다면)
#embedding_model = SentenceTransformer('sentence-transformers/xlm-r-100langs-bert-base-nli-stsb-mean-tokens')

# 임베딩 생성 (progress bar 표시)
# embeddings = embedding_model.encode(
#     cleaned_texts,
#     show_progress_bar=True,
#     batch_size=32  # 배치 크기 (메모리에 따라 조정)
# )
# print(f"임베딩 모델: {embedding_model}")

# 4-2. Vectorizer 설정 (형태소 분석 적용)
vectorizer_model = CountVectorizer(
    tokenizer=lambda x: x.split(),  # 이미 토큰화된 텍스트 사용
    min_df=2,  # 최소 2번 이상 출현한 단어만 사용
    max_df=0.95,  # 95% 이상의 문서에 나타난 단어 제외
     ngram_range=(1, 2)  # 1-gram과 2-gram 모두 사용
)

# add clustering
#cluster_model = KMeans(n_clusters=10)
#cluster_model = AgglomerativeClustering(n_clusters=10)

umap_model = UMAP(n_neighbors=7, n_components=5, min_dist=0.0, metric='cosine')

hdbscan_model = HDBSCAN(min_cluster_size=10, metric='euclidean', cluster_selection_method='eom', prediction_data=True)


# 4-3. BERTopic 모델 초기화
topic_model = BERTopic(
    embedding_model=embedding_model,
    vectorizer_model=vectorizer_model,

    umap_model=umap_model,  ## 추가
    hdbscan_model=hdbscan_model, ## 추가
    #hdbscan_model=cluster_model, ## 추가

    language='korean',
    calculate_probabilities=True,
    verbose=True,
    # min_topic_size=5,  # 최소 토픽 크기 (데이터 크기에 따라 조정)
    # nr_topics='auto'  # 토픽 수 자동 결정
    nr_topics=6  # 토픽 수 지정

)

print("BERTopic 모델 설정 완료!\n")

4. BERTopic 모델 설정 중...


modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/645 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/471M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/480 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

BERTopic 모델 설정 완료!



#### ============================================
#### 5. 토픽 모델링 실행
#### ============================================

In [10]:
# ============================================
# 5. 토픽 모델링 실행
# ============================================
print("=" * 60)
print("5. 토픽 모델링 실행 중... (시간이 걸릴 수 있습니다)")
print("=" * 60)

# 형태소 분석 적용
print("형태소 분석 진행 중...")
tokenized_texts = [tokenize_korean(text) for text in cleaned_texts]

embeddings = embedding_model.encode(
    tokenized_texts,
    show_progress_bar=True,
    batch_size=32  # 배치 크기 (메모리에 따라 조정)
)

# 토픽 모델 학습
topics, probs = topic_model.fit_transform(tokenized_texts, embeddings)
#topics, probs = topic_model.fit_transform(tokenized_texts)

# Time Series by Topic
topics_over_time = topic_model.topics_over_time(tokenized_texts, timestamps)


print(f"\n토픽 모델링 완료!")
print(f"발견된 토픽 수: {len(set(topics)) - 1}개 (노이즈 제외)")

5. 토픽 모델링 실행 중... (시간이 걸릴 수 있습니다)
형태소 분석 진행 중...


Batches:   0%|          | 0/7 [00:00<?, ?it/s]

2025-10-16 23:08:35,803 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm
2025-10-16 23:09:02,853 - BERTopic - Dimensionality - Completed ✓
2025-10-16 23:09:02,854 - BERTopic - Cluster - Start clustering the reduced embeddings
2025-10-16 23:09:02,888 - BERTopic - Cluster - Completed ✓
2025-10-16 23:09:02,890 - BERTopic - Representation - Extracting topics using c-TF-IDF for topic reduction.
2025-10-16 23:09:03,376 - BERTopic - Representation - Completed ✓
2025-10-16 23:09:03,377 - BERTopic - Topic reduction - Reducing number of topics
2025-10-16 23:09:03,379 - BERTopic - Topic reduction - Number of topics (6) is equal or higher than the clustered topics(3).
2025-10-16 23:09:03,379 - BERTopic - Representation - Fine-tuning topics using representation models.
2025-10-16 23:09:04,089 - BERTopic - Representation - Completed ✓
6it [00:00, 11.84it/s]


토픽 모델링 완료!
발견된 토픽 수: 2개 (노이즈 제외)





In [11]:
tokenized_texts[11]

'국내 최초 칫솔 살균 개발 설립 에네스 소프트 소프트웨어 개발 기업 이자 울트라 웨이브 브랜드 살균 초점 퍼스 스케 제품 개발 제조 수출 기업 독립채산제 운영 특성 회사 아이 사업 울트라 웨이브 사업 총괄 원래 아이 사업 보이스 레코 음향 기기 대부분 방식 납품 스마트폰 사용 보편화 음향 기기 시장 규모 친환경 반도체 광원 국내 최초 칫솔 살균 개발 기존 램프 칫솔 살균 램프 수은 살균 과정 오존 발생 기키 때문 비릿 냄새 단점 파장 사용 울트라 웨이브 칫솔 살균 뮤탄스균 녹농균 대장균 황색포도상구균 살균 수은 함유 친환경 오존 발생 불쾌감 전기 전자제품 유해 물질 사용제한 인증 취득 미국 승인 미국 인증 유럽 인증 완료 화상 상담 해외 시장 확대 가능성 다비 에네스 소프트 칫솔 살균 면도기 살균 마스크 살균 살균 라인 반려동물 질환 염증 치료 동물 의료기기 반려동물 전용 펫헬 스케 라인 구성 코로나 변수 코로나 참가 예정 해외 전시회 줄줄이 취소 상황 발생 해외 시장조사 신규 바이어 영업 위해 코트라 도움 요청 영국 스페인 독일 미국 싱가포르 홍콩 말레이시아 태국 칠레 여러 국가 기업 화상 상담 진행 해외 시장 확대 중소기업 신제품 개발 기업 해외 전시회 참여 필수 코로나 해외 출장 상황 화상 상담 희망이 진행 함부르크 무역 화상 상담 무엇 성과 화상 상담 에네스 소프트 함부르크 무역 제품 유통 화상 상담 제안 화상 상담 진행 쿠쿠 전자 유럽 업체 아마존 독일 유럽 온라인 플랫폼 한국 롯데 하이마트 오프라인 유통 라인 보유 화상 상담 덕분 독일 샘플 물량 추출 세계 퍼스 스케 살균 시장 울트라 웨이브 제품 대해 관심 대감 표현 제품 기능 위주 질문 답변 양사 추구 유통 방향 대해 서도 협의 테스트 물량 수출 에네스 소프트 현재 아마존 독일 론칭 준비 중이 독일 전체 제품 유통 대해 서도 논의 에네스 소프트 여러 차례 화상 상담 계기 하반기 달러 규모 신규 수출 예상 코로나 오히려 에네스 소프트 기회 코로나 이전 바이어 퍼스 스케 살균 시간 설득 코로나 대유

In [12]:
print(topic_model.get_topic(1))
topic_model.get_topic_info()

[('베스트', 0.04221084972736996), ('쿠션', 0.04068948329128056), ('라이프', 0.03255158663302445), ('더블', 0.03212382444316177), ('바디', 0.031366131592670474), ('화장품 브랜드', 0.029346013075736536), ('에이', 0.029145782340035026), ('파트너 이후', 0.027445365143586663), ('리프', 0.02608075303584546), ('언니', 0.025588165402463493)]


Unnamed: 0,Topic,Count,Name,Representation,Representative_Docs
0,-1,38,-1_장갑_부착_엔지니어링_국수,"[장갑, 부착, 엔지니어링, 국수, 재활, 콜롬비아, 사회, 불꽃, 구리, 할랄]",[장갑 아이 어데 오냐 간다 장갑 어데 가노 장갑 이름 해수 이해수 카노 장갑 맹그...
1,0,139,0_부품_건설_에스_장비,"[부품, 건설, 에스, 장비, 공장, 식품, 설비, 납품, 화상 상담, 화상]",[기술 수출 엠씨 기업 소개 엠씨 기업인 홍기 설립 동안 산업 기계 중대 기계 가공...
2,1,17,1_베스트_쿠션_라이프_더블,"[베스트, 쿠션, 라이프, 더블, 바디, 화장품 브랜드, 에이, 파트너 이후, 리프...",[바디 제품 기업 세계 도전 라이프 투게더 기업 소개 송운 대표 라이프 투게더 설립...


In [None]:
#topic_model.get_representative_docs(4)

#### ============================================
#### 6. 결과 분석
#### ============================================

In [13]:
# ============================================
# 6. 결과 분석
# ============================================
print("\n" + "=" * 60)
print("6. 토픽 분석 결과")
print("=" * 60)

# 토픽별 문서 수
topic_counts = pd.Series(topics).value_counts().sort_index()
print("\n[토픽별 문서 수]")
for topic_id, count in topic_counts.items():
    if topic_id == -1:
        print(f"토픽 {topic_id} (노이즈): {count}개")
    else:
        print(f"토픽 {topic_id}: {count}개")

# 각 토픽의 상위 키워드
print("\n[각 토픽의 주요 키워드 (상위 10개)]")
for topic_id in sorted(set(topics)):
    if topic_id != -1:  # 노이즈 제외
        keywords = topic_model.get_topic(topic_id)
        print(f"\n토픽 {topic_id}:")
        for word, score in keywords[:10]:
            print(f"  - {word}: {score:.4f}")

# 토픽 정보 DataFrame
topic_info = topic_model.get_topic_info()
print("\n[토픽 정보 요약]")
print(topic_info)


6. 토픽 분석 결과

[토픽별 문서 수]
토픽 -1 (노이즈): 38개
토픽 0: 139개
토픽 1: 17개

[각 토픽의 주요 키워드 (상위 10개)]

토픽 0:
  - 부품: 0.0286
  - 건설: 0.0272
  - 에스: 0.0262
  - 장비: 0.0254
  - 공장: 0.0252
  - 식품: 0.0250
  - 설비: 0.0216
  - 납품: 0.0208
  - 화상 상담: 0.0201
  - 화상: 0.0200

토픽 1:
  - 베스트: 0.0422
  - 쿠션: 0.0407
  - 라이프: 0.0326
  - 더블: 0.0321
  - 바디: 0.0314
  - 화장품 브랜드: 0.0293
  - 에이: 0.0291
  - 파트너 이후: 0.0274
  - 리프: 0.0261
  - 언니: 0.0256

[토픽 정보 요약]
   Topic  Count               Name  \
0     -1     38  -1_장갑_부착_엔지니어링_국수   
1      0    139      0_부품_건설_에스_장비   
2      1     17    1_베스트_쿠션_라이프_더블   

                                      Representation  \
0      [장갑, 부착, 엔지니어링, 국수, 재활, 콜롬비아, 사회, 불꽃, 구리, 할랄]   
1        [부품, 건설, 에스, 장비, 공장, 식품, 설비, 납품, 화상 상담, 화상]   
2  [베스트, 쿠션, 라이프, 더블, 바디, 화장품 브랜드, 에이, 파트너 이후, 리프...   

                                 Representative_Docs  
0  [장갑 아이 어데 오냐 간다 장갑 어데 가노 장갑 이름 해수 이해수 카노 장갑 맹그...  
1  [기술 수출 엠씨 기업 소개 엠씨 기업인 홍기 설립 동안 산업 기계 중대 기계 가공...  
2  [바디 제품 기업 세계 도전 라이프 투게더 기업

#### ============================================
#### 7. 시각화 1: 원본 임베딩 사용
#### ============================================
#### ============================================
#### 8. 시각화 2: UMAP 차원 축소 후 시각화
#### ============================================

In [14]:
# ============================================
# 7. 시각화 1: 원본 임베딩 사용
# ============================================
print("\n" + "=" * 70)
print("7단계: 문서 시각화 (원본 고차원 임베딩)")
print("=" * 70)

try:
    # 원본 임베딩으로 시각화 (내부적으로 UMAP 적용)
    fig1 = topic_model.visualize_documents(
        cleaned_texts,
        embeddings=embeddings,
        hide_annotations=False,
        hide_document_hover=False,
        custom_labels=True
    )

    # HTML 파일로 저장
    fig1.write_html('bertopic_visualization_original.html')
    print("✓ 시각화 1 완료: 'bertopic_visualization_original.html' 저장")
    print("  → 원본 고차원 임베딩을 사용한 문서 분포")

except Exception as e:
    print(f"⚠ 시각화 1 생성 중 오류: {e}")


# ============================================
# 8. 시각화 2: UMAP 차원 축소 후 시각화
# ============================================
print("\n" + "=" * 70)
print("8단계: UMAP 차원 축소 후 시각화 (더 빠른 반복 분석)")
print("=" * 70)

try:
    # UMAP으로 차원 축소 (고차원 → 2차원)
    print("✓ UMAP 차원 축소 진행 중...")
    reduced_embeddings = UMAP(
        n_neighbors=7,      # 이웃 수
        n_components=2,      # 2차원으로 축소
        min_dist=0.0,        # 최소 거리
        metric='cosine',     # 코사인 유사도
        random_state=42      # 재현성
    ).fit_transform(embeddings)

    print(f"✓ 차원 축소 완료: {embeddings.shape} → {reduced_embeddings.shape}")

    # 축소된 임베딩으로 시각화 (빠른 속도)
    fig2 = topic_model.visualize_documents(
        tokenized_texts,
        reduced_embeddings=reduced_embeddings,
        hide_annotations=False,
        hide_document_hover=False,
        custom_labels=True
    )

    # HTML 파일로 저장
    fig2.write_html('bertopic_visualization_umap.html')
    print("✓ 시각화 2 완료: 'bertopic_visualization_umap.html' 저장")
    print("  → UMAP 차원 축소를 적용한 문서 분포 (빠른 렌더링)")

except Exception as e:
    print(f"⚠ 시각화 2 생성 중 오류: {e}")


# ============================================
# 9. 추가 시각화
# ============================================
print("\n" + "=" * 70)
print("9단계: 추가 시각화")
print("=" * 70)

try:
    # 토픽 간 거리 시각화
    fig3 = topic_model.visualize_topics()
    fig3.write_html('topic_distance_map.html')
    print("✓ 토픽 거리 맵: 'topic_distance_map.html'")

    # 토픽 바차트
    fig4 = topic_model.visualize_barchart(top_n_topics=15, n_words=10)
    fig4.write_html('topic_barchart.html')
    print("✓ 토픽 바차트: 'topic_barchart.html'")

    # 토픽 계층 구조
    hierarchical_topics = topic_model.hierarchical_topics(tokenized_texts)
    fig5 = topic_model.visualize_hierarchy(hierarchical_topics=hierarchical_topics)
    fig5.write_html('topic_hierarchy.html')
    print("✓ 토픽 계층 구조: 'topic_hierarchy.html'")

    # 토픽 히트맵
    fig6 = topic_model.visualize_heatmap()
    fig6.write_html('topic_heatmap.html')
    print("✓ 토픽 유사도 히트맵: 'topic_heatmap.html'")

except Exception as e:
    print(f"⚠ 일부 추가 시각화 생성 중 오류: {e}")


7단계: 문서 시각화 (원본 고차원 임베딩)
✓ 시각화 1 완료: 'bertopic_visualization_original.html' 저장
  → 원본 고차원 임베딩을 사용한 문서 분포

8단계: UMAP 차원 축소 후 시각화 (더 빠른 반복 분석)
✓ UMAP 차원 축소 진행 중...
✓ 차원 축소 완료: (194, 384) → (194, 2)
✓ 시각화 2 완료: 'bertopic_visualization_umap.html' 저장
  → UMAP 차원 축소를 적용한 문서 분포 (빠른 렌더링)

9단계: 추가 시각화
⚠ 일부 추가 시각화 생성 중 오류: zero-size array to reduction operation maximum which has no identity


In [15]:

# ============================================
# 10. 결과 저장
# ============================================
print("\n" + "=" * 60)
print("10. 결과 저장 중...")
print("=" * 60)

# 원본 데이터에 토픽 정보 추가
df_with_topics = df[df['bdtCntnt'].notna()].copy()
df_with_topics['topic'] = topics
df_with_topics['topic_probability'] = [prob.max() for prob in probs]

# 결과 저장
# df_with_topics.to_csv('bertopic_results.csv', index=False, encoding='utf-8-sig')
# print("결과가 'bertopic_results.csv'에 저장되었습니다.")

# 토픽 정보 저장
topic_info.to_csv('topic_info.csv', index=False, encoding='utf-8-sig')
print("토픽 정보가 'topic_info.csv'에 저장되었습니다.\n")


10. 결과 저장 중...
토픽 정보가 'topic_info.csv'에 저장되었습니다.



In [16]:
#topic_model.visualize_distribution(topic_model.probabilities_[11])

- Time Series by Topic

In [17]:
#topic_model.visualize_topics_over_time(topics_over_time)
#topic_model.visualize_topics_over_time(topics_over_time, topics=[0, 1, 2, 3, 4, 5, 6, 7])

- Hierarchical Topic Clustering

In [18]:
#topic_model.visualize_hierarchy()
#topic_model.visualize_heatmap()

- Topic Word

In [19]:
#topic_model.visualize_barchart(top_n_topics=10, n_words=10)

In [None]:
# # ============================================
# # 11. 추가 분석 함수
# # ============================================

# def find_similar_documents(topic_model, text, top_n=5):
#     """특정 텍스트와 유사한 문서 찾기"""
#     tokenized = tokenize_korean(preprocess_korean_text(text))
#     similar_topics, similarity = topic_model.find_topics(tokenized, top_n=top_n)
#     return similar_topics, similarity

# def get_representative_docs(topic_model, topic_id, n_docs=3):
#     """특정 토픽의 대표 문서 가져오기""
#     return topic_model.get_representative_docs(topic_id)[:n_docs]

# # 사용 예시
# print("\n[추가 분석 예시]")
# print("특정 토픽의 대표 문서를 보려면:")
# print("docs = get_representative_docs(topic_model, topic_id=0, n_docs=3)")

In [None]:
# docs = get_representative_docs(topic_model, topic_id=1, n_docs=3)
# docs[1]