In [2]:
import re
from konlpy.tag import Okt
import gensim
from gensim import corpora

In [3]:
# 데이터 준비
documents = [
    "애플이 영국의 스타트업을 10억 달러에 인수하려고 한다.",
    "자율주행차는 보험 책임을 제조업체로 전환한다.",
    "샌프란시스코는 인도 배달 로봇을 금지하는 것을 고려하고 있다.",
    "런던은 영국의 큰 도시이다.",
    "나는 축구를 정말 좋아한다.",
    "축구는 훌륭한 스포츠이다."
]

In [4]:
def preprocess(text):

    # 텍스트 전처리 함수    
    okt = Okt()

    text = re.sub(r'\s+', ' ', text)  # 공백 정리
    text = re.sub(r'\W', ' ', text)  # 특수 문자 제거
    tokens = okt.nouns(text)  # 명사 추출
    return tokens

In [5]:
# 각 주제에서 상위 키워드 추출
def extract_keywords(lda_model, num_keywords):
    topics = lda_model.show_topics(num_topics=num_topics, num_words=num_keywords, formatted=False)
    keywords = {i: [word for word, _ in topic] for i, topic in topics}
    return keywords

In [9]:
# 전처리된 문서 리스트
processed_docs = [preprocess(doc) for doc in documents]

# 단어 사전 및 코퍼스 생성
dictionary = corpora.Dictionary(processed_docs)
corpus = [dictionary.doc2bow(doc) for doc in processed_docs]

# LDA 모델 학습
num_topics = 1  # 추출할 주제의 수
lda_model = gensim.models.LdaModel(corpus, num_topics=num_topics, id2word=dictionary, passes=15)

# 학습된 주제 출력
for idx, topic in lda_model.print_topics(-1):
    print(f'Topic: {idx} \nWords: {topic}')

num_keywords = 5  # 각 주제에서 추출할 키워드 수
keywords = extract_keywords(lda_model, num_keywords)

for topic, words in keywords.items():
    print(f'Topic {topic}: {", ".join(words)}')


Topic: 0 
Words: 0.060*"축구" + 0.060*"영국" + 0.040*"인도" + 0.040*"나" + 0.040*"배달" + 0.040*"샌프란시스코" + 0.040*"금지" + 0.040*"도시" + 0.040*"것" + 0.040*"런던"
Topic 0: 영국, 축구, 배달, 인도, 나


In [8]:
corpus

[[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1)],
 [(5, 1), (6, 1), (7, 1), (8, 1), (9, 1), (10, 1)],
 [(11, 1), (12, 1), (13, 1), (14, 1), (15, 1), (16, 1), (17, 1)],
 [(3, 1), (18, 1), (19, 1)],
 [(20, 1), (21, 1), (22, 1)],
 [(22, 1), (23, 1)]]