In [8]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\ojun\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [17]:
# 입력 문장
# sentence = "여기는 1번 구역인데, 지금 어어어어 너무 덥고, 습하고, 힘들어요. 쓰러질것 같아요"
sentence = "기분 좋은 커뮤니케이션을 만드는 사소한 말투의 기적 수백 개의 장점을 한순간에 물거품으로 만드는 것이 있으니,\
            그것이 바로 말투다. 한두 마디에 담긴 말투 하나가 사람의 이미지를 만들고, 관계를 결정하며, 평판에 영향을 미친다.\
            이 책은 그동안 말투 때문에 본의 아니게 관계에서 오해를 불러일으켰던 사람들을 위해 ‘호감형 말투 사용법’을 골라 담았다.\
            이 책에 담긴 말투 사용법을 터득한다면 누구에게나 ‘다시 만나고 싶은 사람’으로 기억될 것이며,\
            주변에 저절로 사람이 모여드는 극적인 변화를 경험하게 될 것이다."

# 문장을 토큰화
tokens = nltk.word_tokenize(sentence)

# 단어들을 다시 문장으로 변환
tokens = [" ".join(tokens)]

# 문장을 벡터화
vectorizer = CountVectorizer(stop_words='english')
X = vectorizer.fit_transform(tokens)

# Latent Dirichlet Allocation (LDA) 모델로 topic 추출
lda_model = LatentDirichletAllocation(n_components=1, random_state=42)
lda_model.fit(X)

# 추출된 topic 출력
feature_names = vectorizer.get_feature_names_out()
top_words = lda_model.components_[0].argsort()[:-11:-1]
topic_words = [feature_names[i] for i in top_words]
print("추출된 Topic:", ", ".join(topic_words))
# topic_words

추출된 Topic: 말투, 만드는, 담긴, 호감형, 누구에게나, 물거품으로, 모여드는, 말투의, 말투다, 만들고


# 다른 방법

In [5]:
# 필요한 라이브러리 import
from gensim.models import LdaModel
from gensim.corpora import Dictionary
from gensim import corpora
import numpy as np
import nltk
nltk.download('punkt')  # 토큰화를 위해 필요한 NLTK 데이터 다운로드
from nltk.tokenize import word_tokenize

# 텍스트 데이터 준비
text_data = ["여기는 1번 구역인데, 지금 어어어어 너무 덥고, 습하고, 힘들어요. 쓰러질것 같아요"]
# 텍스트 데이터가 들어있는 리스트

# 텍스트 데이터 전처리: 토큰화, 불용어 제거, 등의 전처리 작업 수행
tokenized_text_data = [word_tokenize(text) for text in text_data]  # 텍스트 데이터 토큰화

# 문서-단어 행렬 생성
dictionary = corpora.Dictionary(tokenized_text_data)
corpus = [dictionary.doc2bow(text) for text in tokenized_text_data]

# LDA 모델 학습
lda_model = LdaModel(corpus=corpus, id2word=dictionary, num_topics=10)  # 10개의 토픽으로 학습

# 학습된 토픽 출력
for topic_idx, topic_words in lda_model.print_topics():
    print(f"토픽 {topic_idx+1}: {topic_words}")

# 특정 문서의 토픽 추출
doc_idx = 0  # 추출하고 싶은 문서의 인덱스
doc_bow = corpus[doc_idx]  # 해당 문서의 문서-단어 행렬
doc_topics = lda_model.get_document_topics(doc_bow)  # 문서의 토픽 추출
doc_topics = sorted(doc_topics, key=lambda x: x[1], reverse=True)  # 토픽의 확률에 따라 정렬

# 가장 높은 확률의 토픽 출력
top_topic_idx, top_topic_prob = doc_topics[0]
top_topic_words = lda_model.print_topic(top_topic_idx)
print(f"문서 {doc_idx+1}의 주요 토픽: 토픽 {top_topic_idx+1}, 확률 {top_topic_prob:.3f}, 단어들: {top_topic_words}")


토픽 1: 0.077*"," + 0.077*"지금" + 0.077*"어어어어" + 0.077*"1번" + 0.077*"구역인데" + 0.077*"너무" + 0.077*"덥고" + 0.077*"여기는" + 0.077*"쓰러질것" + 0.077*"습하고"
토픽 2: 0.077*"," + 0.077*"지금" + 0.077*"어어어어" + 0.077*"여기는" + 0.077*"구역인데" + 0.077*"같아요" + 0.077*"1번" + 0.077*"덥고" + 0.077*"너무" + 0.077*"습하고"
토픽 3: 0.077*"," + 0.077*"어어어어" + 0.077*"지금" + 0.077*"1번" + 0.077*"너무" + 0.077*"같아요" + 0.077*"구역인데" + 0.077*"여기는" + 0.077*"덥고" + 0.077*"힘들어요"
토픽 4: 0.077*"," + 0.077*"지금" + 0.077*"어어어어" + 0.077*"1번" + 0.077*"덥고" + 0.077*"구역인데" + 0.077*"여기는" + 0.077*"쓰러질것" + 0.077*"같아요" + 0.077*"너무"
토픽 5: 0.190*"," + 0.068*"쓰러질것" + 0.068*"." + 0.068*"힘들어요" + 0.068*"너무" + 0.068*"1번" + 0.067*"습하고" + 0.067*"같아요" + 0.067*"여기는" + 0.067*"덥고"
토픽 6: 0.077*"," + 0.077*"어어어어" + 0.077*"지금" + 0.077*"너무" + 0.077*"쓰러질것" + 0.077*"덥고" + 0.077*"구역인데" + 0.077*"1번" + 0.077*"습하고" + 0.077*"여기는"
토픽 7: 0.077*"," + 0.077*"지금" + 0.077*"어어어어" + 0.077*"구역인데" + 0.077*"같아요" + 0.077*"너무" + 0.077*"1번" + 0.077*"여기는" + 0.077*"쓰러질것" + 0.077*"덥고"
토픽 8: 0.077*"어어어

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\ojun\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
