In [1]:
sentences = [
    "오늘 날씨가 좋아서 나들이 가고 싶다.",
    "이 영화는 정말 재미있었어요.",
    "맛있는 음식을 먹으러 갈까요?",
    "운동을 하면 건강에 좋아지는 것 같아요.",
    "공부하기 싫어서 미루고 있어요.",
    "여행 계획을 세우고 있는데 어디로 갈까요?",
    "좋은 책을 읽으면 마음이 편안해져요.",
    "오늘은 친구들과 만나서 재미있게 놀았어요.",
    "새로운 언어를 배우는 것은 어려워도 흥미로워요.",
    "주말에 가족들과 함께 시간을 보내기로 했습니다."
]

In [3]:
from gensim.corpora import Dictionary 
from gensim.models import LdaModel # 주제어 확인 

### 전처리 (형태소 분석, 불용어 처리 등)

In [6]:
from mecab import MeCab
mecab = MeCab()

In [35]:
#형태분석기 사용
morphs_list = list()
for sentence in sentences:
    morphs = mecab.nouns(sentence)
    morphs_list.append(morphs) #2차원 배열
morphs_list #1차원으로 추출 

[['날씨', '나'],
 ['영화'],
 ['음식'],
 ['운동', '건강', '것'],
 ['공부'],
 ['여행', '계획', '어디'],
 ['책', '마음', '편안'],
 ['오늘', '친구'],
 ['언어', '것', '흥미'],
 ['주말', '가족', '시간']]

In [36]:
preprocessed_sentences = morphs_list

In [37]:
dictionary = Dictionary(preprocessed_sentences) #fit in like sklearn
dictionary

<gensim.corpora.dictionary.Dictionary at 0x17eecb6e690>

### transform with dictionary

In [38]:
# dictionary.token2id  #단어(토큰)를 해당 단어의 고유한 숫자 ID로 매핑한 딕셔너리
dictionary.doc2bow(preprocessed_sentences[0]) #transform 좌표값이 들어감

[(0, 1), (1, 1)]

In [39]:
corpus_list = list()
for sentence in  preprocessed_sentences :
    morphs_vector = dictionary.doc2bow(sentence)
    corpus_list.append(morphs_vector)
corpus_list

[[(0, 1), (1, 1)],
 [(2, 1)],
 [(3, 1)],
 [(4, 1), (5, 1), (6, 1)],
 [(7, 1)],
 [(8, 1), (9, 1), (10, 1)],
 [(11, 1), (12, 1), (13, 1)],
 [(14, 1), (15, 1)],
 [(5, 1), (16, 1), (17, 1)],
 [(18, 1), (19, 1), (20, 1)]]

In [40]:
lda_model = LdaModel(corpus=corpus_list, id2word=dictionary, num_topics=3)  #fit
#벡터화된 숫자와, dictionary를 함께 넣어줘서 숫자와 실제 단어를 연결하여 알수 있게끔
# num_topics=3 토픽 3가지만 잡아줘 

In [41]:
lda_model.print_topics(num_words=5) # num_words 주요 토픽 5가지를 잡아줘 

[(0, '0.104*"시간" + 0.104*"가족" + 0.104*"주말" + 0.103*"오늘" + 0.098*"친구"'),
 (1, '0.076*"것" + 0.074*"여행" + 0.074*"운동" + 0.074*"계획" + 0.073*"건강"'),
 (2, '0.098*"것" + 0.097*"편안" + 0.096*"책" + 0.096*"마음" + 0.095*"흥미"')]