-
-
Notifications
You must be signed in to change notification settings - Fork 63
Description
안녕하십니까
tomotopy의 dtm모델을 돌리다가 문의사항이 있어 글을 올립니다.
모델을 훈련시킨 후,
훈련에 사용된 문서들이 어느 토픽에 분류가 되었는지 확인하고자
DTModel.docs[i].get_topics를 활용하여 각 문서가 어떤 토픽으로 분류가 되었는지 확인하였습니다.
그 이후, tomotopy.label와 DTModel.get_topic_words를 이용하여
각 토픽에 대해 자동라벨링과 각 시점 별 토픽에 포함되는 단어들을 확인해 보았는데요.
이때 DTModel.docs[i].get_topics을 사용했을 때 나오는 토픽 넘버링과
tomotopy.label와 DTModel.get_topic_words를 이용했을 때 나오는 토픽 넘버링이 다르게 되는 것 같아 해당 사항에 대해 확인하고 싶어 연락드립니다.
(ex. DTModel.docs[i].get_topics 에서의 0번 토픽 -> tomotopy.label와 DTModel.get_topic_words의 2번 토픽
DTModel.docs[i].get_topics 에서의 1번 토픽 -> tomotopy.label와 DTModel.get_topic_words의 13번 토픽 등)
DTModel.docs[i].get_topics을 사용했을 때 나오는 토픽 넘버링과 tomotopy.label와 DTModel.get_topic_words를 이용했을 때 나오는 토픽 넘버링이 일치하는 것인지, 일치하지 않다면 코드를 조정하여 일치시킬 방안이 있는지 문의드립니다.
ps. 추가로 DTModel의 결과물로 각 시점에 대해 gensim 패키지의 pyLDAvis 시각화를 할 수 있는지 문의드립니다.