In [2]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.datasets import fetch_20newsgroups
from sklearn.decomposition import NMF, LatentDirichletAllocation

In [5]:
def display_topics(model, feature_names, no_top_words):
    for topic_idx, topic in enumerate(model.components_):
        print ("Topic %d:" % (topic_idx))
        print (" ".join([feature_names[i] for i in topic.argsort()[:-no_top_words - 1:-1]]))

In [6]:
documents = open('voc_preprocessed.txt').readlines()

In [7]:
# NMF is able to use tf-idf
tfidf_vectorizer = TfidfVectorizer(max_df=0.95, min_df=2)
tfidf = tfidf_vectorizer.fit_transform(documents)
tfidf_feature_names = tfidf_vectorizer.get_feature_names()

# LDA can only use raw term counts for LDA because it is a probabilistic graphical model
tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2)
tf = tf_vectorizer.fit_transform(documents)
tf_feature_names = tf_vectorizer.get_feature_names()

no_topics = 20

# Run NMF
nmf = NMF(n_components=no_topics, random_state=1, alpha=.1, l1_ratio=.5, init='nndsvd').fit(tfidf)

# Run LDA
lda = LatentDirichletAllocation(n_topics=no_topics, max_iter=5, learning_method='online', learning_offset=50.,random_state=0).fit(tf)

no_top_words = 10
display_topics(nmf, tfidf_feature_names, no_top_words)

display_topics(lda, tf_feature_names, no_top_words)



Topic 0:
adverb 있다 determiner 그렇다 되다 지금 modifier 아니다 이제 고객
Topic 1:
카드 변경 되다 유효 입력 승인 결제 자동 납부 이체
Topic 2:
modifier 금제 요금 변경 무제한 데이터 adverb 되다 삼만 짜다
Topic 3:
약정 할인 선택 이십 프로 받다 되다 신청 가입 기간
Topic 4:
호출 소리 녹음 누르다 음성 남다 지나다 연결 되다 부과
Topic 5:
가족 할인 결합 혜택 분들 있다 등록 adverb 본사 텔레콤
Topic 6:
데이터 리필 쿠폰 사용 되다 adverb 있다 선물 이용 남다
Topic 7:
할인 복지 자격 감다 되다 기초 연금 신청 받다 혜택
Topic 8:
인터넷 티비 와이파이 고객 설치 요금 가입 상품 결합 되다
Topic 9:
정지 분실 풀다 되다 가능하다 풀리다 modifier 일시 신고 개월
Topic 10:
결제 소액 한도 차단 이용 되다 금액 휴대폰 확인 요금
Topic 11:
로밍 한국 해외 데이터 패스 되다 시간 차단 이용 adverb
Topic 12:
번호 자녀 생년 확인 입력 월일 자리 되다 어떻다 성함
Topic 13:
해지 보내다 되다 팩스 서류 이메일 처리 문자 신분증 접수
Topic 14:
고객 센터 텔레콤 저희 연락 드리다 안녕하다 이다 변경 께서
Topic 15:
exclamation 그렇다 알다 eomi 여보세요 이다 혹시 안녕하다 감사하다 에헤
Topic 16:
부서 연결 이다 상담 문의 담당 번호 기다리다 끊다 해드리다
Topic 17:
계좌 납부 은행 요금 자동 이체 통장 되다 미납 농협
Topic 18:
보험 가입 파손 분실 있다 수리 보상 서비스 되다 보험사
Topic 19:
통화 전화 연락 드리다 다시 확인 전달 지금 있다 받다
Topic 0:
adverb 있다 그렇다 지금 determiner 고객 되다 아니다 modifier exclamation
Topic 1:
알뜰폰 이마트 링크 신세계 티브로드 압니 이어폰 척척 검사 씨제이
T