### Topic Modeling

많은 양의 문서가 있을 때 사람이 처리하기 어려울 때, 토픽 모델링을 사용하여 문서 집합에 숨어 있는 주제를 찾아낼 수 있다.    
머신러닝 기반의 토픽 모델은 숨겨진 주제를 효과적으로 표현할 수 있는 중심 단어를 함축적으로 추출한다.    
주로 LSA(Latent Semantic Analysis)와 LDA(Latent Dirichlet Allocation) 기법으로 사용된다.    
(LDA(Latent Dirichlet Allocaion)과 차원의 축소를 나타내는 LDA(Linear Discriminant Analysis)를 구별하자!)    

이전의 실습에 사용했던 뉴스데이터를 가지고 토픽모델링을 진행하겠다.    

In [5]:
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation

# 모터사이클, 야구, 그래픽스, 윈도우즈, 중동, 기독교, 의학, 우주 주제를 추출. 
cats = ['rec.motorcycles', 'rec.sport.baseball', 'comp.graphics', 'comp.windows.x',
        'talk.politics.mideast', 'soc.religion.christian', 'sci.electronics', 'sci.med'  ]

# 위에서 cats 변수로 기재된 category만 추출. featch_20newsgroups( )의 categories에 cats 입력
news_df= fetch_20newsgroups(subset='all',remove=('headers', 'footers', 'quotes'), 
                            categories=cats, random_state=0)

#LDA는 Count 기반의 Vectorizer만 적용합니다.  
count_vect = CountVectorizer(max_df=0.95, max_features=1000, min_df=2, stop_words='english', ngram_range=(1,2))
feat_vect = count_vect.fit_transform(news_df.data)
print('CountVectorizer Shape:', feat_vect.shape)

CountVectorizer Shape: (7862, 1000)


LDA 기법을 적용하기 위해 뉴스데이터 주제 중 몇 가지를 추출하였다.    
- max_df: 단어의 최대 빈도 (95%이상의 문서에서 등장하는 단어 무시)
- max_features: 고려할 최대 단어 수(1000개의 단어만 고려)
- min_df: 단어의 최소 빈도 (2개 이하의 문서에 등장하는 단어 무시)
- stop_words: english의 stopwords를 제거
- ngram_range: 텍스트에서 추출할 ngram의 범위 (1,2)=2개 묶음    
    
LDA기법은 Count기반의 벡터화만 사용하여 피처벡터화를 진행한다.    
CountVectorizer를 사용하여 7862개의 문서 중에서 1000개의 피처로 구성된 행렬데이터가 feat_vect에 저장된 것을 확인할 수 있다.    
이후 LatentDirichletAllocation 클래스의 n_components 파라미터를 사용하여 토픽의 개수를 조정한다.

In [7]:
lda = LatentDirichletAllocation(n_components=8, random_state=0)
lda.fit(feat_vect)

random_state 파라미터는 실습을 수행할때마다 똑같은 결과가 나올 수 있도록 함이다.

In [8]:
print(lda.components_.shape)
lda.components_

(8, 1000)


array([[3.60992018e+01, 1.35626798e+02, 2.15751867e+01, ...,
        3.02911688e+01, 8.66830093e+01, 6.79285199e+01],
       [1.25199920e-01, 1.44401815e+01, 1.25045596e-01, ...,
        1.81506995e+02, 1.25097844e-01, 9.39593286e+01],
       [3.34762663e+02, 1.25176265e-01, 1.46743299e+02, ...,
        1.25105772e-01, 3.63689741e+01, 1.25025218e-01],
       ...,
       [3.60204965e+01, 2.08640688e+01, 4.29606813e+00, ...,
        1.45056650e+01, 8.33854413e+00, 1.55690009e+01],
       [1.25128711e-01, 1.25247756e-01, 1.25005143e-01, ...,
        9.17278769e+01, 1.25177668e-01, 3.74575887e+01],
       [5.49258690e+01, 4.47009532e+00, 9.88524814e+00, ...,
        4.87048440e+01, 1.25034678e-01, 1.25074632e-01]])

LatentDirichletAllocation.fit(dataset)을 수행하면 객체는 components_ 속성값을 가지게 되는데 components_는 개별 토픽별로 각 word피처가 얼마나 많이 그 토픽에 할당됐는지에 대한 수치를 가지고 있다. 값이 높을수록 word피처는 토픽의 중심 word로 선정된다.    

8개의 토픽별로 1000개의 word 피처가 해당 토픽별로 연관도를 가지고 있다는 것을 알 수 있다.    

하지만 lda.components_값만으로는 각 토픽별 word 연관도를 보기가 어렵기 때문에 display_topics()함수를 만들어 각 토픽별로 연관도가 높은 순으로 Word를 나열해보겠다.

In [12]:
def display_topics(model, feature_names, no_top_words):
    for topic_index, topic in enumerate(model.components_):
        print('Topic #',topic_index)

        # components_ array에서 가장 값이 큰 순으로 정렬했을 때, 그 값의 array index를 반환. 
        topic_word_indexes = topic.argsort()[::-1]
        top_indexes=topic_word_indexes[:no_top_words]
        
        # top_indexes대상인 index별로 feature_names에 해당하는 word feature 추출 후 join으로 concat
        feature_concat = ' '.join([feature_names[i] for i in top_indexes])                
        print(feature_concat)

# CountVectorizer객체내의 전체 word들의 명칭을 get_feature_names_out( )를 통해 추출
feature_names = count_vect.get_feature_names_out()

# Topic별 가장 연관도가 높은 word를 15개만 추출
display_topics(lda, feature_names, 15)

Topic # 0
year 10 game medical health team 12 20 disease cancer 1993 games years patients good
Topic # 1
don just like know people said think time ve didn right going say ll way
Topic # 2
image file jpeg program gif images output format files color entry 00 use bit 03
Topic # 3
like know don think use does just good time book read information people used post
Topic # 4
armenian israel armenians jews turkish people israeli jewish government war dos dos turkey arab armenia 000
Topic # 5
edu com available graphics ftp data pub motif mail widget software mit information version sun
Topic # 6
god people jesus church believe christ does christian say think christians bible faith sin life
Topic # 7
use dos thanks windows using window does display help like problem server need know run


Topic #0의 경우 의학에 관련된 주제어가 추출되었고 Topic #2는 컴퓨터그래픽스, Topic #4는 중동언어, Topic #6은 기독교 관련 주제어가 추출된 것을 확인할 수 있다.    
Topic #1, #3, #5가 애매한 주제어로 추출되었고 모터사이클과 야구 주제의 경우 명확한 주제어가 추출되지는 않은 것을 확인할 수 있다.