# LDA - Topic Modeling

Latent Dirichlet Allocation.에 대해서 알아보자.

## sklearn을 활용한 LDA

sklearn을 활용한 방법이다.
- sklearn.decomposition에 LatentDirichletAllocation이 포함되어 있다.

In [2]:
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation

In [10]:
cats_select = ['sci.space', 'rec.sport.baseball', 'comp.graphics', 'soc.religion.christian']
news_df = fetch_20newsgroups(remove = ('headers', 'footers', 'quotes'),
                             subset = 'all',
                             categories = cats_select,
                             random_state = 42)

In [13]:
news_df.data[0]

'\n\tThis happens when your X server has run out of memory. You need\nmore memory or you need to quit any un-neccessary running clients.'

이런 식으로, news_df.data를 통해 각 기사에 접근할 수 있다. 이 기사들의 주제를 분류하기 위해, 
- countvectorizer을 통해, 단어 빈도수 기반 벡터화 진행
- 이후, LDA 피처 벡터화 진행

In [14]:
vect = CountVectorizer(max_df = 0.95, max_features = 1000,
                       min_df = 2, stop_words = 'english')
news_vected = vect.fit_transform(news_df.data)

이제, 여기서 LDA를 적용하면 다음과 같다.

In [18]:
lda = LatentDirichletAllocation(n_components = 4, random_state = 42)
lda.fit(news_vected)

print(lda.components_.shape)

(4, 1000)


fit은 토픽별 단어 분포를 계산하는 과정이고,
transform에서는 문서별 토픽들의 분포까지 계산한다.

In [19]:
lda.components_

array([[3.72236418e-01, 2.30927737e+01, 2.54495169e-01, ...,
        3.23602182e+01, 6.14361900e+01, 2.68063104e-01],
       [2.78103337e+02, 1.95116709e+02, 1.63189865e+02, ...,
        8.60379744e+01, 1.46090198e+01, 2.52322788e-01],
       [2.56436984e-01, 2.63107838e-01, 2.50040966e-01, ...,
        2.97855510e+00, 3.87606706e+01, 2.50019674e-01],
       [4.82679898e+01, 6.52740995e+00, 1.30559843e+00, ...,
        1.26232523e+01, 2.19411954e+00, 1.26229594e+02]])

In [21]:
document_topics = lda.transform(news_vected)
print(document_topics)

[[0.03314266 0.03161752 0.03168517 0.90355465]
 [0.03278311 0.03256219 0.03202135 0.90263335]
 [0.2485936  0.46555658 0.00563905 0.28021078]
 ...
 [0.80912438 0.06381262 0.06390989 0.06315311]
 [0.00946124 0.00989854 0.00929883 0.97134139]
 [0.18965096 0.0017655  0.80681486 0.00176867]]


이렇게, 각 문서별로 어떤 주제가 나올 가능성이 가장 높은지 return해주게 된다.

## gensim을 활용한 LDA

In [None]:
from gensim import corpora, 