### 토픽 모델링
구조화되지 않은 방대한 문헌집단에서 주제를 찾아내기 위한 알고리즘
맥락과 관련된 단서들을 이용하여 의미를 가진 단어들을 클러스터링하여 주제를 추론하는 모델
감성 분석, 소셜 네트워크 분석 등의 타 분석모델과도 혼합하여 자주 쓰임

### LDA(Latent Dirichlet Allocation)
* 단어 교환성 가정
   * 교환성은 단어들의 순서는 상관하지 않고 오로지 단어들의 유무만이 중요하다는 가정
      * 단어들의 순서를 무시할 경우 문서는 단순히 그 안에 포하하는 단어들의 빈도수만을 가지고 표현할 수 있음
* 각각의 문서는 여러 개의 주제를 가지고 있음
   * [빅데이터, 알고리즘, AI, IoT] -> 데이터 사이언스에 관련된 내용
   * [셰익스피어, 톨스토이, 파우스트] -> 문학과 관련된 내용
* 자세한 내용은 다음 논문을 참고
   * Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent Dirichlet Allocation. Journal of Machine Learning Research, 3(Jan), 993-1022.
* pip install gensim

In [2]:
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer
from gensim import corpora, models
import gensim
from nltk.tokenize import RegexpTokenizer
# \w+ 는 알파벳과 숫자가 모두 포함된것이 길이가 상관없이 있는 것
tokenizer = RegexpTokenizer('[\w]+')
stop_words = stopwords.words('english')
p_stemmer = PorterStemmer()

In [3]:
doc_a = "Brocolli is good to eat. My brother likes to eat good brocolli, but not my mother."
doc_b = "My mother spends a lot of time driving my brother around to baseball practice."
doc_c = "Some health experts suggest that driving may cause increased tension and blood pressure."
doc_d = "I often feel pressure to perform well at school, but my mother never seems to drive my brother to do better."
doc_e = "Health professionals say that brocolli is good for your health."
doc_f = "Big data is a term used to refer to data sets that are too large or complex for traditional data-processing application software to adequately deal with."
doc_g = "Data with many cases offer greater statistical power, while data with higher complexity may lead to a higher false discovery rate."
doc_h = "Big data was originally associated with three key concepts: volume, variety, and velocity."
doc_i = "A 2016 definition states that 'Big data represents the information assets characterized by such a high volume, velocity and variety to require specific technology and analytical methods for its transformation into value'."
doc_j = "Data must be processed with advanced tools to reveal meaningful information."

In [4]:
doc_set = [doc_a, doc_b, doc_c, doc_d, doc_e, doc_f, doc_g, doc_h, doc_i, doc_j]
texts = []

# 문서별 단어 넣기(소문자화, 토크나이징, 불용어 제거, 어근 추출)
for w in doc_set:
    raw = w.lower()
    tokens = tokenizer.tokenize(raw)
    stopped_tokens = [i for i in tokens if not i in stop_words]
    stemmed_tokens = [p_stemmer.stem(i) for i in stopped_tokens]
    texts.append(stemmed_tokens)

In [5]:
print(texts)

[['brocolli', 'good', 'eat', 'brother', 'like', 'eat', 'good', 'brocolli', 'mother'], ['mother', 'spend', 'lot', 'time', 'drive', 'brother', 'around', 'basebal', 'practic'], ['health', 'expert', 'suggest', 'drive', 'may', 'caus', 'increas', 'tension', 'blood', 'pressur'], ['often', 'feel', 'pressur', 'perform', 'well', 'school', 'mother', 'never', 'seem', 'drive', 'brother', 'better'], ['health', 'profession', 'say', 'brocolli', 'good', 'health'], ['big', 'data', 'term', 'use', 'refer', 'data', 'set', 'larg', 'complex', 'tradit', 'data', 'process', 'applic', 'softwar', 'adequ', 'deal'], ['data', 'mani', 'case', 'offer', 'greater', 'statist', 'power', 'data', 'higher', 'complex', 'may', 'lead', 'higher', 'fals', 'discoveri', 'rate'], ['big', 'data', 'origin', 'associ', 'three', 'key', 'concept', 'volum', 'varieti', 'veloc'], ['2016', 'definit', 'state', 'big', 'data', 'repres', 'inform', 'asset', 'character', 'high', 'volum', 'veloc', 'varieti', 'requir', 'specif', 'technolog', 'analyt'

In [8]:
# 문서의 단어들을 사전형(단어토큰:ID) 로 변경
dictionary = corpora.Dictionary(texts)
print(dictionary)

# 앞 10개의 단어톸큰 결과 보기
dict(list(dictionary.token2id.items())[0:15])

Dictionary(85 unique tokens: ['brocolli', 'brother', 'eat', 'good', 'like']...)


{'brocolli': 0,
 'brother': 1,
 'eat': 2,
 'good': 3,
 'like': 4,
 'mother': 5,
 'around': 6,
 'basebal': 7,
 'drive': 8,
 'lot': 9,
 'practic': 10,
 'spend': 11,
 'time': 12,
 'blood': 13,
 'caus': 14}

In [9]:
# 문서-단어 매트릭스 형성 (bow : bag-of-words)
# 문서를 단어토큰의 ID와 빈도수로 수치화
corpus = [dictionary.doc2bow(text) for text in texts]

# (단어 토큰의 ID, 해당 문서에 발생할 빈도수) 앞 3개 문서 결과 보기
corpus[:3]

[[(0, 2), (1, 1), (2, 2), (3, 2), (4, 1), (5, 1)],
 [(1, 1), (5, 1), (6, 1), (7, 1), (8, 1), (9, 1), (10, 1), (11, 1), (12, 1)],
 [(8, 1),
  (13, 1),
  (14, 1),
  (15, 1),
  (16, 1),
  (17, 1),
  (18, 1),
  (19, 1),
  (20, 1),
  (21, 1)]]

In [11]:
# LDA 모형(토픽개수 : 3)
ldamodel = gensim.models.ldamodel.LdaModel(corpus, num_topics=3, id2word=dictionary)

# 토필별 단어들 출력(토픽별 출력단어들 개수 : 5개)
# 단어 옆의 숫자는 가중치(각 토픽에서 해당 단어가 설명하는 비중) 의미
ldamodel.print_topics(num_words=5)

[(0,
  '0.038*"data" + 0.034*"higher" + 0.034*"may" + 0.027*"drive" + 0.026*"pressur"'),
 (1,
  '0.035*"data" + 0.033*"good" + 0.031*"eat" + 0.031*"brocolli" + 0.030*"big"'),
 (2,
  '0.055*"data" + 0.026*"health" + 0.025*"inform" + 0.024*"process" + 0.022*"big"')]

In [12]:
# 문서별 토픽 분포(i번째 문서에 토픽 0-2 의 분포)
# 모든 토픽의 분포 확률의 합은 1
for i in range(len(texts)):
    print(ldamodel.get_document_topics(corpus)[i])

[(0, 0.037796255), (1, 0.92559445), (2, 0.03660927)]
[(0, 0.035321753), (1, 0.03448602), (2, 0.93019223)]
[(0, 0.9377111), (1, 0.030620795), (2, 0.031668093)]
[(0, 0.94357723), (1, 0.026639657), (2, 0.029783122)]
[(0, 0.053151257), (1, 0.05599299), (2, 0.8908558)]
[(0, 0.020443086), (1, 0.020927107), (2, 0.95862985)]
[(0, 0.9595089), (1, 0.020089692), (2, 0.020401418)]
[(0, 0.031805754), (1, 0.93548006), (2, 0.0327142)]
[(0, 0.016405549), (1, 0.017335825), (2, 0.96625865)]
[(0, 0.037768677), (1, 0.03796281), (2, 0.9242685)]


In [None]:
from gensim.models import CoherenceModel
print("\nPerplexity : ", ldamodel.log_perplexity(corpus))
# toppn : 상위 N  개의 단어를 이용해서 유사도를 계산하라는 의미
coherence_model_lda = CoherenceModel(model=ldamodel, 
                                     texts=texts,
                                     dictionary=dictionary,
                                     topn=10)
coherence_lad = coherence_model_lda.get_coherence()
print("\nCoherence Score : ", coherence_lda)