# 토픽 모델링

- 문서에서 토픽(키워드)을 찾는 과정
- 문서(문장)를 구성하는 단어 조합으로부터 k 개의 단어 묶음을 찾는 과정
- 베이지안 확률 모델이며, 토픽 모델링의 결과로 각 단어가 각 토픽에 속할 확률이 나옴.

### 잠재 디리클레 할당 (Latent, Dirichlet Allocation, LDA) 
- LDA의 모델 가정
     >- 각 문서에는 여러 개의 토픽이 포함될 수 있다.<br>
     >- 각 토픽에는 여러 개의 단어가 포함될 수 있다.<br>
     >- 문서에 존재하는 모든 단어는 반드시 어떤 토픽에 포함된다.<br>
     >- 사람이 글을 쓰는 과정을 생성 모델로 정의한다.
     
- LDA의 모델 과정
    >- 문서들에 사용할 토픽을 고른다.(K개의 토픽)
    >- 토픽 중 하나의 토픽을 고른다.
    >- 그 토픽에 포함된 단어 중에 하나를 고른다.
    >- 단어를 문서에 추가한다. (글을 쓴다)
    >- 2번 과정부터 반복한다.

# Gensim으로 네이버 기사 토픽 모델링 해보기
    - 토픽 모델링을 적용하기 위해 텍스트 처리
    - 토픽 모델링 라이브러리인 gensim 사용해보기

### 1. 토픽 모델링을 위한 라이브러리 불러오기

In [5]:
from tqdm import tqdm_notebook # Progress bar
from konlpy.tag import Mecab # Mecab, Okt 등 형태소 분석기 불러오기
import string # 특수문자 제거
import warnings # 경고 알림 제거를 위한 라이브러리
from gensim import corpora # gensim에서 사용하는 vectorizer 모듈과, LDA model을 불러온다.
from gensim import models

import numpy as np
import re
import pickle
import matplotlib.pyplot as plt
%matplotlib inline

warnings.filterwarnings('ignore', category=DeprecationWarning) # 경고 알림이 뜨면 모두 무시



### 2. 텍스트 전처리 함수 만들기

In [10]:
def read_documents(input_file_name):
    
    corpus = []
    
    # pk 파일을 읽어서 리스트로 변환하여 돌려줌.
    with open(input_file_name, 'rb') as f: # rb = read binary
        temp_corpus = pickle.load(f)
        
    for page in temp_corpus:
        corpus += page
    
    return corpus

def text_cleaning(docs):
    # 한국어를 제외한 글자를 제거하는 함수
    cleaned_docs = []
    for doc in docs:
        temp_doc = re.sub("[^ㄱ-ㅎㅏ-ㅣ가-힇 ]", "", doc)
        cleaned_docs.append(temp_doc)
    

    return cleaned_docs

def define_stopwords(path):
    
    SW = set()
    # 불용어를 추가하는 방법 1.
    # 특수문자 추가하기
    for i in string.punctuation: # string.punctuation = 특수문자
        SW.add(i)

    # 불용어를 추가하는 방법 2.
    #stopwords-ko.txt에 직접 추가하기
    
    with open(path) as f:
        for word in f:
            SW.add(word)
            
    return SW

def text_tokenizing(corpus, tokenizer):
    # 명사 추출 / 형태소 분석 두 가지를 선택할 수 있게 만들어주는 함수
    mecab = Mecab()
    token_corpus = []
    # tqdm 사용
    if tokenizer == "noun":
        for n in tqdm_notebook(range(len(corpus)), desc="Preprocessing"):
            token_text = mecab.nouns(corpus[n])
            token_text = [word for word in token_text if word not in SW and len(word) > 1]
            # 명사 추출 이후 명사로 만들어진 리스트가 SW(불용어)에 있거나 2글자 이상인 단어로 필터
            token_corpus.append(token_text)
            
    elif tokenized == "morph":
        for n in tqdm_notebook(range(len(corpus)), desc="Preprocessing"):
            token_text = mecab.morphs(corpus[n])
            token_text = [word for word in token_text if word not in SW and len(word) > 1]
            token_corpus.append(token_text)
            
    elif tokenized == "word":
        for n in tqdm_notebook(range(len(corpus)), desc = "Preprocessing"):
            token_text = corpus[n].split()
            token_text = [word for word in token_text if word not in SW and len(word) > 1]
            tokne_corpus.append(token_text)
            
    return token_corpus

# 함수를 불러오는 (메인) 코드
input_file_name = 'data/naver_news_title.pk'
documents = read_documents(input_file_name)
SW = define_stopwords('data/stopwords-ko.txt')
cleaned_text = text_cleaning(documents)
tokenized_text = text_tokenizing(cleaned_text, tokenizer='noun') # tokenizer = 'noun' or 'word'


HBox(children=(HTML(value='Preprocessing'), FloatProgress(value=0.0, max=107.0), HTML(value='')))




- 문서 읽기의 과정은 앞서 단어 임베딩의 경우와 다르지 않다. 다음 과정은 문서-단어 행렬을 만드는 고자ㅓㅇ이다.

In [11]:
# 결과 확인
print(tokenized_text[0])

['날씨', '주말', '전국', '봄비', '해안가', '바람', '주의']


### 3. 토픽 모델링에 사용할 함수들 확인하기

In [12]:
# 문서 - 단어 행렬 만들기
# 어휘(vocabulary) 학습
dictionary = corpora.Dictionary(tokenized_text)
# 문서- 단어 행렬 생성
corpus = [dictionary.doc2bow(text) for text in tokenized_text]

In [13]:
# Dictionary 확인
print(dictionary)

Dictionary(56 unique tokens: ['날씨', '바람', '봄비', '전국', '주말']...)


In [14]:
# Corpus 확인
corpus[0][:5]

[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1)]

In [16]:
# TFIDF 문서-단어 행렬 생성
tfidf = models.TfidfModel(corpus)
corpus_tfidf = tfidf[corpus]
corpus_tfidf[0]

[(0, 0.14597528750435945),
 (1, 0.551650429509651),
 (2, 0.41142808187764457),
 (3, 0.1891809191178282),
 (4, 0.271205734245638),
 (5, 0.3023901216610011),
 (6, 0.551650429509651)]

In [17]:
# LDA model 만들기
model = models.ldamodel.LdaModel(corpus, num_topics=3, id2word=dictionary)

In [18]:
# LDA 결과 확인
model.show_topic(0, 10) # topic_no = n번 토픽 / num_words = top n개

[('날씨', 0.08885653),
 ('전국', 0.060689233),
 ('확진', 0.05860681),
 ('번개', 0.056209043),
 ('돌풍', 0.056043625),
 ('천둥', 0.05601196),
 ('오후', 0.055905446),
 ('자비', 0.0555234),
 ('지역', 0.05460267),
 ('수도', 0.054139122)]

### 4. 토픽 모델링을 추가하여 코드 완성하기

In [20]:
# 토픽 개수, 키워드 개수를 정해주는 변수를 추가.
NUM_TOPICS = 3

NUM_TOPIC_WORDS = 30


def build_doc_term_mat(documents):
    # 문서-단어 행렬 만들어주는 함수.
    print("Building document-term matrix.")
    dictionary = corpora.Dictionary(documents)
    corpus = [dictionary.doc2bow(document) for document in documents]
    
    return corpus, dictionary

def print_topic_words(model):
    
    # 토픽 모델링 결과를 출력해 주는 함수
    print("\nPrinting topic words.\n")
    
    for topic_id in range(model.num_topics):
        topic_word_probs = model.show_topic(topic_id, NUM_TOPIC_WORDS)
        print("Topic ID: {}".format(topic_id))
        
        for topic_word, prob in topic_word_probs:
            print("\t{}\t{}".format(topic_word, prob))
            
        print("\n")
    
# document-term matrix를 만들고,
corpus, dictionary = build_doc_term_mat(tokenized_text)
# LDA를 실행.
model = models.ldamodel.LdaModel(corpus, num_topics=NUM_TOPICS, id2word=dictionary, alpha='auto', eta='auto')
# alpha와 eta를 auto로 지정해주면 hyperparameter 자동으로 찾아줌.
# 결과를 출력.
print_topic_words(model)

Building document-term matrix.

Printing topic words.

Topic ID: 0
	확진	0.10615662485361099
	감염	0.08693438768386841
	교사	0.0802948996424675
	아산	0.08018315583467484
	추정	0.08009789139032364
	유치원생	0.0798567607998848
	날씨	0.041634492576122284
	강풍	0.03922286629676819
	주의	0.038123734295368195
	오전	0.036138612776994705
	자비	0.02643144503235817
	수도	0.025270015001296997
	지역	0.02227429300546646
	전국	0.010302533395588398
	일상	0.009942080825567245
	신규	0.009767189621925354
	명대	0.009763608686625957
	칼로리	0.009227576665580273
	긴장감	0.008892979472875595
	속출	0.008729785680770874
	메뉴	0.00840485468506813
	개념	0.00817942712455988
	디저트	0.008108546026051044
	주말	0.007619897369295359
	다이어트	0.007334824651479721
	브랜드	0.006744279060512781
	베이커리	0.006093183998018503
	제주	0.0056863995268940926
	서울	0.005567156709730625
	산간	0.0053872461430728436


Topic ID: 1
	날씨	0.11827733367681503
	전국	0.11343063414096832
	주말	0.052300091832876205
	주의	0.050409432500600815
	제주	0.04853510484099388
	강풍	0.047826532274484634
	봄비	0.02861718647181987

### pyLDAvis를 통한 토픽 모델링 결과 시각화하기

In [29]:
# pyLDAvis 불러오기
import pyLDAvis
import pyLDAvis.gensim_models as gensimvis

# pyLDAvis를 jupyter notebook에서 실행할 수 있게 활성화.
pyLDAvis.enable_notebook()

# pyLDAvis 실행
data = gensimvis.prepare(model, corpus, dictionary)
data

  and should_run_async(code)
