## gensim으로 네이버 기사 토픽 모델링 해보기

> 토픽 모델링을 적용하기 위해 텍스트를 처리합니다.

> 토픽 모델링 라이브러리인 gensim을 사용해봅니다.

### 1. 토픽 모델링을 위한 라이브러리 불러오기

In [1]:
from tqdm import tqdm_notebook # progress bar
from konlpy.tag import Mecab #Mecab, Okt 등 형태소 분석기 불러오기
import numpy as np
import string # 특수문자
import re
import warnings # 경고 알림 제거
import pickle
from gensim import corpora # lda를 돌릴 수 있는 형태로 바꿔줌
from gensim import models # 여기에 lda 모델이 들어있다
import matplotlib.pyplot as plt
%matplotlib inline

warnings.filterwarnings("ignore", category=DeprecationWarning) # 경고 알림이 뜨면 모두 무시합니다.

### 2. 텍스트 전처리 함수 만들기

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [8]:
def define_stopwords(path):
    
    SW = set()
    # 불용어를 추가하는 방법 1.
    for i in string.punctuation:
        SW.add(i)

    # 불용어를 추가하는 방법 2.
    # stopwords-ko.txt에 직접 추가
    
    with open(path) as f:
        for word in f:
            SW.add(word)

    return SW
SW = define_stopwords("stopwords-ko.txt")

UnicodeDecodeError: 'cp949' codec can't decode byte 0xec in position 0: illegal multibyte sequence

In [9]:
SW

{'!',
 '"',
 '#',
 '$',
 '%',
 '&',
 "'",
 '(',
 ')',
 '*',
 '+',
 ',',
 '-',
 '.',
 '/',
 ':',
 ';',
 '<',
 '=',
 '>',
 '?',
 '@',
 '[',
 '\\',
 ']',
 '^',
 '_',
 '`',
 b'\xea\xb0\x80\n',
 b'\xea\xb0\x80\xea\xb9\x8c\xec\x8a\xa4\xeb\xa1\x9c\n',
 b'\xea\xb0\x80\xeb\xa0\xb9\n',
 b'\xea\xb0\x81\n',
 b'\xea\xb0\x81\xea\xb0\x81\n',
 b'\xea\xb0\x81\xec\x9e\x90\n',
 b'\xea\xb0\x81\xec\xa2\x85\n',
 b'\xea\xb0\x96\xea\xb3\xa0\xeb\xa7\x90\xed\x95\x98\xec\x9e\x90\xeb\xa9\xb4\n',
 b'\xea\xb0\x99\xeb\x8b\xa4\n',
 b'\xea\xb0\x99\xec\x9d\xb4\n',
 b'\xea\xb0\x9c\xec\x9d\x98\xec\xb9\x98\xec\x95\x8a\xea\xb3\xa0\n',
 b'\xea\xb1\xb0\xeb\x8b\x88\xec\x99\x80\n',
 b'\xea\xb1\xb0\xeb\xb0\x94\n',
 b'\xea\xb1\xb0\xec\x9d\x98\n',
 b'\xea\xb2\x83\n',
 b'\xea\xb2\x83\xea\xb3\xbc \xea\xb0\x99\xec\x9d\xb4\n',
 b'\xea\xb2\x83\xeb\x93\xa4\n',
 b'\xea\xb2\x8c\xeb\x8b\xa4\xea\xb0\x80\n',
 b'\xea\xb2\x8c\xec\x9a\xb0\xeb\x8b\xa4\n',
 b'\xea\xb2\xa8\xec\x9a\xb0\n',
 b'\xea\xb2\xac\xec\xa7\x80\xec\x97\x90\xec\x84\x9c\n',
 b

In [2]:
def read_documents(input_file_name):
    """문서들을 주어진 이름의 파일로부터 읽어들여 돌려준다."""
    
    corpus = []
    
    with open(input_file_name, 'rb') as f:
        temp_corpus = pickle.load(f)
        
    for page in temp_corpus:
        corpus += page
    
    return corpus

def text_cleaning(docs):
    # 한국어를 제외한 글자를 제거하는 함수.
    for doc in docs:
        doc = re.sub("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]", "", doc)

    return docs

def define_stopwords(path):
    
    SW = set()
    # 불용어를 추가하는 방법 1.
    for i in string.punctuation:
        SW.add(i)

    # 불용어를 추가하는 방법 2.
    # stopwords-ko.txt에 직접 추가
    
    with open(path) as f:
        for word in f:
            SW.add(word)

    return SW


def text_tokenizing(corpus, tokenizer):
    
    mecab = Mecab()
    token_corpus = []
    

    if tokenizer == "noun":
        for n in tqdm_notebook(range(len(corpus)), desc="Preprocessing"):
            token_text = mecab.nouns(corpus[n])
            token_text = [word for word in token_text if word not in SW and len(word) > 1]
                
            token_corpus.append(token_text)
            
    elif tokenized == "morph":
        for n in tqdm_notebook(range(len(corpus)), desc="Preprocessing"):
            token_text = mecab.morphs(corpus[n])
            token_text = [word for word in token_text if word not in SW and len(word) > 1]
            token_corpus.append(token_text)

    elif tokenizer == "word":
        for n in tqdm_notebook(range(len(corpus)), desc="Preprocessing"):
            token_text = corpus[n].split()
            token_text = [word for word in token_text if word not in SW and len(word) > 1]
            token_corpus.append(token_text)
        

    return token_corpus


input_file_name = "data/naver_news_content.pk"
documents = read_documents(input_file_name)
SW = define_stopwords("stopwords-ko.txt")
cleaned_text = text_cleaning(documents)
tokenized_text = text_tokenizing(cleaned_text, tokenizer="noun") #tokenizer= "noun" or "word"

HBox(children=(IntProgress(value=0, description='Preprocessing', max=6, style=ProgressStyle(description_width=…




문서 읽기의 과정은 앞서 단어 임베딩의 경우와 다르지 않다. 다음 과정은 문서-단어 행렬을 만드는 과정이다.

In [3]:
print(tokenized_text[0])

['본문', '내용', '플레이어', '플레이어', '오류', '우회', '함수', '추가', '유명', '스타트업', '투자자', '밸류', '성인', '대상', '직무', '교육', '서비스', '오프라인', '제공', '러닝', '스푼', '대표', '이창민', '사모', '투자', '방식', '규모', '투자', '유치', '이번', '라운드', '프리', '시리즈', '단계', '유명', '스타트업', '투자자', '다양', '전문가', '참여', '투자', '포스트', '밸류', '러닝', '스푼', '모토', '성장', '필요', '순간', '러닝', '스푼', '러닝', '스푼', '교육', '범위', '파이낸스', '비즈니스', '데이터', '사이언스', '부동산', '데이', '클래스', '다양', '온라인', '교육', '오프라인', '심층', '교육', '서비스', '제공', '삼성증권', '화증', '화학', '기업', '대상', '사내', '교육', '진행', '러닝', '스푼', '올해', '상반기', '파이썬', '활용', '데이터', '분석', '시각', '파이썬', '활용', '금융', '데이터', '수집', '분석', '디지털', '트랜스', '포메이션', '기반', '융합', '과정', '국내', '유수', '기업', '제공', '설명', '동안', '러닝', '스푼', '파이낸스', '영역', '시작', '카테고리', '확장', '러닝', '스푼', '이번', '투자', '채용', '연계', '전일제', '교육', '사업', '시도', '예정', '자금', '올해', '하반기', '스타트업', '채용', '연계', '부트', '캠프', '코스', '사용', '예정', '부트', '캠프', '코스', '평일', '파이썬', '데이터', '분석', '언어', '공부', '주말', '데이터', '분석가', '퍼포먼스', '각자', '커리어', '패스', '전공', '심화', '과정', '제공', '예정', '이창민', '러닝',

### 3. 토픽 모델링에 사용할 함수들 확인하기

In [4]:
# 문서-단어 행렬 만들기
# 어휘(vocabulary) 학습
dictionary = corpora.Dictionary(tokenized_text)
# 문서-단어 행렬(document-term matrix) 생성
corpus = [dictionary.doc2bow(text) for text in tokenized_text]

In [5]:
print(dictionary)

Dictionary(327 unique tokens: ['각자', '강사진', '거리', '경제', '공부']...)


In [6]:
corpus[0][:5]

[(0, 1), (1, 1), (2, 1), (3, 2), (4, 1)]

In [7]:
# TFIDF 문서-단어 행렬 생성
tfidf = models.TfidfModel(corpus)
corpus_tfidf = tfidf[corpus]
corpus_tfidf[0][:5]

[(0, 0.06232726104668814),
 (1, 0.06232726104668814),
 (2, 0.06232726104668814),
 (3, 0.0764315702870735),
 (4, 0.06232726104668814)]

In [8]:
model = models.ldamodel.LdaModel(corpus, num_topics=4, id2word=dictionary)

In [9]:
model.show_topic(3, 10)

[('에듀', 0.03548237),
 ('블록', 0.03131921),
 ('교육', 0.028588695),
 ('패키지', 0.02640994),
 ('초급', 0.024832888),
 ('코딩', 0.020167248),
 ('출시', 0.016783467),
 ('지니', 0.015812188),
 ('초등학생', 0.013613544),
 ('가능', 0.013063768)]

### 4. 토픽 모델링을 추가하여 코드 완성하기

In [10]:
# 토픽 개수, 키워드 개수를 정해주는 변수를 추가.
NUM_TOPICS = 3

NUM_TOPIC_WORDS = 30


def build_doc_term_mat(documents):
    # 문서-단어 행렬 만들어주는 함수.
    print("Building document-term matrix.")
    dictionary = corpora.Dictionary(documents)
    corpus = [dictionary.doc2bow(document) for document in documents]
        
    return corpus, dictionary


def print_topic_words(model):

    # 토픽 모델링 결과를 출력해 주는 함수.
    print("\nPrinting topic words.\n")
    
    for topic_id in range(model.num_topics):
        topic_word_probs = model.show_topic(topic_id, NUM_TOPIC_WORDS)
        print("Topic ID: {}".format(topic_id))
        
        for topic_word, prob in topic_word_probs:
            print("\t{}\t{}".format(topic_word, prob))
            
        print("\n")

# document-term matrix를 만들고,
corpus, dictionary = build_doc_term_mat(tokenized_text)
# LDA를 실행.
model = models.ldamodel.LdaModel(corpus, num_topics=NUM_TOPICS, id2word=dictionary, alpha="auto", eta="auto")
# 결과를 출력.
print_topic_words(model)

Building document-term matrix.

Printing topic words.

Topic ID: 0
	교육	0.020064108073711395
	에듀	0.019615206867456436
	블록	0.016438454389572144
	플로	0.014306404627859592
	초급	0.014013572596013546
	패키지	0.012968584895133972
	출시	0.012588164769113064
	텐서	0.010947481729090214
	제공	0.010392452590167522
	내용	0.010076988488435745
	활용	0.009872214868664742
	본문	0.00967254489660263
	파이썬	0.00937303900718689
	가능	0.009322361089289188
	코딩	0.008824671618640423
	플레이어	0.008590282872319221
	러닝	0.008431630209088326
	지니	0.007824854925274849
	모델	0.007635747082531452
	사용	0.007484680041670799
	접근	0.007203388027846813
	초등학생	0.006948885507881641
	데이터	0.006911374628543854
	지원	0.006664160173386335
	성능	0.0066604153253138065
	스푼	0.006648664362728596
	구글	0.006617039907723665
	학습	0.006384249776601791
	기업	0.006313104182481766
	고급	0.006254277192056179


Topic ID: 1
	블록	0.029162965714931488
	에듀	0.028093811124563217
	교육	0.024360517039895058
	지니	0.02031286619603634
	패키지	0.01944926381111145
	초급	0.01651754230260849
	출시	0.014452628

### 5. pyLDAvis를 통한 토픽 모델링 결과 시각화하기

In [11]:
# pyLDAvis 불러오기
import pyLDAvis
import pyLDAvis.gensim

# pyLDAvis를 jupyter notebook에서 실행할 수 있게 활성화.
pyLDAvis.enable_notebook()

# pyLDAvis 실행.
data = pyLDAvis.gensim.prepare(model, corpus, dictionary)
data