## gensim으로 네이버 기사 토픽 모델링 해보기

> 토픽 모델링을 적용하기 위해 텍스트를 처리합니다.

> 토픽 모델링 라이브러리인 gensim을 사용해봅니다.

In [1]:
!pip install gensim

Collecting gensim
  Downloading gensim-4.0.1-cp36-cp36m-win_amd64.whl (23.9 MB)
Collecting smart-open>=1.8.1
  Downloading smart_open-5.1.0-py3-none-any.whl (57 kB)
Collecting dataclasses; python_version < "3.7"
  Downloading dataclasses-0.8-py3-none-any.whl (19 kB)
Installing collected packages: smart-open, dataclasses, gensim
Successfully installed dataclasses-0.8 gensim-4.0.1 smart-open-5.1.0


### 토픽 모델링을 위한 라이브러리 불러오기

In [4]:
# progress bar
from tqdm import tqdm_notebook

# Mecab, Okt 등 형태소 분석기 불러오기
import MeCab
from konlpy.tag import Okt

# 특수문자
import string

# 경고 알림 제거를 위한 라이브러리
import warnings

# gensim에서 사용하는 vectorizer 모듈과, LDA model을 불러온다.
from gensim import corpora
from gensim import models

import numpy as np
import re
import pickle
import matplotlib.pyplot as pltb
# %matplotlib inline
warnings.filterwarnings("ignore", category=DeprecationWarning) # 경고 알림이 뜨면 모두 무시합니다.



In [7]:
import re

def mecab_pos(text):
    pos = []
    
    # 우리가 원하는 TOKEN\tPOS 의 형태를 추출하는 정규 표현식
    pattern = re.compile(".*\t[A-Z]+")
    
    # 패턴에 맞는 문자열을 추출하여 konlpy의 mecab 결과와 같아지도록 수정
    pos = [tuple(pattern.match(token).group(0).split("\t")) 
                   for token in mecab.parse(text).splitlines()[:-1]]
    
    return pos

In [8]:
def mecab_nouns(text):
    nouns = []
    
    # 우리가 원하는 TOKEN\tPOS 의 형태를 추출하는 정규 표현식
    pattern = re.compile(".*\t[A-Z]+")
    
    
    temp = [tuple(pattern.match(token).group(0).split("\t")) 
                   for token in mecab.parse(text).splitlines()[:-1]]
    
    for token in temp:
        if token[1] == "NNG" or token[1]=="NNP" or token[1]=="NNB" or token[1]=="NNBC" or token[1]=="NP" or token[1]=="NR":
            nouns.append(token[0]) 
    return nouns

In [9]:
# mecab_morphs 도 작성
def mecab_morphs(text):
    morphs = []
    
    # 우리가 원하는 TOKEN\tPOS 의 형태를 추출하는 정규 표현식
    pattern = re.compile(".*\t[A-Z]+")
    
    # 패턴에 맞는 문자열을 추출하여 konlpy의 mecab 결과와 같아지도록 수정
    temp = [tuple(pattern.match(token).group(0).split("\t")) 
                   for token in mecab.parse(text).splitlines()[:-1]]
    
    # 추출한 토큰 중에 문자열만 선택
    for token in temp:
        morphs.append(token[0])  
    
    
    return morphs

### 2. 텍스트 전처리 함수 만들기

In [None]:
def read_documents(input_file_name):
    
    corpus = []
    
    # pk 파일을 읽어서 리스트로 변환하여 돌려줌.
    with open(input_file_name,'rb') as f:
        temp_corpus = pickle.load(f)
        
    # 리스트안의 리스트 형태인걸 일차원 리스트로 변형    
    for page in temp_corpus:
        corpus += page
    
    return corpus

def text_cleaning(doc):
    # 한국어를 제외한 글자를 제거하는 함수를 편의를 위해 조금 변형해보자.
    cleaned_docs = []
    
    for doc in docs:
        temp_doc = re.sub("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]", "", doc)
        cleaned_docs.append(temp_doc)
        
    return doc

def define_stopwords(path):
    
    SW = set()
    # 불용어를 추가하는 방법 1.
    # 특수 문자를 추가해보자. 파이썬의 특수문자 라이브러리를 이용해서 추가
    for i in string.punctuation:
        SW.add(i)
    
    # 불용어를 추가하는 방법 2.
    # stopwords-ko.txt에 직접 추가
    
    with open(path) as f:
        for word in f:
            SW.add(word)

    return SW


def text_tokenizing(corpus, tokenizer):
    # 명사 추출 / 형태소 분석 두 가지를 선택할 수 있게 만들어주는 함수를 만들어보자.
     # tqdm을 사용하여 진행 과정을 볼 수 있게 만들어보자.
    mecab = MeCab.Tagger()
    token_corpus = []
    
    if tokenizer == "noun":  # 명사추출
        for n in tqdm_notebook(range(len(corpus)), desc="Preprocessing"):
            token_text = mecab_nouns(corpus[n])
            token_text = [word for word in token_text if word not in SW and len(word) > 1]
            
            token_corpus.append(token_text)
            
            
    elif tokenizer == "morph":
        for n in tqdm_notebook(range(len(corpus)), desc="Preprocessing"):
            token_text = mecab_morphs(corpus[n])
            token_text = [word for word in token_text if word not in SW and len(word) > 1]
            
            token_corpus.append(token_text)
    
    elif tokenizer == "word":
        for n in tqdm_notebook(range(len(corpus)), desc="Preprocessing"):
            token_text = corpus[n].split()
            token_text = [word for word in token_text if word not in SW and len(word) > 1]
            
            token_corpus.append(token_text)

    return token_corpus

# 함수를 불러오는 (메인) 코드.
input_file_name = "data/naver_news_content.pk"
documents = read_documents(input_file_name)
SW = define_stopwords("data/stopwords-ko.txt")
cleaned_text = text_cleaning(documents)
tokenized_text = text_tokenizing(cleaned_text, tokenizer="noun") #tokenizer= "noun" or "morph" or "word"

문서 읽기의 과정은 앞서 단어 임베딩의 경우와 다르지 않다. 다음 과정은 문서-단어 행렬을 만드는 과정이다.

In [None]:
# 결과 확인.


### 3. 토픽 모델링에 사용할 함수들 확인하기

In [None]:
# 문서-단어 행렬 만들기
# 어휘(vocabulary) 학습

# 문서-단어 행렬(document-term matrix) 생성


In [None]:
# Dictionary 확인


In [None]:
# corpus 확인


In [None]:
# TFIDF 문서-단어 행렬 생성


In [None]:
# LDA model 만들기


In [None]:
# LDA 결과 확인


### 4. 토픽 모델링을 추가하여 코드 완성하기

In [None]:
# 토픽 개수, 키워드 개수를 정해주는 변수를 추가.


def build_doc_term_mat(documents):
    # 문서-단어 행렬 만들어주는 함수.
    print("Building document-term matrix.")



def print_topic_words(model):

    # 토픽 모델링 결과를 출력해 주는 함수.
    print("\nPrinting topic words.\n")


# document-term matrix를 만들고,

# LDA를 실행.

# 결과를 출력.


### 5. pyLDAvis를 통한 토픽 모델링 결과 시각화하기

In [None]:
# pyLDAvis 불러오기

# pyLDAvis를 jupyter notebook에서 실행할 수 있게 활성화.

# pyLDAvis 실행.