In [56]:
import pandas as pd
pd.set_option('display.max_rows', None)

In [57]:
import pandas as pd
pd.options.display.max_rows = 3000
pd.options.display.max_columns = 100
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

# 텍스트 전처리
from sklearn.feature_extraction.text import TfidfVectorizer
import nltk
from konlpy.tag import Okt 
import MeCab
mecab = MeCab.Tagger()
import re 
from string import punctuation
import requests
import pickle
import ast

# 토픽모델링
import gensim
from gensim import corpora, models
from gensim.models import CoherenceModel
import pyLDAvis 
import pyLDAvis.gensim

#### 미리 만들어둔 리뷰데이터 불러오기

In [58]:
df = pd.read_csv("D:/review.csv")

In [59]:
##Date column을 pandas.Datetime으로 변환
df['DATE'] = pd.to_datetime(df['DATE'])
# Date column을 index로 설정
df = df.set_index("DATE")

In [60]:
df.shape

(2871, 3)

#### corpus (말뭉치) 생성

In [61]:
## 4월을 기준으로 나누기
before_4 = df['2019-12-27' : '2021-03-31']
after_4 = df['2021-04-01': '2021-7-23']

In [62]:
corpus1 = before_4['REVIEW'] # 4월 이전 리뷰
corpus2 = after_4['REVIEW'] # 4월 이후 리뷰

#### 텍스트 전처리
- 자음모음만으로 구성된 것 제거
- 특수문자 제거
- 숫자 제거

In [63]:
def message_cleaning(docs):

  
   
    # Series의 object를 str로 변경.
    docs = [str(doc) for doc in docs]
    
    
    # 1. 자음 모음 제거하기
    pattern1 = re.compile("[ㄱ-ㅎ]*[ㅏ-ㅢ]*")
    docs = [pattern1.sub("", doc) for doc in docs]
    # 2. 특수문자 제거
    pattern2 = re.compile("[\{\}\[\]\/?.,;:'|\)*~`!^\-_+<>@\#$%&\\\=\(\'\"]")
    docs = [pattern2.sub("", doc) for doc in docs]
    
    
    return docs


  pattern2 = re.compile("[\{\}\[\]\/?.,;:'|\)*~`!^\-_+<>@\#$%&\\\=\(\'\"]")


#### 명사추출

In [64]:
import re
import MeCab # 형태소 분석기
mecab = MeCab.Tagger()
import requests
import pickle
import ast
## mecab형태소 분석기로 명사 추출하는 함수
def mecab_nouns(text): 
    nouns = []
    
    # 우리가 원하는 TOKEN\tPOS의 형태를 추출하는 정규표현식.
    pattern = re.compile(".*\t[A-Z]+")
    
    # 패턴에 맞는 문자열을 추출하여 konlpy의 mecab 결과와 같아지도록 수정.
    temp = [tuple(pattern.match(token).group(0).split("\t")) for token in mecab.parse(text).splitlines()[:-1]] 
    
    # 추출한 token중에 POS가 명사 분류에 속하는 토큰만 선택.
    for token in temp:
        #동사(어근)까지 추출할려면 "VV"까지
        if token[1] == "NNG" or token[1] == "NNP" or token[1] == "NNB" or token[1] == "NNBC" or token[1] == "NP" or token[1] == "NR"or token[1] == "NNS"or token[1] == "NP" or token[1] == "NR"or token[1] == "NNS" or token[1]== "SL" :
            nouns.append(token[0])
    return nouns

In [65]:
## 텍스트 정제
cleaned_corpus1 = message_cleaning(corpus1)
cleaned_corpus2 = message_cleaning(corpus2)

#### 불용어 처리 및 한글자 제거

In [66]:

def define_stopwords(path):
    
    SW = set()
    #불용어를 추가하는 방법 1.
    #SW.add("동백전")
    
    # 불용어를 추가하는 방법 2.
    # stopwords-ko.txt에 직접 추가
    
    with open(path) as f:
        for word in f:
            SW.add(word[:-1])
            
    return SW

from tqdm import tqdm_notebook # 시간 바

# 명사 추출한 것 중 SW에 포함되지 않으면서 한글자 제거
def text_tokenizing(corpus):   
    token_corpus = []
    # tqdm을 사용하여 진행 과정을 보기
    for n in tqdm_notebook(range(len(corpus))):
        token_text = mecab_nouns(corpus[n]) # 위에서 정의한 명사추출 함수 실행
        token_text = [word for word in token_text if word not in SW and len(word) >1]
        token_corpus.append(token_text)
    return token_corpus

SW = define_stopwords("D:/연구알바/stopwords-ko.txt")

#### 사용자사전(분리되면 안되는 단어들을 따로 사전에 정의)
> 동백전
하나은행
부산은행
캐쉬백
캐시백
지역화폐
해결방안
고객센터
교통카드
체크카드
불편함
본인인증
본인 인증
인증번호
코나아이
삼성페이
오프라인
온라인
비번
비밀번호
아이디
전화번호
폰 번호
생년월일
홈페이지
소상공인
지원금
로코
큐알코드 등등

In [67]:
tokenized_text1 = text_tokenizing(cleaned_corpus1)
tokenized_text2= text_tokenizing(cleaned_corpus2)

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`


  0%|          | 0/1826 [00:00<?, ?it/s]

Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`


  0%|          | 0/1045 [00:00<?, ?it/s]

#### 문서 단어 행렬

In [68]:
def dic_and_bow(clean_text):
    
    # 데이터를 dictionary 형태로 명사 list 만들기 
    dictionary = corpora.Dictionary(clean_text) 
    
    # 출현빈도가 너무 적은 단어는 제거 
    dictionary.filter_extremes(no_below=5) 
    
    # 명사 형태로 말뭉치 만들기 
    corpus = [dictionary.doc2bow(text) for text in clean_text]
    
    # TF-IDF으로 변환 
    tfidf = models.TfidfModel(corpus)
    corpus_tfidf = tfidf[corpus]
    corpus = corpus_tfidf 
    
    return corpus ,dictionary

corpus_1 ,dictionary_1 = dic_and_bow(tokenized_text1)
corpus_2 ,dictionary_2 = dic_and_bow(tokenized_text2)

- TF-IDF는 모든 문서에서 자주 등장하는 단어는 중요도가 낮다고 판단하며, 특정 문서에서만 자주 등장하는 단어는 중요도가 높다고 판단합니다. 
- TF-IDF 값이 낮으면 중요도가 낮은 것이며, TF-IDF 값이 크면 중요도가 큰 것입니다. 
- 즉, the나 a와 같이 불용어의 경우에는 모든 문서에 자주 등장하기 마련이기 때문에 자연스럽게 불용어의 TF-IDF의 값은 다른 단어의 TF-IDF에 비해서 낮아지게 됩니다.
> 모든 문서에서 자주 등장하는 단어의 중요도를 낮게 평가 (?!)

- TF-IDF를 돌린 후 명사 추출 > corpus에서 문장에서 단어의 중요도를 평가해서 추출한 것을 다시 명사로 추출하면 그 중요도가 의미가 없어짐(중요하다는 단어가 동사일 경우 중요함에도 사라지기에)

- 명사 추출 후 TF-IDF를 돌리기 > 모든 문서에서 자주 등장하는 명사가 중요하지 않다고 판단하여 핵심 명사들이 사라지는 경우가 생김

- 단순 빈도로 인한 명사 추출뿐인가..

#### 최적 Topic 개수 산출

<span style="color:red">coherence 보단 perplexity를 우선적으로 보는 게 좋음</span>


__(1) Coherence Model__

Topic이 얼마나 의미론적으로 일관성 있는지 판단.
수치가 높을수록 일관성 높음. 0.55 정도면 우수하다고 함.
Coherence가 너무 높아지면 정보의 양이 줄어들게 되고, coherence가 너무 낮아 정보들이 인관성이 없다면 분석의 의미가 낮아지게 됨.

.3 is bad

.4 is low

.55 is okay

.65 might be as good as it is going to get

.7 is nice

.8 is unlikely and

.9 is probably wrong

- 매번 모델을 돌릴때마다 토픽이 달라지기에 seed 고정이 필요할 것 같다

In [69]:
# coherence_values = []

# for i in tqdm_notebook(range(2,30)) : 
#     ldamodel = gensim.models.ldamodel.LdaModel(corpus, num_topics=i, id2word = dictionary) # 파라미터는 기본으로 설정 
#     coherence_model_lda = CoherenceModel(model=ldamodel, texts=tokenized_text, dictionary=dictionary, topn=10, coherence='c_v')
#     coherence_lda = coherence_model_lda.get_coherence()
#     coherence_values.append(coherence_lda)

In [70]:
# x = range(2,30)
# plt.plot(x, coherence_values)
# plt.xlabel("Number of Topics")
# plt.ylabel("Coherence Score")
# plt.show()

__(2) 언어 모델 평가방법 (PPL: Perplexity)__

확률 모델이 결과를 얼마나 정확하게 예측하는지 나타내는 값.
동일 모델 내 파라미터에 따른 성능 평가할 때 사용.
선정된 토픽 개수마다 학습시켜 가장 낮은 값을 보이는 구간을 찾아 최적화된 토픽의 개수 선정. 
수치가 낮을수록 높은 정확도.
Coherence Score와 함께 고려해야함.

<span style="color:red">train, test set 나누기</span>

- 8:2로 나누는 게 좋다고 함. 
- 80%로 학습한 lda model을 20%의 테스트셋에 적용시켜 수치를 보고, 가장 좋은 토픽의 개수를 찾아 전체 데이터셋에 토픽모델링 적용

In [71]:
# len(corpus)

In [72]:
# corpus_train = corpus[:2200]
# corpus_test = corpus[2200:]

In [73]:
# perplexity_values=[]

# for i in tqdm_notebook(range(2,100)): 
#     ldamodel = gensim.models.ldamodel.LdaModel(corpus_train, 
#                                                num_topics=i, 
#                                                id2word=dictionary, 
#                                                alpha="auto", eta="auto")

#     perplexity_values.append(ldamodel.log_perplexity(corpus_test))

In [74]:
# x = range(2,100)
# plt.plot(x, perplexity_values)
# plt.xlabel("Number of Topics")
# plt.ylabel("Perplexity Score")
# plt.show()

#### 4월이전 토픽모델링 실행

In [75]:
# 토픽 개수, 키워드 개수를 정해주는 변수를 추가.
NUM_TOPICS = 10

NUM_TOPIC_WORDS = 10

def print_topic_words(model):

    # 토픽 모델링 결과를 출력해 주는 함수.
    print("\nPrinting topic words.\n")
    
    for topic_id in range(model.num_topics):
        topic_word_probs = model.show_topic(topic_id, NUM_TOPIC_WORDS)
        print("Topic ID: {}".format(topic_id))
        
        for topic_word, prob in topic_word_probs:
            print("\t{}\t{}".format(topic_word, prob))
            
        print("\n")

# LDA를 실행.
model_1 = models.ldamodel.LdaModel(corpus_1, num_topics=NUM_TOPICS, id2word=dictionary_1, alpha="auto", eta="auto",random_state=100)
model_2= models.ldamodel.LdaModel(corpus_2, num_topics=NUM_TOPICS, id2word=dictionary_2, alpha="auto", eta="auto",random_state=100)



In [76]:
word_dict1 = {};

for i in range(NUM_TOPICS):

    words = model_1.show_topic(i)

    word_dict1['Topic # ' + '{:02d}'.format(i+1)] = [i[0] for i in words]

pd.DataFrame(word_dict1)

Unnamed: 0,Topic # 01,Topic # 02,Topic # 03,Topic # 04,Topic # 05,Topic # 06,Topic # 07,Topic # 08,Topic # 09,Topic # 10
0,접속,사용,사용,편리,강추,가맹점,업데이트,접속,포인트,사용
1,업데이트,감사,카드,혜택,경제,실행,사용,오류,다운,최고
2,결제,충전,오류,결제,혜택,편리,적립,사용,불편,설치
3,만족,카드,캐쉬백,최고,확인,사용,실행,결제,가맹점,카드
4,카드,캐시백,혜택,캐시백,감사,적립,포인트,감사,추천,충전
5,이용,확인,유용,사용,네트워크,지역,접속,지역,편리,오류
6,개꿀,만족,충전,유용,발급,내역,불편,캐시백,접속,캐시백
7,오류,가맹점,편리,가능,로그인,아이폰,충전,확인,설치,네트워크
8,동백,편리,이용,카드,대박,연결,안정,충전,필요,서버
9,네트워크,오류,연결,에러,지역,확인,데이터,화이팅,인증,신청


In [77]:
# pyLDAvis 불러오기
import pyLDAvis
import pyLDAvis.gensim

# pyLDAvis를 jupyter notebook에서 실행할 수 있게 활성화.
pyLDAvis.enable_notebook()

# pyLDAvis 실행.
data1 = pyLDAvis.gensim.prepare(model_1, corpus_1, dictionary_1)
data1

#### 4월 이후 리뷰 토픽모델링 실행

In [78]:
word_dict2 = {};

for i in range(NUM_TOPICS):

    words = model_2.show_topic(i)

    word_dict2['Topic # ' + '{:02d}'.format(i+1)] = [i[0] for i in words]

pd.DataFrame(word_dict2)

Unnamed: 0,Topic # 01,Topic # 02,Topic # 03,Topic # 04,Topic # 05,Topic # 06,Topic # 07,Topic # 08,Topic # 09,Topic # 10
0,검색,불편,불편,사용,사용,카드,기대,충전,카드,사용
1,삼성페이,설치,카드,카드,가맹점,불편,설치,카드,발급,확인
2,사용,혜택,예전,불편,카드,기존,연결,쓰레기,결제,카드
3,가능,카드,사용,발급,발급,사용,짜증,발급,최악,기존
4,카드,확인,신규,삼성페이,불편,이전,개선,삼성페이,기능,금액
5,가맹점,짜증,불편함,코나아이,업데이트,등록,업데이트,취소,예전,가맹점
6,충전,삼성페이,기존,KT,쓰레기,잔액,kt,신규,불편,내역
7,발급,이관,신청,이전,캐시백,기대,서비스,사용,충전,편리
8,이전,선불카드,캐시백,페이,가능,가맹점,발급,편리,사용,가능
9,기능,등록,발급,기존,기존,기능,이전,금액,금액,불편


In [79]:
# pyLDAvis 실행.
data2 = pyLDAvis.gensim.prepare(model_2, corpus_2, dictionary_2)
data2