# 패키지 import

In [138]:
import pandas as pd
import re
from konlpy.tag import Mecab
mecab = Mecab()
import gensim
from gensim import corpora
import pyLDAvis.gensim_models
pyLDAvis.enable_notebook()

In [139]:
from konlpy.tag import Okt
okt = Okt()

In [304]:
import nltk
from nltk import bigrams
from collections import Counter
counter = Counter()

ModuleNotFoundError: No module named 'nltk'

# 데이터셋 불러오기

In [210]:
# 저장한 리뷰 정보 불러오기
review_dataset_raw = pd.read_csv('../dataset/rv_df.csv', encoding = 'utf-8-sig')
review_dataset_raw.head()

Unnamed: 0.1,Unnamed: 0,id,date,date_y,date_m,date_d,username,rating,content
0,0,0,20210901,2021,9,1,맑은강물,1,핸폰바꿔서 다시 시작하는데 휴대폰인증 단계에서 인증번호요청 그게 안됩니다. 몇번이고...
1,1,1,20210827,2021,8,27,김미룡시,1,업데이트 공지 보고 설정에 구글플레이스토어 캐시및데이터 삭제하고 재설치하고 마지막 ...
2,2,2,20210902,2021,9,2,김태환,1,가끔 어플 켜지도 않았었는데 접속하면 지문인식 5회 실패라고 뜹니다 이거 너무 불편...
3,3,3,20210829,2021,8,29,aAAa 1,1,아니...폰바꾸고 지문등록하고 잘들어가졌는데 지문추가해서 지문재등록하라고 뜬뒤로 안...
4,4,4,20210829,2021,8,29,문치르,1,공동인증서 로그인하려니 폐기된 인증서라함. 다시 인증서 받아오려니 이미 유효한 인증...


# 데이터 선별: 최근 1개년(20년 08월~21년 08월)

In [211]:
review_dataset_raw['date'].astype('int')

0        20210901
1        20210827
2        20210902
3        20210829
4        20210829
           ...   
23210    20200918
23211    20121123
23212    20200918
23213    20180308
23214    20210714
Name: date, Length: 23215, dtype: int64

In [246]:
# 2020년 8월 ~ 2021년 8월까지 1년치 분석
review_dataset = review_dataset_raw[(review_dataset_raw['date'] >= 20200801) & (review_dataset_raw['date'] <= 20210831)]
review_dataset.reset_index(drop = True, inplace = True)
review_dataset = review_dataset.drop(['Unnamed: 0'], axis = 1)
review_dataset.head()

Unnamed: 0,id,date,date_y,date_m,date_d,username,rating,content
0,1,20210827,2021,8,27,김미룡시,1,업데이트 공지 보고 설정에 구글플레이스토어 캐시및데이터 삭제하고 재설치하고 마지막 ...
1,3,20210829,2021,8,29,aAAa 1,1,아니...폰바꾸고 지문등록하고 잘들어가졌는데 지문추가해서 지문재등록하라고 뜬뒤로 안...
2,4,20210829,2021,8,29,문치르,1,공동인증서 로그인하려니 폐기된 인증서라함. 다시 인증서 받아오려니 이미 유효한 인증...
3,5,20210831,2021,8,31,주말둥둥,1,진짜 앱 평가 처음 남겨봄 1. 업데이트할때마다 최적화를 망치는 기술이 있는지 갈수...
4,11,20210827,2021,8,27,Hae-u Gim,1,월급봉투? 이벤트내용 좋길래 알림받고 있는데 뭔놈의 로딩이 끝나질 않아요~오류 엄청...


In [247]:
# 선별된 리뷰 개수
len(review_dataset)

4439

In [248]:
# 평점별 리뷰 개수
review_dataset['rating'].value_counts()

1    2503
5    1258
2     236
3     236
4     206
Name: rating, dtype: int64

# 데이터 전처리

In [249]:
prep_words_list = pd.read_excel('../dataset/prep_words.xlsx')
prep_words_list.head()

Unnamed: 0,replace_before,replace_after,stopwords,irrelavant_words
0,편해요,편리함,아주,
1,편하고,편리함,입니다,
2,편리함,편리함,합니다,
3,편해서,편리함,있습니다,
4,편리해요,편리함,으로,


## 불용어 사전

In [250]:
stopword_list = list(prep_words_list['stopwords'])

## 불필요 단어사전

In [251]:
irrelevance_list = list(prep_words_list['irrelavant_words'])

## 한국어 외 텍스트 제거

In [266]:
def text_cleaning(doc):

    doc = re.sub("[^가-힣 ]", "", doc)
    for i in range(len(prep_words_list['replace_before'])):
        if str(prep_words_list['replace_before'][i]) in doc:
            doc = doc.replace(prep_words_list['replace_before'][i], prep_words_list['replace_after'][i])
    return doc

## 전처리 프로세스 정의

In [267]:
class MyTokenizer:
    def __init__(self, tagger):
        self.tagger = tagger
    def __call__(self, sent):
        try:
            sent = text_cleaning(sent)
            nouns = self.tagger.morphs(sent)
            return [noun for noun in nouns if noun not in stopword_list + irrelevance_list and len(noun) > 1]
        except Exception as e:
            return e
        
my_tokenizer = MyTokenizer(okt)

In [268]:
okt.morphs

<bound method Okt.morphs of <konlpy.tag._okt.Okt object at 0x7ff80ad51070>>

## 전처리 수행

In [269]:
review_dataset['content_prep'] = ''
review_dataset['content_prep'] = review_dataset['content'].apply(my_tokenizer)

In [270]:
tokenized_reviews = list(review_dataset['content_prep'])
tokenized_reviews_neg = list(review_dataset[review_dataset['rating'] <= 2]['content_prep'])
tokenized_reviews_pos = list(review_dataset[review_dataset['rating'] >= 4]['content_prep'])

# LDA 토픽 모델링

In [271]:
NUM_TOPICS = 5

## 긍정적인 리뷰

In [272]:
dictionary = corpora.Dictionary(tokenized_reviews_pos)
corpus = [dictionary.doc2bow(text) for text in tokenized_reviews_pos]
ldamodel = gensim.models.ldamodel.LdaModel(corpus, num_topics = NUM_TOPICS, id2word=dictionary, passes=15)
pyLDAvis.enable_notebook()
vis = pyLDAvis.gensim_models.prepare(ldamodel, corpus, dictionary)
pyLDAvis.display(vis)

  default_term_info = default_term_info.sort_values(


## 부정적인 리뷰

In [273]:
dictionary = corpora.Dictionary(tokenized_reviews_neg)
corpus = [dictionary.doc2bow(text) for text in tokenized_reviews_neg]
ldamodel = gensim.models.ldamodel.LdaModel(corpus, num_topics = NUM_TOPICS, id2word=dictionary, passes=15)
pyLDAvis.enable_notebook()
vis = pyLDAvis.gensim_models.prepare(ldamodel, corpus, dictionary)
pyLDAvis.display(vis)

  default_term_info = default_term_info.sort_values(


# 동시출현 단어 네트워크 분석

In [298]:
word_list_pos = []
for review in tokenized_reviews_pos:
    for word in review:
        word_list_pos.append(word)

counter_numbers_pos = Counter(word_list_pos)
wf_all_word_pos = []
for word, freq in counter_numbers_pos.most_common(50):
    print(word, ':', freq)
    wf_all_word_pos.append(word)

좋음 : 507
편리함 : 414
사용 : 272
어플 : 242
은행 : 193
신한은행 : 192
이체 : 74
계좌 : 70
최고 : 57
이용 : 54
금융 : 52
오류 : 46
확인 : 40
거래 : 38
메뉴 : 35
뱅킹 : 33
다른 : 33
서비스 : 32
기능 : 32
다양한 : 32
감사합니다 : 30
업데이트 : 30
이벤트 : 30
관리 : 30
알림 : 28
정보 : 26
계속 : 25
편하게 : 25
많이 : 24
화면 : 23
입출금 : 23
쉬움 : 23
모든 : 23
로그인 : 22
혜택 : 22
빠르고 : 21
여러 : 21
편함 : 21
다시 : 20
보기 : 20
한눈 : 20
업무 : 20
항상 : 18
안됨 : 18
카드 : 18
자산 : 18
하나 : 18
자주 : 18
편리 : 18
설정 : 17
