한국어 형태소 분석기 간 차이 
- https://mr-doosun.tistory.com/22
- https://soohee410.github.io/compare_tagger 
- https://konlpy-ko.readthedocs.io/ko/v0.4.3/api/konlpy.tag/

특징적인 차이:
- mecab 속도가 빠름 
- kkma 속도가 가장 느림 
- okt는 어근 추출에 뛰어남 (ex. 가는, 가던, 가고 == 가다 로 추출)

konlpy 이외의 한국어 전처리 패키지 
https://mangastorytelling.tistory.com/entry/%EB%94%A5%EB%9F%AC%EB%8B%9D%EC%9D%84%EC%9D%B4%EC%9A%A9%ED%95%9C-%EC%9E%90%EC%97%B0%EC%96%B4-%EC%B2%98%EB%A6%AC-%EC%9E%85%EB%AC%B8-0210-%ED%95%9C%EA%B5%AD%EC%96%B4-%EC%A0%84%EC%B2%98%EB%A6%AC-%ED%8C%A8%ED%82%A4%EC%A7%80-Text-Preprocessing-Tools-for-Korean-Text

In [1]:
import pandas as pd
pd.options.display.max_rows = 3000
pd.options.display.max_columns = 100
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

# 텍스트 전처리
from sklearn.feature_extraction.text import TfidfVectorizer
import nltk
from konlpy.tag import Okt 
from ckonlpy.tag import Twitter
import re 
from string import punctuation
import requests
import pickle
import ast

# 토픽모델링
import gensim
from gensim import corpora, models
from gensim.models import CoherenceModel
import pyLDAvis 
import pyLDAvis.gensim



#### 미리 만들어둔 리뷰데이터 불러오기 

In [2]:
df = pd.read_csv('review_df')

df.head(3)

Unnamed: 0.1,Unnamed: 0,DATE,STAR,REVIEW,LIKE
0,0,2020-01-07,1,오류거지같음 쓸때마다 앱자체 오류도 많이 나고 이용자수 많다면서 결제도 안되고 툭하...,0
1,1,2020-01-07,5,국굿 아이폰 바코드나 큐알코드 결제만 앱에서 가능 하면 최고일것 같아요,0
2,2,2020-01-07,3,어플 팅김현상 2월달부터 잘 사용하다가 오늘 업데이트를 했는데 어플 접속이 안됩니다...,0


In [3]:
del df['Unnamed: 0'] 

df.head(3)

Unnamed: 0,DATE,STAR,REVIEW,LIKE
0,2020-01-07,1,오류거지같음 쓸때마다 앱자체 오류도 많이 나고 이용자수 많다면서 결제도 안되고 툭하...,0
1,2020-01-07,5,국굿 아이폰 바코드나 큐알코드 결제만 앱에서 가능 하면 최고일것 같아요,0
2,2020-01-07,3,어플 팅김현상 2월달부터 잘 사용하다가 오늘 업데이트를 했는데 어플 접속이 안됩니다...,0


In [4]:
df.shape # 총 2871개 리뷰

(2871, 4)

#### 부정적인 리뷰만 떼어서 새로운 df 만들기

In [5]:
df_negative = df[df['STAR'] < 3]

df_negative.shape

(1349, 4)

In [6]:
df_negative.head(8)

Unnamed: 0,DATE,STAR,REVIEW,LIKE
0,2020-01-07,1,오류거지같음 쓸때마다 앱자체 오류도 많이 나고 이용자수 많다면서 결제도 안되고 툭하...,0
3,2020-01-07,2,"동백전 어플설치 저는 아이폰이라 설치를 했지만, 아버지도 동백전 어플 설치해드리려고...",0
5,2020-01-07,1,ㅠ 주민등록증 찍는데 청소년들은 청소년증으로 하라해서 청소년증 찍고 발급날짜 했는데...,0
6,2020-01-07,1,불안정한 앱 이용내역 확인 시 강제종료 앱 메뉴도 간단하고 동백전 서비스도 훌륭한데,0
7,2020-01-07,1,앱 꺼짐 문제 앱 들어가서 캐쉬백을 누르면 앱이 꺼져버리는데 어떻게 해야되나요? 다...,0
8,2020-01-07,1,안들어가져요 업데이트 했는데 안들어가져요.. 해결 좀 해주세여,0
9,2020-01-07,1,고객 서비스가 최악이네요 어플 오류로 인하여 충전 하려고 하니 바탕화면으로 팅기는데...,0
10,2020-01-07,1,왜때문에 인증이안되나효 내이름에 내 탄생일에 내 명의의 핸드폰번혼데 자꾸 확인하래 ...,0


In [7]:
# 토픽모델링에서의 train set, test set 분리를 위해 미리 데이터 셔플링

df_negative = df_negative.sample(frac=1).reset_index(drop=True)

df_negative.head(8)

Unnamed: 0,DATE,STAR,REVIEW,LIKE
0,2020-02-05,1,앱 시작하면 악성코드가 발견되었다면서 창이 뜨는데 이거 해킹당한거 아닌가요? 불안해...,0
1,2020-04-10,1,아니 와이파이 네 칸 풀로뜨고 유튜브 등등 빠르게 잘되는데 왜 이 앱만들어거면 네트...,0
2,2021-07-13,1,문제가 너무 많네요 몇개월이 지났는데 사용내역 알림이 왜 아직까지 안오는지 그게 뭐...,0
3,2020-09-08,1,업데이트를 해야 사용 가능하다는데 업데이트가 안됩니다 무슨 문제일까요?,0
4,2020-02-19,1,연3일째 계속 앱도운로드중 아직도 다운중이네요,0
5,2020-12-18,1,이렇게 대책없이 할바에 하지 말았어야지,0
6,2020-04-10,1,이거 진짜 뭔 앱이 연결도 안되고 오류나고 *레기인지..,0
7,2021-04-30,1,"쓰기 불편해졌어요.. 개선해주세요 1. 어플 키면 바로 잔액이랑 포인트, 합계 금액...",0


#### corpus (말뭉치) 생성

In [8]:
# 각 행들을 corpus에 저장 

corpus = df_negative['REVIEW']

corpus

0       앱 시작하면 악성코드가 발견되었다면서 창이 뜨는데 이거 해킹당한거 아닌가요? 불안해...
1       아니 와이파이 네 칸 풀로뜨고 유튜브 등등 빠르게 잘되는데 왜 이 앱만들어거면 네트...
2       문제가 너무 많네요 몇개월이 지났는데 사용내역 알림이 왜 아직까지 안오는지 그게 뭐...
3                 업데이트를 해야 사용 가능하다는데 업데이트가 안됩니다 무슨 문제일까요?
4                               연3일째 계속 앱도운로드중 아직도 다운중이네요
5                                   이렇게 대책없이 할바에 하지 말았어야지
6                         이거 진짜 뭔 앱이 연결도 안되고 오류나고 *레기인지..
7       쓰기 불편해졌어요.. 개선해주세요 1. 어플 키면 바로 잔액이랑 포인트, 합계 금액...
8       사용내역에 현금잔액이랑 남은포인트도 같이 정산되어 보이게 해주십쇼 뭐가 이렇게 보기...
9       앱실행 마다 전화번호가 맞질 않다고 뜨며 실행이 안되서, 가입을 계속 다시 하면서 ...
10                         휴대폰이 노트10 인대요 업데이트가안되요 이거외이러치요
11              앱에 접속안되는 날이 왜이리많아요? 접속할때마다 30~40%는 접속불가;;
12      카드 이관 신청을 하는 데 카드 재발급이 '필수'네요. 새로운 부산 동백전 선불카드...
13      잔액 부족하면 연결 계좌에서 바로 빼가지 말고 알람 줬으면 좋겠어요. 충전해서 쓰면...
14      카드 재발급 강제사항은 둘째치고, 앱 자체 가독성이 넘 떨어집니다. 적립금과 충전금...
15      오류거지같음 쓸때마다 앱자체 오류도 많이 나고 이용자수 많다면서 결제도 안되고 툭하...
16                                       기존카드등록안되요 어떻거하나요
17            

#### tf-idf 활용한 빈도 분석 

In [9]:
total_tokens = [token for mag in corpus for token in str(mag).split()]

print('띄어쓰기 기준으로 나누어봤을 때의 단어(토큰)의 개수:', len(total_tokens), '개')

띄어쓰기 기준으로 나누어봤을 때의 단어(토큰)의 개수: 22494 개


In [10]:
total_tokens[:10]

['앱', '시작하면', '악성코드가', '발견되었다면서', '창이', '뜨는데', '이거', '해킹당한거', '아닌가요?', '불안해서']

단순 빈도분석

In [11]:
tfidf = TfidfVectorizer(max_features=1000)
tdm = tfidf.fit_transform(corpus)

In [12]:
word_count = pd.DataFrame({'단어': tfidf.get_feature_names(), 
                           '빈도': tdm.sum(axis=0).flat})

In [13]:
word_count.sort_values('빈도', ascending=False).head(20)

Unnamed: 0,단어,빈도
886,카드,32.654489
157,너무,31.49343
194,동백전,29.498596
847,진짜,29.121921
544,안되고,25.016353
81,계속,24.625008
598,앱이,24.326419
176,다시,19.822712
606,어떻게,17.891761
809,접속이,17.279415


> TF-IDF으로 단어에 가중치 주었을 때의 결과가 달라짐을 알 수 있다. 

참고: https://hanawithdata.tistory.com/entry/%ED%85%8D%EC%8A%A4%ED%8A%B8%EB%B6%84%EC%84%9D-%EB%8B%A8%EC%96%B4%EB%B9%88%EB%8F%84%EC%9D%98-%EA%B0%80%EC%A4%91%EC%B9%98-TF-IDF

__리뷰별로 리스트화__ 

[리뷰1], [리뷰2],…[리뷰3] 형태의 데이터 구조

추후 topic modeling 시에 리뷰 단위로 문서를 나누고 해당 리뷰의 의미를 찾아내기 위해 리스트로 분리해서 나눠줘야 하기 때문.

In [14]:
corpus_list = list(corpus)
corpus_list[0:3]

['앱 시작하면 악성코드가 발견되었다면서 창이 뜨는데 이거 해킹당한거 아닌가요? 불안해서 앱을 못열겠고 이미 내 폰에 악성코드가 심어진거 아닌지 불안합니다',
 '아니 와이파이 네 칸 풀로뜨고 유튜브 등등 빠르게 잘되는데 왜 이 앱만들어거면 네트워크 연결이 안된다고 뜰까요..가입한 이후로 한번도 켜지지않아 카드 신청도 못하고 있습니다. 연결문제 좀 해결해주세요.',
 '문제가 너무 많네요 몇개월이 지났는데 사용내역 알림이 왜 아직까지 안오는지 그게 뭐라고 아직 개선이 안되는지 이해가 안갑니다. \n게다가 이전 동백전앱은 가맹점 정보 조회가 쉽고 정확했는데 바뀐 동백전은 가맹점이 늘어난 것은 좋은데 조회하면 안나오네요?\n예를 들어 맥도날드 부산시청점은 이전 동백전으로는 결제가 안됐는데 어제 남편이 결제하는 걸 보니 올해는 동백전 결제가 가능하더라구요. 남편말로는 전에 안되던 곳들도 결제 가능하게 된 가맹점이 많다고 하길래 확인해보려고 검색하니 맥도날드 부산시청점은 결제가능함에도 불구하고 안나옵니다.\n\n또한 이전 동백전 앱은 가맹점 검색이 어플내에서 가능했는데 현 동백전앱은 인터넷창에 열리고 검색하는 것도 전에 비해 불편하네요\n\n가능하기만 이전 앱을 사용하고 싶을 정도입니다.\n\n사용내역 알림이라도 좀 빨리 고쳐주세요.\n이게 몇달째 이러는지 정말 이해안되네요']

#### 불용어 처리 

- 좋아요(어근 추출 시에는 '좋다'로 추출 가능하고 명사 추출 시에는 어차피 삭제되니까)는 뺐음
- 동백전,어플, 진짜, 그냥, 정말, 아주, 하니, 건가, 이면.... 등등 단어 추가했음
- korean_stopwords.csv 파일도 괜찮아보임. 지금 쓰고있는 txt 파일이 문어체스러워서? 출처는 https://blog.naver.com/yk02061/222262810714

In [15]:
def define_stopwords(path):
    
    # 방법 1: 직접 리스트에 단어 추가 
    #SW = set()
    #SW.add("동백전")
    #SW.add("앱")
    #SW.add("어플")
    
    # 방법 2: 미리 작성한 txt 파일 불러오기 
    SW = list(set())
    with open(path, encoding='cp949') as f:
        for word in f:
            SW.append(word.rstrip())

    return SW

In [16]:
SW = define_stopwords('stopwords-ko.txt')

In [17]:
SW 

['아',
 '휴',
 '아이구',
 '아이쿠',
 '아이고',
 '어',
 '나',
 '우리',
 '저희',
 '따라',
 '의해',
 '을',
 '를',
 '에',
 '의',
 '가',
 '으로',
 '로',
 '에게',
 '뿐이다',
 '의거하여',
 '근거하여',
 '입각하여',
 '기준으로',
 '예하면',
 '예를 들면',
 '예를 들자면',
 '저',
 '소인',
 '소생',
 '저희',
 '지말고',
 '하지마',
 '하지마라',
 '다른',
 '물론',
 '또한',
 '그리고',
 '비길수 없다',
 '해서는 안된다',
 '뿐만 아니라',
 '만이 아니다',
 '만은 아니다',
 '막론하고',
 '관계없이',
 '그치지 않다',
 '그러나',
 '그런데',
 '하지만',
 '든간에',
 '논하지 않다',
 '따지지 않다',
 '설사',
 '비록',
 '더라도',
 '아니면',
 '만 못하다',
 '하는 편이 낫다',
 '불문하고',
 '향하여',
 '향해서',
 '향하다',
 '쪽으로',
 '틈타',
 '이용하여',
 '타다',
 '오르다',
 '제외하고',
 '이 외에',
 '이 밖에',
 '하여야',
 '비로소',
 '한다면 몰라도',
 '외에도',
 '이곳',
 '여기',
 '부터',
 '기점으로',
 '따라서',
 '할 생각이다',
 '하려고하다',
 '이리하여',
 '그리하여',
 '그렇게 함으로써',
 '하지만',
 '일때',
 '할때',
 '앞에서',
 '중에서',
 '보는데서',
 '으로써',
 '로써',
 '까지',
 '해야한다',
 '일것이다',
 '반드시',
 '할줄알다',
 '할수있다',
 '할수있어',
 '임에 틀림없다',
 '한다면',
 '등',
 '등등',
 '제',
 '겨우',
 '단지',
 '다만',
 '할뿐',
 '딩동',
 '댕그',
 '대해서',
 '대하여',
 '대하면',
 '훨씬',
 '얼마나',
 '얼마만큼',
 '얼마큼',
 '남짓',
 '여',
 '얼마간',
 '약간',
 '다소',
 '좀',
 '조

#### 사전에 특정 단어 추가

- 하나은행, 안드로이드, 캐쉬백과 같은 단어들이 쪼개지는 걸 방지하기 위함.
- 방법 1: 직접 사용자 사전 구축 
- 방법 2: customized konlpy의 add_dictionary 기능 사용 (더욱 간편, 패키지의 다른 기능들도 활용 가능)
- 참고 https://blog.naver.com/yk02061/222262810714 https://inspiringpeople.github.io/data%20analysis/ckonlpy/

In [18]:
twitter = Twitter()

twitter.add_dictionary('동백전', 'Noun')
twitter.add_dictionary('하나은행', 'Noun')
twitter.add_dictionary('부산은행', 'Noun')
twitter.add_dictionary('안드로이드', 'Noun')
twitter.add_dictionary('아이폰', 'Noun')
twitter.add_dictionary('갤럭시', 'Noun')
twitter.add_dictionary('삼성페이', 'Noun')
twitter.add_dictionary('카카오뱅크', 'Noun')
twitter.add_dictionary('뱅크샐러드', 'Noun')
twitter.add_dictionary('뱅크 샐러드', 'Noun')
twitter.add_dictionary('업데이트', 'Noun')
twitter.add_dictionary('업뎃', 'Noun')
twitter.add_dictionary('업그레이드', 'Noun')
twitter.add_dictionary('캐시백', 'Noun')
twitter.add_dictionary('캐쉬백', 'Noun')
twitter.add_dictionary('페이백', 'Noun')
twitter.add_dictionary('케이티', 'Noun')
twitter.add_dictionary('교통카드', 'Noun')
twitter.add_dictionary('지역화페', 'Noun')
twitter.add_dictionary('지역 화폐', 'Noun')
twitter.add_dictionary('10프로', 'Noun')
twitter.add_dictionary('10 프로', 'Noun')
twitter.add_dictionary('6프로', 'Noun')
twitter.add_dictionary('6 프로', 'Noun')
twitter.add_dictionary('재발급', 'Noun')
twitter.add_dictionary('고객센터', 'Noun')
twitter.add_dictionary('고객 센터', 'Noun')
twitter.add_dictionary('코나아이', 'Noun')
twitter.add_dictionary('본인인증', 'Noun')
twitter.add_dictionary('본인 인증', 'Noun')
twitter.add_dictionary('부산시', 'Noun')
twitter.add_dictionary('부산광역시', 'Noun')
twitter.add_dictionary('인터페이스', 'Noun')
twitter.add_dictionary('오프라인', 'Noun')
twitter.add_dictionary('온라인', 'Noun')
twitter.add_dictionary('회원가입', 'Noun')
twitter.add_dictionary('비번', 'Noun')
twitter.add_dictionary('비밀번호', 'Noun')
twitter.add_dictionary('아이디', 'Noun')
twitter.add_dictionary('전화번호', 'Noun')
twitter.add_dictionary('폰번호', 'Noun')
twitter.add_dictionary('생년월일', 'Noun')
twitter.add_dictionary('폰 번호', 'Noun')
twitter.add_dictionary('홈페이지', 'Noun')
twitter.add_dictionary('가맹점', 'Noun')
twitter.add_dictionary('운영사', 'Noun')
twitter.add_dictionary('소상공인', 'Noun')
twitter.add_dictionary('지원금', 'Noun')
twitter.add_dictionary('로코', 'Noun')
twitter.add_dictionary('이벤트', 'Noun')
twitter.add_dictionary('큐알', 'Noun')
twitter.add_dictionary('큐알코드', 'Noun')
twitter.add_dictionary('큐알 코드', 'Noun')
twitter.add_dictionary('큐알 코드', 'Noun')
twitter.add_dictionary('공지사항', 'Noun')
twitter.add_dictionary('공지 사항', 'Noun')
twitter.add_dictionary('불안정', 'Noun')
twitter.add_dictionary('어수선', 'Noun')
twitter.add_dictionary('번거로움', 'Noun')
twitter.add_dictionary('직관성', 'Noun')

  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')


In [19]:
twitter.morphs('부산광역시 지역화폐는 동백전입니다. 운영사는 코나아이입니다')

['부산광역시', '지역화폐', '는', '동백전', '입니다', '.', '운영사', '는', '코나아이', '입니다']

__특수문자, 오타, 불필요한 자음, 숫자 등 제거__ 

- ㅋㅋㅋ와 같은 불필요한 자음
- '좋아ㅏ요'와 같은 오타 처리
- 숫자는 제거하지 않음 (10프로, 6프로 등을 남기기 위해)
- 영어는 남김 (ex: UI, KT와 같은 단어를 지울 수 없어서..)

In [20]:
def message_cleaning(clean):
    
    # Series의 object를 str로 변경
    clean = [str(corpus_list) for corpus_list in clean]
    
    # 자음 모음만 있는 단어들 제거
    delete1 = re.compile("[ㄱ-ㅎ]*[ㅏ-ㅢ]*")
    clean = [delete1.sub("", corpus_list) for corpus_list in clean]
    
    # 특수문자 제거
    delete2 = re.compile("[\{\}\[\]\/?.,;:'|\)*~`!^\-_+<>@\#$%&\\\=\(\'\"]") 
    clean = [delete2.sub("", corpus_list) for corpus_list in clean]
    
    # 숫자 제거
    #delete3 = re.compile('\d+')
    #clean = [delete3.sub("", corpus_list) for corpus_list in clean]
    
    return clean

  delete2 = re.compile("[\{\}\[\]\/?.,;:'|\)*~`!^\-_+<>@\#$%&\\\=\(\'\"]")


In [21]:
clean_list = message_cleaning(corpus)

clean_list[:3]

['앱 시작하면 악성코드가 발견되었다면서 창이 뜨는데 이거 해킹당한거 아닌가요 불안해서 앱을 못열겠고 이미 내 폰에 악성코드가 심어진거 아닌지 불안합니다',
 '아니 와이파이 네 칸 풀로뜨고 유튜브 등등 빠르게 잘되는데 왜 이 앱만들어거면 네트워크 연결이 안된다고 뜰까요가입한 이후로 한번도 켜지지않아 카드 신청도 못하고 있습니다 연결문제 좀 해결해주세요',
 '문제가 너무 많네요 몇개월이 지났는데 사용내역 알림이 왜 아직까지 안오는지 그게 뭐라고 아직 개선이 안되는지 이해가 안갑니다 \n게다가 이전 동백전앱은 가맹점 정보 조회가 쉽고 정확했는데 바뀐 동백전은 가맹점이 늘어난 것은 좋은데 조회하면 안나오네요\n예를 들어 맥도날드 부산시청점은 이전 동백전으로는 결제가 안됐는데 어제 남편이 결제하는 걸 보니 올해는 동백전 결제가 가능하더라구요 남편말로는 전에 안되던 곳들도 결제 가능하게 된 가맹점이 많다고 하길래 확인해보려고 검색하니 맥도날드 부산시청점은 결제가능함에도 불구하고 안나옵니다\n\n또한 이전 동백전 앱은 가맹점 검색이 어플내에서 가능했는데 현 동백전앱은 인터넷창에 열리고 검색하는 것도 전에 비해 불편하네요\n\n가능하기만 이전 앱을 사용하고 싶을 정도입니다\n\n사용내역 알림이라도 좀 빨리 고쳐주세요\n이게 몇달째 이러는지 정말 이해안되네요']

#### 필요한 품사만 추출 - 명사
(okt 트위터 형태소분석기 사용)

okt 설명 https://soyoung-new-challenge.tistory.com/31

토큰화 관련 https://wikidocs.net/21698

In [22]:
# 명사만 추출 

def noun_tokenizer(c):
    
    #okt = Okt() # 따로 다른 변수에 선언해야 함

    noun = []

    for i in range(len(c)):
        try:
            noun.append(twitter.nouns(c[i]))
        except Exception as e:
            continue
    
    return noun

In [None]:
# 명사만 추출 

def noun_tokenizer(c):
    
    okt = Okt() # 따로 다른 변수에 선언해야 함

    noun = []

    for i in range(len(c)):
        try:
            noun.append(okt.nouns(c[i]))
        except Exception as e:
            continue
    
    return noun

In [23]:
nouns = noun_tokenizer(clean_list)

nouns[:3]

[['앱',
  '시작',
  '악성코드',
  '발견',
  '면서',
  '창',
  '거',
  '해킹',
  '당한',
  '거',
  '가요',
  '불안',
  '앱',
  '내',
  '폰',
  '악성코드',
  '심',
  '어진',
  '거',
  '닌지',
  '불안'],
 ['와이파이',
  '네',
  '칸',
  '풀',
  '유튜브',
  '등등',
  '왜',
  '이',
  '앱',
  '네트워크',
  '연결',
  '요',
  '가입',
  '이후',
  '한번',
  '켜',
  '지지',
  '카드',
  '신청',
  '못',
  '연결',
  '문제',
  '좀',
  '해결',
  '해주'],
 ['문제',
  '몇개',
  '월',
  '사용',
  '역',
  '알림',
  '왜',
  '아직까지',
  '그게',
  '뭐',
  '아직',
  '개선',
  '이해',
  '게다가',
  '이전',
  '동백전',
  '앱',
  '가맹점',
  '정보',
  '조회',
  '정확',
  '동백전',
  '가맹점',
  '것',
  '조',
  '회하',
  '안나',
  '예',
  '맥도날드',
  '부산시',
  '청점',
  '이전',
  '동백전',
  '결제',
  '어제',
  '남편',
  '결',
  '제하',
  '걸',
  '올해',
  '동백전',
  '결제',
  '가능',
  '남편',
  '말로',
  '전',
  '곳',
  '결제',
  '가능',
  '가맹점',
  '확인',
  '보',
  '려고',
  '검색',
  '하니',
  '맥도날드',
  '부산시',
  '청점',
  '결제',
  '가능',
  '함',
  '불구',
  '안나',
  '또한',
  '이전',
  '동백전',
  '앱',
  '가맹점',
  '검색',
  '어플',
  '내',
  '가능',
  '현',
  '동백전',
  '앱',
  '인터넷',
  '창',
  '검색',
  '것',
  '전',
 

#### 불용어 및 한 글자 단어 삭제

- 한 글자 단어들 삭제
- 불용어에 속하는 단어 삭제

In [24]:
def delete_stopwords(text):
    morphs_sw = []

    for i in range(len(text)):
        t = []
        for j in range(len(text[i])):
            if len(text[i][j]) > 1 and text[i][j] not in SW: 
                t.append(text[i][j])
        morphs_sw.append(t)
       
    return morphs_sw    

In [25]:
nouns = delete_stopwords(nouns)

nouns[:3]

[['시작', '악성코드', '발견', '해킹', '당한', '불안', '악성코드', '불안'],
 ['와이파이', '유튜브', '네트워크', '연결', '이후', '한번', '카드', '신청', '연결', '문제', '해결'],
 ['문제',
  '몇개',
  '사용',
  '알림',
  '아직까지',
  '아직',
  '개선',
  '이해',
  '이전',
  '가맹점',
  '정보',
  '조회',
  '정확',
  '가맹점',
  '맥도날드',
  '부산시',
  '청점',
  '이전',
  '결제',
  '어제',
  '남편',
  '올해',
  '결제',
  '가능',
  '남편',
  '말로',
  '결제',
  '가능',
  '가맹점',
  '확인',
  '검색',
  '맥도날드',
  '부산시',
  '청점',
  '결제',
  '가능',
  '불구',
  '이전',
  '가맹점',
  '검색',
  '가능',
  '인터넷',
  '검색',
  '불편',
  '가능',
  '기만',
  '이전',
  '사용',
  '도입',
  '사용',
  '알림',
  '이해']]

#### 문서-단어 행렬 

In [26]:
def dic_and_bow(clean_text):
    
    # 데이터를 dictionary 형태로 명사 list 만들기 
    dictionary = corpora.Dictionary(clean_text) 
    
    # 출현빈도가 너무 적은 단어는 제거 
    dictionary.filter_extremes(no_below=5) 
    
    # 명사 형태로 말뭉치 만들기 
    corpus = [dictionary.doc2bow(text) for text in clean_text]
    
    # TF-IDF으로 변환 
    tfidf = models.TfidfModel(corpus)
    corpus_tfidf = tfidf[corpus]
    corpus = corpus_tfidf 
    
    return corpus

참고 https://conanmoon.medium.com/%EB%8D%B0%EC%9D%B4%ED%84%B0%EA%B3%BC%ED%95%99-%EC%9C%A0%EB%A7%9D%EC%A3%BC%EC%9D%98-%EB%A7%A4%EC%9D%BC-%EA%B8%80%EC%93%B0%EA%B8%B0-58-8f05f611d783

In [27]:
corpus = dic_and_bow(nouns)

corpus[0][:3]

[(0, 1.0)]

#### 최적 Topic 개수 산출

<span style="color:red">coherence 보단 perplexity를 우선적으로 보는 게 좋음</span>


__(1) Coherence Model__

Topic이 얼마나 의미론적으로 일관성 있는지 판단.
수치가 높을수록 일관성 높음. 0.55 정도면 우수하다고 함.
Coherence가 너무 높아지면 정보의 양이 줄어들게 되고, coherence가 너무 낮아 정보들이 인관성이 없다면 분석의 의미가 낮아지게 됨.

.3 is bad

.4 is low

.55 is okay

.65 might be as good as it is going to get

.7 is nice

.8 is unlikely and

.9 is probably wrong

__LDA 시각화__ 

adjust your parameters alpha = .1, beta = .01 or .001, random_state = 123

In [28]:
topics = 8

In [29]:
dictionary = corpora.Dictionary(nouns)   
dictionary.filter_extremes(no_below=5) 

In [30]:
ldamodel = gensim.models.ldamodel.LdaModel(corpus, 
                                           num_topics=topics, 
                                           alpha="auto", 
                                           eta="auto",
                                           #gamma_threshold=0.9,
                                           id2word=dictionary,
                                           #chunksize=100,
                                           passes=10,
                                           iterations=1000,
                                           random_state=100) 

http://bigdata.emforce.co.kr/index.php/2020072401/ 파라미터 설명 

파이썬에서 alpha 값은 1/k(토픽개수)

beta(β)는 0.01로 지정한다(Lin and He, 2009)

λ = 1 일수록 토픽 별로 가장 자주 등장하는 단어들을 우선적으로 키워드로 선택한다는 의미, 

λ = 0 일수록 토픽 간에 차이가 많이 나는 단어를 선택한다는 의미(해당 토픽에서 많이 등장한 단어)

In [31]:
ldamodel.print_topics(num_words=10)

[(0,
  '0.037*"설치" + 0.030*"카드" + 0.021*"등록" + 0.018*"입력" + 0.018*"기존" + 0.017*"확인" + 0.017*"다시" + 0.016*"인증" + 0.014*"몇번" + 0.014*"잔액"'),
 (1,
  '0.067*"삼성페이" + 0.032*"오류" + 0.029*"연결" + 0.028*"결제" + 0.025*"계좌" + 0.021*"등록" + 0.021*"포인트" + 0.021*"네트워크" + 0.020*"캐시" + 0.020*"불편"'),
 (2,
  '0.074*"업데이트" + 0.062*"접속" + 0.041*"실행" + 0.040*"사용" + 0.023*"불편" + 0.021*"데이터" + 0.020*"이전" + 0.019*"알림" + 0.018*"최악" + 0.017*"확인"'),
 (3,
  '0.051*"가맹점" + 0.035*"찾기" + 0.031*"캐시백" + 0.027*"불편" + 0.024*"사용" + 0.020*"금액" + 0.019*"이전" + 0.019*"기능" + 0.016*"사용자" + 0.015*"편의"'),
 (4,
  '0.051*"번호" + 0.045*"인증" + 0.042*"계속" + 0.039*"짜증" + 0.033*"업뎃" + 0.028*"네트워크" + 0.025*"자꾸" + 0.025*"오류" + 0.018*"자체" + 0.016*"버전"'),
 (5,
  '0.050*"충전" + 0.040*"금액" + 0.034*"환불" + 0.025*"적립" + 0.025*"결제" + 0.023*"에러" + 0.022*"사용" + 0.022*"캐시백" + 0.020*"만원" + 0.017*"불가"'),
 (6,
  '0.075*"카드" + 0.060*"발급" + 0.033*"기존" + 0.026*"신규" + 0.024*"부산시" + 0.023*"재발급" + 0.022*"신청" + 0.021*"사용" + 0.020*"선불카드" + 0.019*"강제"'),
 (7,
  '0

In [32]:
pyLDAvis.enable_notebook()

vis = pyLDAvis.gensim.prepare(ldamodel, corpus, dictionary)
vis

In [33]:
word_dict = {};

for i in range(topics):

    words = ldamodel.show_topic(i)

    word_dict['Topic # ' + '{:02d}'.format(i+1)] = [i[0] for i in words]

pd.DataFrame(word_dict)

Unnamed: 0,Topic # 01,Topic # 02,Topic # 03,Topic # 04,Topic # 05,Topic # 06,Topic # 07,Topic # 08
0,설치,삼성페이,업데이트,가맹점,번호,충전,카드,불편
1,카드,오류,접속,찾기,인증,금액,발급,다운
2,등록,연결,실행,캐시백,계속,환불,기존,하루
3,입력,결제,사용,불편,짜증,적립,신규,종일
4,기존,계좌,불편,사용,업뎃,결제,부산시,대기
5,확인,등록,데이터,금액,네트워크,에러,재발급,인터페이스
6,다시,포인트,이전,이전,자꾸,사용,신청,사용
7,인증,네트워크,알림,기능,오류,캐시백,사용,엉망
8,몇번,캐시,최악,사용자,자체,만원,선불카드,카드
9,잔액,불편,확인,편의,버전,불가,강제,먹통


참고: 아마존 고객리뷰 토픽모델링 https://blog.naver.com/upennsolution/221437143732

토픽 네이밍 그룹화
1. 연결,접속,네트워크
2. 업데이트
2. 카드 발급 및 등록
3. 사용 불편
3. 충전 및 금액 내역
4. 기존 및 이관
5. 결제
6. 설치

#### 토픽별 문서

In [35]:
def make_topictable_per_doc(ldamodel, corpus):
    topic_table = pd.DataFrame()

    # 몇 번째 문서인지를 의미하는 문서 번호와 해당 문서의 토픽 비중을 한 줄씩 꺼내온다.
    for i, topic_list in enumerate(ldamodel[corpus]):
        doc = topic_list[0] if ldamodel.per_word_topics else topic_list            
        doc = sorted(doc, key=lambda x: (x[1]), reverse=True)
        # 각 문서에 대해서 비중이 높은 토픽순으로 토픽을 정렬한다.
        # EX) 정렬 전 0번 문서 : (2번 토픽, 48.5%), (8번 토픽, 25%), (10번 토픽, 5%), (12번 토픽, 21.5%), 
        # Ex) 정렬 후 0번 문서 : (2번 토픽, 48.5%), (8번 토픽, 25%), (12번 토픽, 21.5%), (10번 토픽, 5%)
        # 48 > 25 > 21 > 5 순으로 정렬이 된 것.

        # 모든 문서에 대해서 각각 아래를 수행
        for j, (topic_num, prop_topic) in enumerate(doc): #  몇 번 토픽인지와 비중을 나눠서 저장한다.
            if j == 0:  # 정렬을 한 상태이므로 가장 앞에 있는 것이 가장 비중이 높은 토픽
                topic_table = topic_table.append(pd.Series([int(topic_num), round(prop_topic,4), topic_list]), ignore_index=True)
                # 가장 비중이 높은 토픽과, 가장 비중이 높은 토픽의 비중과, 전체 토픽의 비중을 저장한다.
            else:
                break
    return(topic_table)

참고한 코드 출처 https://wikidocs.net/30708

사용한 코드는 아니나 혹시나 싶어 https://www.machinelearningplus.com/nlp/topic-modeling-gensim-python/#15visualizethetopicskeywords

In [36]:
topictable = make_topictable_per_doc(ldamodel, corpus)
topictable = topictable.reset_index() # 리뷰번호를 의미하는 열로 사용하기 위해서 인덱스 열을 하나 더 만들어줌
topictable.columns = ['리뷰 번호', '가장 비중이 높은 토픽', '가장 높은 토픽의 비중', '각 토픽의 비중']
topictable[:10]

Unnamed: 0,리뷰 번호,가장 비중이 높은 토픽,가장 높은 토픽의 비중,각 토픽의 비중
0,0,6.0,0.5956,"[(0, 0.07083974), (1, 0.052243352), (2, 0.0762..."
1,1,0.0,0.8012,"[(0, 0.80121326), (1, 0.026245983), (2, 0.0386..."
2,2,2.0,0.7492,"[(0, 0.028299924), (1, 0.020766228), (2, 0.749..."
3,3,2.0,0.7301,"[(0, 0.049246177), (1, 0.03617392), (2, 0.7300..."
4,4,5.0,0.4179,"[(0, 0.05894041), (1, 0.043436598), (2, 0.0636..."
5,5,2.0,0.1637,"[(0, 0.1520835), (1, 0.112159565), (2, 0.16365..."
6,6,1.0,0.661,"[(0, 0.05807857), (1, 0.661047), (2, 0.0625837..."
7,7,0.0,0.8269,"[(0, 0.8268528), (1, 0.022890046), (2, 0.03353..."
8,8,1.0,0.761,"[(0, 0.0409836), (1, 0.76095873), (2, 0.044109..."
9,9,2.0,0.777,"[(0, 0.04073872), (1, 0.029870195), (2, 0.7770..."


##### 토픽 1

'0.037*"설치" + 0.030*"카드" + 0.021*"등록" + 0.018*"입력" + 0.018*"기존" + 0.017*"확인" + 0.017*"다시" + 0.016*"인증" + 0.014*"몇번" + 0.014*"잔액"

In [37]:
topic_1 = topictable[topictable['가장 비중이 높은 토픽'] == 0.0]

print('토픽 1에 해당하는 리뷰의 개수:', topic_1.shape[0], '개')

토픽 1에 해당하는 리뷰의 개수: 213 개


In [38]:
# 토픽 1에 해당하는 리뷰들만 모아서 하나의 df 만들기

topic_1_list = topic_1['리뷰 번호'].unique()
df_topic_1 = df_negative.loc[topic_1_list, :]

df_topic_1.head(5)

Unnamed: 0,DATE,STAR,REVIEW,LIKE
1,2020-04-10,1,아니 와이파이 네 칸 풀로뜨고 유튜브 등등 빠르게 잘되는데 왜 이 앱만들어거면 네트...,0
7,2021-04-30,1,"쓰기 불편해졌어요.. 개선해주세요 1. 어플 키면 바로 잔액이랑 포인트, 합계 금액...",0
20,2021-04-05,1,"계좌등록이 하나 밖에 안되네요.ㅠ 계좌변경할 때마다 인증 받아야 되고, 기존처럼 한...",9
58,2020-05-02,1,정책이 거지같냐,0
59,2020-03-31,1,결제가 먹통입니다 어플 접속도 안 되구요 다름 카드를 들고있었기에 망정이지 동백전만...,0


In [39]:
# 리뷰 전부 모아보기 --> 복사해서 R로 들고가서 감성분석 진행

df_topic_1['REVIEW'].unique()

array(['아니 와이파이 네 칸 풀로뜨고 유튜브 등등 빠르게 잘되는데 왜 이 앱만들어거면 네트워크 연결이 안된다고 뜰까요..가입한 이후로 한번도 켜지지않아 카드 신청도 못하고 있습니다. 연결문제 좀 해결해주세요.',
       '쓰기 불편해졌어요.. 개선해주세요 1. 어플 키면 바로 잔액이랑 포인트, 합계 금액 나왔는데, 이건 굳이 내지갑 한번 누르고 비번도 누르고 해야 잔액 확인… face id 사용하면 마스크 쓰고 있어서 더 불편..\n어플 키면 내 지갑 누르지 않아도 확인할 수 있도록 해주세요\n\n2. 동백전 가맹점 확인.. 어디서 하나요? 할 수는 있는건가요 ? 개선해주세요',
       '계좌등록이 하나 밖에 안되네요.ㅠ 계좌변경할 때마다 인증 받아야 되고, 기존처럼 한번 등록하면 언제든지 바꿀수 있게 해 주세요. 처음 쓰기도 전에 너무 불편하네요. ㅠ',
       '정책이 거지같냐',
       '결제가 먹통입니다 어플 접속도 안 되구요 다름 카드를 들고있었기에 망정이지 동백전만 가지고 있었으면 문제가 생길 뻔 했습니다 알아보니 결제 장애가 생긴게 이번이 처음이 아니더군요',
       '사용자 편의성 면에서 직관성이 이전 앱보다 떨어지네요 실행 후 메인화면이 너무 산만한 느낌이에요 좀더 간결하게 하면 좋을텐데 디자인이 매우 아쉽네요 그리고 선불카드 등록을 새로 무조건해야 기술적으로 개인정보 연동이 가능하다는 점도 정보가 디지털 데이터라는 점에서 단순이관이 분명 가능할텐데 이해하기가 어렵네요 왜 불필요한 발급을 하게 하는지 그리고 앱사용에 부정적인 반응을 만드는 시스템을 개발했는지 납득하기 어렵네요 전체적으로 사용자 편의성에서 불합격의 앱이라 생각합니다',
       '기존 어플보다 10배는 쓰레기. 1. 터치해도 바코드나 qr코드가 나오는게 아님. 2. 결제 후 결제금액은 나오지만 캐쉬백 이력은 나오지 않음. 운영 기관이 이전된 건 어쩔 수 없지만 어플도 그냥 이관하지... 개발자가 손이 아닌 개발로 제작한 것 밖에 안되는데?',

##### 토픽 2

'0.067*"삼성페이" + 0.032*"오류" + 0.029*"연결" + 0.028*"결제" + 0.025*"계좌" + 0.021*"등록" + 0.021*"포인트" + 0.021*"네트워크" + 0.020*"캐시" + 0.020*"불편

In [40]:
topic_2 = topictable[topictable['가장 비중이 높은 토픽'] == 1.0]

print('토픽 2에 해당하는 리뷰의 개수:', topic_2.shape[0], '개')

토픽 2에 해당하는 리뷰의 개수: 123 개


In [41]:
# 토픽 2에 해당하는 리뷰들만 모아서 하나의 df 만들기

topic_2_list = topic_2['리뷰 번호'].unique()
df_topic_2 = df_negative.loc[topic_2_list, :]

df_topic_2.head(5)

Unnamed: 0,DATE,STAR,REVIEW,LIKE
6,2020-04-10,1,이거 진짜 뭔 앱이 연결도 안되고 오류나고 *레기인지..,0
8,2021-04-09,1,사용내역에 현금잔액이랑 남은포인트도 같이 정산되어 보이게 해주십쇼 뭐가 이렇게 보기...,0
17,2021-04-05,1,아니 잔액이관도 안되고 상담사 연결도 안되고 어쩌라는 겁니까?,2
28,2020-04-13,1,결제됐다 취소되고 지맘대로 카드긁은데서 재결제하러 오라해서 다시 갔다왔음,0
40,2021-04-22,1,완전 최악임 .요새 누가 카드실물들고 다니면서 결제합니까. 체크카드 당장 만들어서 ...,1


In [42]:
# 리뷰 전부 모아보기 --> 복사해서 R로 들고가서 감성분석 진행

df_topic_2['REVIEW'].unique()

array(['이거 진짜 뭔 앱이 연결도 안되고 오류나고 *레기인지..',
       '사용내역에 현금잔액이랑 남은포인트도 같이 정산되어 보이게 해주십쇼 뭐가 이렇게 보기 힘들게 해놓으셨는지... 부모님도 사용이 어려워 못쓰겠답니다',
       '아니 잔액이관도 안되고 상담사 연결도 안되고 어쩌라는 겁니까?',
       '결제됐다 취소되고 지맘대로 카드긁은데서 재결제하러 오라해서 다시 갔다왔음',
       '완전 최악임 .요새 누가 카드실물들고 다니면서 결제합니까. 체크카드 당장 만들어서 페이 기능 쓸수있게 해주세요',
       '지금 해외에 있는데 앱설치하면 계속해서 연결오류가 뜹니다. 해외에 있어서 고객센터 연락하기도 어렵습니다. 연결오류 조치 바랍니다.',
       '초기 동백전 앱 보기 참 편리했는데, 코나로 바뀐 후 너무 보기 불편함. 일부러 그런 건지 역량이 부족한 건지 별 하나도 아까움.',
       '평점이 왜 2점대일까 했는데 오류 진짜 많이나고 쓰레기 같아요 충전 해야되는데 어차피 오늘 안에 안고쳐질거고 하루 기다려야겠죠? 진짜 별로',
       '삼성페이는 언제 되나요', '삼성페이 등록 안됨 캐시 사용 시간제한 있음 캐시 다 쓰고 사용의사 없음 완전 불편함',
       '선불카드도 차이코퍼레이션처럼 기명으로해서 삼성페이 등 간편결제 가능하도록 해주세요. 기존 kt의 체크카드식 동백전에서 되던 것들이 코나카드 선불 동백전에서도 가능하도록...',
       'ㅠ 어플이진짜 직관적이지가 않음 지역카드인만큼 나이드신분들이 많이 사용할텐데 헷갈리게 만들어둠 최근사용한 어플중에  최악…',
       '앱이 오류가 자주 뜨고 메뉴얼이 불편하게 되어 있어요.',
       '앱들어가서 계좌연결하려는데 전화연결조차안되는? 은행직원도황당해합니다 콜센터서는 해줄수있는게없다하고 앱을몇번 깔고지우고한지아십니까? 전화가걸려와야 연결하죠 진짜 몆십번을한건지',
       '예전 어플로 다시 돌려주세요..뭐가 더 햇갈리고 보기

##### 토픽 3

0.074*"업데이트" + 0.062*"접속" + 0.041*"실행" + 0.040*"사용" + 0.023*"불편" + 0.021*"데이터" + 0.020*"이전" + 0.019*"알림" + 0.018*"최악" + 0.017*"확인"

In [43]:
topic_3 = topictable[topictable['가장 비중이 높은 토픽'] == 2.0]

print('토픽 3에 해당하는 리뷰의 개수:', topic_3.shape[0], '개')

토픽 3에 해당하는 리뷰의 개수: 338 개


In [44]:
# 토픽 3에 해당하는 리뷰들만 모아서 하나의 df 만들기

topic_3_list = topic_3['리뷰 번호'].unique()
df_topic_3 = df_negative.loc[topic_3_list, :]

df_topic_3.head(5)

Unnamed: 0,DATE,STAR,REVIEW,LIKE
2,2021-07-13,1,문제가 너무 많네요 몇개월이 지났는데 사용내역 알림이 왜 아직까지 안오는지 그게 뭐...,0
3,2020-09-08,1,업데이트를 해야 사용 가능하다는데 업데이트가 안됩니다 무슨 문제일까요?,0
5,2020-12-18,1,이렇게 대책없이 할바에 하지 말았어야지,0
9,2020-05-02,2,"앱실행 마다 전화번호가 맞질 않다고 뜨며 실행이 안되서, 가입을 계속 다시 하면서 ...",0
11,2020-03-04,2,앱에 접속안되는 날이 왜이리많아요? 접속할때마다 30~40%는 접속불가;;,0


In [45]:
# 리뷰 전부 모아보기 --> 복사해서 R로 들고가서 감성분석 진행

df_topic_3['REVIEW'].unique()

array(['문제가 너무 많네요 몇개월이 지났는데 사용내역 알림이 왜 아직까지 안오는지 그게 뭐라고 아직 개선이 안되는지 이해가 안갑니다. \n게다가 이전 동백전앱은 가맹점 정보 조회가 쉽고 정확했는데 바뀐 동백전은 가맹점이 늘어난 것은 좋은데 조회하면 안나오네요?\n예를 들어 맥도날드 부산시청점은 이전 동백전으로는 결제가 안됐는데 어제 남편이 결제하는 걸 보니 올해는 동백전 결제가 가능하더라구요. 남편말로는 전에 안되던 곳들도 결제 가능하게 된 가맹점이 많다고 하길래 확인해보려고 검색하니 맥도날드 부산시청점은 결제가능함에도 불구하고 안나옵니다.\n\n또한 이전 동백전 앱은 가맹점 검색이 어플내에서 가능했는데 현 동백전앱은 인터넷창에 열리고 검색하는 것도 전에 비해 불편하네요\n\n가능하기만 이전 앱을 사용하고 싶을 정도입니다.\n\n사용내역 알림이라도 좀 빨리 고쳐주세요.\n이게 몇달째 이러는지 정말 이해안되네요',
       '업데이트를 해야 사용 가능하다는데 업데이트가 안됩니다 무슨 문제일까요?', '이렇게 대책없이 할바에 하지 말았어야지',
       '앱실행 마다 전화번호가 맞질 않다고 뜨며 실행이 안되서, 가입을 계속 다시 하면서 잔액확인, 충전을 하고 있어요 매번 이러니 넘 불편합니다',
       '앱에 접속안되는 날이 왜이리많아요? 접속할때마다 30~40%는 접속불가;;',
       '주유소에서 사용이 안됩니다. 카드를 긁어서 결재하는 방식은 하지못합니다 . 긁을수 있도록 바꿔주시요.',
       '업데이트가 안됩니다...', '들어가지지도 않구만ㅡㅡ 전화도 안받고... 장난합니까',
       '업데이트도 잘 안되고.. 잔액 확인하려면 어플 접속해야 되고 너무 불편해요',
       '어플실행시 정상적인OS가 아니라서 이용할수가 없다고 메세지가 나옵니다. 엘지V40이며 안드로이드10버전입니다. 확인좀 부탁드립니다',
       '업데이트가 너무 안되네요', '최악의 어플. 예전 동백전이 훨나음',
       '한번씩 접속

##### 토픽 4

'0.051*"가맹점" + 0.035*"찾기" + 0.031*"캐시백" + 0.027*"불편" + 0.024*"사용" + 0.020*"금액" + 0.019*"이전" + 0.019*"기능" + 0.016*"사용자" + 0.015*"편의"

In [46]:
topic_4 = topictable[topictable['가장 비중이 높은 토픽'] == 3.0]

print('토픽 4에 해당하는 리뷰의 개수:', topic_4.shape[0], '개')

토픽 4에 해당하는 리뷰의 개수: 135 개


In [47]:
# 토픽 4에 해당하는 리뷰들만 모아서 하나의 df 만들기

topic_4_list = topic_4['리뷰 번호'].unique()
df_topic_4 = df_negative.loc[topic_4_list, :]

df_topic_4.head(5)

Unnamed: 0,DATE,STAR,REVIEW,LIKE
18,2021-04-04,1,? 잘 있던 동백전 놔두고 kt껄로 옮겨서 원래는 없던 수수료를 받는다? 그냥 돈 ...,0
24,2021-04-12,1,그 전 어플보다 너무 불편하고 못 만들었어요 정작 사용자가 제일 많이 쓰는 버튼과 ...,3
25,2021-05-05,1,동백전 앱 개선 요청 적립금액이랑 현재금액 보기 너무 어려워요 헷갈리기도 하고 앞에...,0
27,2021-04-09,1,전에 어플이 더 사용하기 쉽고 편한거같아요. 지금 어플은 뭐가 뭔지도모르겠고 사용 ...,1
42,2020-04-08,1,로그인 잘 안되고 가맹점 찾기도 힘들고 별 하나 주기도 아깝네요. 그리고 충전식 카...,56


In [48]:
# 리뷰 전부 모아보기 --> 복사해서 R로 들고가서 감성분석 진행

df_topic_4['REVIEW'].unique()

array(['? 잘 있던 동백전 놔두고 kt껄로 옮겨서 원래는 없던 수수료를 받는다? 그냥 돈 벌겠다는 말 같은데 다른 더 큰 혜택 없으면 솔직히 이거 쓸 필요 없음. 캐시백보다 수수료가 더 많이 나갈듯',
       '그 전 어플보다 너무 불편하고 못 만들었어요 정작 사용자가 제일 많이 쓰는 버튼과 기능들은 매우 조그마해서 너무 불편해요 누구를 위한 어플인가요?? 그 전 어플은 안 보셨어요?? 완전 별로입니다',
       '동백전 앱 개선 요청 적립금액이랑 현재금액 보기 너무 어려워요 헷갈리기도 하고 앞에 썼던 앱처럼 캐시백 잔액 충전한 금액 캐시금핵사용하기 한눈에 보기 쉽게 개발해주세요 너무 번거로워요\n내쿠폰,총받은 혜택 이런건 세부적으로 들어갔을때 볼수있게 해주세요 별로 잘 사용하지도 않는게 앞에있으 헷갈리고 별로에요',
       '전에 어플이 더 사용하기 쉽고 편한거같아요. 지금 어플은 뭐가 뭔지도모르겠고 사용 방법도 모르겠어요. 사용방법 쫌 알려주시면 좋을거같아요.',
       '로그인 잘 안되고 가맹점 찾기도 힘들고 별 하나 주기도 아깝네요. 그리고 충전식 카드라고 말했으면 발급을 고민하고 냈을텐데 안내장에도 그런말이 없었네요. 사용해보고 가족들에게 추천해주려고 했는데 추천 안하고 싶네요.',
       '전반적으로 저번 업체에 비해 불편함. 특히 캐시백 사용하기가 제일 불편함. 이 어플 사용이유가 잔액확인, 사용내역 보기위한건데 저번 어플에 비해 굉장히 불편함 그리고 대부분이 카드있을텐데도 억지로 선불카드 발급받게한것, 또 선불카드 홍보까지 하는게 너무 짜증남. 왜 이런 업체가 위탁을 받은건지 모르겠음 별점을 최하점이 1개라 1개...',
       '흠.. 글쎄요.. \n저는 이전 앱과 비교해서 불편한 점이 몇가지 보입니다. 우선 가독성이 떨어져요. 보유잔액과 캐시가 메인 화면에서 한번에 확인이 불가능합니다. 포맷은 전에 것이 더 좋았던 것 같아요. 개선되기를 기대합니다.',
       '어플 거지같아요 이용내역에 따른 캐시

##### 토픽 5

0.051*"번호" + 0.045*"인증" + 0.042*"계속" + 0.039*"짜증" + 0.033*"업뎃" + 0.028*"네트워크" + 0.025*"자꾸" + 0.025*"오류" + 0.018*"자체" + 0.016*"버전"

In [49]:
topic_5 = topictable[topictable['가장 비중이 높은 토픽'] == 4.0]

print('토픽 5에 해당하는 리뷰의 개수:', topic_5.shape[0], '개')

토픽 5에 해당하는 리뷰의 개수: 82 개


In [50]:
# 토픽 5에 해당하는 리뷰들만 모아서 하나의 df 만들기

topic_5_list = topic_5['리뷰 번호'].unique()
df_topic_5 = df_negative.loc[topic_5_list, :]

df_topic_5.head(5)

Unnamed: 0,DATE,STAR,REVIEW,LIKE
15,2020-01-07,1,오류거지같음 쓸때마다 앱자체 오류도 많이 나고 이용자수 많다면서 결제도 안되고 툭하...,0
35,2020-04-10,1,이거 인증번호가 밀려서 날라오죠? 3분안에 오지도 않아서 가입조차 진행할 수 없습니다.,0
66,2021-01-14,2,멍청한어플이 계속 네트워크접속안댄다하노,1
98,2020-04-13,1,앱 자체가 열리지 않음,0
100,2020-04-13,1,초기화면에서 계속 멈춰있다가 네트워크 오류로 꺼집니다,0


In [51]:
# 리뷰 전부 모아보기 --> 복사해서 R로 들고가서 감성분석 진행

df_topic_5['REVIEW'].unique()

array(['오류거지같음 쓸때마다 앱자체 오류도 많이 나고 이용자수 많다면서 결제도 안되고 툭하면 점검들어간다하고 동백전에 돈 충전해서 체크카드에서 출금이 됬는데 동백전에는 충전금액 뜨지도 않네요-_- 내 돈은 어디로 간거임 ㅈㄴ 별1개도 아까움',
       '이거 인증번호가 밀려서 날라오죠? 3분안에 오지도 않아서 가입조차 진행할 수 없습니다.',
       '멍청한어플이 계속 네트워크접속안댄다하노', '앱 자체가 열리지 않음',
       '초기화면에서 계속 멈춰있다가 네트워크 오류로 꺼집니다',
       '카드를 만드려다가 민증 발급일자 오류를 5번 초과해서 만들 수가 없습니다. 운전면허증도 없어요. 이럴 경우 어떻게 해야합니까?',
       '인증번호가안오네요;; 아니무슨 내폰skt고 다맞게했는데 인증번호 전송햇다카믄서 안오는건 뭐지',
       '핸드폰변경하면서 통신사를 옮겼는데 새로 번호등록하라고 초기화 버튼이 떠도 눌려지지가않아요. 인증만10번째인데 아직도 계속 그상태 그대로입니다. 로그인할때마다 인증해야하면서까지 써야하나싶네요',
       '아인증번호 입력하려 나갔다오면 자꾸 앱강종돼서 처음으로돌아가요; 인증을 할수가없잖아요 별1도아깝다',
       '본인인증에 재발송 안하고 다음을 클릭했는데.. 왜 계속 인증번호가 날아오고...본인 인증이 안됩니까?',
       '삼성페이안됨 카드재발급 사실인감? 뭔 충전 취소도 3일 걸린다고하고 초기라 이해할려지만 배려가 없네 없어 다운그레이드된 느낌 4월 5일부터 사용가능이라는데 카드발급이 당일날 되나? 나참',
       '카드팔이 중소기업 직관성은 개줘버렸냐? 조잡하기 그지없는 앱',
       '동백전 가입할라는데 인증번호가 안와요 3번 시간초과됫는데도 안와요 왜안오는거죠',
       '회원가입시 인증번호가 안옵니다. 이틀째 가입중인데 인증번호가 계속 수신이 안되는데 뭐가 문제일까요?',
       '본인인증 단계에서 휴대폰 인증번호 발송이 안되고, 카드번호로 인

##### 토픽 6

'0.050*"충전" + 0.040*"금액" + 0.034*"환불" + 0.025*"적립" + 0.025*"결제" + 0.023*"에러" + 0.022*"사용" + 0.022*"캐시백" + 0.020*"만원" + 0.017*"불가"

In [52]:
topic_6 = topictable[topictable['가장 비중이 높은 토픽'] == 5.0]

print('토픽 6에 해당하는 리뷰의 개수:', topic_6.shape[0], '개')

토픽 6에 해당하는 리뷰의 개수: 144 개


In [53]:
# 토픽 6에 해당하는 리뷰들만 모아서 하나의 df 만들기

topic_6_list = topic_6['리뷰 번호'].unique()
df_topic_6 = df_negative.loc[topic_6_list, :]

df_topic_6.head(5)

Unnamed: 0,DATE,STAR,REVIEW,LIKE
4,2020-02-19,1,연3일째 계속 앱도운로드중 아직도 다운중이네요,0
13,2020-09-07,1,잔액 부족하면 연결 계좌에서 바로 빼가지 말고 알람 줬으면 좋겠어요. 충전해서 쓰면...,4
34,2020-04-06,1,고객센터는 일하는사람있나요? 전화도안받고 1:1문의글 읽지도 않음,0
37,2021-04-05,1,장난치나?앱을 이따구로 만들고 고객센터 아무리 전화해도 안받네? 하아,7
41,2021-04-25,1,환불 규정 바뀌고 실시간 환불도 없어지고 진짜 전에있던앱이 훨씬 나음,2


In [54]:
# 리뷰 전부 모아보기 --> 복사해서 R로 들고가서 감성분석 진행

df_topic_6['REVIEW'].unique()

array(['연3일째 계속 앱도운로드중 아직도 다운중이네요',
       '잔액 부족하면 연결 계좌에서 바로 빼가지 말고 알람 줬으면 좋겠어요. 충전해서 쓰면 6% 적립인데 자동 결제되버리면 적립기회놓쳐요. 그리고 잔액+적립금 동시에 쓸수 있게 해주세요!',
       '고객센터는 일하는사람있나요? 전화도안받고 1:1문의글 읽지도 않음',
       '장난치나?앱을 이따구로 만들고 고객센터 아무리 전화해도 안받네? 하아',
       '환불 규정 바뀌고 실시간 환불도 없어지고 진짜 전에있던앱이 훨씬 나음',
       '앱이 오류로 열리지도 않아요 ㅡㅡ 머하자는 건지 충전을 못하고 있어요 화가 나요 ㅡㅡ 돈충전을 못해서 사용을 못하고 있습니다 갤럭시s10입니다',
       '후발주자면 훨씬더 앱사용이 편해져야하는데 쓸데없는 설명만 많고 복잡합니다 제일 궁금한 캐쉬백 충전내역은 몇번을 클릭해야 알수있고 이번달 10% 캐쉬백 받을수 있는 잔액을 한눈에 알수있었던 기존의 앱과는 달리 기본충전 금액이 50만원이라 혜택가능금액을 알수가 없네요 어른들이 다들 전에꺼보다 힘들다고 하십니다',
       '충전하기', '이전엔 접속 되었는덕 오늘새벽에 뭐 서버넓힌다고 충전안되더니 지금은 어플이 켜지지않아요...',
       '아이폰 배지 표시 아이폰 배지 표시 가능하게 해주세요.',
       'UI쫌 개선 합시다. 캐시백 때문에 쓰는 사람이 대부분일텐데.. 캐시백이 얼만지 어떻게 사용하는지 어디 숨겨놨나요? 한참 찾아도 안보여서 여기 리뷰답니다. 일부러 숨긴거 아니면 UI를 이전 어플 따라하던가, 쫌 바꿉시다!!!',
       '뭔가 많아졌는데 죄다 불필요한 정보들이에요. 한달에 내가 현금으로 얼마나 썼는지 이전처럼 확인할 수 있게 해 주세요. 캐시백 혜택을 받을 수 있는지는 확인해야죠',
       '접속이 안되네요 빨리 계산해야되는데 앱이 접속이 안되서 주위사람들 눈치밥 먹으면서 다른 카드로 계산 했습니다..;;',
       '정말 기존 

##### 토픽 7

0.075*"카드" + 0.060*"발급" + 0.033*"기존" + 0.026*"신규" + 0.024*"부산시" + 0.023*"재발급" + 0.022*"신청" + 0.021*"사용" + 0.020*"선불카드" + 0.019*"강제"

In [55]:
topic_7 = topictable[topictable['가장 비중이 높은 토픽'] == 6.0]

print('토픽 7에 해당하는 리뷰의 개수:', topic_7.shape[0], '개')

토픽 7에 해당하는 리뷰의 개수: 207 개


In [56]:
# 토픽 7에 해당하는 리뷰들만 모아서 하나의 df 만들기

topic_7_list = topic_7['리뷰 번호'].unique()
df_topic_7 = df_negative.loc[topic_7_list, :]

df_topic_7.head(5)

Unnamed: 0,DATE,STAR,REVIEW,LIKE
0,2020-02-05,1,앱 시작하면 악성코드가 발견되었다면서 창이 뜨는데 이거 해킹당한거 아닌가요? 불안해...,0
12,2021-04-05,1,카드 이관 신청을 하는 데 카드 재발급이 '필수'네요. 새로운 부산 동백전 선불카드...,68
14,2021-04-09,1,"카드 재발급 강제사항은 둘째치고, 앱 자체 가독성이 넘 떨어집니다. 적립금과 충전금...",2
16,2021-04-07,1,기존카드등록안되요 어떻거하나요,0
22,2021-04-05,1,도대체 위치정보가 필수동의인 이유가 뭔가요? 약관내용보니까 굳이 필요없는정보나 마케...,10


In [58]:
# 리뷰 전부 모아보기 --> 복사해서 R로 들고가서 감성분석 진행

df_topic_7['REVIEW'].unique()

array(['앱 시작하면 악성코드가 발견되었다면서 창이 뜨는데 이거 해킹당한거 아닌가요? 불안해서 앱을 못열겠고 이미 내 폰에 악성코드가 심어진거 아닌지 불안합니다',
       "카드 이관 신청을 하는 데 카드 재발급이 '필수'네요. 새로운 부산 동백전 선불카드를 신청할 수 있습니다에서 무조건 신청해야 한다고 워딩을 바꾸셔야겠어요. Ui는 좋다고 생각했는데... 새 선불카드 발급을 유도함을 미리 고지 안한 점, 필수로 발급받아야 이전 앱의 잔액 및 캐시백 정책을 사용할 수 있는 점은 납득하기 어렵네요. 신속히 부산시와 논의하시길 바랍니다.ㅜ",
       '카드 재발급 강제사항은 둘째치고, 앱 자체 가독성이 넘 떨어집니다. 적립금과 충전금 소진이 어떻게 되고 있는지, 보기 넘 헷갈려요....전에 사용하던 앱이 훨씬 사용하기 편하네요',
       '기존카드등록안되요 어떻거하나요',
       '도대체 위치정보가 필수동의인 이유가 뭔가요? 약관내용보니까 굳이 필요없는정보나 마케팅용이드만 그리고 기존에 쓰던 동백전카드를 왜 새로 발급받아야되나요? 추가-혹시 시청에 알아보니 카드발급의무라고 하는데 혹시 카드발급비용 부산시가 내는건가요?',
       '코나 이벤트 참여할려고 선불카드도 발급받고 결제를해도 코나볼을 주지않습니다. 도대체 똑바로 관리하는게 뭡니까',
       '너무 불편하게 바뀌고 기존카드 사용도 못하게 해놨네요',
       '왜 리뷰가 지워진줄 모르겠는데 이관 할려면 왜 카드를 강제로 발급해야하는지 설명 부탁드립니다.',
       '이미 동백전카드를 등록해 사용하고 있는데 이관을 하니 다시 카드를 신청해야 함. 그리고 동백전에 돈이 없으면 결제가 안 되도록 해야지 자동으로 기존 채크카드에서 돈이 나가도록 설정이 되어 있음. 최악',
       '이관하니 무조건 새 선불카드 발급해야하네...기존체크카드 사용된다면서 쓸데없이 선불카드는 왜 신청하게 만드는건지? 신청 당일에는 발급 취소 가능하다더니 발급취소도 안되고... 지들 맘대

##### 토픽 8

'0.087*"불편" + 0.039*"다운" + 0.026*"하루" + 0.022*"종일" + 0.022*"대기" + 0.018*"인터페이스" + 0.016*"사용" + 0.016*"엉망" + 0.015*"카드" + 0.015*"먹통"

In [59]:
topic_8 = topictable[topictable['가장 비중이 높은 토픽'] == 7.0]

print('토픽 8에 해당하는 리뷰의 개수:', topic_8.shape[0], '개')

토픽 8에 해당하는 리뷰의 개수: 107 개


In [60]:
# 토픽 8에 해당하는 리뷰들만 모아서 하나의 df 만들기

topic_8_list = topic_8['리뷰 번호'].unique()
df_topic_8 = df_negative.loc[topic_8_list, :]

df_topic_8.head(5)

Unnamed: 0,DATE,STAR,REVIEW,LIKE
10,2020-04-29,1,휴대폰이 노트10 인대요 업데이트가안되요 이거외이러치요,0
30,2020-03-28,2,본인확인 방법을 추가해 주세요!! 법인사용자의 경우 본인명의의 폰이 아니라며 어플 ...,10
32,2020-11-07,1,대체 업데이트하라면서 하루종일 돌기만 하고 사용 안 되네요.,6
33,2020-03-30,2,가입은 하고 되는가 볼려고 100.000 원 충전 했는데요 카드를 만들수가 없네요~...,0
36,2021-04-11,1,현재잔액 왜안보여요? 이전 앱에서는 잔액이 바로보여서 바로 쓰고했는데 지금은 잔액이...,0


In [61]:
# 리뷰 전부 모아보기 --> 복사해서 R로 들고가서 감성분석 진행

df_topic_8['REVIEW'].unique()

array(['휴대폰이 노트10 인대요 업데이트가안되요 이거외이러치요',
       '본인확인 방법을 추가해 주세요!! 법인사용자의 경우 본인명의의 폰이 아니라며 어플 사용이 불가합니다. 카드를 발급받을 때에는 카드와 인증서 등으로 온라인 발급을 받았는데 어플사용이 안되니 불편합니다. 심을 바꿔서 개인폰번호으로 인증을 받고서 법인심으로 구동하면 역시나 에러가 발생하며 사용이 불가합니다. 듀얼심 휴대폰에서도 그런 현상때문에 사용상 어려움이 있습니다.',
       '대체 업데이트하라면서 하루종일 돌기만 하고 사용 안 되네요.',
       '가입은 하고 되는가 볼려고 100.000 원 충전 했는데요 카드를 만들수가 없네요~?? 뭐이 요렇게 복잡하나요?',
       '현재잔액 왜안보여요? 이전 앱에서는 잔액이 바로보여서 바로 쓰고했는데 지금은 잔액이 얼마남았는지 모르니까 들어가서 지갑인가 또들어가서 보고 써야하니까 너무너무 불편해요.... 제발 이것좀 바로보여지게 해주세요',
       '어플 다운 불가...',
       '삼페도 안되는 무쓸모 실물카드 강제 발급은 누구 머리에서 나온 거람? 앱도 너저분한게 정신없음 동백전 탈출각 날카롭다. 추가 ㅡ 환불도 복잡하게 해놨네 ㅋㅋㅋㅋ 미치겠다 돈 써야되는데 쓰지도 못하고 빼지도 못하고 돌겠다',
       '앱이 엉망진창 매우불편합니다', '옛날 카드보다 복잡해요',
       '대중교통 이용도 않되게 해놓고 무슨 부산동백전 이라고...한심하네요 어떻게 선정되었는지 꼭 감사해야겠네요',
       '며칠째 업데이트가 되지 않아 사용에 너무 불편합니다. 하루 이틀도 아니고..', '다운이 진행이 안됨..',
       '진짜 드럽게 불편하게만들엇네', '불편하네요.게시밳ᆢ용하기도~ 엄데이트도안도고',
       '최악임 깔고나서 본인인증문자아안옴',
       '업데이트가 하루종일 안되네요 혹시나해서 폰을 껐다 다시 켜고 안되고 덕분에 동백전 써야할때 충전도 못해서 못썼네요 제발 개선해주세요!

#### 토픽별 감성분석 

- KnuSentiLex 감성사전 이용 https://github.com/park1200656/KnuSentiLex/blob/master/KnuSentiLex/SentiWord_Dict.txt
- -2, -1, 0, 1, 2 감성값에 해당하는 단어들이 있는지 보고, 각 토픽별 총 감성점수를 내는 방식
- __R에서 진행__ https://rpubs.com/shinhaenglee/767595 코드 참고

#### 워드 클라우드

- 앞서 전처리 과정에서 형태소 분석기로 명사 추출 후 불용어 제거한 단어들로 word cloud 시각화 
- 서버에서는 한글이 보이지 않는 현상 -> 주피터 노트북에서 진행하기 위해 명사들을 df 형태로 바꾼 뒤 csv 파일로 저장해서 옮기기

In [62]:
nouns[:5]

[['시작', '악성코드', '발견', '해킹', '당한', '불안', '악성코드', '불안'],
 ['와이파이', '유튜브', '네트워크', '연결', '이후', '한번', '카드', '신청', '연결', '문제', '해결'],
 ['문제',
  '몇개',
  '사용',
  '알림',
  '아직까지',
  '아직',
  '개선',
  '이해',
  '이전',
  '가맹점',
  '정보',
  '조회',
  '정확',
  '가맹점',
  '맥도날드',
  '부산시',
  '청점',
  '이전',
  '결제',
  '어제',
  '남편',
  '올해',
  '결제',
  '가능',
  '남편',
  '말로',
  '결제',
  '가능',
  '가맹점',
  '확인',
  '검색',
  '맥도날드',
  '부산시',
  '청점',
  '결제',
  '가능',
  '불구',
  '이전',
  '가맹점',
  '검색',
  '가능',
  '인터넷',
  '검색',
  '불편',
  '가능',
  '기만',
  '이전',
  '사용',
  '도입',
  '사용',
  '알림',
  '이해'],
 ['업데이트', '사용', '가능', '업데이트', '문제'],
 ['계속', '로드', '아직', '다운중']]

In [63]:
# 중첩리스트 제거

noun_list = []
for i in range(len(nouns)):
    for j in range(len(nouns[i])):
        noun_list.append(nouns[i][j])

In [64]:
x = pd.DataFrame(noun_list)

x

Unnamed: 0,0
0,시작
1,악성코드
2,발견
3,해킹
4,당한
...,...
12564,불어
12565,오륙도
12566,은기
12567,추가
