In [None]:
from google.colab import drive
drive.mount('/gdrive')

Drive already mounted at /gdrive; to attempt to forcibly remount, call drive.mount("/gdrive", force_remount=True).


In [None]:
import os
import pandas as pd
import warnings
warnings.filterwarnings("ignore")

os.chdir('/gdrive/MyDrive/민원분석/')
dir = os.getcwd()
path = dir + '/Data/minwon_data_ver2.pkl'

In [None]:
!pip install bertopic



In [None]:
import pickle as pkl
with open(dir + '/Data/내용토큰.pkl', 'rb') as f:
    tokens = pkl.load(f)

In [None]:
from bertopic import BERTopic

In [None]:
stopwords = ['안녕하세요', '우선', '아니고', '어떻게', '요청', '요망', '가요', '있나요', '어떠'
             '문의', '여부', '가능', '관련', '질의', '방법', '건의', '요청', '필요', '질문',
             '예정', '하여', '어느', '부탁', '궁금', '있는지', '무엇', '대하여', '알고', '궁금',
             '바랍니다', '확인', '어디', '어디서', '충청북도', '충주시', '대구', '중구', '이해',
             '요건', '거쳐야', '것들', '경우']

tokens = pd.Series(tokens).map(lambda x:[w for w in x if (not w in stopwords)]).to_list()

In [None]:
tokens = pd.Series(tokens).apply(lambda x: ' '.join(x))

In [None]:
topic_model = BERTopic(language='Korean', verbose=True, n_gram_range=(2, 3))
topics, probs = topic_model.fit_transform(tokens.to_list())

Batches:   0%|          | 0/1479 [00:00<?, ?it/s]

2021-11-15 06:34:43,837 - BERTopic - Transformed documents to Embeddings
2021-11-15 06:35:46,821 - BERTopic - Reduced dimensionality with UMAP
2021-11-15 06:35:51,388 - BERTopic - Clustered UMAP embeddings with HDBSCAN


In [None]:
freq = topic_model.get_topic_info(); freq.head(6)

Unnamed: 0,Topic,Count,Name
0,-1,22024,-1_관리 대행 계약_계약 대행 기간_대행 계약 대행_관리 대행 최초계약
1,0,590,0_학교 폐교_초등학교 분교장 학적_초등학교 입학_중학교 배정
2,1,520,1_요금제 변경_인터넷 전화_인터넷 사용_인터넷 요금
3,2,422,2_해양시설 신고_신고 구비서류 해양시설_해양시설 신고 구비서류_국립해양조사원 제공
4,3,363,3_이유 대구광역시_일부개정 이유 대구광역시_허가 건축물 거주_헤어리베치 라이
5,4,322,4_개별공시지가 의견제출_의견제출 개별공시지가 의견제출_산청 관리 어항_단속 생각 신청


In [None]:
topic_model.get_topic(0)  # Select the most frequent topic

[('학교 폐교', 0.01354663544780032),
 ('초등학교 분교장 학적', 0.003982116790052581),
 ('초등학교 입학', 0.003680042615947306),
 ('중학교 배정', 0.0031417148232795486),
 ('관내 초등학교', 0.0029317332090977926),
 ('초중등학교 정보공시', 0.0027429274246756332),
 ('초중등학교 정보공시 입력', 0.0027429274246756332),
 ('학교 생활기록부', 0.002514260118044015),
 ('중학교 입학 배정', 0.002353570905040508),
 ('학교 전학', 0.0023249444355895963)]

## 빈도수 상위 10개 토픽

In [None]:
topic_model.visualize_barchart(top_n_topics=10)#.write_html(dir + 'test.html')


토픽 0 : 분교장 폐교, 학교 입학 관련  
토픽 1: 인터넷 요금제 관련  
토픽 2: 해양시설 신고 관련  
토픽 3: 대구광역시 도시계획 일부개정, 호밀 종자(헤어리베치, 라이그라스)? 관련  
토픽 4: 개별공시지가 관련  
토픽 5: 학교폭력 관련  
토픽 6: 외국인등록, 해외체류 관련  
토픽 7: 학교시설, 학원설립 관련  
토픽 8: 세금 계산, 납부 관련  
토픽 9: 수산업법 행정처분 관련  

이는 분야별 민원 트리맵으로 시각화한 결과와 유사하다고 볼 수 있다.  
국토/교통/농림/해양 분야와 관련해서는 해양시설 신고와 수산업법 행정처분  
교육/문화/체육/관광 분야와 관련해서는 분교장 폐교, 입학, 학교폭력, 학교시설  
재정/금융/소비자 분야와 관련해서는 세금 계산, 납부가 유사하게 나타났다.  


## 빈도수 상위 30개 토픽

유사하거나 연관된 토픽별로 그룹을 지어 모여있는 것을 확인할 수 있음.

In [None]:
topic_model.visualize_topics(top_n_topics=30)#.write_html(dir + 'LDA.html')

In [None]:
with open(dir + '/Data/minwon_ver3.pkl', 'rb') as f:
    root = pkl.load(f)
timestamp = root['등록일시'].reset_index(drop=True)

In [None]:
len(timestamp)

47328

In [None]:
len(tokens)

47328

In [None]:
timestamp

0       2021-08-27 15:31:44
1       2021-08-27 13:49:33
2       2021-08-27 16:19:51
3       2021-08-27 16:18:09
4       2021-08-27 16:24:24
                ...        
47323   2021-07-14 16:34:58
47324   2021-07-18 16:06:59
47325   2021-07-18 16:08:03
47326   2021-07-20 10:47:56
47327   2021-07-20 12:45:41
Name: 등록일시, Length: 47328, dtype: datetime64[ns]

In [None]:
timestamp = timestamp.dt.strftime("%Y-%m")

In [None]:
topics_over_time = topic_model.topics_over_time(tokens, topics, timestamp)

22it [10:05, 27.51s/it]


In [None]:
topic_model.visualize_topics_over_time(topics_over_time, top_n_topics=10)#.write_html(dir + 'Topics_overtime.html')

해양시설신고, 수산업법 관련 민원은 7월에 피크  
학교폭력, 학교시설 및 학교배정, 학원설립 관련 민원은 6월에 피크  
세금납부 관련 민원은 6월에 피크  
국외여행, 외국인 관련 민원은 7월에 피크(4월부터 국외여행 관련 민원 증가추세) - 7월 백신접종완료자 해외여행 이슈  
  
상위 10개 토픽에 해당하지만 약간이나마 인사이트를 얻을 수 있었음.  
위 내용처럼 특정 이슈는 특정 월에 피크가 있으므로 위 내용을 향후 민원 예보에 추가할 수 있다고 생각됨.  
그러나 민원 데이터의 분포가 2021년에 치우쳐져있어 약 3년에서 5년간 비슷한 분포의 데이터를 확보한 뒤에 위 분석을 수행한 결과를 확인해야 할 것..  

In [None]:
topic_model.save(dir + '/Data/BERTopic')