Skip to content

Latest commit

 

History

History
35 lines (27 loc) · 1.57 KB

File metadata and controls

35 lines (27 loc) · 1.57 KB

경기도 중복 민원 판별 및 부서 분류 모델

프로젝트 설명

  • 경기도 민원들 중 중복 민원 여부를 판별하고, 개별 민원의 관련 부서를 추천하는 모델을 만들었습니다.
  • '국민신문고'의 17,000개의 경기도 민원을 크롤링한 후, 자연어를 전처리, 형태소 분석 후 부서의 대표 키워드들과 비교해 코사인 유사도가 높은 부서를 추출했습니다.

분류 과정

[민원데이터] -- 중복 == 1 --> 형태소 분석(단어 출현 빈도수) --> 출현빈도수 n개 이상 추출 --> 향후 담당 부서 카테고리 뽑아내기 -- 중복 == 0 --> 카테고리 (이 경우에는 담당자가 직접 담당부서 이관) --> 민원text 형태소분석과 <부서>유사도 비교 --> 부서 할당

chap01

  • 단계1. 민원data_crawling ( by bs4)
  • 단계2. text_preprocessing (okt)
  • 2-1. tokenize
  • 2-2. remove stop words(불용어처리)
  • 2-3. vectorizing(x1 : titles(embedded), x2:content(embedding),

chap02

단계0

  • 중복(1 or 0) --> 분류 모델링 : 앙상블모델 이용( SVM, Naive baise.. 활용)

단계1. 중복==1

  • 형태소 분석 : 단어 출현 빈도수
  • 단어 출현 : n개 이상 선정

단계2. 이관부서 카테고리 분류 (수작업)

  • n개 이상 출현단어 기준
  • ex) <부서><단어>
  • { '시청' : ['쓰레기', '부지 선정', ... ]} ; dict형

단계3. 민원 text <---> 부서 유사도

  • 민원text 형태소 분석 vs <부서> 유사도
  • top2 <부서> 선정
  • 유사도 0.03미만 : <부서> 없음 or '기타'