경기도 중복 민원 판별 및 부서 분류 모델

프로젝트 설명

경기도 민원들 중 중복 민원 여부를 판별하고, 개별 민원의 관련 부서를 추천하는 모델을 만들었습니다.
'국민신문고'의 17,000개의 경기도 민원을 크롤링한 후, 자연어를 전처리, 형태소 분석 후 부서의 대표 키워드들과 비교해 코사인 유사도가 높은 부서를 추출했습니다.

분류 과정

[민원데이터] -- 중복 == 1 --> 형태소 분석(단어 출현 빈도수) --> 출현빈도수 n개 이상 추출 --> 향후 담당 부서 카테고리 뽑아내기 -- 중복 == 0 --> 카테고리 (이 경우에는 담당자가 직접 담당부서 이관) --> 민원text 형태소분석과 <부서>유사도 비교 --> 부서 할당

chap01

단계1. 민원data_crawling ( by bs4)
단계2. text_preprocessing (okt)
2-1. tokenize
2-2. remove stop words(불용어처리)
2-3. vectorizing(x1 : titles(embedded), x2:content(embedding),

chap02

단계0

중복(1 or 0) --> 분류 모델링 : 앙상블모델 이용( SVM, Naive baise.. 활용)

단계1. 중복==1

형태소 분석 : 단어 출현 빈도수
단어 출현 : n개 이상 선정

단계2. 이관부서 카테고리 분류 (수작업)

n개 이상 출현단어 기준
ex) <부서><단어>
{ '시청' : ['쓰레기', '부지 선정', ... ]} ; dict형

단계3. 민원 text <---> 부서 유사도

민원text 형태소 분석 vs <부서> 유사도
top2 <부서> 선정
유사도 0.03미만 : <부서> 없음 or '기타'

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

경기도 중복 민원 판별 및 부서 분류 모델

프로젝트 설명

분류 과정

chap01

chap02

단계0

단계1. 중복==1

단계2. 이관부서 카테고리 분류 (수작업)

단계3. 민원 text <---> 부서 유사도

Files

README.md

Latest commit

History

README.md

File metadata and controls

경기도 중복 민원 판별 및 부서 분류 모델

프로젝트 설명

분류 과정

chap01

chap02

단계0

단계1. 중복==1

단계2. 이관부서 카테고리 분류 (수작업)

단계3. 민원 text <---> 부서 유사도