In [1]:
import numpy as np
import pandas as pd
import itertools

from konlpy.tag import Okt
from konlpy.tag import Mecab
from konlpy.tag import Kkma
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity

import torch
from transformers import PreTrainedTokenizerFast
from transformers import BartForConditionalGeneration

import os
import requests
import json
import re
from tqdm import tqdm
import pickle
import gensim

In [3]:
memo_file_path = "memo_hackathon_lesion_info_table.tsv"
qna_df_path = "qna_df_nogari.csv"

df_memo = pd.read_csv(memo_file_path)
df_memo

Unnamed: 0.1,Unnamed: 0,lesion_id,car_id,lesion_main_type,lesion_sub_type,lesion_detail_type,lesion_created_at,lesion_closed_at,memo_id,memo,memo_created_at,memo_updated_at,inspect_id,inspect_at,inspect_type,price,description
0,0,697189,9294,업무요청,차량점검,차량상태확인,2021-02-05 14:17,2021-02-05 14:17,9413177,처리중->조치완료 (2021-02-05 14:17:36),2021-02-05 14:17,2021-02-05 14:17,3184438,2019-12-20,일반수리,110000,bcm배선수리 & 앞도어 액츄레이터 탈부착 / 광일자동차서비스
1,1,697189,9294,업무요청,차량점검,차량상태확인,2021-02-05 14:17,2021-02-05 14:17,9413176,신규접수->처리중 (2021-02-05 14:17:33),2021-02-05 14:17,2021-02-05 14:17,3184438,2019-12-20,일반수리,110000,bcm배선수리 & 앞도어 액츄레이터 탈부착 / 광일자동차서비스
2,2,697189,9294,업무요청,차량점검,차량상태확인,2021-02-05 14:17,2021-02-05 14:17,9413173,bcm배선 수리 및 앞도어 탈부착 \n\n광일자동차 서비스 입고 수리 완료,2021-02-05 14:17,2021-02-05 14:17,3184438,2019-12-20,일반수리,110000,bcm배선수리 & 앞도어 액츄레이터 탈부착 / 광일자동차서비스
3,3,697189,9294,업무요청,차량점검,차량상태확인,2021-02-05 14:17,2021-02-05 14:17,9413175,2019/12/20 완료건,2021-02-05 14:17,2021-02-05 14:17,3184438,2019-12-20,일반수리,110000,bcm배선수리 & 앞도어 액츄레이터 탈부착 / 광일자동차서비스
4,4,626810,8286,업무요청,차량점검,차량상태확인,2020-08-27 17:04,2020-08-27 17:04,8607444,차량번호 :46하5779\n차종 : k5\n지점 : 장안점\n이상부위 : 고객님이 ...,2020-08-27 17:04,2020-08-27 17:04,2797885,2020-08-11,엔진오일,38000,장안점\n플랜 626810
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
99175,99175,697918,12210,장착품,후방카메라,후방카메라_고장,2021-02-07 11:39,,9416797,신규접수->처리중 (2021-02-08 02:17:07),2021-02-08 2:17,2021-02-08 2:17,3186186,2021-02-08,장애처리,11000,장애처리비(카워시)
99176,99176,697918,12210,장착품,후방카메라,후방카메라_고장,2021-02-07 11:39,,9416796,57호4350 올뉴k3/창원역(ktx)앞\n#후방카메라고장\nㄴ후방카메라 작동안함\...,2021-02-08 2:17,2021-02-08 2:17,3186187,2021-02-08,후방카메라,0,57호4350 올뉴k3/창원역(ktx)앞\n#후방카메라고장\nㄴ후방카메라 작동안함\...
99177,99177,697918,12210,장착품,후방카메라,후방카메라_고장,2021-02-07 11:39,,9415933,원예약번호 : 36034430\n1. 증상 상세내용 : \nㅁ문의내용\nㄴ후방카메라...,2021-02-07 11:39,2021-02-07 11:39,3186187,2021-02-08,후방카메라,0,57호4350 올뉴k3/창원역(ktx)앞\n#후방카메라고장\nㄴ후방카메라 작동안함\...
99178,99178,697918,12210,장착품,후방카메라,후방카메라_고장,2021-02-07 11:39,,9418008,모본접수,2021-02-08 9:45,2021-02-08 9:45,3186187,2021-02-08,후방카메라,0,57호4350 올뉴k3/창원역(ktx)앞\n#후방카메라고장\nㄴ후방카메라 작동안함\...


### 문의 & 안내 & 라벨 추출

In [6]:
# 정규표현식으로 "문의내용" 추출 함수 정의
def regularexp_query(string):
    string = string.replace(':', ' ').replace('\n', ' ').replace('ob', ' ') \
                .replace('010-0000-0000', ' ').replace('아래 중 택', ' ').replace('접수내용추가', ' ').replace('  ', ' ')
    
    regular = re.compile('(?<=문의[내사구 ][내용사항분 ][용항 ])(.*?)(?=[ㅁ확종긍])')

    result1 = regular.search(string).group()
    result2 = re.sub('[^가-힣 ]+', ':', result1).split(':')

    list_query = []
    for sentence in result2:
        if sentence == '' or sentence == ' ': continue
        sentence = sentence.strip()
        list_query.append(sentence)

    return list_query


# 정규표현식으로 "안내내용" 추출 함수 정의
def regularexp_guide(string):
    string = string.replace(':', ' ').replace('\n', ' ').replace('  ', ' ').replace('수긍', '').replace('종결', '').replace('확인 후 종료', ' ')
    string = string + 'ㅁ'
    
    reg_long = re.compile('(?<=안내[/처내][처리내용약][리내용사속 ][항내용 ][내용 ][용 ])(.*?)(?=[ㅁ※])')
    reg_short = re.compile('(?<=(안내|처리)[내사][용항])(.*?)(?=[ㅁ※])')

    try:
        result1 = reg_long.search(string).group()
        result2 = re.sub('[^가-힣0-9 ]+', ':', result1).split(':')
    except AttributeError:
        result1 = reg_short.search(string).group()
        result2 = re.sub('[^가-힣0-9 ]+', ':', result1).split(':')

    list_query = []
    for sentence in result2:
        if sentence == '' or sentence == ' ': continue
        sentence = sentence.strip()
        list_query.append(sentence)

    return list_query


# 라벨에 넣을 카데고리 추출 함수
def category_detail(detail):
    detail = detail.replace("/", " ").replace("(", " ").replace(")", "").replace(",", " ").replace("_", " ").replace("  ", " ").split()
    return detail[0]
    


# 문의내용있는 행 인덱스 추출 
query_words = ['문의내용', 'ㅁ문의내용', '문의 내용', 'ㅁ문의', '문의사항', 'ㅁ문의사항', '문의 사항', '문의구분']
confirm_words = ['안내/처리 내용', '안내/처리내용', '안내내용', '처리내용', '안내/약속 내용', '안내사항', '안내/처리사항']


index = []
for idx, row in df_memo.iterrows():
    memo = str(row[9])
    for query_word in query_words:
        for confirm_word in confirm_words:
            if query_word in memo and confirm_word in memo:
                index.append(idx)

index = sorted(list(set(index)))
print(len(index))

# 문의내용 추출 후 query 컬럼에 넣기
key_df = df_memo.loc[index]
key_df = key_df.reset_index()

key_df['query'] = 0
key_df['guide'] = 0
key_df['label_word'] = 0 # 카테고리 또는 키워드


for idx in range(len(key_df)):
    str1 = regularexp_query(key_df['memo'][idx])
    str2 = regularexp_guide(key_df['memo'][idx])
    str3 = category_detail(key_df['lesion_detail_type'][idx])
    
    key_df['query'][idx] = str1
    key_df['guide'][idx] = str2
    key_df['label_word'][idx] = str3

14577


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  key_df['query'][idx] = str1
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_block(indexer, value, name)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  key_df['guide'][idx] = str2
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  key_df['label_word'][idx] = str3


### Label 인코더 & Label 컬럼 생성

In [8]:
label2id = {}
id2label = {}
for idx, label in enumerate(sorted(set(key_df['label_word'].values))):
    label2id[label] = idx
    
for idx, label in enumerate(sorted(set(key_df['label_word'].values))):
    id2label[idx] = label

In [9]:
# 라벨 인코더(label2id) 저장
with open('../data(chatbot)/label2id.pickle', 'wb') as f:
    pickle.dump(label2id, f, pickle.HIGHEST_PROTOCOL)

# 라벨 인코더(label2id) 불러오기
with open('../data(chatbot)/label2id.pickle', 'rb') as f:
    label2id = pickle.load(f)


# 라벨 인코더(label2id) 저장
with open('../data(chatbot)/id2label.pickle', 'wb') as f:
    pickle.dump(id2label, f, pickle.HIGHEST_PROTOCOL)

# 라벨 인코더(label2id) 불러오기
with open('../data(chatbot)/id2label.pickle', 'rb') as f:
    id2label = pickle.load(f)

In [10]:
print(label2id)
print()
print(id2label)

{'ADAS': 0, 'USB포트': 1, '거치대': 2, '경고등': 3, '글로브박스': 4, '내비게이션': 5, '내장제': 6, '단말기': 7, '도어': 8, '라이트': 9, '룸미러': 10, '목받침대': 11, '문제어불가': 12, '발판매트': 13, '번호판': 14, '본넷': 15, '브레이크': 16, '블랙박스': 17, '사고조사': 18, '사이드미러': 19, '사이드브레이크': 20, '선바이저': 21, '시거잭': 22, '시동': 23, '시트': 24, '실내등': 25, '안심번호': 26, '안전벨트': 27, '에어컨': 28, '오디오': 29, '와이퍼': 30, '외관': 31, '외부스티커': 32, '워셔액': 33, '위생': 34, '전기차': 35, '주유구': 36, '주유카드': 37, '주차장': 38, '주행': 39, '차량상태확인': 40, '창문': 41, '충전카드': 42, '타이어': 43, '트렁크': 44, '하이패스': 45, '핸들': 46, '후방센서': 47, '후방카메라': 48, '휠': 49, '히터': 50}

{0: 'ADAS', 1: 'USB포트', 2: '거치대', 3: '경고등', 4: '글로브박스', 5: '내비게이션', 6: '내장제', 7: '단말기', 8: '도어', 9: '라이트', 10: '룸미러', 11: '목받침대', 12: '문제어불가', 13: '발판매트', 14: '번호판', 15: '본넷', 16: '브레이크', 17: '블랙박스', 18: '사고조사', 19: '사이드미러', 20: '사이드브레이크', 21: '선바이저', 22: '시거잭', 23: '시동', 24: '시트', 25: '실내등', 26: '안심번호', 27: '안전벨트', 28: '에어컨', 29: '오디오', 30: '와이퍼', 31: '외관', 32: '외부스티커', 33: '워셔액', 34: '위생', 35: '전기차', 36: '주유구', 37: '주유카

In [11]:
# label_word -> label
key_df['label'] = key_df['label_word'].apply(lambda x : label2id[x])
key_df

Unnamed: 0.1,index,Unnamed: 0,lesion_id,car_id,lesion_main_type,lesion_sub_type,lesion_detail_type,lesion_created_at,lesion_closed_at,memo_id,...,memo_updated_at,inspect_id,inspect_at,inspect_type,price,description,query,guide,label_word,label
0,8,8,632099,9497,차량문제,브레이크,브레이크_밀림,2020-09-08 6:13,2020-09-08 16:24,8679632,...,2020-09-08 6:14,3184458,2020-09-08,전패드,92290,광일자동차서비스,[브레이크가 많이 밀림 차량변경요청],"[1차 차량문제확인위해 기사 보내드림, 차량내 경고등뜬건없음, 차량문제시 지체시간 ...",브레이크,16
1,14,14,632099,9497,차량문제,브레이크,브레이크_밀림,2020-09-08 6:13,2020-09-08 16:24,8679632,...,2020-09-08 6:14,3184459,2020-09-08,일반수리,209000,앞 디스크 교체 /광일자동차서비스,[브레이크가 많이 밀림 차량변경요청],"[1차 차량문제확인위해 기사 보내드림, 차량내 경고등뜬건없음, 차량문제시 지체시간 ...",브레이크,16
2,28,28,636499,12793,차량문제,타이어,타이어_마모,2020-09-17 16:36,2020-09-22 16:05,8748350,...,2020-09-17 16:36,2880820,2020-09-22,장애처리,15000,주식회사 바퀴창고 탁송/ 636499,"[타이어 마모, 현장조치불가판정 받았다하심]","[이후조치하겠음, 차량상태후 취소]",타이어,43
3,30,30,643025,16855,차량문제,경고등,경고등_엔진체크,2020-10-02 7:11,2020-10-05 11:41,8837323,...,2020-10-02 7:11,3184566,2020-10-06,일반수리,13000,요소수 보충 / vip공업사,[차량내 경고등 점등되어 문의],"[엔진체크 확인, 인근 차량변경 11인승 안내 차량 불편하다고함, 9인승으로 이용해...",경고등,3
4,34,34,648236,14707,차량문제,라이트,라이트/전구_경고등(고장),2020-10-13 18:18,2020-10-14 17:15,8916924,...,2020-10-13 18:37,2924032,2020-10-14,일반수리,20000,좌우 브레이크등 교체\nㄴ대성정비,"[왼쪽 제동등 안켜짐, 사진첨부]",[위험요소 있어 인근 변경 가능 차량 확인해 안내하겠음],라이트,9
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
14572,99161,99161,698056,11797,장착품,하이패스,하이패스_카드분실,2021-02-07 16:15,2021-02-08 12:38,9416242,...,2021-02-07 16:15,3187152,2021-02-08,,0,57호4667 스토닉 김해삼방초등학교옆\n#하이패스 카드분실\nㄴ하이패스 카드 확인...,[하이패스 구간 이동시 하이패스 카드가 없다고 뜬다함],"[추후 정비 양해 부탁, 하이패스 구간 이용시 추후 정산되실거임, 한번 직접 결제 ...",하이패스,45
14573,99166,99166,697129,15805,차량문제,경고등,경고등_통합경고등(느낌표),2021-02-05 12:22,2021-02-08 9:05,9412757,...,2021-02-05 12:22,3186764,2021-02-08,일반수리,5000,보조브레이크 전구 교환,[경고등 점등 되어 인입],"[시동 끄고 재 시동 걸었을때도 경고등 점등되는 확인 요청, 운행중이라 불가, 정차...",경고등,3
14574,99171,99171,697728,24184,주차장문제,주차장,주차장_차량위치확인불가,2021-02-06 19:07,2021-02-08 14:46,9415502,...,2021-02-06 19:07,3187366,2021-02-08,주차장위치,11000,차량 확인했으나 시동 불가로 수행불가. VOC요청,[차량 없음 문의],"[30분 예약 말씀하셨으나, 30분 예약 이력 확인되지 않아 질의, 18 30분 예...",주차장,38
14575,99173,99173,697918,12210,장착품,후방카메라,후방카메라_고장,2021-02-07 11:39,,9415933,...,2021-02-07 11:39,3186186,2021-02-08,장애처리,11000,장애처리비(카워시),[후방카메라가 장착되어있는 차량인지 문의],"[재시동 후, 재시작 도와드림, 조치불가, 화면이 전환되지않는다고 하심, 후 통화종료]",후방카메라,48


### Q, A, Label 형태인 데이터프레임 만들기

In [12]:
def q_a_label(df):
    df_qna = pd.DataFrame(columns = {'Q', 'A', 'label'})
    df_qna = df_qna[['Q', 'A', 'label']] # 위에 빈 데이터프레임을 만들었는데 컬럼 순서대로 나오지 않아서 강제로 다시 컬럼 순서를 정렬함

    for idx, row in tqdm(df.iterrows()):
        querys = row['query']
        guides = row['guide']
        label = row['label']

        for query in querys:
            for guide in guides:
                if len(query) == 0 or len(guide) == 0: continue
                new_data = {'Q': query, 'A': guide, 'label': [0]}  #  현재는 라벨에 0을 넣지만 추후 label에 키워드 넣어야 함
                new_df = pd.DataFrame(new_data)
                df_qna = pd.concat([df_qna, new_df])

    df_qna = df_qna.drop_duplicates()      # 중복 제거
    df_qna = df_qna[df_qna['Q'].notnull()] # 결측치 제거
    df_qna = df_qna[df_qna['A'].notnull()] # 결측치 제거
    print(df_qna.isnull().sum())
    df_qna = df_qna.reset_index(drop=True) # 인덱스 생성
    
    return df_qna

df_qna = q_a_label(key_df)


14577it [03:08, 77.31it/s] 


In [14]:
df_qna #중복,결측지 제거 안한 데이터프레임

Unnamed: 0,Q,A,label
0,브레이크가 많이 밀림 차량변경요청,1차 차량문제확인위해 기사 보내드림,0
0,브레이크가 많이 밀림 차량변경요청,차량내 경고등뜬건없음,0
0,브레이크가 많이 밀림 차량변경요청,차량문제시 지체시간 무상연장및 차량교체 가능함,0
0,브레이크가 많이 밀림 차량변경요청,현장에서 납부하는 비용은 없음,0
0,브레이크가 많이 밀림 차량변경요청,고객님 과실여부에 따라서 추후에 청구될수 있음 안내,0
...,...,...,...
0,후방카메라가 장착되어있는 차량인지 문의,재시동 후,0
0,후방카메라가 장착되어있는 차량인지 문의,재시작 도와드림,0
0,후방카메라가 장착되어있는 차량인지 문의,조치불가,0
0,후방카메라가 장착되어있는 차량인지 문의,화면이 전환되지않는다고 하심,0


In [13]:
df_qna.nunique() # 중복값 확인

Q         6515
A        23063
label        1
dtype: int64

In [17]:
df = df_qna.drop_duplicates()
df

Unnamed: 0,Q,A,label
0,브레이크가 많이 밀림 차량변경요청,1차 차량문제확인위해 기사 보내드림,0
0,브레이크가 많이 밀림 차량변경요청,차량내 경고등뜬건없음,0
0,브레이크가 많이 밀림 차량변경요청,차량문제시 지체시간 무상연장및 차량교체 가능함,0
0,브레이크가 많이 밀림 차량변경요청,현장에서 납부하는 비용은 없음,0
0,브레이크가 많이 밀림 차량변경요청,고객님 과실여부에 따라서 추후에 청구될수 있음 안내,0
...,...,...,...
0,후방카메라가 장착되어있는 차량인지 문의,재시동 후,0
0,후방카메라가 장착되어있는 차량인지 문의,재시작 도와드림,0
0,후방카메라가 장착되어있는 차량인지 문의,조치불가,0
0,후방카메라가 장착되어있는 차량인지 문의,화면이 전환되지않는다고 하심,0


In [15]:
df_qna.isna().sum() # 결측치

Q        0
A        0
label    0
dtype: int64

In [4]:
# 저장
# df_qna.to_csv(qna_df_path, index=False, encoding='utf-8-sig') # utf-8은 한글깨짐이 발생하므로 utf-8-sig로 변경

# 불러오기
qkey_df = pd.read_csv(qna_df_path, encoding='utf-8-sig')
qkey_df.head(50)

Unnamed: 0,Q,A,label
0,브레이크가 많이 밀림 차량변경요청,1차 차량문제확인위해 기사 보내드림,0
1,브레이크가 많이 밀림 차량변경요청,차량내 경고등뜬건없음,0
2,브레이크가 많이 밀림 차량변경요청,차량문제시 지체시간 무상연장및 차량교체 가능함,0
3,브레이크가 많이 밀림 차량변경요청,현장에서 납부하는 비용은 없음,0
4,브레이크가 많이 밀림 차량변경요청,고객님 과실여부에 따라서 추후에 청구될수 있음 안내,0
5,브레이크가 많이 밀림 차량변경요청,긴급출동 기사가 현장에서 비용납부 요구시 납부하지말고 고객센터로 연락안내,0
6,브레이크가 많이 밀림 차량변경요청,긴급출동 기사는 차량 상태 및 비용 관련 문의에 대해서는 답변 드리지 않습니다,0
7,브레이크가 많이 밀림 차량변경요청,또한 차량상태에 대한 출동기사의 판단과 실제점검결과가 다를수있으니 만일 차량상태나 ...,0
8,타이어 마모,이후조치하겠음,0
9,타이어 마모,차량상태후 취소,0
