In [None]:
import pandas as pd

In [None]:
df = pd.read_json("../data/민원(콜센터) 질의응답_다산콜센터_일반행정 문의_Training.json")

In [None]:
df.info()

In [None]:
# 결측치의 개수를 확인 
df.isna().sum()

In [None]:
df.head(10)

### 문제 
1. 일반행정 데이터와, 대중 교통 데이터를 로드 
2. 두개의 데이터프레임을 결합 (단순한 행 결합)
3. 데이터의 필터링 고객질문에 대한 상담사의 답변이 즉각적으로 오는 데이터들만 필터 
4. 질문 중 중복 데이터를 제거 
5. 질문들을 모아서 토큰화, 백터화 
6. 그 외의 질문 목록을 이용하여 코사인 유사도 확인하고 유사 질문과 답변을 출력 

In [None]:
# 2개의 데이터프레임을 로드 
df = pd.read_json("../data/민원(콜센터) 질의응답_다산콜센터_대중교통 안내_Training.json")
df2 = pd.read_json("../data/민원(콜센터) 질의응답_다산콜센터_일반행정 문의_Training.json")


In [None]:
# 2개의 데이터프레임을 단순한 행 결합 (union 결합)
total_df = pd.concat( [df, df2], ignore_index=True  )

In [None]:
# 단순 결합시 주의할점 : 인덱스의 값이 중복 값이 생기는 부분 
total_df.loc[0, ]

In [None]:
total_df.head()

In [None]:
# 고객질문(요청) 컬럼의 데이터들의 개수를 확인 
total_df['고객질문(요청)'].value_counts()
#공백의 데이터가 여러개가 존재 확인 

In [None]:
# 공백으로 이루어진 value들을 통일화
# 스리즈에서 각각의 value을 추출하여 함수에 대입 -> map()
total_df = total_df.map(
    lambda x : str(x).strip() 
)

In [None]:
total_df.head()

In [None]:
# 1번 조건식 -> 현재 행에서 고객질문(요청) 데이터가 ''가 아니고 
#               다음 행의 상담사답변의 value가 ''이 아닌경우
flag1 = (total_df['고객질문(요청)'] != '') & \
    (total_df['상담사답변'].shift(-1) != '')

In [None]:
# 2번 조건식 -> 현재 행에서 상담사답변이 '' 가 아니고
#               전 행의 고객질문(요청) 데이터가 '' 가 아닌 경우
flag2 = (total_df['상담사답변'] != '') & \
        (total_df['고객질문(요청)'].shift(1) != ''  )

In [None]:
# flag1은 고객 질문만 나오고
# flag2는 상담사 답변 
# 둘 중 하나만 True라면 
total_df = total_df.loc[flag1 | flag2,]

In [None]:
# 고객 질문 데이터중 중복 데이터는 제거 
total_df['상담사답변'] = total_df['상담사답변'].shift(-1)

In [None]:
# 고객질문(요청) 데이터에서 ''가 아닌 데이터만 필터
total_df = total_df.loc[
    total_df['고객질문(요청)'] != ''
]

In [None]:
total_df = total_df.drop_duplicates('고객질문(요청)').reset_index(drop=True)

In [28]:
total_df.to_csv('민원 질의응답(즉답형데이터).csv', index=False)

In [None]:
# 토큰화, 백터화 정의 
from konlpy.tag import Komoran
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

In [None]:
komoran = Komoran()

def tokenize(text):
    return komoran.morphs(text)

vectorizer = TfidfVectorizer(
    tokenizer=tokenize, 
    lowercase=False, 
    ngram_range= (1,1), 
    min_df = 5, 
    max_df= 0.8
)

In [None]:
# total_df에서 고객질문(요청) 데이터를 토큰화, 백터화 작업 
X = vectorizer.fit_transform(
    total_df['고객질문(요청)'].values
)

In [None]:
# 질문 목록 
new_questions = [
    '여권 재발급 신청 방법을 알려줘', 
    '전입 신고가 인터넷으로 가능한가요?',
    '지방세 환급금을 어디서 신청하나요?'
]

In [None]:
# new_questions도 토큰, 백터화 -> fit() x
test = vectorizer.transform(new_questions)

In [None]:
# 코사인 유사도 생성 
sims = cosine_similarity(test, X)

In [None]:
sims

In [None]:
for idx, sim in enumerate(sims):
    question = new_questions[idx]
    print("유저의 질문 : ", question)
    # sim데이터에서 내림차순정렬을 한 인덱스의 목록 
    sim_idxs = sim.argsort()[::-1]
    for i in sim_idxs[:2]:
        # i : 유저의 질문에 가장 유사한 질문의 인덱스
        print(f"유사도 : {round(sim[i], 3)} \
              유사 질문 : {total_df.loc[i, '고객질문(요청)']}, \
              답변 : {total_df.loc[i, '상담사답변']}")

### 문제 2
- 고객질문의 데이터를 이용하여 카테고리를 분류하는 모델을 생성 
    - 고객질문 데이터들을 이용하여 토큰화, 백터화 작업 (독립 변수) 
    - 카테고리 일반행정, 대중교통을 타켓 데이터 (종속 변수)
        - 카테고리 데이터를 LabelEncoder()를 이용하여 수치화 변환
    - SVC 모델을 이용하여 백터화된 데이터와 카테고리 데이터를 이용하여 학습 
    - new_qeustions의 카테고리를 확인 

In [31]:
# 독립 변수
X = total_df['고객질문(요청)']
# 종속 변수 
Y = total_df['카테고리']

In [33]:
# 독립 변수를 -> 토큰화, 백터화 작업 -> SVC 모델에 학습
X_vec = vectorizer.fit_transform(X)
# 종속 변수 -> LabelEncoder()를 이용하여 문자형 데이터를 숫자형 데이터로 변환 
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
Y_le = le.fit_transform(Y)



In [35]:
X_vec.toarray()

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]], shape=(18952, 2111))

In [36]:
from sklearn.svm import SVC
# SVC 모델 객체를 생성
svc = SVC(
    random_state=42
)

In [37]:
svc.fit(X_vec, Y_le)

0,1,2
,C,1.0
,kernel,'rbf'
,degree,3
,gamma,'scale'
,coef0,0.0
,shrinking,True
,probability,False
,tol,0.001
,cache_size,200
,class_weight,


In [39]:
# 질문 목록에 있는 데이터들을 토큰화, 백터화 작업을 하고 학습이 된 svc 모델을 
# 이용하여 예측 -> (0, 1) -> LabelEncoder를 이용하여 원본의 데이터로 다시 변환
new_vec = vectorizer.transform(new_questions)
pred = svc.predict(new_vec)

In [41]:
le.inverse_transform(pred)

array(['일반행정 문의', '일반행정 문의', '일반행정 문의'], dtype=object)

In [None]:
# 질문 목록 
new_questions = [
    '여권 재발급 신청 방법을 알려줘', 
    '전입 신고가 인터넷으로 가능한가요?',
    '지방세 환급금을 어디서 신청하나요?', 
    '서울역에서 영등포로 가려면 어떻게 가나요?'
]

- new_questions 데이터를 이용하여 svc모델로 예측
- 예측 값을 이용하여 total_df의 카테고리 필터링
- 고객질문 모음을 토큰화, 백터화 작업
- new_quetions의 유사한 질문과 답변을 상위 2개만 출력 