# test.csv -> test1.csv로 새로 임베딩해서 모델 학습
*이걸로 하려면 python test.py로 실행*

In [1]:
import pandas as pd
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity

# SentenceBERT 모델 로드

In [99]:
model = SentenceTransformer('jhgan/ko-sroberta-multitask')

sentences = ["안녕하세요?", "한국어 문장 임베딩을 위한 버트 모델입니다."]
embeddings = model.encode(sentences)

print(embeddings)

[[-0.37510416 -0.7733841   0.5927707  ...  0.5792348   0.32683465
  -0.65089625]
 [-0.09361652 -0.181915   -0.1923081  ... -0.03165704  0.30412608
  -0.26793545]]


# 데이터셋 로드

웰니스 대화 스크립트 데이터셋

https://aihub.or.kr/opendata/keti-data/recognition-laguage/KETI-02-006

In [100]:
df = pd.read_csv('input.csv', delimiter=',')

df.head()

Unnamed: 0,구분,유저,챗봇,Unnamed: 3
0,내과,귀가 아파요. 귀 안이 간지럽기도 한거 같아요.,"귀 통증의 원인으로는 '중이염', '외이도염', '갑작스러운 압력 변화', '턱관절...",
1,내과,"가슴이 답답하고, 쓰라려요.","속이 쓰리는 데에는 “소화불량”, “십이지장 염”, “위식도 역류성 질환” 등이 있...",
2,내과,현기증이 나요. 편두통인 것 같아요.,현기증은 질병이 발병했을 때 가장 흔하게 동반되는 증상 중 하나입니다. 현기증은 “...,
3,내과,헛구역질을 하고 구토를 할 것 같아요.,"구토를 유발하는 질환은 매우 많습니다. 가장 흔한 원인은 “소화불량”, “멀미”, ...",
4,내과,속이 쓰려요.,"속이 쓰리는 데에는 '소화불량', '십이지장 염', '위식도 역류성 질환' 등이 있...",


# 전처리

In [101]:
df = df.drop(columns=['Unnamed: 3'])

df.head()

Unnamed: 0,구분,유저,챗봇
0,내과,귀가 아파요. 귀 안이 간지럽기도 한거 같아요.,"귀 통증의 원인으로는 '중이염', '외이도염', '갑작스러운 압력 변화', '턱관절..."
1,내과,"가슴이 답답하고, 쓰라려요.","속이 쓰리는 데에는 “소화불량”, “십이지장 염”, “위식도 역류성 질환” 등이 있..."
2,내과,현기증이 나요. 편두통인 것 같아요.,현기증은 질병이 발병했을 때 가장 흔하게 동반되는 증상 중 하나입니다. 현기증은 “...
3,내과,헛구역질을 하고 구토를 할 것 같아요.,"구토를 유발하는 질환은 매우 많습니다. 가장 흔한 원인은 “소화불량”, “멀미”, ..."
4,내과,속이 쓰려요.,"속이 쓰리는 데에는 '소화불량', '십이지장 염', '위식도 역류성 질환' 등이 있..."


In [102]:
df = df[~df['챗봇'].isna()]

df.head()

Unnamed: 0,구분,유저,챗봇
0,내과,귀가 아파요. 귀 안이 간지럽기도 한거 같아요.,"귀 통증의 원인으로는 '중이염', '외이도염', '갑작스러운 압력 변화', '턱관절..."
1,내과,"가슴이 답답하고, 쓰라려요.","속이 쓰리는 데에는 “소화불량”, “십이지장 염”, “위식도 역류성 질환” 등이 있..."
2,내과,현기증이 나요. 편두통인 것 같아요.,현기증은 질병이 발병했을 때 가장 흔하게 동반되는 증상 중 하나입니다. 현기증은 “...
3,내과,헛구역질을 하고 구토를 할 것 같아요.,"구토를 유발하는 질환은 매우 많습니다. 가장 흔한 원인은 “소화불량”, “멀미”, ..."
4,내과,속이 쓰려요.,"속이 쓰리는 데에는 '소화불량', '십이지장 염', '위식도 역류성 질환' 등이 있..."


In [103]:
df.loc[0, '유저']

'귀가 아파요. 귀 안이 간지럽기도 한거 같아요.'

In [104]:
model.encode(df.loc[0, '유저'])

array([-2.92314887e-01, -8.96749720e-02, -1.06584586e-01,  1.59830987e-01,
       -1.71782449e-02,  1.77910239e-01,  1.54108360e-01,  9.15414512e-01,
       -3.55765522e-01,  3.66757512e-01, -9.95868072e-02, -6.21165395e-01,
       -1.13174476e-01,  1.04923129e-01, -7.44235277e-01,  3.64725143e-01,
       -1.96829438e-04, -3.32973391e-01,  1.25500932e-01, -8.03126395e-01,
        1.76888350e-02,  2.14342643e-02,  1.05111444e+00,  2.62830019e-01,
       -5.05903624e-02, -5.57355098e-02, -1.44320920e-01,  3.31438124e-01,
       -1.28511786e-01, -9.55404639e-02,  4.50032920e-01, -1.45144865e-01,
        4.60971713e-01,  5.66801667e-01, -3.23057324e-01,  1.65546834e-01,
       -2.39281550e-01, -1.10480320e-02, -1.38044640e-01, -2.05009937e-01,
        3.56151849e-01,  4.42877352e-01,  1.27721414e-01, -5.00724554e-01,
       -2.31710121e-01, -4.25523877e-01, -4.00797486e-01, -2.54852653e-01,
       -3.62655997e-01, -1.25238791e-01,  1.73478678e-01, -8.81173685e-02,
        2.09538877e-01,  

# 전처리

# 유저 대화내용 인코딩

In [105]:
df['embedding'] = pd.Series([[]] * len(df)) # dummy

df['embedding'] = df['유저'].map(lambda x: list(model.encode(x)))

df.head()

Unnamed: 0,구분,유저,챗봇,embedding
0,내과,귀가 아파요. 귀 안이 간지럽기도 한거 같아요.,"귀 통증의 원인으로는 '중이염', '외이도염', '갑작스러운 압력 변화', '턱관절...","[-0.2923149, -0.08967497, -0.106584586, 0.1598..."
1,내과,"가슴이 답답하고, 쓰라려요.","속이 쓰리는 데에는 “소화불량”, “십이지장 염”, “위식도 역류성 질환” 등이 있...","[-0.5011267, -0.29284245, -0.038686477, -0.537..."
2,내과,현기증이 나요. 편두통인 것 같아요.,현기증은 질병이 발병했을 때 가장 흔하게 동반되는 증상 중 하나입니다. 현기증은 “...,"[-0.8060614, 0.13140482, 0.23090188, 0.0377638..."
3,내과,헛구역질을 하고 구토를 할 것 같아요.,"구토를 유발하는 질환은 매우 많습니다. 가장 흔한 원인은 “소화불량”, “멀미”, ...","[-0.12515958, -0.20912378, 0.079383336, -0.154..."
4,내과,속이 쓰려요.,"속이 쓰리는 데에는 '소화불량', '십이지장 염', '위식도 역류성 질환' 등이 있...","[-0.32961422, -0.4143938, 0.25626928, -0.10399..."


In [106]:
df.to_csv('answer.csv', index=False)

# 간단한 챗봇

In [110]:
# text = '속이 쓰림' # 내과
# text = '아이가 기침을 해요' # 소아과
# text = '사고가 났는데 몸이 뻐근해'
text = '몸이 뻐근해'
# text = '코에 뽀루지'


embedding = model.encode(text)

In [111]:
df['distance'] = df['embedding'].map(lambda x: cosine_similarity([embedding], [x]).squeeze())

df.head()

Unnamed: 0,구분,유저,챗봇,embedding,distance
0,내과,귀가 아파요. 귀 안이 간지럽기도 한거 같아요.,"귀 통증의 원인으로는 '중이염', '외이도염', '갑작스러운 압력 변화', '턱관절...","[-0.2923149, -0.08967497, -0.106584586, 0.1598...",0.497779
1,내과,"가슴이 답답하고, 쓰라려요.","속이 쓰리는 데에는 “소화불량”, “십이지장 염”, “위식도 역류성 질환” 등이 있...","[-0.5011267, -0.29284245, -0.038686477, -0.537...",0.636158
2,내과,현기증이 나요. 편두통인 것 같아요.,현기증은 질병이 발병했을 때 가장 흔하게 동반되는 증상 중 하나입니다. 현기증은 “...,"[-0.8060614, 0.13140482, 0.23090188, 0.0377638...",0.660238
3,내과,헛구역질을 하고 구토를 할 것 같아요.,"구토를 유발하는 질환은 매우 많습니다. 가장 흔한 원인은 “소화불량”, “멀미”, ...","[-0.12515958, -0.20912378, 0.079383336, -0.154...",0.571054
4,내과,속이 쓰려요.,"속이 쓰리는 데에는 '소화불량', '십이지장 염', '위식도 역류성 질환' 등이 있...","[-0.32961422, -0.4143938, 0.25626928, -0.10399...",0.6228


In [112]:
answer = df.loc[df['distance'].idxmax()]

print('발화', text)
print('구분', answer['구분'])
print('유사한 질문', answer['유저'])
print('챗봇 답변', answer['챗봇'])
print('유사도', answer['distance'])

발화 몸이 뻐근해
구분 정형외과
유사한 질문 몸이 뻐근해.
챗봇 답변 교통사고 후 몸이 뻐근하다면 “뼈 손상”, “관절 손상”, “근육 손상”, “인대 손상”, “힘줄 손상” 같은 원인이 있습니다. 가까운 정형외과를 방문해보세요. HeyDoctor에서 근처 병원을 찾고, 예약을 할 수 있어요. (https://www.heydoctor.com)
유사도 0.9827501177787781
