In [1]:
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
import pandas as pd

### 1) Sentence-BERT 모델 로드

In [2]:
model = SentenceTransformer('jhgan/ko-sroberta-multitask')

sentences = ["안녕하세요?", "한국어 문장 임베딩을 위한 버트 모델입니다."]
embeddings = model.encode(sentences)

print(embeddings)

[[-0.37510458 -0.7733839   0.5927711  ...  0.57923526  0.3268346
  -0.65089655]
 [-0.09361681 -0.18191518 -0.19230832 ... -0.03165777  0.30412534
  -0.2679363 ]]


### 2) 데이터셋 전처리

In [4]:
# 데이터셋 로드
data = pd.read_csv('../dataset/QnA_data_processed.csv')

# 결측치 제거
data = data[~data['answer'].isna()]
data.head()

Unnamed: 0.1,Unnamed: 0,idx,question,answer,url
0,0,0,수의사분들 살려주세요ㅜㅜㅜ 저희집 강아지 머리?에 이런 거 2개나 있어요ㅜㅜ 만지만...,사진만으로 판단하기에는 제한적이고 어려운 부분이 있습니다. 사진으로 유추하면 유두종...,https://kin.naver.com/qna/detail.naver?d1id=8&...
1,1,1,강아지 목 뒤에 뭐가 났어요 사진처럼 목 뒤에 뭐가 났는데 이게 뭘까요…? 예전에 ...,사진만으로 판단하기에는 제한적이고 어려운 부분이 있습니다. 사진으로 유추하면 유두종...,https://kin.naver.com/qna/detail.naver?d1id=8&...
2,2,2,처음에는 작았는데 자꾸시간이 지날수록 커지는데 왜이럴까요 ㅠㅠㅠ,사진만으로 판단하기에는 제한적이고 어려운 부분이 있습니다. 사진으로 유추하면 유두종...,https://kin.naver.com/qna/detail.naver?d1id=8&...
3,3,3,고양이 눈병 난 것 같아요ㅠ 1개월 된 새끼 고양이 처음 데리고 왔을 때 눈꼽 껴있...,사진만으로 판단하기에는 제한적이고 어려운 부분이 있습니다. 일반적으로 안질환은 결막...,https://kin.naver.com/qna/detail.naver?d1id=8&...
4,4,4,고양이 피부병인가요 고양이 피부가 털이 빠지고 이렇게 더ㅣ어있는데 뭘까요..?? 병...,"사진만으로 판단하기에는 제한적이고 어려운 부분이 있습니다. 고양이 피부염은 세균성,...",https://kin.naver.com/qna/detail.naver?d1id=8&...


In [5]:
# 모든 질문 데이터를 인코딩
data['embedding'] = pd.Series([[]] * len(data))
data['embedding'] = data['question'].map(lambda x: list(model.encode(x)))  # 한 문장씩 인코딩 -> 데이터프레임의 embedding 열에 추가
data.head()

Unnamed: 0.1,Unnamed: 0,idx,question,answer,url,embedding
0,0,0,수의사분들 살려주세요ㅜㅜㅜ 저희집 강아지 머리?에 이런 거 2개나 있어요ㅜㅜ 만지만...,사진만으로 판단하기에는 제한적이고 어려운 부분이 있습니다. 사진으로 유추하면 유두종...,https://kin.naver.com/qna/detail.naver?d1id=8&...,"[-0.25396565, -0.08832195, -0.13394168, -0.453..."
1,1,1,강아지 목 뒤에 뭐가 났어요 사진처럼 목 뒤에 뭐가 났는데 이게 뭘까요…? 예전에 ...,사진만으로 판단하기에는 제한적이고 어려운 부분이 있습니다. 사진으로 유추하면 유두종...,https://kin.naver.com/qna/detail.naver?d1id=8&...,"[-0.28097123, -0.2542599, 0.20331267, -0.40696..."
2,2,2,처음에는 작았는데 자꾸시간이 지날수록 커지는데 왜이럴까요 ㅠㅠㅠ,사진만으로 판단하기에는 제한적이고 어려운 부분이 있습니다. 사진으로 유추하면 유두종...,https://kin.naver.com/qna/detail.naver?d1id=8&...,"[-0.04205346, -0.22283716, -0.30855247, -0.253..."
3,3,3,고양이 눈병 난 것 같아요ㅠ 1개월 된 새끼 고양이 처음 데리고 왔을 때 눈꼽 껴있...,사진만으로 판단하기에는 제한적이고 어려운 부분이 있습니다. 일반적으로 안질환은 결막...,https://kin.naver.com/qna/detail.naver?d1id=8&...,"[-0.23691735, -0.45144665, -0.0503228, 0.38416..."
4,4,4,고양이 피부병인가요 고양이 피부가 털이 빠지고 이렇게 더ㅣ어있는데 뭘까요..?? 병...,"사진만으로 판단하기에는 제한적이고 어려운 부분이 있습니다. 고양이 피부염은 세균성,...",https://kin.naver.com/qna/detail.naver?d1id=8&...,"[-0.50854284, -0.83930993, 0.09811704, 0.52641..."


In [6]:
data.to_csv('../dataset/QnA_data_embedding.csv', index=False) # 전처리한 데이터를 app_bert.py에서 사용하기 위해 저장

### 3) 챗봇 테스트

In [10]:
text = '강아지가 밥을 안먹어'
embedding = model.encode(text)

# 유저의 질문과 데이터 질문들의 코사인 유사도를 구해 distance열에 저장
data['distance'] = data['embedding'].map(lambda x: cosine_similarity([embedding], [x]).squeeze())
data.head()

Unnamed: 0.1,Unnamed: 0,idx,question,answer,url,embedding,distance
0,0,0,수의사분들 살려주세요ㅜㅜㅜ 저희집 강아지 머리?에 이런 거 2개나 있어요ㅜㅜ 만지만...,사진만으로 판단하기에는 제한적이고 어려운 부분이 있습니다. 사진으로 유추하면 유두종...,https://kin.naver.com/qna/detail.naver?d1id=8&...,"[-0.25396565, -0.08832195, -0.13394168, -0.453...",0.338149
1,1,1,강아지 목 뒤에 뭐가 났어요 사진처럼 목 뒤에 뭐가 났는데 이게 뭘까요…? 예전에 ...,사진만으로 판단하기에는 제한적이고 어려운 부분이 있습니다. 사진으로 유추하면 유두종...,https://kin.naver.com/qna/detail.naver?d1id=8&...,"[-0.28097123, -0.2542599, 0.20331267, -0.40696...",0.278965
2,2,2,처음에는 작았는데 자꾸시간이 지날수록 커지는데 왜이럴까요 ㅠㅠㅠ,사진만으로 판단하기에는 제한적이고 어려운 부분이 있습니다. 사진으로 유추하면 유두종...,https://kin.naver.com/qna/detail.naver?d1id=8&...,"[-0.04205346, -0.22283716, -0.30855247, -0.253...",0.034379
3,3,3,고양이 눈병 난 것 같아요ㅠ 1개월 된 새끼 고양이 처음 데리고 왔을 때 눈꼽 껴있...,사진만으로 판단하기에는 제한적이고 어려운 부분이 있습니다. 일반적으로 안질환은 결막...,https://kin.naver.com/qna/detail.naver?d1id=8&...,"[-0.23691735, -0.45144665, -0.0503228, 0.38416...",0.264102
4,4,4,고양이 피부병인가요 고양이 피부가 털이 빠지고 이렇게 더ㅣ어있는데 뭘까요..?? 병...,"사진만으로 판단하기에는 제한적이고 어려운 부분이 있습니다. 고양이 피부염은 세균성,...",https://kin.naver.com/qna/detail.naver?d1id=8&...,"[-0.50854284, -0.83930993, 0.09811704, 0.52641...",0.126055


In [12]:
# distance열에서 유사도가 가장 높은 답변을 출력
output = data.loc[data['distance'].idxmax()]

print('비슷한 질문:', output['question'])
print('예측 답변:', output['answer'])
print('유사도:', output['distance'])

비슷한 질문: 강아지가 밥을 잘 안먹어요 
예측 답변: 강아지가 밥을 먹지 않을 때는 첫째로 질병으로 인해 식욕이 떨어진 경우 둘째로 사료가 맛이 없는 경우 세째로 사람음식으로 인해 사료를 거부하는 경우로 나눌 수 있습니다. 사람음식은 절대로 주지 말고 사료를 교체하는 것도 한 방법입니다. 계속해서 사료를 거부하면 병원에서 정확한 진단과 처치 받아 보시길 권해 드립니다.
유사도: 0.9306127429008484
