In [5]:
import pandas as pd
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity

# SentenceBERT 모델 로드

In [6]:
model = SentenceTransformer('jhgan/ko-sroberta-multitask')

sentences = ["안녕하세요?", "한국어 문장 임베딩을 위한 버트 모델입니다."]
embeddings = model.encode(sentences)

print(embeddings)

[[-0.37510458 -0.7733841   0.5927712  ...  0.5792353   0.32683465
  -0.6508967 ]
 [-0.09361695 -0.1819153  -0.19230819 ... -0.03165778  0.30412552
  -0.26793596]]


# 데이터셋 로드

웰니스 대화 스크립트 데이터셋

https://aihub.or.kr/opendata/keti-data/recognition-laguage/KETI-02-006

In [24]:
df = pd.read_csv(r'C:\\Users\\21813903\\chatbot9\\mental-health-chatbot\\text_data_file\\aa.csv')

df.head()

Unnamed: 0,구분,유저,챗봇
0,감각신경성 난청,이명이 들리고 어지러워요.,감각신경성 난청인거 같아요! 최대한 빨리 이비인후과에 방문해주세요!!
1,고막염,이물감이 있고 이명이 들려요.,고막염인거 같아요! 수영을 당분간 자제하고 항생제를 복용해야해요!! 이비인후과에 방...
2,급성 중이염,머리가 아프고 이명이 들려요.,급성 중이염일 수 있어요! 이비인후과에 방문해주세요 5~10일정도 항생제와 진통제를...
3,급성 중이염,귀에서 물같은게 나와요.,급성 중이염인거 같아요! 이비인후과에 방문해주세요 5~10일정도 항생제와 진통제를 ...
4,급성 중이염,귀에서 고름이 나오고 아파요.,급성 중이염인거 같아요! 이비인후과에 방문해주세요 5~10일정도 항생제와 진통제를 ...


# 전처리

In [25]:
df = df.drop(columns=['Unnamed: 3'])

df.head()

KeyError: "['Unnamed: 3'] not found in axis"

In [26]:
df = df[~df['챗봇'].isna()]

df.head()

Unnamed: 0,구분,유저,챗봇
0,감각신경성 난청,이명이 들리고 어지러워요.,감각신경성 난청인거 같아요! 최대한 빨리 이비인후과에 방문해주세요!!
1,고막염,이물감이 있고 이명이 들려요.,고막염인거 같아요! 수영을 당분간 자제하고 항생제를 복용해야해요!! 이비인후과에 방...
2,급성 중이염,머리가 아프고 이명이 들려요.,급성 중이염일 수 있어요! 이비인후과에 방문해주세요 5~10일정도 항생제와 진통제를...
3,급성 중이염,귀에서 물같은게 나와요.,급성 중이염인거 같아요! 이비인후과에 방문해주세요 5~10일정도 항생제와 진통제를 ...
4,급성 중이염,귀에서 고름이 나오고 아파요.,급성 중이염인거 같아요! 이비인후과에 방문해주세요 5~10일정도 항생제와 진통제를 ...


In [27]:
df.loc[0, '유저']

'이명이 들리고 어지러워요.'

In [28]:
model.encode(df.loc[0, '유저'])

array([-4.41532046e-01, -6.68350831e-02,  4.43943828e-01, -1.97301701e-01,
       -1.01489052e-01, -1.29800588e-01,  6.55138269e-02,  3.61779839e-01,
       -3.51818621e-01, -1.99055858e-02,  2.33499818e-02, -5.32706439e-01,
        7.76995420e-02,  1.71753153e-01, -7.60006964e-01,  4.05623525e-01,
        2.29804724e-01, -3.99431556e-01,  2.20491618e-01, -5.81373215e-01,
       -1.91537604e-01, -1.61752161e-02,  8.92732441e-01,  4.25712198e-01,
        2.84889400e-01,  2.87471831e-01, -3.08900893e-01,  7.88313031e-01,
        1.40384033e-01,  5.67840924e-03,  1.52622923e-01, -1.42584294e-01,
       -2.38413941e-02,  8.12707603e-01, -1.43444091e-01,  3.94882888e-01,
        9.56678092e-02,  4.12378252e-01, -6.37800768e-02, -3.84552062e-01,
       -4.60657895e-01,  6.46938443e-01, -2.80597985e-01, -8.32695365e-02,
       -8.00105751e-01, -8.69587302e-01, -4.58819211e-01, -1.77810460e-01,
       -4.33449328e-01, -3.25699031e-01, -6.46027327e-01,  4.39350381e-02,
        2.22258240e-01,  

# 유저 대화내용 인코딩

In [29]:
df['embedding'] = pd.Series([[]] * len(df)) # dummy

df['embedding'] = df['유저'].map(lambda x: list(model.encode(x)))

df.head()

Unnamed: 0,구분,유저,챗봇,embedding
0,감각신경성 난청,이명이 들리고 어지러워요.,감각신경성 난청인거 같아요! 최대한 빨리 이비인후과에 방문해주세요!!,"[-0.44153205, -0.06683508, 0.44394383, -0.1973..."
1,고막염,이물감이 있고 이명이 들려요.,고막염인거 같아요! 수영을 당분간 자제하고 항생제를 복용해야해요!! 이비인후과에 방...,"[0.084144816, -0.37980506, 0.2981383, -0.37642..."
2,급성 중이염,머리가 아프고 이명이 들려요.,급성 중이염일 수 있어요! 이비인후과에 방문해주세요 5~10일정도 항생제와 진통제를...,"[-0.4724283, 0.1359936, 0.64839697, -0.1557210..."
3,급성 중이염,귀에서 물같은게 나와요.,급성 중이염인거 같아요! 이비인후과에 방문해주세요 5~10일정도 항생제와 진통제를 ...,"[0.11828502, -0.35425416, -0.0029655949, -0.39..."
4,급성 중이염,귀에서 고름이 나오고 아파요.,급성 중이염인거 같아요! 이비인후과에 방문해주세요 5~10일정도 항생제와 진통제를 ...,"[-0.45804694, -0.27628136, -0.18794592, -0.122..."


In [30]:
df.to_csv('sysmptom_dataset.csv', index=False)

# 간단한 챗봇

In [31]:
text = '요즘 머리가 아프고 너무 힘들어'

embedding = model.encode(text)

In [32]:
df['distance'] = df['embedding'].map(lambda x: cosine_similarity([embedding], [x]).squeeze())

df.head()

Unnamed: 0,구분,유저,챗봇,embedding,distance
0,감각신경성 난청,이명이 들리고 어지러워요.,감각신경성 난청인거 같아요! 최대한 빨리 이비인후과에 방문해주세요!!,"[-0.44153205, -0.06683508, 0.44394383, -0.1973...",0.628785
1,고막염,이물감이 있고 이명이 들려요.,고막염인거 같아요! 수영을 당분간 자제하고 항생제를 복용해야해요!! 이비인후과에 방...,"[0.084144816, -0.37980506, 0.2981383, -0.37642...",0.410431
2,급성 중이염,머리가 아프고 이명이 들려요.,급성 중이염일 수 있어요! 이비인후과에 방문해주세요 5~10일정도 항생제와 진통제를...,"[-0.4724283, 0.1359936, 0.64839697, -0.1557210...",0.733748
3,급성 중이염,귀에서 물같은게 나와요.,급성 중이염인거 같아요! 이비인후과에 방문해주세요 5~10일정도 항생제와 진통제를 ...,"[0.11828502, -0.35425416, -0.0029655949, -0.39...",0.240884
4,급성 중이염,귀에서 고름이 나오고 아파요.,급성 중이염인거 같아요! 이비인후과에 방문해주세요 5~10일정도 항생제와 진통제를 ...,"[-0.45804694, -0.27628136, -0.18794592, -0.122...",0.508166


In [33]:
answer = df.loc[df['distance'].idxmax()]

print('구분', answer['구분'])
print('유사한 질문', answer['유저'])
print('챗봇 답변', answer['챗봇'])
print('유사도', answer['distance'])

구분 감기
유사한 질문 머리가 아프고 열이 나요.
챗봇 답변 감기인거 같아요! 몸을 따뜻하게 하고 충분히 휴식해주세요! 증상이 심하면 이비인후과에 방문해주세요!
유사도 0.8430359363555908
