## 심리상담 챗봇 
- Sentence-Transformer 모델을 사용하여 질문을 변환하여 데이터셋에 저장
- 프로그램 설치
    - conda activate base; pip install sentence-transformers
- 코사인 유사도를 이용하여 입력한 질문과 유사한 질문을 데이터셋에서 찾아서 결과를 내보내줌

In [1]:
import pandas as pd
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity

#### 1. Sentence BERT 모델 로드
- BERT(Bidirectional Encoder Representations from Transformers)

In [3]:
# 한글 문장 임베딩에 활용하기 위해 만들어진 한글 사전학습 모델
# 최초 실행시 데이터 다운로드
model = SentenceTransformer('jhgan/ko-sroberta-multitask')

In [4]:
# 모델 테스트
sentences = ['안녕하세요?', '한글 문장 임베딩을 위한 BERT 모델입니다.']
embeddings = model.encode(sentences)
print(embeddings)

[[-0.37510458 -0.7733839   0.5927711  ...  0.57923526  0.3268346
  -0.65089655]
 [-0.03811135  0.20955126  0.02041095 ...  0.25595438  0.27676168
   0.06661468]]


In [5]:
# 한글 문장을 768개의 실수값으로 변환해줌
embeddings.shape

(2, 768)

#### 2. 데이터셋

In [8]:
# 웰니스 데이터셋
df = pd.read_csv('data/wellness_dataset_original.csv')
df.head(3)

Unnamed: 0,구분,유저,챗봇,Unnamed: 3
0,감정/감정조절이상,제 감정이 이상해진 것 같아요. 남편만 보면 화가 치밀어 오르고 감정 조절이 안되요.,감정이 조절이 안 될 때만큼 힘들 때는 없는 거 같아요.,
1,감정/감정조절이상,더 이상 내 감정을 내가 컨트롤 못 하겠어.,저도 그 기분 이해해요. 많이 힘드시죠?,
2,감정/감정조절이상,하루종일 오르락내리락 롤러코스터 타는 기분이에요.,"그럴 때는 밥은 잘 먹었는지, 잠은 잘 잤는지 체크해보는 것도 좋아요.",


In [9]:
df.tail(3)

Unnamed: 0,구분,유저,챗봇,Unnamed: 3
5228,현재상태/증상지속,지금도 상태가 계속 안 좋아.,,
5229,현재상태/증상지속,이게 제 마음과 상관없이 증상이 계속 나타나요.,,
5230,현재상태/증상지속,나이 들면 고쳐질 줄 알았는데…아직까지 계속 그래요.,,


- 전처리

In [10]:
df.drop(columns=['Unnamed: 3'], inplace=True)
df.dropna(inplace=True)
df.tail()

Unnamed: 0,구분,유저,챗봇
5196,치료이력/응급실,"그 사람이 응급실 의사한테 뭐라고 속닥거리니까, 저보고 갑자기 응급처치 끝났다고, ...",응급실이 있어서 다행이네요. 큰 문제는 없으신 거죠?
5197,치료이력/응급실,파편이 튀어서 그 때 저도 응급실 가서 치료 받기도 했고…,응급실에 가셨다니 정말 놀랐어요. 아무 문제 없으신가요? 걱정 되네요.
5213,현재상태/증상악화,지금 상태가 너무 안 좋아서 학교 안 나가고 있어요.,상태가 더 안 좋아지셨군요. 걱정이 되네요.
5214,현재상태/증상악화,진짜 심해진 거 같긴 해요.,정말 힘드시겠어요. 지금도 증상이 심하신가요?
5215,현재상태/증상악화,그런데 증상이 나빠진 거 같아.,너무 심하시면 병원을 다시 가보는 건 어떨까요?


In [12]:
df.shape

(1034, 3)

#### 3. 인코딩 후 데이터셋에 저장

In [13]:
model.encode(df.유저[0])

array([-4.80606616e-01, -2.94869423e-01,  4.37900215e-01, -6.40137851e-01,
        3.28670740e-02, -3.42647374e-01, -5.47481179e-02,  1.73056182e-02,
       -4.08221096e-01, -5.06034076e-01, -1.68733463e-01, -3.98676932e-01,
       -1.24776840e-01, -9.71538201e-02, -1.65286884e-01,  5.72612369e-03,
        6.13690987e-02, -1.91312388e-01,  2.53917605e-01, -5.85019708e-01,
       -2.84425557e-01, -2.32034907e-01, -3.27080548e-01,  6.72975630e-02,
       -1.62805827e-05, -4.72336292e-01, -3.60021859e-01,  2.91879863e-01,
       -6.63861156e-01, -3.10574383e-01,  5.79524994e-01, -3.11722606e-01,
        1.47696752e-02, -2.12172851e-01,  2.22057894e-01, -1.73828974e-01,
       -3.78458500e-01, -4.20398414e-01, -2.38218918e-01,  6.38703927e-02,
       -1.15304396e-01, -2.44563922e-01, -5.00228345e-01,  1.68355241e-01,
       -6.58360124e-01, -8.91941845e-01, -6.26956999e-01, -3.21965545e-01,
       -7.05358803e-01,  3.71447295e-01, -5.45803428e-01,  7.76295438e-02,
        1.09864593e-01,  

In [14]:
df['embedding'] = pd.Series([[]] * len(df))     # dummy
df.shape

(1034, 4)

In [15]:
df.embedding = df.유저.map(lambda x: list(model.encode(x)))
df.head(3)

Unnamed: 0,구분,유저,챗봇,embedding
0,감정/감정조절이상,제 감정이 이상해진 것 같아요. 남편만 보면 화가 치밀어 오르고 감정 조절이 안되요.,감정이 조절이 안 될 때만큼 힘들 때는 없는 거 같아요.,"[-0.48060662, -0.29486942, 0.43790022, -0.6401..."
1,감정/감정조절이상,더 이상 내 감정을 내가 컨트롤 못 하겠어.,저도 그 기분 이해해요. 많이 힘드시죠?,"[-1.1561574, -0.14506274, 0.2949036, -0.673949..."
2,감정/감정조절이상,하루종일 오르락내리락 롤러코스터 타는 기분이에요.,"그럴 때는 밥은 잘 먹었는지, 잠은 잘 잤는지 체크해보는 것도 좋아요.","[-0.6652004, -0.081268355, 1.0945568, 0.105792..."


In [16]:
df.to_csv('data/wellness_dataset.csv', index=False)

#### 4. 저장된 데이터셋을 읽고 간단한 챗봇 만들기

In [17]:
import json
wdf = pd.read_csv('data/wellness_dataset.csv')
wdf.embedding = wdf.embedding.apply(json.loads)
wdf.head(3)

Unnamed: 0,구분,유저,챗봇,embedding
0,감정/감정조절이상,제 감정이 이상해진 것 같아요. 남편만 보면 화가 치밀어 오르고 감정 조절이 안되요.,감정이 조절이 안 될 때만큼 힘들 때는 없는 거 같아요.,"[-0.48060662, -0.29486942, 0.43790022, -0.6401..."
1,감정/감정조절이상,더 이상 내 감정을 내가 컨트롤 못 하겠어.,저도 그 기분 이해해요. 많이 힘드시죠?,"[-1.1561574, -0.14506274, 0.2949036, -0.673949..."
2,감정/감정조절이상,하루종일 오르락내리락 롤러코스터 타는 기분이에요.,"그럴 때는 밥은 잘 먹었는지, 잠은 잘 잤는지 체크해보는 것도 좋아요.","[-0.6652004, -0.081268355, 1.0945568, 0.105792..."


In [18]:
# 사용자가 입력한 문장을 임베딩 벡터로 인코딩
text = '요즘 골치가 아프고 너무 힘들어'
embedding = model.encode(text)

In [20]:
# 사용자가 입력한 임베딩 데이터와 데이터셋에 있는 임베딩의 코사인 유사도 계산
wdf['유사도'] = wdf.embedding.map(lambda x: cosine_similarity([embedding],[x]).squeeze())
# squeeze() 메소드는 리스트 형태의 값을 스칼라 값으로 변환해줌
wdf.head(3)

Unnamed: 0,구분,유저,챗봇,embedding,유사도
0,감정/감정조절이상,제 감정이 이상해진 것 같아요. 남편만 보면 화가 치밀어 오르고 감정 조절이 안되요.,감정이 조절이 안 될 때만큼 힘들 때는 없는 거 같아요.,"[-0.48060662, -0.29486942, 0.43790022, -0.6401...",0.488692
1,감정/감정조절이상,더 이상 내 감정을 내가 컨트롤 못 하겠어.,저도 그 기분 이해해요. 많이 힘드시죠?,"[-1.1561574, -0.14506274, 0.2949036, -0.673949...",0.480049
2,감정/감정조절이상,하루종일 오르락내리락 롤러코스터 타는 기분이에요.,"그럴 때는 밥은 잘 먹었는지, 잠은 잘 잤는지 체크해보는 것도 좋아요.","[-0.6652004, -0.081268355, 1.0945568, 0.105792...",0.383595


In [21]:
# 유사도의 값이 최대일 때의 인덱스
wdf.유사도.idxmax()

268

In [22]:
wdf.iloc[wdf.유사도.idxmax()]

구분                                                  감정/힘듦/스트레스
유저                                              스트레스가 너무 심하네요.
챗봇                     정말 힘들고 스트레스 받으시겠어요. 따뜻한 물에 샤워를 추천해드릴게요.
embedding    [-0.47684512, 0.009483599, 0.3674404, -0.38835...
유사도                                                   0.783736
Name: 268, dtype: object

In [23]:
# 챗봇이 사용자에게 제공하는 답변
wdf.챗봇[wdf.유사도.idxmax()]

'정말 힘들고 스트레스 받으시겠어요. 따뜻한 물에 샤워를 추천해드릴게요.'

- 질문과 답변

In [24]:
text = '시험을 망쳐서 미치겠어요'
embedding = model.encode(text)
wdf['유사도'] = wdf.embedding.map(lambda x: cosine_similarity([embedding],[x]).squeeze())
answer = wdf.챗봇[wdf.유사도.idxmax()]
answer

'운이 나빴던 거라고 생각해요.'

In [25]:
text = '친구와 싸워서 마음이 아파요'
embedding = model.encode(text)
wdf['유사도'] = wdf.embedding.map(lambda x: cosine_similarity([embedding],[x]).squeeze())
answer = wdf.챗봇[wdf.유사도.idxmax()]
answer

'많이 힘들 것 같아요. 저는 이야기 듣는 걸 잘하니 불안한 마음이 풀릴 때까지 이야기를 들려주세요.'