In [2]:
import pandas as pd
# bert 자연어처리 모델
from sentence_transformers import SentenceTransformer
# 자연어vec 거리를 계산하는 함수
from sklearn.metrics.pairwise import cosine_similarity


In [3]:
# 구글에서 자연어처리 Bert 모델로 사용, 한국어 자연어처리
# SentenceTransformer에서 여러 모델중 1개
model = SentenceTransformer('jhgan/ko-sroberta-multitask')

# 한국어 딥러닝 : 1. 형태소분석 2.불용어제거 3. 토큰화 4. 글을 숫자변경 5. 모델링
ex_text = ['안녕하세요.?', '한국어 문자 임베딩을 위한 버트 모델입니다.']
sample_embedding = model.encode(ex_text) 


In [4]:
sample_embedding

array([[-0.27913216, -0.802968  ,  0.63941616, ...,  0.4994316 ,
         0.29179597, -0.6016654 ],
       [-0.13033684, -0.22761834, -0.2717174 , ...,  0.06556945,
         0.18016624, -0.4725492 ]], dtype=float32)

In [9]:
# 훈련데이터
df = pd.read_csv('wellness_dataset_original.csv')
df.head()

Unnamed: 0,구분,유저,챗봇,Unnamed: 3
0,감정/감정조절이상,제 감정이 이상해진 것 같아요. 남편만 보면 화가 치밀어 오르고 감정 조절이 안되요.,감정이 조절이 안 될 때만큼 힘들 때는 없는 거 같아요.,
1,감정/감정조절이상,더 이상 내 감정을 내가 컨트롤 못 하겠어.,저도 그 기분 이해해요. 많이 힘드시죠?,
2,감정/감정조절이상,하루종일 오르락내리락 롤러코스터 타는 기분이에요.,"그럴 때는 밥은 잘 먹었는지, 잠은 잘 잤는지 체크해보는 것도 좋아요.",
3,감정/감정조절이상,꼭 롤러코스터 타는 것 같아요.,,
4,감정/감정조절이상,롤러코스터 타는 것처럼 기분이 왔다 갔다 해요.,,


In [10]:
# 컬럼 삭제
df = df.drop(columns=['Unnamed: 3'])
df.head()

Unnamed: 0,구분,유저,챗봇
0,감정/감정조절이상,제 감정이 이상해진 것 같아요. 남편만 보면 화가 치밀어 오르고 감정 조절이 안되요.,감정이 조절이 안 될 때만큼 힘들 때는 없는 거 같아요.
1,감정/감정조절이상,더 이상 내 감정을 내가 컨트롤 못 하겠어.,저도 그 기분 이해해요. 많이 힘드시죠?
2,감정/감정조절이상,하루종일 오르락내리락 롤러코스터 타는 기분이에요.,"그럴 때는 밥은 잘 먹었는지, 잠은 잘 잤는지 체크해보는 것도 좋아요."
3,감정/감정조절이상,꼭 롤러코스터 타는 것 같아요.,
4,감정/감정조절이상,롤러코스터 타는 것처럼 기분이 왔다 갔다 해요.,


In [7]:
# nan 데이터 삭제, 행방향으로 삭제
# df = df.dropna()

In [11]:
# nan데이터를 삭제
df = df[~df['챗봇'].isna()]
df.head()

Unnamed: 0,구분,유저,챗봇
0,감정/감정조절이상,제 감정이 이상해진 것 같아요. 남편만 보면 화가 치밀어 오르고 감정 조절이 안되요.,감정이 조절이 안 될 때만큼 힘들 때는 없는 거 같아요.
1,감정/감정조절이상,더 이상 내 감정을 내가 컨트롤 못 하겠어.,저도 그 기분 이해해요. 많이 힘드시죠?
2,감정/감정조절이상,하루종일 오르락내리락 롤러코스터 타는 기분이에요.,"그럴 때는 밥은 잘 먹었는지, 잠은 잘 잤는지 체크해보는 것도 좋아요."
15,감정/감정조절이상/화,평소 다른 일을 할 때도 비슷해요. 생각한대로 안되면 화가 나고…그런 상황이 지속되...,화가 폭발할 것 같을 때는 그 자리를 피하는 것도 좋은 방법이라고 생각해요.
16,감정/감정조절이상/화,예전보다 화내는 게 과격해진 거 같아.,정말 힘드시겠어요. 화는 남에게도 스스로에게도 상처를 주잖아요.


In [13]:
len(df)

1034

In [12]:
df.loc[0,'유저']

'제 감정이 이상해진 것 같아요. 남편만 보면 화가 치밀어 오르고 감정 조절이 안되요.'

In [14]:
model.encode(df.loc[0,'유저'])

array([-4.80606616e-01, -2.94869423e-01,  4.37900215e-01, -6.40137851e-01,
        3.28670740e-02, -3.42647374e-01, -5.47481179e-02,  1.73056182e-02,
       -4.08221096e-01, -5.06034076e-01, -1.68733463e-01, -3.98676932e-01,
       -1.24776840e-01, -9.71538201e-02, -1.65286884e-01,  5.72612369e-03,
        6.13690987e-02, -1.91312388e-01,  2.53917605e-01, -5.85019708e-01,
       -2.84425557e-01, -2.32034907e-01, -3.27080548e-01,  6.72975630e-02,
       -1.62805827e-05, -4.72336292e-01, -3.60021859e-01,  2.91879863e-01,
       -6.63861156e-01, -3.10574383e-01,  5.79524994e-01, -3.11722606e-01,
        1.47696752e-02, -2.12172851e-01,  2.22057894e-01, -1.73828974e-01,
       -3.78458500e-01, -4.20398414e-01, -2.38218918e-01,  6.38703927e-02,
       -1.15304396e-01, -2.44563922e-01, -5.00228345e-01,  1.68355241e-01,
       -6.58360124e-01, -8.91941845e-01, -6.26956999e-01, -3.21965545e-01,
       -7.05358803e-01,  3.71447295e-01, -5.45803428e-01,  7.76295438e-02,
        1.09864593e-01,  

In [15]:
df.columns

Index(['구분', '유저', '챗봇'], dtype='object')

In [17]:
# df : 1034개 1차원 행렬
df['embedding'] = pd.Series([[]]*len(df))
# 유저컬럼의 데이터를 embedding해서 저장
df['embedding'] = df['유저'].map(lambda x: list(model.encode(x)))

In [18]:
df.head()

Unnamed: 0,구분,유저,챗봇,embedding
0,감정/감정조절이상,제 감정이 이상해진 것 같아요. 남편만 보면 화가 치밀어 오르고 감정 조절이 안되요.,감정이 조절이 안 될 때만큼 힘들 때는 없는 거 같아요.,"[-0.48060662, -0.29486942, 0.43790022, -0.6401..."
1,감정/감정조절이상,더 이상 내 감정을 내가 컨트롤 못 하겠어.,저도 그 기분 이해해요. 많이 힘드시죠?,"[-1.1561574, -0.14506274, 0.2949036, -0.673949..."
2,감정/감정조절이상,하루종일 오르락내리락 롤러코스터 타는 기분이에요.,"그럴 때는 밥은 잘 먹었는지, 잠은 잘 잤는지 체크해보는 것도 좋아요.","[-0.6652004, -0.081268355, 1.0945568, 0.105792..."
15,감정/감정조절이상/화,평소 다른 일을 할 때도 비슷해요. 생각한대로 안되면 화가 나고…그런 상황이 지속되...,화가 폭발할 것 같을 때는 그 자리를 피하는 것도 좋은 방법이라고 생각해요.,"[-0.76790583, 0.4652073, 0.5285071, -0.5076045..."
16,감정/감정조절이상/화,예전보다 화내는 게 과격해진 거 같아.,정말 힘드시겠어요. 화는 남에게도 스스로에게도 상처를 주잖아요.,"[-0.20277718, -0.37413934, 0.04053212, -0.8624..."


In [19]:
# 예시 질문
ex_text = '정말 화내는 것이 점점 과격해 지는 것 같아요'
em_text = model.encode(ex_text)
em_text

array([-4.86525804e-01, -1.30437940e-01,  3.08498949e-01, -9.57915008e-01,
       -1.94851920e-01, -4.93257582e-01, -7.47577131e-01,  8.36324751e-01,
        5.29190004e-01, -2.79148102e-01,  1.36253029e-01, -3.59014750e-01,
       -3.58114302e-01,  1.99869201e-01, -1.07602201e-01,  3.50437798e-02,
       -2.86782775e-02, -2.40121596e-02,  3.22882354e-01, -3.83432001e-01,
       -1.33720711e-02,  6.76372647e-03,  1.10433161e-01, -2.81751961e-01,
       -1.61183506e-01, -4.79803801e-01, -6.88324451e-01, -3.02323699e-02,
       -8.44847202e-01, -4.41741981e-02,  3.34636331e-01, -2.55058199e-01,
       -4.29990403e-02,  3.61796647e-01,  1.40747875e-01, -2.99229063e-02,
       -1.65308177e-01, -2.98300922e-01, -3.22450846e-02,  3.60902160e-01,
       -2.36070797e-01, -4.67560053e-01, -9.76683274e-02, -3.23997848e-02,
       -7.85150766e-01, -7.21355319e-01, -5.75725317e-01,  1.39705941e-01,
       -2.04487979e-01,  7.37323105e-01, -4.38577205e-01, -2.97154129e-01,
        6.90306187e-01,  

In [20]:
# em_text와 embedding의 거리를 측정해서 확률로 환산
df['distance'] = df['embedding'].map(lambda x:cosine_similarity([em_text],[x]).squeeze())
df.head()

Unnamed: 0,구분,유저,챗봇,embedding,distance
0,감정/감정조절이상,제 감정이 이상해진 것 같아요. 남편만 보면 화가 치밀어 오르고 감정 조절이 안되요.,감정이 조절이 안 될 때만큼 힘들 때는 없는 거 같아요.,"[-0.48060662, -0.29486942, 0.43790022, -0.6401...",0.61983
1,감정/감정조절이상,더 이상 내 감정을 내가 컨트롤 못 하겠어.,저도 그 기분 이해해요. 많이 힘드시죠?,"[-1.1561574, -0.14506274, 0.2949036, -0.673949...",0.526158
2,감정/감정조절이상,하루종일 오르락내리락 롤러코스터 타는 기분이에요.,"그럴 때는 밥은 잘 먹었는지, 잠은 잘 잤는지 체크해보는 것도 좋아요.","[-0.6652004, -0.081268355, 1.0945568, 0.105792...",0.330691
15,감정/감정조절이상/화,평소 다른 일을 할 때도 비슷해요. 생각한대로 안되면 화가 나고…그런 상황이 지속되...,화가 폭발할 것 같을 때는 그 자리를 피하는 것도 좋은 방법이라고 생각해요.,"[-0.76790583, 0.4652073, 0.5285071, -0.5076045...",0.648454
16,감정/감정조절이상/화,예전보다 화내는 게 과격해진 거 같아.,정말 힘드시겠어요. 화는 남에게도 스스로에게도 상처를 주잖아요.,"[-0.20277718, -0.37413934, 0.04053212, -0.8624...",0.822459


In [23]:
def def_answer(input_text):
    # 예시 질문
    em_text = model.encode(input_text)
    # em_text와 embedding의 거리를 측정해서 확률로 환산
    df['distance'] = df['embedding'].map(lambda x:cosine_similarity([em_text],[x]).squeeze())
    answer = df.loc[df['distance'].idxmax()]
    
    return answer

In [24]:
sample = '너무 우울해요. 힘들어요.'
answer = def_answer(sample)
print('질문 : ',sample)
print('유사한 질문(유저) : ',answer['유저'])
print('챗봇 답(챗봇) : ',answer['챗봇'])
print('유사도 : ',answer['distance'])

질문 :  너무 우울해요. 힘들어요.
유사한 질문(유저) :  평소에 우울하죠. 
챗봇 답(챗봇) :  우울할 때는 칭찬타임! 오늘의 잘한 일을 말해봐요.
유사도 :  0.8178952932357788


In [22]:
# distance컬럼에서 가장 큰 값의 주소 리턴
# answer = df.loc[df['distance'].idxmax()]
# print('질문 : ',ex_text)
# print('유사한 질문(유저) : ',answer['유저'])
# print('챗봇 답(챗봇) : ',answer['챗봇'])
# print('유사도 : ',answer['distance'])

질문 :  정말 화내는 것이 점점 과격해 지는 것 같아요
유사한 질문(유저) :  예전보다 화내는 게 과격해진 거 같아.
챗봇 답(챗봇) :  정말 힘드시겠어요. 화는 남에게도 스스로에게도 상처를 주잖아요.
유사도 :  0.8224585652351379
