In [1]:
import json
import pandas as pd
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity

In [2]:
model = SentenceTransformer('jhgan/ko-sroberta-multitask')

In [3]:
with open("tqa_sample.json", 'r', encoding = 'utf-8') as f:
    data =json.load(f)

In [8]:
rows = []
for d in data['data']:
    for p in d['paragraphs']:
        for q in p['qas']:
            row={
                'question' : q['question'],
                'answer' : q['answers'][0]['text'],
                'context' : p['context']
            }
            rows.append(row)
    
df = pd.DataFrame(rows, columns = ['question', 'answer', 'context'])

In [9]:
df.head()

Unnamed: 0,question,answer,context
0,국제사회는 무엇을 거쳐서 국제적 거버넌스를 구성하였지,구조적 변화,국제연합을 비롯하여 전문성을 갖춘 국제기구들이 설립되기 시작하면서 분야별 과학적 증...
1,무엇을 거쳐서 국제사회는 국제적 거버넌스를 조직하였어,구조적 변화,국제연합을 비롯하여 전문성을 갖춘 국제기구들이 설립되기 시작하면서 분야별 과학적 증...
2,국제사회가 국제적 거버넌스를 만들기 위해 거친 게 뭘까,구조적 변화,국제연합을 비롯하여 전문성을 갖춘 국제기구들이 설립되기 시작하면서 분야별 과학적 증...
3,대학교가 학생회를 만들기 위해 거친 게 뭘까,구조적 변화,국제연합을 비롯하여 전문성을 갖춘 국제기구들이 설립되기 시작하면서 분야별 과학적 증...
4,국제사회는 구조적 변화를 거쳐서 무엇을 구성했지,국제적 거버넌스,국제연합을 비롯하여 전문성을 갖춘 국제기구들이 설립되기 시작하면서 분야별 과학적 증...


In [16]:
df['embedding'] = pd.Series(([[]]*len(df)))
df['embedding'] = df['question'].map(lambda x: list(model.encode(x)))
df.head()

Unnamed: 0,question,answer,context,embedding
0,국제사회는 무엇을 거쳐서 국제적 거버넌스를 구성하였지,구조적 변화,국제연합을 비롯하여 전문성을 갖춘 국제기구들이 설립되기 시작하면서 분야별 과학적 증...,"[-0.07944437, 0.06743342, -0.29577613, 0.05633..."
1,무엇을 거쳐서 국제사회는 국제적 거버넌스를 조직하였어,구조적 변화,국제연합을 비롯하여 전문성을 갖춘 국제기구들이 설립되기 시작하면서 분야별 과학적 증...,"[0.10636014, 0.08472458, -0.36093, -0.00513807..."
2,국제사회가 국제적 거버넌스를 만들기 위해 거친 게 뭘까,구조적 변화,국제연합을 비롯하여 전문성을 갖춘 국제기구들이 설립되기 시작하면서 분야별 과학적 증...,"[-0.054705687, 0.24214683, -0.5732518, -0.0153..."
3,대학교가 학생회를 만들기 위해 거친 게 뭘까,구조적 변화,국제연합을 비롯하여 전문성을 갖춘 국제기구들이 설립되기 시작하면서 분야별 과학적 증...,"[0.052480474, -0.07868369, -0.091700435, -0.18..."
4,국제사회는 구조적 변화를 거쳐서 무엇을 구성했지,국제적 거버넌스,국제연합을 비롯하여 전문성을 갖춘 국제기구들이 설립되기 시작하면서 분야별 과학적 증...,"[-0.35634202, 0.028099, -0.7672698, -0.3448023..."


In [18]:
text = "국제사회는 뭘까"
embedding_text = model.encode(text)

In [19]:
df['distance'] = df['embedding'].map(lambda x: cosine_similarity([embedding_text],[x]).squeeze())
df.head()

Unnamed: 0,question,answer,context,embedding,distance
0,국제사회는 무엇을 거쳐서 국제적 거버넌스를 구성하였지,구조적 변화,국제연합을 비롯하여 전문성을 갖춘 국제기구들이 설립되기 시작하면서 분야별 과학적 증...,"[-0.07944437, 0.06743342, -0.29577613, 0.05633...",0.73042
1,무엇을 거쳐서 국제사회는 국제적 거버넌스를 조직하였어,구조적 변화,국제연합을 비롯하여 전문성을 갖춘 국제기구들이 설립되기 시작하면서 분야별 과학적 증...,"[0.10636014, 0.08472458, -0.36093, -0.00513807...",0.715166
2,국제사회가 국제적 거버넌스를 만들기 위해 거친 게 뭘까,구조적 변화,국제연합을 비롯하여 전문성을 갖춘 국제기구들이 설립되기 시작하면서 분야별 과학적 증...,"[-0.054705687, 0.24214683, -0.5732518, -0.0153...",0.741924
3,대학교가 학생회를 만들기 위해 거친 게 뭘까,구조적 변화,국제연합을 비롯하여 전문성을 갖춘 국제기구들이 설립되기 시작하면서 분야별 과학적 증...,"[0.052480474, -0.07868369, -0.091700435, -0.18...",0.341566
4,국제사회는 구조적 변화를 거쳐서 무엇을 구성했지,국제적 거버넌스,국제연합을 비롯하여 전문성을 갖춘 국제기구들이 설립되기 시작하면서 분야별 과학적 증...,"[-0.35634202, 0.028099, -0.7672698, -0.3448023...",0.635214


In [21]:
df.to_json("tqa_sampledata.json")