In [1]:
from deep_translator import GoogleTranslator

from tqdm.auto import tqdm
import pandas as pd
from datasets import load_from_disk

import json
import os
import re

In [2]:
def google_translate(sent):
    ko_to_en = GoogleTranslator(source='auto', target='en')
    en_to_ko = GoogleTranslator(source='auto', target='ko')
    try:
        en_sent = ko_to_en.translate(sent)
        ko_sent = en_to_ko.translate(en_sent)
    except:
        return sent
    return ko_sent


def double_translate(sent_list):
    new_sent = []
    for idx in tqdm(range(len(sent_list)), desc="Tons of Translations Ongoing..."):
        trans_sent = google_translate(sent_list[idx])
        new_sent.append(trans_sent)
    return new_sent

In [3]:
train_dataset = load_from_disk("../data/train_dataset/")['train']

In [4]:
train_dataset

Dataset({
    features: ['__index_level_0__', 'answers', 'context', 'document_id', 'id', 'question', 'title'],
    num_rows: 3952
})

In [34]:
context = list(train_dataset['context'])[200:205]
question = list(train_dataset['question'])[200:205]
answers = [train_dataset['answers'][idx]['text'][0] for idx in range(200, 205)]

In [35]:
context[0]

'당간지주는 사찰 입구에 설치해 두는 것으로, 절에 행사나 의식이 있을 때 이곳에 당이라는 깃발을 걸어둔다. 이 깃발을 매달아두는 길쭉한 장대를 당간이라 하며, 이를 양쪽에서 지탱해 주는 두 돌기둥을 당간지주라 한다. 드물게 당간이 있으나 대부분은 두 기둥만 남아 있다.\\n\\n이 당간지주는 만덕동에서 제1 만덕터널로 들어가는 진입로 아래의 만덕사터에 서 있다. 두 기둥 중에서 한쪽 기둥만 남아 있으며, 기둥 옆으로는 당간의 받침돌로 보이는 작은 돌이 놓여 있다. 바깥면은 가운데에 도드라진 선을 한 줄 새겨놓았고, 안쪽면 꼭대기에는 네모난 홈을 파서 당간을 고정시키도록 하였다. 맨 위는 안쪽에서 바깥쪽으로 2단의 굴곡을 주면서 둥글게 깎아두었다.\\n\\n각 부분의 돌을 다듬는 솜씨가 인근의 범어사 당간지주와 비교하여 매우 세련되어 있다. 비록 한쪽 기둥만 남아 있으나, 땅위에 드러난 높이가 길어 그 사이에 당간이 놓였다면 더욱 더 웅장했을 것으로 보인다. 만덕사가 창건된 시기와 때를 같이하여 고려 전기에 만든 것으로 보이며, 만덕사 옛터의 경계를 정하는데 있어 좋은 자료가 되고 있다.'

In [36]:
trans_context = double_translate(context)
trans_question = double_translate(question)
trans_answers = double_translate(answers)

HBox(children=(FloatProgress(value=0.0, description='Tons of Translations Ongoing...', max=5.0, style=Progress…




HBox(children=(FloatProgress(value=0.0, description='Tons of Translations Ongoing...', max=5.0, style=Progress…




HBox(children=(FloatProgress(value=0.0, description='Tons of Translations Ongoing...', max=5.0, style=Progress…




In [37]:
for i in range(5):
    print("-"*100)
    print(f"Question : {trans_question[i]}")
    print(f"Answer : {trans_answers[i]}")
    print(f"Context : {trans_context[i]}")

----------------------------------------------------------------------------------------------------
Question : 만덕사는 언제 창건되었습니까?
Answer : 고려전기
Context : 당간지는 사찰 입구에 설치되어 있으며 사찰에서 행사나 행사가 있을 때 당간지를 이곳에 걸고 있습니다. 이 기를 걸고 있는 장대를 단간이라 하고, 이를 지지하는 두 개의 돌기둥을 단간지라 한다. 당간이 있는 경우는 드물지만 대부분 두 개의 기둥만 남아 있습니다.\n\n이 당간 지주는 만덕동에서 만덕터널1로 가는 진입로 아래 만덕사터 자리에 서 있습니다. 두 기둥 중 하나만 남아 있습니다. , 그리고 기둥 옆에는 경단의 지지석으로 보이는 작은 돌이 놓여 있다. 외면 중앙에 융기선을 새기고 내면 상단에 사각 홈을 파서 줄기를 고정하였다. 상단은 내부에서 외부로 두 단계로 둥글게 되어 있습니다.\n\n각 부분의 석조물은 인근의 범어사 기둥에 비해 매우 정교합니다. 기둥은 하나밖에 남아있지 않지만 지면 위로 노출된 높이는 길기 때문에 그 사이에 단간을 놓았다면 더욱 웅장했을 것이다. 만덕사가 창건된 시기와 같은 고려 초기에 창건된 것으로 보이며, 만덕사 옛터의 경계를 정하는데 좋은 자료이다.
----------------------------------------------------------------------------------------------------
Question : 기독교 선교사들에게 평소와 다른 대우를 받던 윤치호는 미국의 어떤 중요한 속성을 생각했을까?
Answer : 민족적 우월감
Context : 하지만 한편으로는 미국 사회에서 흑인들의 인종차별적이고 차별적인 태도를 보면서 백인들의 오만함에 대해 부정적인 생각을 갖게 되었습니다. 미국에 머무는 동안 황인종을 멸시하는 백인 깡패들에게 끌려갔고 때로 구타를 당하기도 했다. 그는 교묘하게 - 때로는 아주 노골적으로 - "왕따

In [38]:
for i in range(5):
    print("-"*100)
    print(f"Question : {question[i]}")
    print(f"Answer : {answers[i]}")
    print(f"Context : {context[i]}")

----------------------------------------------------------------------------------------------------
Question : 만덕사는 언제 설립되었나?
Answer : 고려 전기
Context : 당간지주는 사찰 입구에 설치해 두는 것으로, 절에 행사나 의식이 있을 때 이곳에 당이라는 깃발을 걸어둔다. 이 깃발을 매달아두는 길쭉한 장대를 당간이라 하며, 이를 양쪽에서 지탱해 주는 두 돌기둥을 당간지주라 한다. 드물게 당간이 있으나 대부분은 두 기둥만 남아 있다.\n\n이 당간지주는 만덕동에서 제1 만덕터널로 들어가는 진입로 아래의 만덕사터에 서 있다. 두 기둥 중에서 한쪽 기둥만 남아 있으며, 기둥 옆으로는 당간의 받침돌로 보이는 작은 돌이 놓여 있다. 바깥면은 가운데에 도드라진 선을 한 줄 새겨놓았고, 안쪽면 꼭대기에는 네모난 홈을 파서 당간을 고정시키도록 하였다. 맨 위는 안쪽에서 바깥쪽으로 2단의 굴곡을 주면서 둥글게 깎아두었다.\n\n각 부분의 돌을 다듬는 솜씨가 인근의 범어사 당간지주와 비교하여 매우 세련되어 있다. 비록 한쪽 기둥만 남아 있으나, 땅위에 드러난 높이가 길어 그 사이에 당간이 놓였다면 더욱 더 웅장했을 것으로 보인다. 만덕사가 창건된 시기와 때를 같이하여 고려 전기에 만든 것으로 보이며, 만덕사 옛터의 경계를 정하는데 있어 좋은 자료가 되고 있다.
----------------------------------------------------------------------------------------------------
Question : 평상시 기독교선교사들로부터 차별적 대우를 받은 윤치호가 생각한 미국의 중대한 속성은?
Answer : 인종주의
Context : 그러나 한편으로는 미국 사회의 인종차별주의적, 흑인을 차별하는 태도를 목격하면서 백인들의 오만함에 대한 부정적인 생각을 갖게 되었다. 미국 체류 중 황인종을 멸시하는 백인 불량배들에게 끌려가 가