# 02 English Back Translate (Translation done on 11/07/2023)

- Input: `02_backtranslate_english_input.csv`
- Output: `02_backtranslate_english.csv`

This file is for sanity checking and processing the translated files. You should already have taken the `01_prepare_dataset.csv` and use Google Sheets to translate Thai Questions and back translate it, and save it into `02_backtranslate_english_input.csv`. This file will check if the back translation format is correct.
- English Translation should be named `en_aug`
- Back Translation should be named `th_aug`

In [1]:
import pandas as pd
from utils import clean_text

In [2]:
backtranslated = pd.read_csv("data/02_backtranslate_english_input.csv")
backtranslated

Unnamed: 0,context,en_aug,th_aug
0,พัทธ์ธีรา ศรุติพงศ์โภคิน (เกิด 3 ธันวาคม พ.ศ. ...,Phatthira Saruritphong Phokin (born 3 December...,Phatthira Saruritphong Phokin (เกิด 3 ธันวาคม ...
1,คลีโอพัตราที่ 7 ฟิโลพาเธอร์ (กรีก: Κλεοπάτρα θ...,คลีโอพัตราที่ 7 ฟิโลพาเธอร์ (กรีก: Κλεοπάτρα θ...,คลีโอพัตรา 7 ฟิโลพาเธอร์ (กรีก: κλεοπάτραθεάφι...
2,ออสเตรเลีย (อังกฤษ: Australia) หรือชื่อทางการค...,Australia or the official name is Australian G...,ออสเตรเลียหรือชื่อทางการคือกลุ่มออสเตรเลีย (เค...
3,วันสันติภาพไทย คือ วันที่ 16 สิงหาคม ของทุกปี ...,Thai Peace Day is the 16th of August every yea...,วันสันติภาพไทยเป็นวันที่ 16 สิงหาคมทุกปีซึ่งเป...
4,นิวซีแลนด์ (อังกฤษ: New Zealand มาวรี: Aotearo...,New Zealand (English: New Zealand: Aotearoa me...,นิวซีแลนด์ (ภาษาอังกฤษ: นิวซีแลนด์: Aotearoa ห...
...,...,...,...
7857,สีดำ หมายถึง สีแห่งศอของพระศิวะที่ดื่มยาพิษเพื...,Black means the color of Shiva who drinks to p...,สีดำหมายถึงสีของพระอิศวรที่ดื่มเพื่อปกป้องมนุษ...
7858,ยัน ฟัน ไอก์ (Dutch: Jan van Eyck ราวก่อน ค.ศ....,"Dutch: Jan van Eyck, about 1395 - before July ...","ดัตช์: Jan Van Eyck, ประมาณ 1395 - ก่อนวันที่ ..."
7859,ไบโอช็อก อินฟินิต (English: BioShock Infinite)...,Bioshock Infinite is a videos of the first per...,BioShock Infinite เป็นวิดีโอของบุคคลแรกที่ถ่าย...
7860,ยู ซึง-โฮเดบิวต์เมื่อปี 1999 กับผลงานโฆษณาของ ...,Yoo Seung-Ho Debut in 1999 with the advertisem...,Yoo Seung-ho เปิดตัวในปี 1999 ด้วยการโฆษณาของ ...


## Race Condition Handling

In [3]:
original = pd.read_csv("data/01_prepare_dataset.csv")
original.isna().sum()

question    0
context     0
answers     0
source      0
id          0
dtype: int64

For some weird reason, Google Sheets dropped some "context" from the rows. This could be due to some weird unicode handling in Google Sheets.

Regardless, we can rejoin the context by using the `id` and `context` from the first file:

In [4]:
# Sanity check for missing values
backtranslated.isnull().sum()

context    19
en_aug      0
th_aug      0
dtype: int64

In [5]:
# Drop #VALUE! rows
backtranslated = backtranslated[backtranslated["en_aug"] != "#VALUE!"]
backtranslated

Unnamed: 0,context,en_aug,th_aug
0,พัทธ์ธีรา ศรุติพงศ์โภคิน (เกิด 3 ธันวาคม พ.ศ. ...,Phatthira Saruritphong Phokin (born 3 December...,Phatthira Saruritphong Phokin (เกิด 3 ธันวาคม ...
1,คลีโอพัตราที่ 7 ฟิโลพาเธอร์ (กรีก: Κλεοπάτρα θ...,คลีโอพัตราที่ 7 ฟิโลพาเธอร์ (กรีก: Κλεοπάτρα θ...,คลีโอพัตรา 7 ฟิโลพาเธอร์ (กรีก: κλεοπάτραθεάφι...
2,ออสเตรเลีย (อังกฤษ: Australia) หรือชื่อทางการค...,Australia or the official name is Australian G...,ออสเตรเลียหรือชื่อทางการคือกลุ่มออสเตรเลีย (เค...
3,วันสันติภาพไทย คือ วันที่ 16 สิงหาคม ของทุกปี ...,Thai Peace Day is the 16th of August every yea...,วันสันติภาพไทยเป็นวันที่ 16 สิงหาคมทุกปีซึ่งเป...
4,นิวซีแลนด์ (อังกฤษ: New Zealand มาวรี: Aotearo...,New Zealand (English: New Zealand: Aotearoa me...,นิวซีแลนด์ (ภาษาอังกฤษ: นิวซีแลนด์: Aotearoa ห...
...,...,...,...
7857,สีดำ หมายถึง สีแห่งศอของพระศิวะที่ดื่มยาพิษเพื...,Black means the color of Shiva who drinks to p...,สีดำหมายถึงสีของพระอิศวรที่ดื่มเพื่อปกป้องมนุษ...
7858,ยัน ฟัน ไอก์ (Dutch: Jan van Eyck ราวก่อน ค.ศ....,"Dutch: Jan van Eyck, about 1395 - before July ...","ดัตช์: Jan Van Eyck, ประมาณ 1395 - ก่อนวันที่ ..."
7859,ไบโอช็อก อินฟินิต (English: BioShock Infinite)...,Bioshock Infinite is a videos of the first per...,BioShock Infinite เป็นวิดีโอของบุคคลแรกที่ถ่าย...
7860,ยู ซึง-โฮเดบิวต์เมื่อปี 1999 กับผลงานโฆษณาของ ...,Yoo Seung-Ho Debut in 1999 with the advertisem...,Yoo Seung-ho เปิดตัวในปี 1999 ด้วยการโฆษณาของ ...


In [6]:
# We can see that there are 34 missing values in the `context` column. We can fill it up with the original context from the first file by removing and merging.
backtranslated = original.merge(backtranslated, on="context", how="left").dropna()
backtranslated

Unnamed: 0,question,context,answers,source,id,en_aug,th_aug
0,พัทธ์ธีรา ศรุติพงศ์โภคิน เกิดวันที่เท่าไร?,พัทธ์ธีรา ศรุติพงศ์โภคิน (เกิด 3 ธันวาคม พ.ศ. ...,"{'text': ['3 ธันวาคม พ.ศ. 2533'], 'answer_star...",iapp,82c589fda5d3007be968f303e04a9ac58953299a64a5be...,Phatthira Saruritphong Phokin (born 3 December...,Phatthira Saruritphong Phokin (เกิด 3 ธันวาคม ...
1,พัทธ์ธีรา ศรุติพงศ์โภคิน มีฃื่อเล่นว่าอะไร?,พัทธ์ธีรา ศรุติพงศ์โภคิน (เกิด 3 ธันวาคม พ.ศ. ...,"{'text': ['อร'], 'answer_start': [68], 'answer...",iapp,6483e513603bd34b6f23a5fbe9e1c1db194ce4f4365a69...,Phatthira Saruritphong Phokin (born 3 December...,Phatthira Saruritphong Phokin (เกิด 3 ธันวาคม ...
2,พัทธ์ธีรา ศรุติพงศ์โภคิน ทำอาชีพอะไร?,พัทธ์ธีรา ศรุติพงศ์โภคิน (เกิด 3 ธันวาคม พ.ศ. ...,"{'text': ['นักแสดงหญิงชาวไทย'], 'answer_start'...",iapp,09fc57198420c10d8cd67154a154cca37fdcde53ec894a...,Phatthira Saruritphong Phokin (born 3 December...,Phatthira Saruritphong Phokin (เกิด 3 ธันวาคม ...
3,พัทธ์ธีรา ศรุติพงศ์โภคิน จบการศึกษาจากประเทศอะไร?,พัทธ์ธีรา ศรุติพงศ์โภคิน (เกิด 3 ธันวาคม พ.ศ. ...,"{'text': ['ประเทศนิวซีแลนด์'], 'answer_start':...",iapp,7b2f336d3dbc29c6fb1edf7f4988f968ed0a1272fe8aff...,Phatthira Saruritphong Phokin (born 3 December...,Phatthira Saruritphong Phokin (เกิด 3 ธันวาคม ...
4,บิดาของคลีโอพัตราเป็นใคร?,คลีโอพัตราที่ 7 ฟิโลพาเธอร์ (กรีก: Κλεοπάτρα θ...,"{'text': ['ทอเลมีที่ 12 ออเลติส'], 'answer_sta...",iapp,50c66c986cdf19b60f36da1b89137a6ceb4f11aa9ed0e9...,คลีโอพัตราที่ 7 ฟิโลพาเธอร์ (กรีก: Κλεοπάτρα θ...,คลีโอพัตรา 7 ฟิโลพาเธอร์ (กรีก: κλεοπάτραθεάφι...
...,...,...,...,...,...,...,...
16975,หนังสือการ์ตูนชานะ นักรบเนตรอัคคี มีกี่เล่ม?,นิยาย ชานะ นักรบเนตรอัคคี แต่งโดย ยาชิจิโร ทาค...,"{'text': ['22', '26'], 'answer_start': [267, 9...",tydiqa,e780cc4812dd88f21ec7f0152905b15588d1a6faab66d2...,"Fire Warrior Fire Warrior, decorated by Yachij...",นักรบดับเพลิงดับเพลิงตกแต่งโดย Yachijiro Takah...
16976,ไบโอช็อก อินฟินิต เปิดตัวครั้งแรกเมื่อไหร่?,ไบโอช็อก อินฟินิต (English: BioShock Infinite)...,"{'text': ['26 มีนาคม พ.ศ. 2556', '26 มีนาคม พ....",tydiqa,dd424979403f3909773a832c4d83818e564fe7bfeb4f38...,Bioshock Infinite is a videos of the first per...,BioShock Infinite เป็นวิดีโอของบุคคลแรกที่ถ่าย...
16977,ยู ซึง-โฮ เริ่มเข้าวงการบันเทิงเมื่อไหร่?,ยู ซึง-โฮเดบิวต์เมื่อปี 1999 กับผลงานโฆษณาของ ...,"{'text': ['ปี 1999', '1999'], 'answer_start': ...",tydiqa,d131cf44b5a08630e822cbf4c33576a434095f6ff4184f...,Yoo Seung-Ho Debut in 1999 with the advertisem...,Yoo Seung-ho เปิดตัวในปี 1999 ด้วยการโฆษณาของ ...
16978,นภัทร อินทร์ใจเอื้อมีมารดาชื่อว่าอะไร?,กันเกิดเมื่อวันที่ 23 ตุลาคม พ.ศ. 2533 จังหวัด...,"{'text': ['นางวรรณา อินทร์ใจเอื้อ', 'นางวรรณา ...",tydiqa,5e2f4e69eb82918a55969ec99b1c93ae469c264c81c77a...,"Born on 23 October 1990, Suphan Buri Province ...",เกิดเมื่อวันที่ 23 ตุลาคม 2533 มณฑลซูฟานบุริเป...


In [7]:
assert backtranslated.isnull().sum().sum() == 0

## Clean Up Back Translation

In [8]:
# To ensure that the back translation questions are normalized / cleaned, we will use the `clean_text` function from `utils.py` to clean up the back translation.
backtranslated["en_aug"] = backtranslated["en_aug"].apply(lambda x: clean_text(x, is_question=True))
backtranslated["th_aug"] = backtranslated["th_aug"].apply(lambda x: clean_text(x, is_question=True))

  soup = BeautifulSoup(text, 'lxml')
  soup = BeautifulSoup(text, 'lxml')


In [9]:
backtranslated

Unnamed: 0,question,context,answers,source,id,en_aug,th_aug
0,พัทธ์ธีรา ศรุติพงศ์โภคิน เกิดวันที่เท่าไร?,พัทธ์ธีรา ศรุติพงศ์โภคิน (เกิด 3 ธันวาคม พ.ศ. ...,"{'text': ['3 ธันวาคม พ.ศ. 2533'], 'answer_star...",iapp,82c589fda5d3007be968f303e04a9ac58953299a64a5be...,Phatthira Saruritphong Phokin (born 3 December...,Phatthira Saruritphong Phokin (เกิด 3 ธันวาคม ...
1,พัทธ์ธีรา ศรุติพงศ์โภคิน มีฃื่อเล่นว่าอะไร?,พัทธ์ธีรา ศรุติพงศ์โภคิน (เกิด 3 ธันวาคม พ.ศ. ...,"{'text': ['อร'], 'answer_start': [68], 'answer...",iapp,6483e513603bd34b6f23a5fbe9e1c1db194ce4f4365a69...,Phatthira Saruritphong Phokin (born 3 December...,Phatthira Saruritphong Phokin (เกิด 3 ธันวาคม ...
2,พัทธ์ธีรา ศรุติพงศ์โภคิน ทำอาชีพอะไร?,พัทธ์ธีรา ศรุติพงศ์โภคิน (เกิด 3 ธันวาคม พ.ศ. ...,"{'text': ['นักแสดงหญิงชาวไทย'], 'answer_start'...",iapp,09fc57198420c10d8cd67154a154cca37fdcde53ec894a...,Phatthira Saruritphong Phokin (born 3 December...,Phatthira Saruritphong Phokin (เกิด 3 ธันวาคม ...
3,พัทธ์ธีรา ศรุติพงศ์โภคิน จบการศึกษาจากประเทศอะไร?,พัทธ์ธีรา ศรุติพงศ์โภคิน (เกิด 3 ธันวาคม พ.ศ. ...,"{'text': ['ประเทศนิวซีแลนด์'], 'answer_start':...",iapp,7b2f336d3dbc29c6fb1edf7f4988f968ed0a1272fe8aff...,Phatthira Saruritphong Phokin (born 3 December...,Phatthira Saruritphong Phokin (เกิด 3 ธันวาคม ...
4,บิดาของคลีโอพัตราเป็นใคร?,คลีโอพัตราที่ 7 ฟิโลพาเธอร์ (กรีก: Κλεοπάτρα θ...,"{'text': ['ทอเลมีที่ 12 ออเลติส'], 'answer_sta...",iapp,50c66c986cdf19b60f36da1b89137a6ceb4f11aa9ed0e9...,คลีโอพัตราที่ 7 ฟิโลพาเธอร์ (กรีก: Κλεοπάτρα θ...,คลีโอพัตรา 7 ฟิโลพาเธอร์ (กรีก: κλεοπάτραθεάφι...
...,...,...,...,...,...,...,...
16975,หนังสือการ์ตูนชานะ นักรบเนตรอัคคี มีกี่เล่ม?,นิยาย ชานะ นักรบเนตรอัคคี แต่งโดย ยาชิจิโร ทาค...,"{'text': ['22', '26'], 'answer_start': [267, 9...",tydiqa,e780cc4812dd88f21ec7f0152905b15588d1a6faab66d2...,"Fire Warrior Fire Warrior, decorated by Yachij...",นักรบดับเพลิงดับเพลิงตกแต่งโดย Yachijiro Takah...
16976,ไบโอช็อก อินฟินิต เปิดตัวครั้งแรกเมื่อไหร่?,ไบโอช็อก อินฟินิต (English: BioShock Infinite)...,"{'text': ['26 มีนาคม พ.ศ. 2556', '26 มีนาคม พ....",tydiqa,dd424979403f3909773a832c4d83818e564fe7bfeb4f38...,Bioshock Infinite is a videos of the first per...,BioShock Infinite เป็นวิดีโอของบุคคลแรกที่ถ่าย...
16977,ยู ซึง-โฮ เริ่มเข้าวงการบันเทิงเมื่อไหร่?,ยู ซึง-โฮเดบิวต์เมื่อปี 1999 กับผลงานโฆษณาของ ...,"{'text': ['ปี 1999', '1999'], 'answer_start': ...",tydiqa,d131cf44b5a08630e822cbf4c33576a434095f6ff4184f...,Yoo Seung-Ho Debut in 1999 with the advertisem...,Yoo Seung-ho เปิดตัวในปี 1999 ด้วยการโฆษณาของ ...
16978,นภัทร อินทร์ใจเอื้อมีมารดาชื่อว่าอะไร?,กันเกิดเมื่อวันที่ 23 ตุลาคม พ.ศ. 2533 จังหวัด...,"{'text': ['นางวรรณา อินทร์ใจเอื้อ', 'นางวรรณา ...",tydiqa,5e2f4e69eb82918a55969ec99b1c93ae469c264c81c77a...,"Born on 23 October 1990, Suphan Buri Province ...",เกิดเมื่อวันที่ 23 ตุลาคม 2533 มณฑลซูฟานบุริเป...


## Save Backtranslated Dataset

In [10]:
backtranslated.to_csv("data/02_backtranslate_english.csv", index=False)

In [12]:
backtranslated[["context", "en_aug", "th_aug"]].drop_duplicates().to_csv("data/03_augment_llm_input.csv", index=False)

In [16]:
backtranslated.iloc[1000]["en_aug"]

'Professor Dusit Kreangam (born 5 September 1958) is a committee on the Energy Reform Commission. Member of the National Reform Steering Assembly in the government of General Prayut Chan -ocha, former professor of electrical engineering Faculty of Engineering Chulalongkorn University Is an expert in solar cell technology A businessman designed and constructing tens of tens of megawatt solar farms There are many works, both academic and industrial. Currently, it is a director of the company. Thai Solar Farmer Limited President of the Thai Solar Cell Industry Association After the coup in Thailand 2014 was appointed as Members of the National Reform Council and the Board of Directors in the Energy Reform Committee?'