Translate to the following languages:
- en
- tl
- vi
- th
- zh

for zero-shot languages:
- bn
- fa
- gu
- mr
- pa
- no
- si
- sq
- ru
- az
- pt
- nl
- fr

In [1]:
target_lang = "zh"

In [2]:
from google.cloud import translate

BatchTranslateTextRequest = translate.BatchTranslateTextRequest
# Initialize Translation client
def translate_text(
    text: list[str] = ["YOUR_TEXT_TO_TRANSLATE"], project_id: str = "YOUR_PROJECT_ID", target_language_code: str = "tl"
) -> translate.TranslationServiceClient:
    """Translating Text."""

    client = translate.TranslationServiceClient()

    location = "global"

    parent = f"projects/{project_id}/locations/{location}"

    # Translate text from English to French
    # Detail on supported types can be found here:
    # https://cloud.google.com/translate/docs/supported-formats
    response = client.translate_text(
        request={
            "parent": parent,
            "contents": text,
            "mime_type": "text/plain",  # mime types: text/plain, text/html
            "target_language_code": target_language_code,
        }
    )

    return response

In [3]:
import pandas as pd

train_df = pd.read_csv("xlm_fakenews/train_augmented.tsv", sep="\t")

In [4]:
train_list = train_df["claim"].to_list()

In [5]:
train_list

['Son 50 yılın siyasi tarihine bakın, tek başına iktidarlardaki Türkiye’nin büyüme oranı, koalisyon dönemlerindekinin iki katıdır.',
 'ევროპული ღირებულებები - იტალიის სამაშველო სამსახურებს მიგრანტების ჩაძირული გემების დახმარება აეკრძ...',
 'Aqui em São Paulo, nós estamos com 2,7 milhões de pessoas vivendo com os tais R$ 600 que viraram R$ 300 [do auxílio emergencial]',
 'ირაკლი ხახუბია, "ნაციონალური მოძრაობის" სპონსორი, დღეს "ოცნებაშია" გადაბარგებული',
 'Zumi Zola Jalan-Jalan Di Bandara Soekarno-Hatta',
 'No Twitter, o PSD escreve que a taxa de desemprego em Portugal está n......',
 '„U prvim mesecima 2011. godine imamo odlične pokazatelje izvoza poljoprivrednih proizvoda iz Srbije, koji je za 40 odsto veći nego prošle godine.“',
 'Quanto spendono Italia ed Europa per l’immigrazione',
 "Video “DETIK DETIK MA'RUF AMIN MUNDUR & DIGANTI DENGAN PRABOWO SEBAGAI WAKIL PRESIDEN DAMPINGI JOKOWI”",
 'Alfamart Menyumbangkan 6000 Kupon Untuk Membantu Melawan COVID-19',
 'Rhein-Neckar-Bahn: Asylbe

In [6]:
from torch.utils.data import DataLoader

In [7]:
batcher = DataLoader(train_list, batch_size=32, shuffle=False)

In [8]:
from tqdm import tqdm

augmented_texts = []
for batch in tqdm(batcher):
    translated_text = translate_text(batch, "trusty-moment-407614", target_lang)
    texts = [translation.translated_text for translation in translated_text.translations]
    augmented_texts.extend(texts)

  0%|          | 0/566 [00:00<?, ?it/s]

100%|██████████| 566/566 [16:06<00:00,  1.71s/it]


In [15]:
augmented_texts

['看看过去50年的政治历史，单一政府时期的土耳其经济增长率是联合政府时期的两倍。',
 '欧洲价值观——意大利救援服务被禁止帮助沉没的移民船只……',
 '在圣保罗，我们有 270 万人的生活费由 600 雷亚尔变成了 300 雷亚尔（紧急援助）',
 '“民族运动”发起人伊拉克利·哈胡比亚如今“在梦中”',
 '祖米·佐拉 (Zumi Zola) 在苏加诺-哈达机场散步',
 'PSD 在推特上写道，葡萄牙的失业率为......',
 '“2011年头几个月，塞尔维亚农产品出口指标非常出色，比去年增长了40%。”',
 '意大利和欧洲在移民上花费了多少',
 '视频“德蒂克·德蒂克·马鲁夫·阿明返回并由普拉博沃接替，担任佐科威陪同的副总统”',
 'Alfamart 捐赠 6000 张优惠券以帮助抗击 COVID-19',
 '莱茵-内卡铁路：寻求庇护者免费出行',
 '社交媒体上流传一份出版物，谴责葡萄牙......',
 '看到“马诺尔大师”的传说在我们贫穷的国家一次又一次地被应用，我的灵魂受到了伤害！我们工作了 5 年才达到 c [...]',
 '我国无籽葡萄干出口量占世界的45%...',
 '“今天存在的人不是音乐家。只有音乐对我来说。我这么说并不是为了骄傲”——Ilayaraja。',
 '80%波兹南居民都是天主教徒。',
 '我们通过检查增长和失业数据来审视我们的整个历史。并基于 TURKSTAT 数据。事实证明，除去1975-80年时期，我们留下的2015-2020年时期是土耳其历史上最糟糕的5年。',
 '冠状病毒含有HIV成分，因此是在实验室制造的',
 '汽车出口外汇流量从7亿减少到1.8亿',
 '“没有必要担心汇率问题。”',
 '库里蒂巴疫情期间关闭了 37 个卫生中心',
 '“FPI 和 BANSER 突击搜查了 PDIP 办公室。不受共产党的监管”',
 'Facebook 的一篇帖子称，该病毒导致......',
 '“但我承认我不了解政治，也不知道如何回应毫无意义的指控，同时，没有人对我说我管理这座城市的坏话，没有人告诉我我认为一些投标被操纵了，一些错误的投资被做出了。”',
 '俄罗斯在海牙引用莎乐美·祖拉比什维利的书作为反对格鲁吉亚的论据',
 '在喀拉拉邦印度航空快运飞机失事中丧生的机长 Deepak Sathe 

In [14]:
import pandas as pd

In [16]:
train_df.head()

Unnamed: 0,claim,label,augmented_en,augmented_tl,augmented_vi,augmented_th,augmented_zh
0,"Son 50 yılın siyasi tarihine bakın, tek başına...",false,Look at the political history of the last 50 y...,Tingnan ang kasaysayang pampulitika sa nakalip...,"Nhìn vào lịch sử chính trị 50 năm qua, tốc độ ...",ดูประวัติศาสตร์การเมืองในช่วง 50 ปีที่ผ่านมา อ...,看看过去50年的政治历史，单一政府时期的土耳其经济增长率是联合政府时期的两倍。
1,ევროპული ღირებულებები - იტალიის სამაშველო სამს...,partly true/misleading,European values ​​- Italian rescue services ar...,Mga halaga sa Europa - Ipinagbabawal ang mga s...,Giá trị châu Âu - Dịch vụ cứu hộ của Ý bị cấm ...,ค่านิยมยุโรป - ห้ามไม่ให้หน่วยกู้ภัยของอิตาลีช...,欧洲价值观——意大利救援服务被禁止帮助沉没的移民船只……
2,"Aqui em São Paulo, nós estamos com 2,7 milhões...",partly true/misleading,"Here in São Paulo, we have 2.7 million people ...","Dito sa São Paulo, mayroon kaming 2.7 milyong ...","Tại São Paulo, chúng tôi có 2,7 triệu người số...",ที่นี่ในเซาเปาโล เรามีผู้คน 2.7 ล้านคนที่อาศัย...,在圣保罗，我们有 270 万人的生活费由 600 雷亚尔变成了 300 雷亚尔（紧急援助）
3,"ირაკლი ხახუბია, ""ნაციონალური მოძრაობის"" სპონსო...",true,"Irakli Khakhubia, the sponsor of the ""National...","Si Irakli Khakhubia, ang sponsor ng ""National ...","Irakli Khakhubia, người bảo trợ cho “Phong trà...",อิราคลี คาคูเบีย ผู้สนับสนุน “ขบวนการแห่งชาติ”...,“民族运动”发起人伊拉克利·哈胡比亚如今“在梦中”
4,Zumi Zola Jalan-Jalan Di Bandara Soekarno-Hatta,false,Zumi Zola Takes a Walk at Soekarno-Hatta Airport,Naglalakad si Zumi Zola sa Soekarno-Hatta Airport,Zumi Zola đi dạo tại sân bay Soekarno-Hatta,Zumi Zola เดินเล่นที่สนามบิน Soekarno-Hatta,祖米·佐拉 (Zumi Zola) 在苏加诺-哈达机场散步


In [17]:
train_df['augmented_'+target_lang] = augmented_texts

In [18]:
train_df.head()

Unnamed: 0,claim,label,augmented_en,augmented_tl,augmented_vi,augmented_th,augmented_zh
0,"Son 50 yılın siyasi tarihine bakın, tek başına...",false,Look at the political history of the last 50 y...,Tingnan ang kasaysayang pampulitika sa nakalip...,"Nhìn vào lịch sử chính trị 50 năm qua, tốc độ ...",ดูประวัติศาสตร์การเมืองในช่วง 50 ปีที่ผ่านมา อ...,看看过去50年的政治历史，单一政府时期的土耳其经济增长率是联合政府时期的两倍。
1,ევროპული ღირებულებები - იტალიის სამაშველო სამს...,partly true/misleading,European values ​​- Italian rescue services ar...,Mga halaga sa Europa - Ipinagbabawal ang mga s...,Giá trị châu Âu - Dịch vụ cứu hộ của Ý bị cấm ...,ค่านิยมยุโรป - ห้ามไม่ให้หน่วยกู้ภัยของอิตาลีช...,欧洲价值观——意大利救援服务被禁止帮助沉没的移民船只……
2,"Aqui em São Paulo, nós estamos com 2,7 milhões...",partly true/misleading,"Here in São Paulo, we have 2.7 million people ...","Dito sa São Paulo, mayroon kaming 2.7 milyong ...","Tại São Paulo, chúng tôi có 2,7 triệu người số...",ที่นี่ในเซาเปาโล เรามีผู้คน 2.7 ล้านคนที่อาศัย...,在圣保罗，我们有 270 万人的生活费由 600 雷亚尔变成了 300 雷亚尔（紧急援助）
3,"ირაკლი ხახუბია, ""ნაციონალური მოძრაობის"" სპონსო...",true,"Irakli Khakhubia, the sponsor of the ""National...","Si Irakli Khakhubia, ang sponsor ng ""National ...","Irakli Khakhubia, người bảo trợ cho “Phong trà...",อิราคลี คาคูเบีย ผู้สนับสนุน “ขบวนการแห่งชาติ”...,“民族运动”发起人伊拉克利·哈胡比亚如今“在梦中”
4,Zumi Zola Jalan-Jalan Di Bandara Soekarno-Hatta,false,Zumi Zola Takes a Walk at Soekarno-Hatta Airport,Naglalakad si Zumi Zola sa Soekarno-Hatta Airport,Zumi Zola đi dạo tại sân bay Soekarno-Hatta,Zumi Zola เดินเล่นที่สนามบิน Soekarno-Hatta,祖米·佐拉 (Zumi Zola) 在苏加诺-哈达机场散步


In [13]:
train_df.to_csv("xlm_fakenews/train_augmented.tsv", sep="\t", index=False)

In [1]:
import pandas as pd

train_df = pd.read_csv("xlm_fakenews/train_augmented.tsv", sep="\t")