In [1]:
import os
from dataclasses import dataclass
import torch
import numpy as np
import math
from tqdm import tqdm
import json 
import pandas as pd

from src.tokenizers.bpe.eng import MyBPETokenizer
from src.tokenizers.bpe.indic import IndicBPETokenizer
from src.components import TransformerMT as selftx
from src.torchlayers import TransformerMT as torchtx

In [2]:
def translate_batch(model, eng_tokenizer, indic_tokenizer, english_texts, device='cuda', verbose=False):

    # all texts to sequences at once
    english_ids = eng_tokenizer.texts_to_sequences(english_texts)
    english_tensor = torch.tensor(english_ids, device=device)
    
    with torch.no_grad():
        # generate translations for the entire batch from model.generate
        translation_ids = model.generate(english_tensor, max_length=20, temperature=0.0)
    
    if verbose:
        print(f"Batch size: {len(english_texts)}")
        print(f"Generated shape: {translation_ids.shape}")

    # decode from indic_detokenizer
    translation_array = translation_ids.cpu().numpy()
    indic_texts = indic_tokenizer.sequences_to_texts(translation_array)
    
    return indic_texts

In [3]:
test_data = json.load(open(os.path.join("data", "raw", "val_data1.json")))

### ENG 2 HINDI

In [9]:
sorted(os.listdir("checkpoints/eng_hindi"))

['exp3-eng-hindi-transformer',
 'exp4-eng-hindi-transformer-built-in',
 'exp5-eng-hindi-transformer-built-in-bpe']

In [5]:
@dataclass
class TransformerConfig:
    SRC_VOCAB_SIZE: int = 20_000                      # source vocabulary size
    TGT_VOCAB_SIZE: int = 20_000                      # target vocabulary size
    SRC_MAX_LENGTH: int = 256                         # max sequence length source lang
    TGT_MAX_LENGTH: int = 256                         # max sequence length target lang
    D_MODEL: int = 128                                # embedding dimension
    N_HEADS: int = 4                                  # number of heads in attention
    N_LAYERS: int = 6                                 # number of transformer blocks
    D_FF: int = 128 * 4                               # dimension of feedforward (4x of embedding dims)
    MAX_SEQ_LEN: int = 256
    DROPOUT: float = 0.1
    BATCH_SIZE: int = 32
    EVAL_STEPS: int = 250
    EPOCHS: int = 10

In [13]:
config = TransformerConfig()

In [14]:
hindi_checkpoint_path = os.path.join("checkpoints", "eng_hindi", "exp5-eng-hindi-transformer-built-in-bpe")
checkpoint = torch.load(os.path.join(hindi_checkpoint_path, "tx_epoch_10_step_22500.pt"), weights_only=False)

In [15]:
# eng tokenizer
eng_tokenizer = MyBPETokenizer(config.SRC_VOCAB_SIZE)
eng_tokenizer = eng_tokenizer.load_tokenizer("tokenizers/english_shared_bpe_20000_256.pkl")

loaded tokenizer from tokenizers/english_shared_bpe_20000_256.pkl


In [18]:
# indic tokenizer
hi_tokenizer = IndicBPETokenizer()
hi_tokenizer= hi_tokenizer.load_tokenizer("tokenizers/hindi_bpe_20000_256.pkl")

loaded tokenizer from tokenizers/hindi_bpe_20000_256.pkl


In [16]:
model_config = checkpoint['model_config']
model = torchtx(**model_config)
model.to('cuda')
model.load_state_dict(checkpoint['model_state_dict'])

<All keys matched successfully>

In [19]:
translation = translate_batch(model, eng_tokenizer, hi_tokenizer, english_texts=["Hi"] , device='cuda')

converting texts: 100%|████████████████████████████████████████████████████| 1/1 [00:00<00:00, 11491.24it/s]
  output = torch._nested_tensor_from_mask(


In [22]:
hindi_output = pd.DataFrame()
ids = []
texts = []
for id_, entry in test_data['English-Hindi']['Validation'].items():
    ids.append(id_)
    texts.append(entry['source'])

print(f"Total samples: {len(texts)}")
print(f"Processing in batches of {32}")

all_translations = []
for i in tqdm(range(0, len(texts), 32), desc="Processing batches"):
    batch_texts = texts[i:i+32]
    batch_translations = translate_batch(model, eng_tokenizer, hi_tokenizer, batch_texts, device='cuda')
    all_translations.extend(batch_translations)

# gather in df
hindi_output['ID'] = ids
hindi_output['Translation'] = all_translations

Total samples: 11543
Processing in batches of 32


Processing batches:   0%|                                                           | 0/361 [00:00<?, ?it/s]
converting texts: 100%|███████████████████████████████████████████████████████| 1/1 [00:00<00:00, 96.42it/s][A
Processing batches:   0%|▏                                                  | 1/361 [00:00<01:29,  4.01it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 234.10it/s][A
Processing batches:   1%|▎                                                  | 2/361 [00:00<01:27,  4.09it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 143.44it/s][A
Processing batches:   1%|▍                                                  | 3/361 [00:00<01:27,  4.09it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 164.12it/s][A
Processing batches:   1%|▌                                                  | 4/361 [00:00<01:27,  4.10it/s]
convert

Processing batches:  10%|█████                                             | 37/361 [00:09<01:19,  4.06it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 175.30it/s][A
Processing batches:  11%|█████▎                                            | 38/361 [00:09<01:19,  4.07it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 163.57it/s][A
Processing batches:  11%|█████▍                                            | 39/361 [00:09<01:19,  4.07it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 154.90it/s][A
Processing batches:  11%|█████▌                                            | 40/361 [00:09<01:18,  4.07it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 117.58it/s][A
Processing batches:  11%|█████▋                                            | 41/361 [00:10<01:18,  4.05it/s]
convert

Processing batches:  20%|██████████▏                                       | 74/361 [00:18<01:10,  4.07it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 119.68it/s][A
Processing batches:  21%|██████████▍                                       | 75/361 [00:18<01:09,  4.09it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 137.11it/s][A
Processing batches:  21%|██████████▌                                       | 76/361 [00:18<01:09,  4.09it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 129.39it/s][A
Processing batches:  21%|██████████▋                                       | 77/361 [00:18<01:09,  4.07it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 109.13it/s][A
Processing batches:  22%|██████████▊                                       | 78/361 [00:19<01:09,  4.06it/s]
convert

Processing batches:  31%|███████████████                                  | 111/361 [00:27<01:01,  4.09it/s]
converting texts: 100%|███████████████████████████████████████████████████████| 1/1 [00:00<00:00, 90.45it/s][A
Processing batches:  31%|███████████████▏                                 | 112/361 [00:27<01:00,  4.08it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 122.53it/s][A
Processing batches:  31%|███████████████▎                                 | 113/361 [00:27<01:00,  4.09it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 109.16it/s][A
Processing batches:  32%|███████████████▍                                 | 114/361 [00:27<01:00,  4.08it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 133.85it/s][A
Processing batches:  32%|███████████████▌                                 | 115/361 [00:28<00:59,  4.10it/s]
convert

Processing batches:  41%|████████████████████                             | 148/361 [00:36<00:52,  4.05it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 138.33it/s][A
Processing batches:  41%|████████████████████▏                            | 149/361 [00:36<00:52,  4.07it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 132.91it/s][A
Processing batches:  42%|████████████████████▎                            | 150/361 [00:36<00:51,  4.08it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 142.85it/s][A
Processing batches:  42%|████████████████████▍                            | 151/361 [00:37<00:51,  4.08it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 169.61it/s][A
Processing batches:  42%|████████████████████▋                            | 152/361 [00:37<00:51,  4.08it/s]
convert

Processing batches:  51%|█████████████████████████                        | 185/361 [00:45<00:43,  4.04it/s]
converting texts: 100%|███████████████████████████████████████████████████████| 1/1 [00:00<00:00, 93.89it/s][A
Processing batches:  52%|█████████████████████████▏                       | 186/361 [00:45<00:43,  4.06it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 120.14it/s][A
Processing batches:  52%|█████████████████████████▍                       | 187/361 [00:45<00:42,  4.09it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 147.18it/s][A
Processing batches:  52%|█████████████████████████▌                       | 188/361 [00:46<00:42,  4.09it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 155.52it/s][A
Processing batches:  52%|█████████████████████████▋                       | 189/361 [00:46<00:41,  4.10it/s]
convert

Processing batches:  61%|██████████████████████████████▏                  | 222/361 [00:53<00:31,  4.47it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 100.05it/s][A
Processing batches:  62%|██████████████████████████████▎                  | 223/361 [00:53<00:30,  4.46it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 147.98it/s][A
Processing batches:  62%|██████████████████████████████▍                  | 224/361 [00:53<00:30,  4.47it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 113.17it/s][A
Processing batches:  62%|██████████████████████████████▌                  | 225/361 [00:54<00:30,  4.52it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 126.51it/s][A
Processing batches:  63%|██████████████████████████████▋                  | 226/361 [00:54<00:29,  4.64it/s]
convert

Processing batches:  72%|███████████████████████████████████▏             | 259/361 [01:01<00:22,  4.55it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 174.68it/s][A
Processing batches:  72%|███████████████████████████████████▎             | 260/361 [01:01<00:21,  4.67it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 138.67it/s][A
Processing batches:  72%|███████████████████████████████████▍             | 261/361 [01:01<00:21,  4.71it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 115.56it/s][A
Processing batches:  73%|███████████████████████████████████▌             | 262/361 [01:01<00:21,  4.67it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 145.22it/s][A
Processing batches:  73%|███████████████████████████████████▋             | 263/361 [01:02<00:19,  4.91it/s]
convert

Processing batches:  82%|████████████████████████████████████████▏        | 296/361 [01:10<00:15,  4.08it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 110.22it/s][A
Processing batches:  82%|████████████████████████████████████████▎        | 297/361 [01:10<00:15,  4.09it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 129.74it/s][A
Processing batches:  83%|████████████████████████████████████████▍        | 298/361 [01:10<00:15,  4.11it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 127.24it/s][A
Processing batches:  83%|████████████████████████████████████████▌        | 299/361 [01:10<00:15,  4.12it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 121.23it/s][A
Processing batches:  83%|████████████████████████████████████████▋        | 300/361 [01:11<00:14,  4.11it/s]
convert

Processing batches:  92%|█████████████████████████████████████████████▏   | 333/361 [01:19<00:06,  4.09it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 121.54it/s][A
Processing batches:  93%|█████████████████████████████████████████████▎   | 334/361 [01:19<00:06,  4.08it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 142.11it/s][A
Processing batches:  93%|█████████████████████████████████████████████▍   | 335/361 [01:19<00:06,  4.07it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 138.43it/s][A
Processing batches:  93%|█████████████████████████████████████████████▌   | 336/361 [01:19<00:06,  4.02it/s]
converting texts: 100%|██████████████████████████████████████████████████████| 1/1 [00:00<00:00, 141.27it/s][A
Processing batches:  93%|█████████████████████████████████████████████▋   | 337/361 [01:20<00:05,  4.03it/s]
convert

In [63]:
ix = np.random.choice(list(test_data['English-Hindi']['Validation'].keys()))
print(ix)
print(test_data['English-Hindi']['Validation'].get(ix))
print(hindi_output.loc[hindi_output['ID'] == ix]['Translation'].values[0])

506047
{'source': 'In response to a question , she said that beauty is in the eyes of the onlookers .'}
यह प्रक्रिया उस बात पर कहा जाता है कि वह


### ENG 2 BENGALI

In [65]:
@dataclass
class TransformerConfig:
    SRC_VOCAB_SIZE: int = 20_000                      # source vocabulary size
    TGT_VOCAB_SIZE: int = 20_000                      # target vocabulary size
    SRC_MAX_LENGTH: int = 256                         # max sequence length source lang
    TGT_MAX_LENGTH: int = 256                         # max sequence length target lang
    D_MODEL: int = 256                                # embedding dimension
    N_HEADS: int = 4                                  # number of heads in attention
    N_LAYERS: int = 6                                 # number of transforme~r blocks
    D_FF: int = 256 * 4                               # dimension of feedforward (4x of embedding dims)
    MAX_SEQ_LEN: int = 256
    DROPOUT: float = 0.1
    BATCH_SIZE: int = 32
    EVAL_STEPS: int = 250
    EPOCHS: int = 10

In [66]:
bengali_checkpoint_path = os.path.join("checkpoints", "eng_bengali", "exp5-eng-bengali-transformer-built-in-bpe")
checkpoint = torch.load(os.path.join(bengali_checkpoint_path, "tx_epoch_10_step_19000.pt"), weights_only=False)

In [67]:
# indic tokenizer
be_tokenizer = IndicBPETokenizer()
be_tokenizer= hi_tokenizer.load_tokenizer("tokenizers/bengali_bpe_20000_256.pkl")

loaded tokenizer from tokenizers/bengali_bpe_20000_256.pkl


In [68]:
model_config = checkpoint['model_config']
model = torchtx(**model_config)
model.to('cuda')
model.load_state_dict(checkpoint['model_state_dict'])

<All keys matched successfully>

In [70]:
translation = translate_batch(model, eng_tokenizer, be_tokenizer, english_texts=["Hi"] , device='cuda')

converting texts: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 7943.76it/s]


In [72]:
bengali_output = pd.DataFrame()
ids = []
texts = []
for id_, entry in test_data['English-Bengali']['Validation'].items():
    ids.append(id_)
    texts.append(entry['source'])

print(f"Total samples: {len(texts)}")
print(f"Processing in batches of {32}")

all_translations = []
for i in tqdm(range(0, len(texts), 32), desc="Processing batches"):
    batch_texts = texts[i:i+32]
    batch_translations = translate_batch(model, eng_tokenizer, be_tokenizer, batch_texts, device='cuda')
    all_translations.extend(batch_translations)

bengali_output['ID'] = ids
bengali_output['Translation'] = all_translations

Total samples: 9836
Processing in batches of 32


Processing batches:   0%|                                                                                                                           | 0/308 [00:00<?, ?it/s]
converting texts: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 82.14it/s][A
Processing batches:   0%|▎                                                                                                                  | 1/308 [00:00<00:31,  9.80it/s]
converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 242.36it/s][A

converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 221.91it/s][A
Processing batches:   1%|█                                                                                                   

converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 235.56it/s][A
Processing batches:  10%|███████████▍                                                                                                      | 31/308 [00:02<00:25, 11.03it/s]
converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 171.82it/s][A

converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 171.80it/s][A
Processing batches:  11%|████████████▏                                                                                                     | 33/308 [00:02<00:25, 10.91it/s]
converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████

Processing batches:  19%|██████████████████████▏                                                                                           | 60/308 [00:05<00:25,  9.69it/s]
converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 133.76it/s][A
Processing batches:  20%|██████████████████████▌                                                                                           | 61/308 [00:05<00:25,  9.67it/s]
converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 149.55it/s][A
Processing batches:  20%|██████████████████████▉                                                                                           | 62/308 [00:05<00:25,  9.73it/s]
converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████

Processing batches:  27%|██████████████████████████████▋                                                                                   | 83/308 [00:07<00:23,  9.63it/s]
converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 125.26it/s][A
Processing batches:  27%|███████████████████████████████                                                                                   | 84/308 [00:08<00:23,  9.60it/s]
converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 113.17it/s][A
Processing batches:  28%|███████████████████████████████▍                                                                                  | 85/308 [00:08<00:23,  9.56it/s]
converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████

converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 128.42it/s][A
Processing batches:  35%|███████████████████████████████████████▌                                                                         | 108/308 [00:10<00:20,  9.64it/s]
converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 149.78it/s][A
Processing batches:  35%|███████████████████████████████████████▉                                                                         | 109/308 [00:10<00:20,  9.68it/s]
converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 113.51it/s][A
Processing batches:  36%|████████████████████████████████████████▎                                                            

Processing batches:  43%|████████████████████████████████████████████████▍                                                                | 132/308 [00:13<00:19,  9.07it/s]
converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 141.85it/s][A

converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 153.22it/s][A
Processing batches:  44%|█████████████████████████████████████████████████▏                                                               | 134/308 [00:13<00:18,  9.52it/s]
converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 139.55it/s][A

converting texts: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████

converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 201.00it/s][A
Processing batches:  52%|███████████████████████████████████████████████████████████                                                      | 161/308 [00:15<00:13, 10.93it/s]
converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 234.17it/s][A

converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 178.26it/s][A
Processing batches:  53%|███████████████████████████████████████████████████████████▊                                                     | 163/308 [00:15<00:13, 10.87it/s]
converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████

Processing batches:  62%|██████████████████████████████████████████████████████████████████████                                           | 191/308 [00:18<00:11,  9.94it/s]
converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 127.44it/s][A
Processing batches:  62%|██████████████████████████████████████████████████████████████████████▍                                          | 192/308 [00:18<00:11,  9.90it/s]
converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 129.03it/s][A

converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 133.47it/s][A
Processing batches:  63%|███████████████████████████████████████████████████████████████████████▏                            

converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 121.91it/s][A
Processing batches:  72%|█████████████████████████████████████████████████████████████████████████████████                                | 221/308 [00:21<00:08, 10.29it/s]
converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 131.16it/s][A

converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 162.31it/s][A
Processing batches:  72%|█████████████████████████████████████████████████████████████████████████████████▊                               | 223/308 [00:21<00:08, 10.21it/s]
converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████

Processing batches:  81%|████████████████████████████████████████████████████████████████████████████████████████████                     | 251/308 [00:24<00:05, 10.77it/s]
converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 218.78it/s][A

converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 186.48it/s][A
Processing batches:  82%|████████████████████████████████████████████████████████████████████████████████████████████▊                    | 253/308 [00:24<00:05, 10.91it/s]
converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 208.71it/s][A

converting texts: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████

converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 114.88it/s][A
Processing batches:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎          | 279/308 [00:27<00:03,  9.52it/s]
converting texts: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 99.81it/s][A
Processing batches:  91%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋          | 280/308 [00:27<00:02,  9.34it/s]
converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 116.53it/s][A
Processing batches:  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████

converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 101.48it/s][A
Processing batches:  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▊  | 302/308 [00:29<00:00,  9.25it/s]
converting texts: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 150.63it/s][A
Processing batches:  98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 303/308 [00:29<00:00,  9.13it/s]
converting texts: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 92.05it/s][A
Processing batches:  99%|█████████████████████████████████████████████████████████████████████████████████████████████████████

## Final output for submission

In [73]:
import csv

In [74]:
output = pd.concat([bengali_output, hindi_output]).reset_index(drop=True)

In [75]:
# output['Translation'] = output['Translation'].str.replace(",", "")

In [76]:
output.to_csv(
    "answers/val/answer5.csv",
    sep="\t",
    index=False,
    header=True,
    quoting=csv.QUOTE_ALL,
    lineterminator="\n",
    doublequote=True,
)

In [36]:
# output.to_csv("answers/val/answer1.csv", index=False)

In [93]:
# answer = "answers/val/answer1.csv"
# with open(answer, "w", newline="", encoding="utf-8") as f:
#     writer = csv.writer(f, delimiter="\t", quoting=csv.QUOTE_MINIMAL)
#     writer.writerow(["ID", "Translation"])  # header
#     for i in range(output.shape[0]):
#         writer.writerow([output["ID"][i], output["Translation"][i]])