<a href="https://colab.research.google.com/github/arafat04/bn-hi-MT-improvement-using-llm/blob/main/01_prepare_dataset.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
from pathlib import Path
from typing import Iterable
from datasets import Dataset

In [None]:
 # !pip install ipywidgets

In [None]:
def create_dataset(
    data: Iterable[tuple[str, str]], source_lang: str, target_lang: str
):
    def gen():
        for source, target in data:
            yield {
                "source_lang": source_lang,
                "target_lang": target_lang,
                "source_text": source,
                "target_text": target,
            }

    dataset = Dataset.from_generator(gen)
    # also see Dataset.from_dict, and other from_* methods
    return dataset

In [None]:
def read_lines(path: Path):
    for line in path.open("r", encoding="utf-8"):
        yield line.strip()

bn = list(read_lines(Path("data/project_data_llm/bn-hi.txt")))
hi = list(read_lines(Path("data/project_data_llm/bn-hi.refA.txt")))

dataset = create_dataset(zip(bn, hi), "Bengali", "Hindi")

In [None]:
dataset.shape

(503, 4)

In [None]:
type(dataset)

datasets.arrow_dataset.Dataset

In [None]:
# Select the first 5 rows
first_five = dataset.select(range(5))

# Convert to pandas DataFrame and display
df = first_five.to_pandas()
print(df)

  source_lang target_lang                                        source_text  \
0     Bengali       Hindi  ইকুয়েডরীয় গ্যালোপেগোস দ্বীপপুঞ্জের এক নতুন প্র...   
1     Bengali       Hindi  মার্কিন যুক্তরাষ্ট্রের প্রিন্সটন বিশ্ববিদ্যালয...   
2     Bengali       Hindi  "এই বিতর্কটি হারিকেন ক্যাটরিনার সময় ত্রাণ ও পু...   
3     Bengali       Hindi  পুনর্নির্মাণের চেষ্টা সম্পর্কে উদার সমালোচনা ও...   
4     Bengali       Hindi  খেলাটি দুর্দান্ত আবহাওয়ার সাথে সকাল ১০:০০ টায...   

                                         target_text  
0  जर्नल साइंस में गुरूवार को प्रकाशित एक अध्ययन ...  
1  संयुक्त राज्य अमेरिका में प्रिंसटन विश्वविद्या...  
2  तूफ़ान कैटरीना के मद्देनज़र राहत और पुनर्निर्म...  
3  पुनर्निर्माण की कोशिश की स्पष्ट आलोचना वॉशिंगट...  
4  खेल सुबह 10:00 बजे बहुत बढ़िया मौसम के साथ शुर...  


In [None]:
# name = "npfl087-demo-small"
# dataset.save_to_disk(f"~/datasets/{name}")
# dataset.push_to_hub(f"grarafat/{name}", private=True)
name = "bn-hi-parallel-data"
dataset.save_to_disk(f"/storage/praha1/home/rahmang/datasets/{name}")


Saving the dataset (0/1 shards):   0%|          | 0/503 [00:00<?, ? examples/s]

In [None]:
pwd

'/auto/vestec1-elixir/home/rahmang'

In [None]:
!pwd

/storage/praha1/home/rahmang


In [None]:
dataset[10]

{'source_lang': 'Bengali',
 'target_lang': 'Hindi',
 'source_text': 'তাইওয়ানের যাত্রা শুরু সেই ১৫ শতকে, যখন সেখান দিয়ে যাওয়া ইউরোপীয় নাবিকরা এই দ্বীপটির নাম দিয়েছিলেন ইলহা ফারমোসা বা সুন্দর দ্বীপ।',
 'target_text': 'ताइवान की खोज 15वीं शताब्दी में यूरोपीय नाविकों ने की थी. उन्होंने इस आइलैंड को इल्हा फ़ॉर्मोसा या सुंदर आइलैंड कहा था.'}

### creating the test dataset

In [None]:
bn = list(read_lines(Path("data/project_data_llm/hi-bn.refA.txt")))
hi = list(read_lines(Path("data/project_data_llm/hi-bn.txt")))

test_dataset = create_dataset(zip(bn, hi), "Bengali", "Hindi")

In [None]:
test_dataset.shape

(509, 4)

In [None]:
# Select the first 5 rows
first_five_test = test_dataset.select(range(5))

# Convert to pandas DataFrame and display
df_test = first_five_test.to_pandas()
print(df_test)

  source_lang target_lang                                        source_text  \
0     Bengali       Hindi  Guaraní, আধা-যাযাবর শিকারি হিসাবে পূর্ব প্যারা...   
1     Bengali       Hindi  চকো অঞ্চলটিতে Guaycurú এবং Payaguá-এর মতো অন্য...   
2     Bengali       Hindi  "ষোড়শ শতকে স্থানীয় আদিবাসী গোষ্ঠীর সাথে স্পে...   
3     Bengali       Hindi  স্পেনীয়রা ঔপনিবেশিক কালের সূচনা করে যা তিন শতা...   
4     Bengali       Hindi  1537 সালে Asunción-এর প্রতিষ্ঠার পর থেকে প্যার...   

                                         target_text  
0  गुआरानी पूर्वी पराग्वे में रहने वाले मूल लोगों...  
1  चाको क्षेत्र गुइयाकुरो और पेगुआ जैसे स्वदेशी ज...  
2  पराग्वे, जिसे पहले “इंडीज का विशाल प्रांत” कहा...  
3  स्पेन के लोगों ने उपनिवेश काल की शुरुआत की, जो...  
4  1537 में असूनचिओन की स्थापना के बाद से, पैराग्...  


In [None]:
# name = "npfl087-demo-small"
# dataset.save_to_disk(f"~/datasets/{name}")
# dataset.push_to_hub(f"grarafat/{name}", private=True)
name = "test-bn-hi-parallel-data"
dataset.save_to_disk(f"/storage/praha1/home/rahmang/datasets/{name}")

Saving the dataset (0/1 shards):   0%|          | 0/503 [00:00<?, ? examples/s]

In [None]:
# !pip install huggingface_hub


In [None]:
# from huggingface_hub import notebook_login
# notebook_login()

In [None]:
# !huggingface-cli login

In [1]:
# import os
# from huggingface_hub import HfApi, HfFolder

# # Set your Hugging Face token as an environment variable
# os.environ["HF_TOKEN"] = "provide your huggingface token here"

# # Save the token to the Hugging Face token file
# HfFolder.save_token(os.environ["HF_TOKEN"])

# # Verify the token by listing your repositories (optional)
# api = HfApi()
# user = api.whoami(token=os.environ["HF_TOKEN"])
# print(user)


In [2]:
# dataset.push_to_hub(f"grarafat/bn-hi-parallel-data", private=True)


In [3]:
# #saving the test data
# dataset.push_to_hub(f"grarafat/{name}", private=True)