In [1]:
import pandas as pd
from pathlib import Path

### Set the path to the data directory

```python
data_dir = "/path/to/your/data/directory"
```

In [2]:
path = Path()

This will be used as a base path for downloading and storing datasets.

In [3]:
save_dir = path.absolute().parent / 'data'

This will create the directory if it does not exist already.

In [4]:
Path.mkdir(save_dir, exist_ok=True, parents=True)

### Get the english to hindi data from huggingface.
The dataset is in parquet format. This data contains English to Hindi translations.

* Need to install `pandas` for reading files.
* Additionally, need to install `pyarrow`, `huggingface_hub`, `fastparquet` for downloading datasets from huggingface.
* The dataset is downloaded from `hf://datasets/Aarif1430/english-to-hindi/data'

```python

In [5]:
en_hi_df = pd.read_parquet("hf://datasets/Aarif1430/english-to-hindi/data/train-00000-of-00001-71c2cec7402cd444.parquet")

  from .autonotebook import tqdm as notebook_tqdm


In [6]:
en_hi_df

Unnamed: 0,english_sentence,hindi_sentence
0,"However, Paes, who was partnering Australia's ...",आस्ट्रेलिया के पाल हेनली के साथ जोड़ी बनाने वाल...
1,"Whosoever desires the reward of the world, wit...",और जो शख्स (अपने आमाल का) बदला दुनिया ही में च...
2,The value of insects in the biosphere is enorm...,"जैव-मंडल में कीड़ों का मूल्य बहुत है, क्योंकि ..."
3,Mithali To Anchor Indian Team Against Australi...,आस्ट्रेलिया के खिलाफ वनडे टीम की कमान मिताली को
4,After the assent of the Honble President on 8t...,"8 सितम्‍बर, 2016 को माननीय राष्‍ट्रपति की स्‍व..."
...,...,...
127700,Examples of art deco construction can be found...,आर्ट डेको शैली के निर्माण मैरीन ड्राइव और ओवल ...
127701,and put it in our cheeks.,और अपने गालों में डाल लेते हैं।
127702,"As for the other derivatives of sulphur , the ...","जहां तक गंधक के अन्य उत्पादों का प्रश्न है , द..."
127703,its complicated functioning is defined thus in...,Zरचना-प्रकिया को उसने एक पहेली में यों बांधा है .


In [7]:
en_hi_df.to_csv(save_dir / 'en_hindi.csv', index=False) # not saving indeces.

### Get the english to kannada data from huggingface.
The dataset is in parquet format. This data contains English to Kannada translations.
* The dataset is downloaded from `hf://datasets/Hemanth-thunder/english-to-kannada-mt/data`'

In [8]:
en_kn_df = pd.read_parquet("hf://datasets/Hemanth-thunder/english-to-kannada-mt/data/train-00000-of-00001.parquet")

There are 300_000 rows in the downloaded dataset with two columns['en', 'kn'].

In [9]:
en_kn_df

Unnamed: 0,en,kn
0,Hes a scientist.,ಇವರು ಸಂಶೋಧಕ ಸ್ವಭಾವದವರು.
1,'But we speak the truth aur ye sach hai ke Guj...,"""ಆದರೆ ಸತ್ಯ ಹೊರ ಬಂದೇ ಬರುತ್ತದೆ ಎಂದು ಹೇಳಿದ ರಾಹುಲ್..."
2,8 lakh crore have been looted.,ಕಳ್ಳತನವಾಗಿದ್ದ 8 ಲಕ್ಷ ರೂ.
3,I read a lot into this as well.,ಇದರ ಬಗ್ಗೆ ನಾನೂ ಸಾಕಷ್ಟು ಓದಿದ್ದೇನೆ.
4,She was found dead with the phone's battery ex...,ಆಕೆಯ ತಲೆಯ ಹತ್ತಿರ ಇರಿಸಿಕೊಂಡಿದ್ದ ಫೋನ್‌ನ ಬ್ಯಾಟರಿ ...
...,...,...
299995,But its not just about prices.,ಆದರೆ ಸದ್ಯಕ್ಕೆ ಇದರ ಬೆಲೆ ಮಾತ್ರ ನಿಗದಿಯಾಗಿಲ್ಲ.
299996,Mahindra had showcased the upcoming BS6 powert...,ಮಹೀಂದ್ರಾ ಮುಂಬರುವ ಬಿಎಸ್ 6 ಎಂಜಿನ್ ಅನ್ನು 2020ರ ಆಟ...
299997,Government degree college,ಸರ್ಕಾರಿ ಪದವಿ ಪೂರ್ವ ಕಾಲೇಜು.
299998,"And the Philistine said unto David, Am I a dog...",ನೀನು ಕೋಲು ಹಿಡುಕೊಂಡು ನನ್ನ ಬಳಿಗೆ ಬರುವ ಹಾಗೆ ನಾನು ...


I am matching the naming convention for columns

In [10]:
columns = {
    'en': 'english_sentence',
    'kn': 'kannada_sentence'
}

In [11]:
en_kn_df = en_kn_df.rename(columns=columns)

In [12]:
en_kn_df

Unnamed: 0,english_sentence,kannada_sentence
0,Hes a scientist.,ಇವರು ಸಂಶೋಧಕ ಸ್ವಭಾವದವರು.
1,'But we speak the truth aur ye sach hai ke Guj...,"""ಆದರೆ ಸತ್ಯ ಹೊರ ಬಂದೇ ಬರುತ್ತದೆ ಎಂದು ಹೇಳಿದ ರಾಹುಲ್..."
2,8 lakh crore have been looted.,ಕಳ್ಳತನವಾಗಿದ್ದ 8 ಲಕ್ಷ ರೂ.
3,I read a lot into this as well.,ಇದರ ಬಗ್ಗೆ ನಾನೂ ಸಾಕಷ್ಟು ಓದಿದ್ದೇನೆ.
4,She was found dead with the phone's battery ex...,ಆಕೆಯ ತಲೆಯ ಹತ್ತಿರ ಇರಿಸಿಕೊಂಡಿದ್ದ ಫೋನ್‌ನ ಬ್ಯಾಟರಿ ...
...,...,...
299995,But its not just about prices.,ಆದರೆ ಸದ್ಯಕ್ಕೆ ಇದರ ಬೆಲೆ ಮಾತ್ರ ನಿಗದಿಯಾಗಿಲ್ಲ.
299996,Mahindra had showcased the upcoming BS6 powert...,ಮಹೀಂದ್ರಾ ಮುಂಬರುವ ಬಿಎಸ್ 6 ಎಂಜಿನ್ ಅನ್ನು 2020ರ ಆಟ...
299997,Government degree college,ಸರ್ಕಾರಿ ಪದವಿ ಪೂರ್ವ ಕಾಲೇಜು.
299998,"And the Philistine said unto David, Am I a dog...",ನೀನು ಕೋಲು ಹಿಡುಕೊಂಡು ನನ್ನ ಬಳಿಗೆ ಬರುವ ಹಾಗೆ ನಾನು ...


Will be using 130_000 rows of data to match the size of english to hindi dataset for now.

In [13]:
size = 130_000

In [14]:
en_kn_df = en_kn_df.iloc[:size, :]

In [15]:
en_kn_df

Unnamed: 0,english_sentence,kannada_sentence
0,Hes a scientist.,ಇವರು ಸಂಶೋಧಕ ಸ್ವಭಾವದವರು.
1,'But we speak the truth aur ye sach hai ke Guj...,"""ಆದರೆ ಸತ್ಯ ಹೊರ ಬಂದೇ ಬರುತ್ತದೆ ಎಂದು ಹೇಳಿದ ರಾಹುಲ್..."
2,8 lakh crore have been looted.,ಕಳ್ಳತನವಾಗಿದ್ದ 8 ಲಕ್ಷ ರೂ.
3,I read a lot into this as well.,ಇದರ ಬಗ್ಗೆ ನಾನೂ ಸಾಕಷ್ಟು ಓದಿದ್ದೇನೆ.
4,She was found dead with the phone's battery ex...,ಆಕೆಯ ತಲೆಯ ಹತ್ತಿರ ಇರಿಸಿಕೊಂಡಿದ್ದ ಫೋನ್‌ನ ಬ್ಯಾಟರಿ ...
...,...,...
129995,"Ravishankar, City BJP President T.S.",ನಗರ ಕಾಂಗ್ರೆಸ್ ನ ಮಾಜಿ ಅಧ್ಯಕ್ಷರಾದ ಟಿ. ಎಸ್‌. ರವಿಶ...
129996,Shraddha Kapoor and Arjun Kapoor,"ಲಿಪ್‌ಲಾಕ್‌ ದೃಶ್ಯದಲ್ಲಿ ಶ್ರದ್ದಾ, ಅರ್ಜುನ್‌ ಕಪೂರ್‌"
129997,Ekta Kapoor is an Indian television producer a...,ಏಕ್ತಾಾ ಕಪೂರ್ ಹಿಂದಿ ಚಿತ್ರ ಜಗತ್ತಿಿನ ಜನಪ್ರಿಿಯ ನಟ ...
129998,But they arrested me.,ಆದರೆ ಇದ್ದಕ್ಕಿದ್ದಂತೆ ಅವರು ನನ್ನನ್ನು ಅರೆಸ್ಟ್ ಮಾಡಿ...


Save the processed data to csv files for further processing.
```

In [16]:
en_kn_df.to_csv(save_dir / 'en_kannada.csv', index=False)