In [1]:
import pandas as pd
from pathlib import Path

### Set the path to the data directory

```python
data_dir = "/path/to/your/data/directory"
```

In [2]:
path = Path()

This will be used as a base path for downloading and storing datasets.

In [3]:
save_dir = path.absolute().parent / 'data'

This will create the directory if it does not exist already.

In [4]:
Path.mkdir(save_dir, exist_ok=True, parents=True)

### Get the english to hindi data from huggingface.
The dataset is in parquet format. This data contains English to Hindi translations.

* Need to install `pandas` for reading files.
* Additionally, need to install `pyarrow`, `huggingface_hub`, `fastparquet` for downloading datasets from huggingface.
* The dataset is downloaded from [huggingace](https://huggingface.co/datasets/damerajee/english-to-hindi-l).

```python

In [5]:
# en_hi_df = pd.read_parquet("hf://datasets/Aarif1430/english-to-hindi/data/train-00000-of-00001-71c2cec7402cd444.parquet")
en_hi_df = pd.read_parquet("hf://datasets/damerajee/english-to-hindi-l/data/train-00000-of-00001.parquet") # contains 1.79M records

In [6]:
en_hi_df

Unnamed: 0,english_sentence,hindi_sentence
0,When it is said to him: 'Fear Allah' egotism t...,"और जब उससे कहा जाता है, ""अल्लाह से डर"", तो अहं..."
1,This profile exists already.,यह प्रोफ़ाइल पहले से ही है.
2,Halo with Ornamental Borde,विवरण: एक पारंपरिक कमल के फूल के साथ पत्थर की ...
3,and the jinn We had created before from flamin...,और हम ही ने जिन्नात को आदमी से (भी) पहले वे धु...
4,"Ladies and Gentlemen, the Government of India ...",शहरीकरण की तेज गति के साथ अवसंरचना और सेवाओं क...
...,...,...
1786783,Gaja cyclone in Tamil Nadu on 16.11.2018,तमिलनाडू में गजा चक्रवात - 16.11.2018
1786784,PRESIDENT OF INDIA APPOINTS GOVERNORS,भारत के राष्ट्रपति ने राज्यपालों की नियुक्ति की
1786785,is a phenomenon that 's been promised,"एक ऐसी घटना है, जिसकी संभावना दशकों तक"
1786786,Move waste to stock,बेकार को भण्डार में ले जाएँ


In [7]:
en_hi_df.to_csv(save_dir / 'en_hindi.csv', index=False) # not saving indeces.

### Get the english to kannada data from huggingface.
The dataset is in parquet format. This data contains English to Kannada translations.
* The dataset is downloaded from [huggingace](https://huggingface.co/datasets/damerajee/en-kannada).

In [8]:
# en_kn_df = pd.read_parquet("hf://datasets/Hemanth-thunder/english-to-kannada-mt/data/train-00000-of-00001.parquet")
en_kn_df = pd.read_csv("hf://datasets/damerajee/en-kannada/en-kannada-2.csv") # around 4M records

There are 4_093_524 rows in the downloaded dataset with two columns.

In [9]:
en_kn_df

Unnamed: 0,english_sentences,kannada_sentences
0,Hes a scientist.,ಇವರು ಸಂಶೋಧಕ ಸ್ವಭಾವದವರು.
1,'But we speak the truth aur ye sach hai ke Guj...,"""ಆದರೆ ಸತ್ಯ ಹೊರ ಬಂದೇ ಬರುತ್ತದೆ ಎಂದು ಹೇಳಿದ ರಾಹುಲ್..."
2,8 lakh crore have been looted.,ಕಳ್ಳತನವಾಗಿದ್ದ 8 ಲಕ್ಷ ರೂ.
3,I read a lot into this as well.,ಇದರ ಬಗ್ಗೆ ನಾನೂ ಸಾಕಷ್ಟು ಓದಿದ್ದೇನೆ.
4,She was found dead with the phone's battery ex...,ಆಕೆಯ ತಲೆಯ ಹತ್ತಿರ ಇರಿಸಿಕೊಂಡಿದ್ದ ಫೋನ್‌ನ ಬ್ಯಾಟರಿ ...
...,...,...
4093519,It was visible.,ಅದೂಯಶ ಕಂಡಿತು.
4093520,The Congress has yet not named its candidates.,ಕಾಂಗ್ರೆಸ್ ಪಕ್ಷ ಇನ್ನೂ ಅಭ್ಯರ್ಥಿಗಳನ್ನು ಘೋಷಣೆ ಮಾಡಿ...
4093521,It is the centre of business.,ಇದು ವ್ಯಾಪಾರ ಕೇಂದ್ರವೂ ಹೌದು.
4093522,How long does it take to start working?,ಕೆಲಸ ಮಾಡಲು ಎಷ್ಟು ಸಮಯ ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ?


I am matching the naming convention for columns

In [21]:
# columns = {
#     'en': 'english_sentence',
#     'kn': 'kannada_sentence'
# }

columns = {
    'english_sentences': 'english_sentence',
    'kannada_sentences': 'kannada_sentence'
}

In [22]:
en_kn_df = en_kn_df.rename(columns=columns)

In [23]:
en_kn_df

Unnamed: 0,english_sentence,kannada_sentence
0,Hes a scientist.,ಇವರು ಸಂಶೋಧಕ ಸ್ವಭಾವದವರು.
1,'But we speak the truth aur ye sach hai ke Guj...,"""ಆದರೆ ಸತ್ಯ ಹೊರ ಬಂದೇ ಬರುತ್ತದೆ ಎಂದು ಹೇಳಿದ ರಾಹುಲ್..."
2,8 lakh crore have been looted.,ಕಳ್ಳತನವಾಗಿದ್ದ 8 ಲಕ್ಷ ರೂ.
3,I read a lot into this as well.,ಇದರ ಬಗ್ಗೆ ನಾನೂ ಸಾಕಷ್ಟು ಓದಿದ್ದೇನೆ.
4,She was found dead with the phone's battery ex...,ಆಕೆಯ ತಲೆಯ ಹತ್ತಿರ ಇರಿಸಿಕೊಂಡಿದ್ದ ಫೋನ್‌ನ ಬ್ಯಾಟರಿ ...
...,...,...
2046757,3000 to Rs .,ನಿಂದ 3000 ರೂ.
2046758,What are the other options?,ಬೇರೆ ಸಾಧ್ಯತೆಗಳು ಏನಿವೆ?
2046759,But the tournament was postponed due to corona...,ಆದರೆ ಕೊರೊನೊ ಸೋಂಕಿನಿಂದಾಗಿ ಟೂರ್ನಿಯನ್ನು ಮುಂದೂಡಲಾಗ...
2046760,The effect of such human reasoning may be that...,ಅವು ನಮ್ಮಲ್ಲಿ ಪ್ರತಿಯೊಬ್ಬನಿಗೆ ಪ್ರಾಮುಖ್ಯವಾಗಿವೆ ಮತ...


Will be using `50%` rows of data to match the size of english to hindi dataset for now.

In [24]:
size = 0.5
en_kn_length = int(len(en_kn_df) * size)

In [25]:
en_kn_df = en_kn_df.iloc[:en_kn_length, :]

In [26]:
en_kn_df

Unnamed: 0,english_sentence,kannada_sentence
0,Hes a scientist.,ಇವರು ಸಂಶೋಧಕ ಸ್ವಭಾವದವರು.
1,'But we speak the truth aur ye sach hai ke Guj...,"""ಆದರೆ ಸತ್ಯ ಹೊರ ಬಂದೇ ಬರುತ್ತದೆ ಎಂದು ಹೇಳಿದ ರಾಹುಲ್..."
2,8 lakh crore have been looted.,ಕಳ್ಳತನವಾಗಿದ್ದ 8 ಲಕ್ಷ ರೂ.
3,I read a lot into this as well.,ಇದರ ಬಗ್ಗೆ ನಾನೂ ಸಾಕಷ್ಟು ಓದಿದ್ದೇನೆ.
4,She was found dead with the phone's battery ex...,ಆಕೆಯ ತಲೆಯ ಹತ್ತಿರ ಇರಿಸಿಕೊಂಡಿದ್ದ ಫೋನ್‌ನ ಬ್ಯಾಟರಿ ...
...,...,...
1023376,The Devala police registered a case in this co...,ಈ ಸಂಬಂಧ ದೇವನಹಳ್ಳಿ ಪೆÇಲೀಸರು ಪ್ರಕರಣ ದಾಖಲಿಸಿಕೊಂಡಿ...
1023377,There is no proper treatment for patients.,ರೋಗಿಗಳಿಗೆ ಚಿಕಿತ್ಸೆ ಕೊಡೋದಕ್ಕೆ ಅಲ್ಲಿ ಸರಿಯಾದ ವ್ಯವ...
1023378,"Enter bank account number, IFSC code",ಖಾತೆ ನಂಬರ್ + IFSC
1023379,The news spread like wildfire all across.,ಸುದ್ದಿ ಊರಿನಲ್ಲೆಲ್ಲಾ ಕಾಡ್ಗಿಚ್ಚಿನಂತೆ ಹರಡಿತು.


Save the processed data to csv files for further processing.
```

In [27]:
en_kn_df.to_csv(save_dir / 'en_kannada.csv', index=False)