In [None]:
# Mount Google drive to upload datasets
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# The path to the data on my drive
D = '/content/drive/My Drive/W266_Project_Data/pmi_data'

In [None]:
# Import the necessary libraries
import numpy as np
import pandas as pd
import copy
from sklearn.model_selection import train_test_split

In [None]:
# Load the paraphrase training, dev, and test sets previously created
paraphrase_train = pd.read_csv(D+"/xml/amrita-paraphrase-exact/paraphrase_train.csv")
paraphrase_train.drop(columns={"Unnamed: 0"}, inplace=True)

paraphrase_dev = pd.read_csv(D+"/xml/amrita-paraphrase-exact/paraphrase_dev.csv")
paraphrase_dev.drop(columns={"Unnamed: 0"}, inplace=True)

paraphrase_test = pd.read_csv(D+"/xml/amrita-paraphrase-exact/paraphrase_test.csv")
paraphrase_test.drop(columns={"Unnamed: 0"}, inplace=True)

In [None]:
# Load the Punjabi data and perform a dev and test split
pb = pd.read_csv(D+"/xml/amrita-paraphrase-exact/pb/pb-train.csv", names=['sentence_1','sentence_2', 'label'])
pb['language_task'] = 'translate English to Punjabi'
pb['label'] = np.where((pb.label == 'NP'), 0, 1)

pb_2 = pd.read_csv(D+"/xml/amrita-paraphrase-exact/pb/pb_test.csv", names=['sentence_1','sentence_2', 'label'])
pb_2['language_task'] = 'translate English to Punjabi'
pb_2['label'] = np.where((pb_2.label == 'NP'), 0, 1)

# Split each language into dev and test sets to be concatenated with the previously created paraphrase_dev and paraphrase_test datasets
pb_dev, pb_test = train_test_split(pb_2, test_size=0.5, random_state=42)

In [None]:
paraphrase_train.head()

Unnamed: 0,sentence_1,sentence_2,label,language_task
0,इससे पहले के दो मैचों में मुझे बल्लेबाजी के ल...,जवाब में पाकिस्तान की टीम मात्र एक सौ उन्सत्तर...,0,translate English to Hindi
1,ക്ലൈമാക്‌സ് അവസാനം എഴുതിക്കാണിക്കുമ്പോള്‍ മാത്...,ട്രെയ്‌ലര്‍ നോക്കി സിനിമ കാണാന്‍ ഇറങ്ങിയാല്‍ ഇ...,0,translate English to Malayalam
2,தாவூத் இப்ராகிம் - மராட்டிய மந்திரி இடையே போனி...,நிழல் உலக தாதா தாவூத் இப்ராகிம் மற்றும் மராட்ட...,1,translate English to Tamil
3,കഴിഞ്ഞ സീസണുകളില്‍ ബാറ്റ്സ്മാനെന്ന നിലയില്‍ ടീ...,സ്കോറുയർത്തുന്നതിലും പിന്തുടരുന്നതിലും ധോണി ...,0,translate English to Malayalam
4,നിയമസഭാ തെരഞ്ഞെടുപ്പില്‍ വന്‍ തിരിച്ചടിയുണ്ടായ...,തെരഞ്ഞെടുപ്പില്‍ തോറ്റതോടെ പ്രതിപക്ഷ നേതാവാകാന...,0,translate English to Malayalam


In [None]:
pb_test.head()

Unnamed: 0,sentence_1,sentence_2,label,language_task
361,ਉਨ੍ਹਾਂ ਸ਼ਹੀਦ ਭਗਤ ਸਿੰਘ ਦਾ ਆਖ਼ਰੀ ਸੁਨੇਹਾ ਦਿੰਦਿਆਂ ਵ...,ਡਾਇਰੈਕਟਰਾਂ ਵੱਲੋਂ ਚੇਅਰਮੈਨ ਦੀ ਕੀਤੀ ਜਾਣ ਵਾਲੀ ਚੋਣ ...,0,translate English to Punjabi
73,ਗੁਰਮੇਲ ਅਨੁਸਾਰ ਦੇਸ਼ ਲਈ ਓਲੰਪਿਕ ਖੇਡਾਂ ਵਿੱਚ ਸੋਨ ਤਮਗ...,ਭਾਰਤੀ ਮਹਿਲਾ ਹਾਕੀ ਟੀਮ ਦੀ ਰਾਜਬੀਰ ਕੌਰ ਵੀ ਅਰਜੁਨ ਐ...,0,translate English to Punjabi
374,ਨੈਸ਼ਨਲ ਹੈਰਲਡ ਕੇਸ ’ਚ ਭਾਜਪਾ ਆਗੂ ਸੁਬਰਾਮਨੀਅਨ ਸਵਾਮੀ ...,ਦਿੱਲੀ ਦੀ ਅਦਾਲਤ ਨੇ ਭਾਜਪਾ ਆਗੂ ਸੁਬਰਾਮਨੀਅਨ ਸਵਾਮੀ ਵ...,1,translate English to Punjabi
155,ਦੋ ਦਿਨ ਪਹਿਲਾਂ ਅਥਲੀਟ ਸੁਧਾ ਸਿੰਘ ਵੀ ਐਚਵਨਐਨਵਨ ਲਾਗ ...,ਅਥਲੀਟ ਸੁਧਾ ਸਿੰਘ ਵੀ ਦੋ ਦਿਨ ਪਹਿਲਾਂ ਐਚਵਨਐਨਵਨ ਲਾਗ ...,1,translate English to Punjabi
104,ਉਥੇ ਬਾਦਲ ਦਲ ਸਿੱਖ ਸੰਸਥਾਵਾਂ ਤੇ ਸਿੱਖ ਸਿਧਾਂਤਾਂ ਨੂ...,ਉਥੇ ਸਿੱਖ ਸਿਧਾਂਤਾਂ ਅਤੇ ਸਿੱਖ ਸੰਸਥਾਵਾਂ ਨੂੰ ਤਬਾਹ ਕ...,1,translate English to Punjabi


In [None]:
# Add the Punjabi training rows to the end of the paraphrase train dataframe
paraphrase_train = paraphrase_train.append(pb, ignore_index = True)

In [None]:
# Add the Punjabi dev rows and Punjabi test rows to the end of the paraphrase dev and test dataframes
paraphrase_dev = paraphrase_dev.append(pb_dev, ignore_index = True)
paraphrase_test = paraphrase_test.append(pb_test, ignore_index = True)

In [None]:
# Shuffle the paraphrase training dataset to improve training
paraphrase_train = paraphrase_train.sample(frac=1)

In [None]:
# Write the paraphrase training, eval, and test datasets to csvs
paraphrase_dev.to_csv(D+"/xml/amrita-paraphrase-exact/paraphrase_dev_w_punjabi.csv")
paraphrase_train.to_csv(D+"/xml/amrita-paraphrase-exact/paraphrase_train_w_punjabi.csv")
paraphrase_test.to_csv(D+"/xml/amrita-paraphrase-exact/paraphrase_test_w_punjabi.csv")