In [None]:
# Mount Google drive to upload datasets
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# The path to the data on my drive
D = '/content/drive/My Drive/W266_Project_Data/pmi_data'

In [None]:
# Import the necessary libraries
import numpy as np
import pandas as pd
import copy
from sklearn.model_selection import train_test_split

In [None]:
# Load the training datasets of Hindi, Malayalam, Punjabi, and Tamil training data
hi = pd.read_csv(D+"/xml/amrita-paraphrase-exact/hi/hi-train.csv", names=['sentence_1','sentence_2', 'label'])
hi['language_task'] = 'translate English to Hindi'
ma = pd.read_csv(D+"/xml/amrita-paraphrase-exact/ma/ma-train.csv", names=['sentence_1','sentence_2', 'label'])
ma['language_task'] = 'translate English to Malayalam'
ta = pd.read_csv(D+"/xml/amrita-paraphrase-exact/ta/ta-train.csv", names=['sentence_1','sentence_2', 'label'])
ta['language_task'] = 'translate English to Tamil'

In [None]:
# Load the test datasets for Hindi, Malayalam, and Tamil
# We'll split each dataset in half for dev and test
hi_2 = pd.read_csv(D+"/xml/amrita-paraphrase-exact/hi/hi_test.csv", names=['sentence_1','sentence_2', 'label'])
hi_2['language_task'] = 'translate English to Hindi'
ma_2 = pd.read_csv(D+"/xml/amrita-paraphrase-exact/ma/ma_test.csv", names=['sentence_1','sentence_2', 'label'])
ma_2['language_task'] = 'translate English to Malayalam'
ta_2 = pd.read_csv(D+"/xml/amrita-paraphrase-exact/ta/ta_test.csv", names=['sentence_1','sentence_2', 'label'])
ta_2['language_task'] = 'translate English to Tamil'

In [None]:
# Split each language's test set into dev and test
hi_dev, hi_test = train_test_split(hi_2, test_size=0.5, random_state=42)
ma_dev, ma_test = train_test_split(ma_2, test_size=0.5, random_state=42)
ta_dev, ta_test = train_test_split(ta_2, test_size=0.5, random_state=42)

In [None]:
# Concatenate the training dataframes
paraphrase_train = pd.concat([hi, ma, ta])
# Convert the labels in the paraphrase column to 0 (NP) vs 1 (P)
paraphrase_train['label'] = np.where((paraphrase_train.label == 'NP'), 0, 1)

# Concatenate the dev dataframes and replace paraphrase NP/P labels with 0 and 1
paraphrase_dev = pd.concat([hi_dev, ma_dev, ta_dev])
paraphrase_dev['label'] = np.where((paraphrase_dev.label == 'NP'), 0, 1)

# Concatenate the test dataframes and replace paraphrase NP/P labels with 0 and 1
paraphrase_test = pd.concat([hi_test, ma_test, ta_test])
paraphrase_test['label'] = np.where((paraphrase_test.label == 'NP'), 0, 1)

In [None]:
# Shuffle the paraphrase training dataset to improve training
paraphrase_train = paraphrase_train.sample(frac=1)

In [None]:
# Delete intermediate data objects to free memory
del hi, ma, ta
del hi_dev, ma_dev, ta_dev
del hi_test, ma_test, ta_test

In [None]:
# Look at the first few rows of the paraphrase set
paraphrase_train.head()

Unnamed: 0,sentence_1,sentence_2,label,language_task
1961,इससे पहले के दो मैचों में मुझे बल्लेबाजी के ल...,जवाब में पाकिस्तान की टीम मात्र एक सौ उन्सत्तर...,0,translate English to Hindi
386,ക്ലൈമാക്‌സ് അവസാനം എഴുതിക്കാണിക്കുമ്പോള്‍ മാത്...,ട്രെയ്‌ലര്‍ നോക്കി സിനിമ കാണാന്‍ ഇറങ്ങിയാല്‍ ഇ...,0,translate English to Malayalam
1096,தாவூத் இப்ராகிம் - மராட்டிய மந்திரி இடையே போனி...,நிழல் உலக தாதா தாவூத் இப்ராகிம் மற்றும் மராட்ட...,1,translate English to Tamil
15,കഴിഞ്ഞ സീസണുകളില്‍ ബാറ്റ്സ്മാനെന്ന നിലയില്‍ ടീ...,സ്കോറുയർത്തുന്നതിലും പിന്തുടരുന്നതിലും ധോണി ...,0,translate English to Malayalam
1504,നിയമസഭാ തെരഞ്ഞെടുപ്പില്‍ വന്‍ തിരിച്ചടിയുണ്ടായ...,തെരഞ്ഞെടുപ്പില്‍ തോറ്റതോടെ പ്രതിപക്ഷ നേതാവാകാന...,0,translate English to Malayalam


In [None]:
# View the first few rows of the dev set
paraphrase_dev.head()

Unnamed: 0,sentence_1,sentence_2,label,language_task
559,बीएसएफ इस बारे में एक रिपोर्ट होम मिनिस्ट्री क...,एक रिपोर्ट होम मिनिस्ट्री को सौंपेगी बीएसएफ।,1,translate English to Hindi
236,उत्तराखंड हाईकोर्ट के फैसले के खिलाफ केंद्र की...,उत्तराखण्ड में राष्ट्रपति शासन हटाने के नैनीता...,0,translate English to Hindi
88,अगस्ता वेस्टलैंड स्कैमः सीबीआई ने भारतीय वायुस...,सी.बी.आई. ने अगस्तावेस्टलैंड हेलीकॉप्टर सौदे म...,1,translate English to Hindi
792,सचिन तेंदुलकर होंगे रियो ओलंपिक के गुडविल ब्रा...,रियो ओलंपिक के लिए देश का सद्भावना दूत बनेंगे ...,1,translate English to Hindi
117,आजम ने लखनऊ में कहा कि सुप्रीम कोर्ट ने जो कहा...,कार से जा रहे उनके बाकि परिवार वालो से मारपीट ...,0,translate English to Hindi


In [None]:
# View the first few rows of the test set
paraphrase_test.head()

Unnamed: 0,sentence_1,sentence_2,label,language_task
70,1984 में बारामती से उन्होंने पहली बार लोकसभा च...,बारामती से 1984 में उन्होंने पहली बार लोकसभा ...,1,translate English to Hindi
827,सुप्रीम कोर्ट की फटकार के बाद भी आजम अपने बयान...,सरकार का फर्ज बनता है कि लगातार हो रही एक जैस...,0,translate English to Hindi
231,"उत्तराखंड में जारी रहेगा राष्ट्रपति शासन, हाई...",उत्तराखण्ड में राष्ट्रपति शासन हटाने के नैनीता...,1,translate English to Hindi
588,भारत ने पृथ्वी-दो मिसाइल का किया सफल प्रक्षेपण,भारत ने आज परमाणु क्षमता संपन्न और स्वदेश में ...,1,translate English to Hindi
39,मीडिया रिपोर्ट्स में ये जानकारी नहीं है कि फा...,फाइनेंशियल मदद के तौर पर कितना अमाउंट दिया गय...,1,translate English to Hindi


In [None]:
# Save the paraphrase train file as a csv
paraphrase_train.to_csv(D+"/xml/amrita-paraphrase-exact/paraphrase_train.csv")

In [None]:
# Save the paraphrase dev and test files as csvs
paraphrase_dev.to_csv(D+"/xml/amrita-paraphrase-exact/paraphrase_dev.csv")
paraphrase_test.to_csv(D+"/xml/amrita-paraphrase-exact/paraphrase_test.csv")