# Data Preprocessing

In [29]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import re
import string
from tqdm import tqdm

In [30]:
df = pd.read_csv("D:/Hindi to English dataset/hindi_english_parallel.csv")
df.tail(20)

Unnamed: 0,hindi,english
1561821,"आप शीघ्र ही विधिक पेशे के कॉरपोरेट विधि,न्यायि...",You would soon join different branches of the ...
1561822,Y = धारा 143 की उपधारा (1) के खंड (क) के अधीन ...,Y = the amount of tax calculated on the total ...
1561823,"(म) ""वास्तविक और प्रथम आविष्कर्ता"" के अंतर्गत ...","(y) ""true and first inventor"" does not include..."
1561824,जाकिर साहब यह मानते थे कि जामिया बिरादरी के जह...,Zakir saheb conceded that this objective was s...
1561825,"(यक) ""विशेष आर्थिक जोन"" से धारा 3 की उपधारा (4...","(za) ""Special Economic Zone"" means each Specia..."
1561826,"(यग) ""यूनिट"" से किसी विशेष आर्थिक जोन में किसी...","(zc) ""Unit"" means a Unit set up by an entrepre..."
1561827,"(यछ) ""प्रतिभूति रसीद"" से कोर्इ रसीद या अन्य प्...","(zg) ""security receipt"" means a receipt or oth..."
1561828,जोनलः रू. 0.50 लाख के प्रत्येक वार्षिक पुरस्का...,Zonal: Eleven annual awards of ₹ 0.50 lakh eac...
1561829,इस्लाम से पहले करोड़ों लोगों के इस पारसी धर्म ...,"Zoroastrianism, which was once the religion of..."
1561830,"(य) ""प्रतिभूतिकरण"" से किसी प्रतिभूतिकरण कंपनी ...","(z) ""securitisation"" means acquisition of fina..."


In [31]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1561841 entries, 0 to 1561840
Data columns (total 2 columns):
 #   Column   Non-Null Count    Dtype 
---  ------   --------------    ----- 
 0   hindi    1555784 non-null  object
 1   english  1560964 non-null  object
dtypes: object(2)
memory usage: 23.8+ MB


In [32]:
print(df.isna().sum())
df.dropna(inplace=True)
df.reset_index(inplace=True)
df.drop(columns=["index"], inplace=True)
df.shape

hindi      6057
english     877
dtype: int64


(1555574, 2)

In [33]:
df.iloc[2000:2020]

Unnamed: 0,hindi,english
2000,हुकुम का पंजा,the five of spades
2001,हुकुम का छक्का,the six of spades
2002,हुकुम का सत्ता,the seven of spades
2003,हुकुम का अट्ठा,the eight of spades
2004,हुकुम का नहला,the nine of spades
2005,हुकुम का दहला,the ten of spades
2006,हुकुम का गुलाम,the jack of spades
2007,हुकुम की बेगम,the queen of spades
2008,हुकुम का बादशाह,the king of spades
2009,लाल पान का इक्का,the ace of hearts


In [34]:
for i in range(50000, 50005):
    print('Hindi Sample %5d: '%(i) +df['hindi'][i])
    print('English Sample %5d: '%(i) +df['english'][i])
    print("\n")

Hindi Sample 50000: सर्वर URI (_ U): 
English Sample 50000: Server _ URI:


Hindi Sample 50001: LDAP सर्वर का नाम, ldap:// के द्वारा पूर्वसर्ग
English Sample 50001: Name of LDAP server, prefixed by ldap: / /


Hindi Sample 50002: बेस DN (_ B): 
English Sample 50002: _ Base DN:


Hindi Sample 50003: उपतरू
English Sample 50003: Subtree


Hindi Sample 50004: एकल स्तर
English Sample 50004: Single level




Uppercase to Lowercase

In [35]:
dataset = pd.DataFrame(columns=['hindi', 'english'])

In [36]:
dataset['english']=df['english'].str.lower()
dataset['hindi']=df['hindi']

In [37]:
dataset.tail()

Unnamed: 0,hindi,english
1555569,Members making oath/affirmation,शपथ लेने/प्रतिज्ञान करने वाले सदस्य
1555570,स्पष्टीकरण.–जहां इस उपधारा के अधीन हानि और लाभ...,स्पष्टीकरण.–जहां इस उपधारा के अधीन हानि और लाभ...
1555571,मैंने गौर किया है कि यह न केवल अपने महत्त्वपूर...,है। i note that this is a landmark meeting – n...
1555572,उन्होंने मेरे समक्ष जो प्रदर्शन किया उसमें से ...,है। in the presentations that they made before...
1555573,खाद्य और जल सुरक्षा; पर्यावरण की दृष्टि से वहन...,्त है। issues such as food and water security;...


Remove Punctuations

In [38]:
def clean_text_english(text):
    text = text.lower()
    text = re.sub(r"i'm", "i am", text)
    text = re.sub(r"he's", "he is", text)
    text = re.sub(r"she's", "she is", text)
    text = re.sub(r"that's", "that is", text)
    text = re.sub(r"what's", "what is", text)
    text = re.sub(r"where's", "where is", text)
    text = re.sub(r"\'ll", " will", text)
    text = re.sub(r"\'ve", " have", text)
    text = re.sub(r"\'re", " are", text)
    text = re.sub(r"\'d", " would", text)
    text = re.sub(r"won't", "will not", text)
    text = re.sub(r"can't", "cannot", text)
    text = re.sub(r"[-()\"#/@;:<>{}=~|.?,]", "", text)
    return text

def clean_text_hindi(text):
    text = re.sub(r"[-()\"#/@;:<>{}=~|.?,]", "", text)
    return text

In [39]:
for i in range(len(dataset)):
    dataset['english'][i] = clean_text_english(dataset['english'][i])

In [40]:
for i in range(len(dataset)):
    dataset['hindi'][i] = clean_text_hindi(dataset['hindi'][i])

In [41]:
dataset.head(20)

Unnamed: 0,hindi,english
0,अपने अनुप्रयोग को पहुंचनीयता व्यायाम का लाभ दें,give your application an accessibility workout
1,एक्सेर्साइसर पहुंचनीयता अन्वेषक,accerciser accessibility explorer
2,निचले पटल के लिए डिफोल्ट प्लगइन खाका,the default plugin layout for the bottom panel
3,ऊपरी पटल के लिए डिफोल्ट प्लगइन खाका,the default plugin layout for the top panel
4,उन प्लगइनों की सूची जिन्हें डिफोल्ट रूप से निष...,a list of plugins that are disabled by default
5,अवधि को हाइलाइट रकें,highlight duration
6,पहुंचनीय आसंधि नोड को चुनते समय हाइलाइट बक्से ...,the duration of the highlight box when selecti...
7,सीमांत बोर्डर के रंग को हाइलाइट करें,highlight border color
8,हाइलाइट किए गए सीमांत का रंग और अपारदर्शिता।,the color and opacity of the highlight border
9,भराई के रंग को हाइलाइट करें,highlight fill color


In [42]:
dataset.tail(20)

Unnamed: 0,hindi,english
1555554,आप मानेंगे कि इस तरह मुद्दे पर चर्चा करने से स...,you would recognize that by posing the issue o...
1555555,आप शीघ्र ही विधिक पेशे के कॉरपोरेट विधिन्यायिक...,you would soon join different branches of the ...
1555556,Y धारा 143 की उपधारा 1 के खंड क के अधीन अवधार...,y the amount of tax calculated on the total i...
1555557,म वास्तविक और प्रथम आविष्कर्ता के अंतर्गत न तो...,y true and first inventor does not include eit...
1555558,जाकिर साहब यह मानते थे कि जामिया बिरादरी के जह...,zakir saheb conceded that this objective was s...
1555559,यक विशेष आर्थिक जोन से धारा 3 की उपधारा 4 के प...,za special economic zone means each special ec...
1555560,यग यूनिट से किसी विशेष आर्थिक जोन में किसी उद्...,zc unit means a unit set up by an entrepreneur...
1555561,यछ प्रतिभूति रसीद से कोर्इ रसीद या अन्य प्रतिभ...,zg security receipt means a receipt or other s...
1555562,जोनलः रू 050 लाख के प्रत्येक वार्षिक पुरस्कार ...,zonal eleven annual awards of ₹ 050 lakh each ...
1555563,इस्लाम से पहले करोड़ों लोगों के इस पारसी धर्म ...,zoroastrianism which was once the religion of ...


In [43]:
index_to_drop = []
for i in tqdm(list(dataset.index)):
    eng_text = dataset['english'][i].split()
    hin_text = dataset['hindi'][i].split()
    count_of_hindi = sum([re.search('a-zA-Z0-9', word) == None for word in eng_text])
    count_of_alphabets = sum([not(re.search('[a-zA-Z]', word)) == None for word in hin_text])
    if count_of_hindi >= 1 or count_of_alphabets >= 2:
        index_to_drop.append(i)
dataset.drop(index=index_to_drop, inplace=True) 

100%|███████████████████████████████████████████████████████████████████████████| 1555574/1555574 [00:38<00:00, 40028.54it/s]


6010       
30264      
31200      
32132      
33044      
         ..
652625     
655457     
656875     
690204     
700769     
Name: english, Length: 148, dtype: object

In [45]:
# dataset.to_csv('hindienglish.csv', index=False)
# import os
# current_directory = os.getcwd() 

In [46]:
# print(current_directory)