# Data Loading

In [1]:
import pandas as pd

In [2]:
data = pd.read_csv('./hindi_english_parallel.csv')
data.tail()

Unnamed: 0,hindi,english
1561836,स्पष्टीकरण.–जहां इस उपधारा के अधीन हानि और लाभ...,स्पष्टीकरण.–जहां इस उपधारा के अधीन हानि और लाभ...
1561837,मैंने गौर किया है कि यह न केवल अपने महत्त्वपूर...,है। I note that this is a landmark meeting – n...
1561838,उन्होंने मेरे समक्ष जो प्रदर्शन किया उसमें से ...,है। In the presentations that they made before...
1561839,खाद्य और जल सुरक्षा; पर्यावरण की दृष्टि से वहन...,्त है। Issues such as food and water security;...
1561840,,


### Partition into hindi english

In [3]:
english = data['english']
hindi = data['hindi']
print(english)
print()
print("==============================================================")
print()
print(hindi)

0             Give your application an accessibility workout
1                          Accerciser Accessibility Explorer
2             The default plugin layout for the bottom panel
3                The default plugin layout for the top panel
4             A list of plugins that are disabled by default
                                 ...                        
1561836    स्पष्टीकरण.–जहां इस उपधारा के अधीन हानि और लाभ...
1561837    है। I note that this is a landmark meeting – n...
1561838    है। In the presentations that they made before...
1561839    ्त है। Issues such as food and water security;...
1561840                                                  NaN
Name: english, Length: 1561841, dtype: object


0            अपने अनुप्रयोग को पहुंचनीयता व्यायाम का लाभ दें
1                            एक्सेर्साइसर पहुंचनीयता अन्वेषक
2                      निचले पटल के लिए डिफोल्ट प्लग-इन खाका
3                       ऊपरी पटल के लिए डिफोल्ट प्लग-इन खाका
4          उन प्लग-इनों की सूची जिन्ह

### Bug in english data

##### 1. Hindi text in english

In [4]:
english[1561836]

'स्पष्टीकरण.–जहां इस उपधारा के अधीन हानि और लाभ लेखे में से डेबिट की गर्इ और विनिधान मोक रिजर्व खाते में जमा की गर्इ रकम उस रकम से कम नहीं है जो निर्धारिती द्वारा धारा 139 के अधीन दी गर्इ विवरणी में दावा किए गए विनिधान मोक की बाबत कटौती की रकम के आधार पर इस प्रकार जमा की जानी अपेक्षित है, किन्तु निर्धारण अधिकारी द्वारा धारा 143 के अधीन संगणित किए जाने के लिए यथाप्रस्थापित कुल आय के आधार पर विनिधान मोक की बाबत अधिक कटौती अनुज्ञेय है वहां निर्धारण अधिकारी इस निमित्त लिखित सूचना द्वारा, निर्धारिती को सूचना में विनिर्दिष्ट समय के भीतर या ऐसे अतिरिक्त समय के भीतर जो निर्धारण अधिकारी अनुज्ञात करे, उस पूर्ववर्ष के, जिसमें ऐसी सूचना निर्धारिती पर तामील की जाती है या उसके ठीक पूर्ववर्ती पूर्ववर्ष के लाभ और अभिलाभ में से, यदि उस वर्ष के लेखे पूरे नहीं किए गए हों तो, अतिरिक्त रकम विनिधान मोक रिजर्व खाते में जमा करने का अवसर देगा और यदि निर्धारिती पूर्वोक्त समय के भीतर ऐसे खाते में कोर्इ अतिरिक्त रकम जमा कर देता है तो इस प्रकार जमा की गर्इ रकम उस पूर्ववर्ष के, जिसमें कटौती अनुज्ञेय है, विनिधान मोक

##### 2. Nan/Floating point numbers in data

In [5]:
a = list(map(lambda x : type(x[1]) == float and x[0] or None, enumerate(english)))

##### Removed NAN and sentences having length less than 100 characters

In [6]:
SENETNCE_CHAR_LEN = 100
a = []
for i in english:
    if type(i) == float or len(i) <= SENETNCE_CHAR_LEN:
        a.append(False)
    else:
        a.append(True)
english = english[a]

In [7]:
english

136        Accerciser could not see the applications on y...
329        Accerciser could not see the applications on y...
585        Accerciser could not see the applications on y...
722        Accerciser could not see the applications on y...
939        Accerciser could not see the applications on y...
                                 ...                        
1561834    प्राप्त होगी। By 2020, India is set to become ...
1561836    स्पष्टीकरण.–जहां इस उपधारा के अधीन हानि और लाभ...
1561837    है। I note that this is a landmark meeting – n...
1561838    है। In the presentations that they made before...
1561839    ्त है। Issues such as food and water security;...
Name: english, Length: 393786, dtype: object

##### Filter Hindi sentences from english ones

In [8]:
example_sentense = english[1561836]
print(example_sentense)
Hindi_voacab = list(set(example_sentense))
print("Vocab Size = ", len(Hindi_voacab))
unicode = list(map(ord, Hindi_voacab))
for i, j in zip(Hindi_voacab, unicode):
    print(f"{j} = {i}")

"""
We can see [0-9.,:_] : we need to remove them
"""
toRemove = set(['1','2','3','4','5','6','7','8','9','0','_', '-', '–',',','.',':',' '])
toRemoveUnicode = set(list(map(ord, toRemove)))

Hindi_voacab = list(set(Hindi_voacab) - toRemove)
unicode = list(set(unicode) - toRemoveUnicode)

print("\n\n=================================================================\n\n")
print("Vocab Size = ", len(Hindi_voacab))
for i, j in zip(Hindi_voacab, unicode):
    print(f"{j} = {i}")

स्पष्टीकरण.–जहां इस उपधारा के अधीन हानि और लाभ लेखे में से डेबिट की गर्इ और विनिधान मोक रिजर्व खाते में जमा की गर्इ रकम उस रकम से कम नहीं है जो निर्धारिती द्वारा धारा 139 के अधीन दी गर्इ विवरणी में दावा किए गए विनिधान मोक की बाबत कटौती की रकम के आधार पर इस प्रकार जमा की जानी अपेक्षित है, किन्तु निर्धारण अधिकारी द्वारा धारा 143 के अधीन संगणित किए जाने के लिए यथाप्रस्थापित कुल आय के आधार पर विनिधान मोक की बाबत अधिक कटौती अनुज्ञेय है वहां निर्धारण अधिकारी इस निमित्त लिखित सूचना द्वारा, निर्धारिती को सूचना में विनिर्दिष्ट समय के भीतर या ऐसे अतिरिक्त समय के भीतर जो निर्धारण अधिकारी अनुज्ञात करे, उस पूर्ववर्ष के, जिसमें ऐसी सूचना निर्धारिती पर तामील की जाती है या उसके ठीक पूर्ववर्ती पूर्ववर्ष के लाभ और अभिलाभ में से, यदि उस वर्ष के लेखे पूरे नहीं किए गए हों तो, अतिरिक्त रकम विनिधान मोक रिजर्व खाते में जमा करने का अवसर देगा और यदि निर्धारिती पूर्वोक्त समय के भीतर ऐसे खाते में कोर्इ अतिरिक्त रकम जमा कर देता है तो इस प्रकार जमा की गर्इ रकम उस पूर्ववर्ष के, जिसमें कटौती अनुज्ञेय है, विनिधान मोक 

In [9]:
def onlyEnglish(sentence : str, Hindi_voacab = Hindi_voacab):
    for i in Hindi_voacab:
        if i in sentence:
            return False
    return True

filteredEnglishData = [onlyEnglish(str(sen)) for sen in english]
print("============================  SELECTED  ========================")
print(english[filteredEnglishData][-10:])
print("============================  REJECTED  ========================")
print(english[map(lambda x : not x, filteredEnglishData)][-10:])

1561821    You would soon join different branches of the ...
1561822    Y = the amount of tax calculated on the total ...
1561823    (y) "true and first inventor" does not include...
1561825    (za) "Special Economic Zone" means each Specia...
1561826    (zc) "Unit" means a Unit set up by an entrepre...
1561827    (zg) "security receipt" means a receipt or oth...
1561828    Zonal: Eleven annual awards of ₹ 0.50 lakh eac...
1561829    Zoroastrianism, which was once the religion of...
1561830    (z) "securitisation" means acquisition of fina...
1561831    ZUBIN MEHTA HAS ENGAGED IN UNTIRING EFFORTS TO...
Name: english, dtype: object
1524435    India is ranked third in the list of top prosp...
1527095    ISRO completed the seven-satellite constellati...
1542175    Shram-eva jayate (श्रमेवजयते)is one of the for...
1550921    The President of India, Shri Pranab Mukherjee ...
1561833    कते हैं। Opening of a Fin-Node Centre in Delhi...
1561834    प्राप्त होगी। By 2020, India is set to become

##### Sentence Below got purged

In [10]:
print(english[1527095])

ISRO completed the seven-satellite constellation of Indian Regional Navigational Satellite Systems,NaviC (नाविक).


# Final English Dataset

In [11]:
english = english[filteredEnglishData]
print("Dataset Length (Sentences) : ", len(english))
print(english)

Dataset Length (Sentences) :  393123
136        Accerciser could not see the applications on y...
329        Accerciser could not see the applications on y...
585        Accerciser could not see the applications on y...
722        Accerciser could not see the applications on y...
939        Accerciser could not see the applications on y...
                                 ...                        
1561827    (zg) "security receipt" means a receipt or oth...
1561828    Zonal: Eleven annual awards of ₹ 0.50 lakh eac...
1561829    Zoroastrianism, which was once the religion of...
1561830    (z) "securitisation" means acquisition of fina...
1561831    ZUBIN MEHTA HAS ENGAGED IN UNTIRING EFFORTS TO...
Name: english, Length: 393123, dtype: object


# Tokenization - Word Level

##### Space based seperator

In [12]:
EnglishTokens = []
for index, i in enumerate(english):
    EnglishTokens.append(i.split(" "))

In [13]:
PRINT_FROM = 23
PRINT_UPTO = 27
for i,j in zip(english[PRINT_FROM:PRINT_UPTO+1], EnglishTokens[PRINT_FROM:PRINT_UPTO+1]):
    print(f"{i}\n{j}\n\n")

% s is free software; you can redistribute it and / or modify it under the terms of the GNU General Public License as published by the Free Software Foundation; either version% d of the License, or (at your option) any later version.
['%', 's', 'is', 'free', 'software;', 'you', 'can', 'redistribute', 'it', 'and', '/', 'or', 'modify', 'it', 'under', 'the', 'terms', 'of', 'the', 'GNU', 'General', 'Public', 'License', 'as', 'published', 'by', 'the', 'Free', 'Software', 'Foundation;', 'either', 'version%', 'd', 'of', 'the', 'License,', 'or', '(at', 'your', 'option)', 'any', 'later', 'version.']


% s is distributed in the hope that it will be useful, but WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License for more details.
['%', 's', 'is', 'distributed', 'in', 'the', 'hope', 'that', 'it', 'will', 'be', 'useful,', 'but', 'WITHOUT', 'ANY', 'WARRANTY;', 'without', 'even', 'the', 'implied', 'warranty

### Filter

1. P.hd. == PHD ------------------------ U.S.A. == USA
2.  word. === ["word" , "."]  --------- . ? !
3. Let's === ["Let", "'s"]   ------------- 's 've 't
4. Punctuations


In [14]:
import re

In [15]:
rules = [
    re.compile(r'\w+\.\w+\.'),   # P.hd.
    re.compile(r'\w+[.?!]'),     # termination of line
    re.compile(r"\w+'(s|ve|t)"),  # Let's haven't we've
    re.compile(r'.?[,;].?'),      # Remove , ;
]

In [16]:
def regexEvaluater(word : str, rules : list) -> list:
    word = word.lower()
    if any(True for _ in iter(rules[0].finditer(word))):
        return [word.replace('.', '')]

    if any(True for _ in iter(rules[1].finditer(word))):
        temp = word[-1]
        return [word.replace(temp, ''), temp]

    if any(True for _ in iter(rules[2].finditer(word))):
        if "'s" in word:
            return [word.replace("'s", ''), "'s"]
        if "'ve" in word:
            return [word.replace("'ve", ''), "'ve"]
        if "'t" in word:
            return [word.replace("'t", ''), "'t"]

    if any(True for _ in iter(rules[3].finditer(word))):
        punctuator = ',' if ',' in word else ';'

        ans = word.split(punctuator)
        for _ in range(ans.count('')):
            ans.remove('')
        return ans


    return [word]

def tokenise(words=None, sentence : str=None, rules=rules):
    if sentence is not None:
        words = sentence.split(" ")

    ans = []
    for word in words:
        ans.extend(regexEvaluater(word, rules))
    return ans

In [17]:
sentence = "Scientists are researching ways to enhance artificial intelligence with advanced algorithms."
out = tokenise(sentence = sentence)

for i in out:
    print(f'<{i}>', end='\t')

<scientists>	<are>	<researching>	<ways>	<to>	<enhance>	<artificial>	<intelligence>	<with>	<advanced>	<algorithms>	<.>	

### Save Tokens

In [20]:
! pip install tqdm
from tqdm import tqdm
all_tokens = set()
for Line in tqdm(EnglishTokens):
    all_tokens = all_tokens.union(set(Line))
print(len(all_tokens))



100%|██████████████████████████████████| 393123/393123 [41:49<00:00, 156.66it/s]

303858





TypeError: write() argument must be str, not set

In [23]:
print(len(all_tokens))
all_tokens = list(all_tokens)
all_tokens.sort()

with open('./utils/all_tokens.txt', 'w') as f:
    for tkn in tqdm(all_tokens):
        f.write(tkn+'\n')

303858


100%|██████████████████████████████| 303858/303858 [00:00<00:00, 1920381.68it/s]


# Stemming

In [24]:
stemming_rules = {
    "s": "",
    "es": "",
    "ies": "y",
    "ied": "y",
    "ing": "",
    "ed": "",
    "er": "",
    "est": "",
    "ion": "",
    "tion": "t",
    "ational": "ate",
    "ed": "",
    "ing": "",
    "er": "",
    "ers": "",
    "ed": "",
    "ing": "",
    "ies": "y",
    "ied": "y",
    "izes": "ize",
    "izing": "ize",
    "ized": "ize",
    "y": "",
    "ier": "y",
    "iest": "y",
    "al": "",
    "ally": "",
    "ed": "",
    "ing": "",
    "er": "",
    "or": "",
    "ar": "",
    "ary": "",
    "ery": "",
    "ful": "",
    "less": "",
    "ness": "",
    "ship": "",
    "sion": "",
    "tion": "t",
    "ive": "",
    "ize": "",
    "ize": "",
    "ize": "",
    "izing": "ize",
    "izing": "ize",
    "izing": "ize",
    "ized": "ize",
    "ized": "ize",
    "ized": "ize",
    "al": "",
    "ally": "",
    "ed": "",
    "ing": "",
    "er": "",
    "or": "",
    "ar": "",
    "ary": "",
    "ery": "",
    "ful": "",
    "less": "",
    "ness": "",
    "ship": "",
    "sion": "",
    "tion": "t",
    "ive": "",
    "ize": "",
    "ize": "",
    "ize": "",
    "izing": "ize",
    "izing": "ize",
    "izing": "ize",
    "ized": "ize",
    "ized": "ize",
    "ized": "ize",
    "ish": "",
    "ism": "",
    "ist": "",
    "al": "",
    "ate": "",
    "en": "",
    "ify": "",
    "ize": "",
    "ise": "",
    "ize": "",
    "fy": "",
    "ize": "",
    "ish": "",
    "en": "",
    "ize": "",
    "ism": "",
    "ist": "",
    "al": "",
    "ate": "",
    "en": "",
    "ify": "",
    "ize": "",
    "ise": "",
    "ize": "",
    "fy": "",
    "ize": "",
}

In [25]:
def apply_stemming(word):
  for suffix, replacement in stemming_rules.items():
    if (word.endswith(suffix)):
      return word[:-len(suffix)] + replacement
  return word

In [26]:
def return_stemmed_tokens(token_list):
  return [apply_stemming(token) for token in token_list]

In [27]:
return_stemmed_tokens(out)

['scientist',
 'are',
 'research',
 'way',
 'to',
 'enhance',
 'artifici',
 'intelligence',
 'with',
 'advanc',
 'algorithm',
 '.']

In [28]:
print(out)

['scientists', 'are', 'researching', 'ways', 'to', 'enhance', 'artificial', 'intelligence', 'with', 'advanced', 'algorithms', '.']


### Save all stems

In [30]:
all_stems = set()
for tkn in tqdm(all_tokens):
    all_stems.add(return_stemmed_tokens([tkn])[0])
print(len(all_stems))

100%|███████████████████████████████| 303858/303858 [00:01<00:00, 251942.40it/s]

280371





In [32]:
all_stems = list(all_stems)
all_stems.sort()

with open('./utils/all_stems.txt', 'w') as f:
    for stem in tqdm(all_stems):
        f.write(stem+'\n')

100%|██████████████████████████████| 280371/280371 [00:00<00:00, 1831957.82it/s]
