In [None]:

# IMPORTANT: RUN THIS CELL IN ORDER TO IMPORT YOUR KAGGLE DATA SOURCES
# TO THE CORRECT LOCATION (/kaggle/input) IN YOUR NOTEBOOK,
# THEN FEEL FREE TO DELETE THIS CELL.
# NOTE: THIS NOTEBOOK ENVIRONMENT DIFFERS FROM KAGGLE'S PYTHON
# ENVIRONMENT SO THERE MAY BE MISSING LIBRARIES USED BY YOUR
# NOTEBOOK.

import os
import sys
from tempfile import NamedTemporaryFile
from urllib.request import urlopen
from urllib.parse import unquote, urlparse
from urllib.error import HTTPError
from zipfile import ZipFile
import tarfile
import shutil

CHUNK_SIZE = 40960
DATA_SOURCE_MAPPING = 'hindi-corpus:https%3A%2F%2Fstorage.googleapis.com%2Fkaggle-data-sets%2F4453373%2F7641115%2Fbundle%2Farchive.zip%3FX-Goog-Algorithm%3DGOOG4-RSA-SHA256%26X-Goog-Credential%3Dgcp-kaggle-com%2540kaggle-161607.iam.gserviceaccount.com%252F20240217%252Fauto%252Fstorage%252Fgoog4_request%26X-Goog-Date%3D20240217T072301Z%26X-Goog-Expires%3D259200%26X-Goog-SignedHeaders%3Dhost%26X-Goog-Signature%3D79488004496c7264e145a48824d1c40fb9d4e51be8611444ac1a0c13a6828940d4f87889f3e9b79aa1bfc94c9a2781c5fbc065d1231491d3bcddc07c336a3ba355c504f5cefa7a04708bac10a5e5272193241eb5381042e6029cb42662cec95676de5816a88366b1868150533153718d973a40b5d26c25338adb44ea0cf4ce3e33bdfe4145fb66e505c8aaccd4202b23244d99a00bfffb321249e7845fd121e5c1bba7bfe4e7207d8555174f90cb881c6c91a310840c9c1a420c7216e42ef6e5c97c568e0f41a745e5400d4116b4920bfad8ac7e403a3442fea7a321e41cbbf55b8fec670f76cd4d66d641982294b555af41135871db4d4ab4c196b0c7f476d2,indicbert:https%3A%2F%2Fstorage.googleapis.com%2Fkaggle-data-sets%2F4453502%2F7641297%2Fbundle%2Farchive.zip%3FX-Goog-Algorithm%3DGOOG4-RSA-SHA256%26X-Goog-Credential%3Dgcp-kaggle-com%2540kaggle-161607.iam.gserviceaccount.com%252F20240217%252Fauto%252Fstorage%252Fgoog4_request%26X-Goog-Date%3D20240217T072301Z%26X-Goog-Expires%3D259200%26X-Goog-SignedHeaders%3Dhost%26X-Goog-Signature%3D23543c8dfa668a0b889c4311716885bfdf17eb965f370f8713c8fc611754184c6c3cae4d7b39c317ec9c28e9cf881818e9a6b67527479a140e37cfabf7674002a3edb0ac04f0976598780b0b210032f07c608508101a269bb5318fd231c97c7735c938da0cf8b197daca67ee20f8d4ced9cc759e6c9412d3676515c50622bad6c1e701e00fa4fcdb31df252af0eff98812b96a9312aa9dbd52752b9a84ad4a8d3a01dd3389c5e30c45adc09c9c289531acf6ae10ca750448f2fb65dffb59e487fdd9b8b1fc39107285dbfce10d201592c3bf2c23fc23ffe7ed410bbd5a1f77b7c0de11dc4c450de881476f11fd6d1157e030cb065ff54c63da19d4980d6ff985'

KAGGLE_INPUT_PATH='/kaggle/input'
KAGGLE_WORKING_PATH='/kaggle/working'
KAGGLE_SYMLINK='kaggle'

!umount /kaggle/input/ 2> /dev/null
shutil.rmtree('/kaggle/input', ignore_errors=True)
os.makedirs(KAGGLE_INPUT_PATH, 0o777, exist_ok=True)
os.makedirs(KAGGLE_WORKING_PATH, 0o777, exist_ok=True)

try:
  os.symlink(KAGGLE_INPUT_PATH, os.path.join("..", 'input'), target_is_directory=True)
except FileExistsError:
  pass
try:
  os.symlink(KAGGLE_WORKING_PATH, os.path.join("..", 'working'), target_is_directory=True)
except FileExistsError:
  pass

for data_source_mapping in DATA_SOURCE_MAPPING.split(','):
    directory, download_url_encoded = data_source_mapping.split(':')
    download_url = unquote(download_url_encoded)
    filename = urlparse(download_url).path
    destination_path = os.path.join(KAGGLE_INPUT_PATH, directory)
    try:
        with urlopen(download_url) as fileres, NamedTemporaryFile() as tfile:
            total_length = fileres.headers['content-length']
            print(f'Downloading {directory}, {total_length} bytes compressed')
            dl = 0
            data = fileres.read(CHUNK_SIZE)
            while len(data) > 0:
                dl += len(data)
                tfile.write(data)
                done = int(50 * dl / int(total_length))
                sys.stdout.write(f"\r[{'=' * done}{' ' * (50-done)}] {dl} bytes downloaded")
                sys.stdout.flush()
                data = fileres.read(CHUNK_SIZE)
            if filename.endswith('.zip'):
              with ZipFile(tfile) as zfile:
                zfile.extractall(destination_path)
            else:
              with tarfile.open(tfile.name) as tarfile:
                tarfile.extractall(destination_path)
            print(f'\nDownloaded and uncompressed: {directory}')
    except HTTPError as e:
        print(f'Failed to load (likely expired) {download_url} to path {destination_path}')
        continue
    except OSError as e:
        print(f'Failed to load {download_url} to path {destination_path}')
        continue

print('Data source import complete.')


Downloading hindi-corpus, 29188248 bytes compressed
Downloaded and uncompressed: hindi-corpus
Downloading indicbert, 404 bytes compressed
Downloaded and uncompressed: indicbert
Data source import complete.


In [None]:
# load corpus
corpus1 = '/kaggle/input/hindi-corpus/hi_100_new.txt'

In [None]:
with open(corpus1,'r',encoding='utf-8') as f:
  text = f.read()

In [None]:
data = text.split('।')

# Question 1

In [None]:
# ALL these List are prepared with the help of internet.
matras = set(['ऻ','ि','ी','ू','ृ','ॄ','ॅ','ॆ','े', 'ं', 'ै','ॉ','ॊ','ो','ौ','ॎ','ॏ','ु','ा','ँ'])
vyanjans = set(['क','ख','ग','घ','डं','च','छ','ज','झ','ञ','ट','ठ','ड','ढ','ण','त','थ','द','ध','न','प','फ','ब','भ','म','य','र','ल','व','श','स','ष','ह','क्ष','त्र','ज्ञ'])
dic = {'ऻ':'आ','ा':'आ','ि':'इ','ी':'ई','ु':'उ','ू':'ऊ','ृ':'ऋ','े':'ए','ै':'ऐ', 'ो':'ओ','ौ':'औ','ँ':'अं','ं':'अं', 'ॄ':'ऋ','ॅ':'ॲ ','ॉ':'ऑ','ॎ':'ए','ॆ':'ऐ','ॊ':'ऒ','ॏ':'औ'}
swar_map ={'अ':'','आ': 'ा','इ': 'ि','ई': 'ी','उ': 'ु','ऊ': 'ू','ऋ': 'ृ','ए': 'े','ऐ': 'ै','ओ': 'ो','औ': 'ौ','अं': 'ं','ॲ': 'ॅ','ऑ': 'ॉ'}
# Making dictionary to map matras with their swar sound.
swars = set(['अ','आ','इ','ई','उ','ऊ','ऋ','ए','ऐ','ओ','औ','अं','अः'])
noise = set(['>्','0्', '1्', '"्', 'ळ्', '2्', '–्', 'ः्', '3्', '5्', '4्', '््', '%्', '—्', '8्', '6्', '7्', '9्', 'ॅ्', 'a्', '>्', 'e्', '#्', 'i्','r्', 't्', '»्', 'o्', 'n्', 'd्', '०्', 's्', 'h्', 'l्', 'c्', 'm्',
'\u200c्', '\u200b्', 'ï्', 'A्', 'p्', '•्', 'b्', 'G्', 'B्', '&्', 'u्',
'_्', '@्', 'M्', 'о्', 'f्', '·्', '$्', 'S्', 'g्', 'I्', 'а्', 'е्', 'P्',
'и्', 'R्', 'y्', 'k्', 'w्', 'T्', '�्', 'a','b','c','d','e','f','g','h','i','j',
 'k','l','m','n','o','p','q','r','s','t','u','v','w','x','y','z','0','1','2','3','4','5','6','7','8','9',
 'A','B','C','D','E','F','G','H','I','J','K','L','M','N','O','P','Q','R','S','T','U','V','W','X','Y','Z',
 '!','"','\\','#','\\','$','%','\\','&',"'",'\\','(','\\',')','\\','*','\\','+',',','\\','-','\\','.','/',
 ':',';','<','=','>','\\','?','@','\\','[','\\','\\','\\',']','\\','^','_','`','\\','{','\\','|','\\','}','\\','~'])# These are noise we just have to insure these does'nt occur and even if these occurs we just ignore them.

# We created set of the list to imporve the look_up time as in sets lookup time if of O(1).


In [None]:
# Creating list of sentences in corpus
sentences = []
for i in data:
    sentences.append(i)

In [None]:
# This function will give list of characters corrected as required given a word
def unicode_corrected(word):
    Corrected_word = []
    l = len(word)
    if l==0:
      return Corrected_word
    for i in range(l):
        if word[i] in vyanjans:
            Corrected_word.append(word[i]+'्')
            if i+1<l and word[i+1] not in matras and word[i+1] != '्':
              Corrected_word.append('अ')
        elif word[i] in swars:
            Corrected_word.append(word[i])
        elif word[i] in matras:
          if word[i] == 'ं' and word[i-1]=='अ':
            Corrected_word.pop()
          Corrected_word.append(dic[word[i]])
    if word[l-1] in vyanjans:
      Corrected_word.append('अ')
    return Corrected_word

In [None]:
# correcting whole corpus sentence wise
corrected_sentences = []
for sentence in sentences:
  tokens = sentence.split()
  corr_sen = []
  for i in range(len(tokens)):
    new = unicode_corrected(tokens[i])
    corr_sen.append(new)
  corrected_sentences.append(corr_sen)

In [None]:
# Sample output of corrected unicodes
unicode_corrected('अंतरंगिनी')

['अं', 'त्', 'अ', 'र्', 'अं', 'ग्', 'इ', 'न्', 'ई']

In [None]:
corrected_sentences[:10]

[[['आ', 'व्', 'ए', 'द्', 'अ', 'न्', 'अ'],
  ['क्', 'अ', 'र्', 'अ', 'न्', 'ए'],
  ['क्', 'ई'],
  ['आ', 'ख्', 'इ', 'र्', 'ई'],
  ['त्', 'आ', 'र्', 'ई', 'ख्', 'अ'],
  [],
  ['ज्', 'अ', 'न्', 'अ', 'व्', 'अ', 'र्', 'ई'],
  [],
  ['ह्', 'ऐ']],
 [['इ', 'त्', 'अ', 'न्', 'ई'],
  ['द्', 'उ', 'आ'],
  ['क्', 'अ', 'र्', 'अ'],
  ['द्', 'ओ'],
  ['ह्', 'अ', 'म्', 'आ', 'र्', 'ए'],
  ['ल्', 'इ', 'ए'],
  ['क्', 'इ'],
  ['ज्', 'इ', 'त्', 'अ', 'न्', 'आ'],
  ['प्', 'य्', 'आ', 'र्', 'अ'],
  ['द्', 'उ', 'न्', 'इ', 'य्', 'आ'],
  ['न्', 'ए'],
  ['आ', 'प्', 'अ', 'क्', 'ओ'],
  ['द्', 'इ', 'य्', 'आ'],
  ['ह्', 'ऐ'],
  ['ब्', 'अ', 'स्', 'अ'],
  ['उ', 'त्', 'अ', 'न्', 'आ'],
  ['ह्', 'ई'],
  ['ह्', 'अ', 'म्', 'ए', 'अं'],
  ['भ्', 'ई'],
  ['म्', 'इ', 'ल्', 'अ'],
  ['ज्', 'आ', 'ए'],
  ['म्', 'ओ', 'द्', 'ई'],
  ['स्', 'अ', 'र्', 'अ', 'क्', 'आ', 'र्', 'अ'],
  ['क्', 'ए'],
  ['प्', 'अ', 'ह्', 'अ', 'ल्', 'ए'],
  ['क्', 'आ', 'र्', 'य्', 'अ', 'क्', 'आ', 'ल्', 'अ'],
  ['म्', 'ए', 'अं'],
  ['भ्', 'ई'],
  ['त्', 'ई', 'न्', 'अ']

In [None]:
# this will free up un-necessary consumption of RAM
del corrected_sentences
del sentences

# Question 2

Q2 (5 marks) Find all characters and syllables. Store a list of them in descending order of their
frequencies.

In [None]:
# creates tokens based on white spaces
from collections import Counter # Counter creates dictionary when given a list -> words are treated as "keys" and their frequencies are treated as "values"

# this breaks the corpus in list of words based on white space
tokens = []
for i in data:
    for _ in i.split():
        if _ not in noise:
            if _[-1] in noise:           # to check for noise
                _ = _[:-1]
            tokens.append(_)
    tokens.append('$') # to signify end of sentence.

In [None]:
# prints top 20 elements of list as per their frequencies in decreasing order
def top20(list1):
  top_20_ = Counter(list1).most_common(20)
  for key, value in top_20_:
      print(key,":",value)

### Charactes with their Frequencies

##### Unigram

In [None]:
# function for generating a list of characters, given a list of words.
def character_count(tokens):
    char_list = []
    for i in tokens:
        if i == '$':
            continue
        for j in unicode_corrected(i):   #unicode_correction of tokens and counting characters
            char_list.append(j)
    return char_list

In [None]:
char_list = character_count(tokens) # generate list of unigram characters
top20(char_list) # prints top 20 characters with their frequencies in decreasing order

अ : 7082229
आ : 2991109
ए : 2318442
क् : 2219964
र् : 2115649
ई : 1460305
इ : 1432973
न् : 1334448
स् : 1283708
अं : 1215588
ह् : 1133159
म् : 1053237
त् : 980066
ल् : 919917
ओ : 896588
प् : 805896
य् : 752819
व् : 624743
द् : 607633
उ : 587149


In [None]:
del char_list

##### Bi-gram

In [None]:
def character_bigrams(tokens):
  char_list_bi = []
  for i in tokens:
      if i == '$':
          continue
      list1 = unicode_corrected(i)  #unicode_correction of tokens and counting characters
      for i in range(1,len(list1)):
        new = list1[i-1]+list1[i]
        char_list_bi.append(new)
  return char_list_bi

In [None]:
char_list_bi = character_bigrams(tokens) # generate list of bigram characters
top20(char_list_bi)

र्अ : 1169953
अर् : 785625
क्अ : 610555
स्अ : 517928
न्अ : 515086
अन् : 432177
क्ए : 407130
प्अ : 403704
अह् : 390458
आर् : 368632
एअं : 360547
त्अ : 354071
अक् : 350793
ल्अ : 329260
न्ए : 328954
म्अ : 322851
क्आ : 314323
अत् : 308623
य्आ : 297778
ह्ऐ : 297241


In [None]:
del char_list_bi

### Syllables with their Frequencies

In [None]:
# function for finding the syllables given a word
def gen_syllable(word, slist):
    syllable = ""
    if len(word)==0:
        return
    if word[0] in swars:
        slist.append(word[0])
    else:
        syllable = word[0]
    for i in range(1,len(word)):
      if word[i-1] in swars and word[i] in swars:
        slist.append(word[i])
      elif word[i] in swars:
        syllable = syllable[:-1]
        syllable += swar_map[word[i]]
        slist.append(syllable)
        syllable = ""
      else:
        syllable += word[i]

##### unigram syllables

In [None]:
# generate all the uni-gram syllables given a list of tokens
def syllable_unigrams(tokens):
  s_list = []
  for i in tokens:
    word = unicode_corrected(i)
    gen_syllable(word,s_list)
  return s_list

In [None]:
syllable_list = syllable_unigrams(tokens) # generate list of unigram syllables
top20(syllable_list)

र : 1005547
अं : 1002821
क : 596506
न : 502798
स : 487412
के : 404826
प : 388127
ने : 328058
ल : 322039
त : 308134
का : 307758
ए : 306908
है : 297056
मे : 292362
म : 290360
ह : 278520
ब : 242393
आ : 237245
अ : 236246
की : 234967


In [None]:
del syllable_list

##### Bi-gram syllables

In [None]:
# return a list of bi-gram syllables given a list of tokens
def syllable_bigrams(tokens):
  s_list_bi = []
  for i in tokens:
    s_list = []
    word = unicode_corrected(i)
    gen_syllable(word,s_list)
    for i in range(1,len(s_list)):
      s_list_bi.append(s_list[i-1]+s_list[i])
  return s_list_bi

In [None]:
syllable_list_bi = syllable_bigrams(tokens) # generate list of bi-gram syllables
top(syllable_list_bi)

मेअं : 259276
कर : 159729
और : 115735
पर : 99547
इस : 82722
हैअं : 80772
हीअं : 55811
एक : 54456
लिए : 54045
नही : 49370
अप : 45131
कार : 38882
किया : 37453
योअं : 34596
रने : 34498
कहा : 33141
यह : 31405
गया : 30316
सर : 30078
उन : 28940


In [None]:
del syllable_list_bi

In [None]:
del data

# Question 3

1. संघ के प्रांतीय सचिव एवं कोषाध्यक्ष रणदीप आर्य ने बताया कि बिजली विभाग में कभी ट्रांसफार्मर दिलवाने के नाम पर और कभी तेल व केबल के नाम पर अतिरिक्त शुल्क मांगा जाता है और किसान को मजबूरीवश यह शुल्क देना पड़ता है।

---


Ans: संघ के, प्रांतीय सचिव एवं कोषाध्यक्ष, रणदीप
आर्य ने, बताया, कि, बिजली विभाग में, कभी, ट्रांसफार्मर, दिलवाने के, नाम पर, और, कभी, तेल व केबल के, नाम पर, अतिरिक्त शुल्क, मांगा जाता है, और, किसान को, मजबूरीवश, यह शुल्क, देना, पड़ता है।

2. वहीं दूसरी ओर, ऐलनाबाद विधायक व वरिष्ठ नेता अभय सिंह चौटाला ने चुटकी लेते हुये कहा, पहले आम कहावत थी कि ‘प्याज रोटी खाओ प्रभु के गुण गाओ’ परंतु आजकल प्याज ने तो उपभोक्ताओं के आंसू निकाल दिए हैं।


---


Ans: वहीं दूसरी ओर, ऐलनाबाद विधायक व वरिष्ठ नेता, अभय सिंह चौटाला ने, चुटकी लेते हुये, कहा, पहले, आम कहावत, थी, कि, ‘प्याज रोटी, खाओ, प्रभु के गुण, गाओ’, परंतु, आजकल, प्याज ने तो, उपभोक्ताओं के, आंसू, निकाल दिए हैं।

3. ये सेना के आधुनिकीकरण में एक बड़ा कदम माना जा रहा है ।
---
Ans: ये, सेना के, आधुनिकीकरण में, एक बड़ा कदम, माना जा रहा है

4. अपने बयान में आधार कार्ड जारी करने वाली अथॉरिटी यूआईडीएआई ने कहा था कि, इस तरह के कार्ड आपकी प्राइवेसी के लिए खतरा साबित हो सकते हैं।
---
Ans: अपने बयान में, आधार कार्ड, जारी करने वाली, अथॉरिटी, यूआईडीएआई ने, कहा था कि, इस तरह के, कार्ड, आपकी प्राइवेसी, के लिए, खतरा, साबित, हो सकते हैं

5. वहीं प्रबंधन समिति कुसुम चाचान कहतीं हैं कि मरीजों एवं उनके स्वजनों को निशुल्क भोजन कराकर सुख की अनुभूति होती है।
---
Ans: वहीं, प्रबंधन समिति, कुसुम चाचान, कहतीं हैं, कि, मरीजों एवं उनके स्वजनों को, निशुल्क भोजन, कराकर, सुख की अनुभूति, होती है

6. फिर पानी भी कम मात्रा में सिंचाई के लिए उपलब्ध होता है।
---
Ans: फिर, पानी भी, कम मात्रा में, सिंचाई के लिए, उपलब्ध, होता है

7. लेकिन दिवाली से एक दिन पहले रात को दोबारा से यह दीवार बना दी गई।
---
Ans: लेकिन, दिवाली से, एक दिन पहले, रात को, दोबारा से, यह दीवार, बना दी गई

8. Ó अदालत ने कुरान की एक आयत का जिक्र किया जो कहती है, ‘मुस्लिम धर्म को नहीं मानने वाली महिलाओं से तब तक शादी न करें जब तक कि वह इस्लाम को मानने न लगे ़ ़ ़ अपनी बेटियों का ऐसे लोगों से तब तक निकाह नहीं करें जब तक कि वे मुस्लिम धर्म को मानने न लग जाएं।
---
Ans: अदालत ने, कुरान की, एक आयत का, जिक्र किया, जो, कहती है, ‘मुस्लिम धर्म को, नहीं मानने वाली, महिलाओं से, तब तक, शादी न करें, जब तक कि, वह, इस्लाम को, मानने न लगे, अपनी बेटियों का, ऐसे लोगों से, तब तक, निकाह नहीं करें, जब तक कि, वे, मुस्लिम धर्म को, मानने न लग जाएं

9. भोपाल की रैली में राहुल ने कार्यकर्ताओं को आभार व्यक्त करते हुए कहा कि पीएम मोदी भाषण देते हैं तो कहते हैं कि ‘मैं कांग्रेस को मिटा दूंगा’ लेकिन हमारी राजस्थान, मध्य प्रदेश और छत्तीसगढ़ में सरकार बन गई और दिल्ली में बनने वाली है।
---
Ans: भोपाल की, रैली में, राहुल ने, कार्यकर्ताओं को, आभार व्यक्त करते हुए, कहा कि, पीएम मोदी, भाषण देते हैं, तो, कहते हैं कि, ‘मैं, कांग्रेस को, मिटा दूंगा,’ लेकिन, हमारी, राजस्थान, मध्य प्रदेश और छत्तीसगढ़ में, सरकार बन गई, और, दिल्ली में, बनने वाली है

10. पुलिस ने शव को कब्जे में लेकर पोस्टमार्टम के लिए भेज दिया है.
---
Ans: पुलिस ने, शव को, कब्जे में, लेकर, पोस्टमार्टम के लिए, भेज दिया है

11. ऐसे में बोर्ड ने दोबारा परीक्षा कराने का फैसला लिया।
---
Ans: ऐसे में, बोर्ड ने, दोबारा, परीक्षा कराने का, फैसला लिया

12. महिला की शिकायत पर पुलिस ने केस दर्ज कर आरोपी को गिरफ्तार कर लिया है।
---
Ans: महिला की, शिकायत पर, पुलिस ने, केस दर्ज कर, आरोपी को, गिरफ्तार कर लिया है

13. इस साल अक्षय कुमार की. . . महीने के अनुसार पढ़े
---
Ans: इस साल, अक्षय कुमार की, . . ., महीने के अनुसार, पढ़े

14. सिखा के कुल्हे खोल के मैंने उसके पिछवाड़े के छेद पर ये झाग को लगा दिया. गांड के छेद को एकदम चिकना कर के मैंने लंड के ऊपर भी झाग बनाया.
---
Ans: सिखा के, कुल्हे, खोल के, मैंने, उसके, पिछवाड़े के छेद पर, ये झाग को, लगा दिया, गांड के छेद को, एकदम चिकना, कर के, मैंने, लंड के ऊपर भी, झाग बनाया

15. उन्होंने कहा, ‘सरकार ने ब्यूसेजोर क्रिकेट ग्राउंड का नाम बदलने का ऐतिहासिक फैसला किया है जो संकेत देता है कि वेस्टइंडीज में स्थानीय खिलाड़ियों के लिए कितना प्यार है. अपने देश में इस सम्मान के लिए डेरेन को बधाई.’
---
Ans: उन्होंने, कहा, ‘सरकार ने, ब्यूसेजोर क्रिकेट ग्राउंड का, नाम, बदलने का, ऐतिहासिक फैसला, किया है, जो, संकेत देता है, कि, वेस्टइंडीज में, स्थानीय खिलाड़ियों, के लिए, कितना, प्यार है, अपने देश में, इस सम्मान के लिए, डेरेन को बधाई

16. कार्यकर्ताओं ने श्री बिश्नोई व पार्टी के समर्थन में नारे लगाये और एक-दूसरे को लड्डïू खिलाकर मुंह मीठा कराया।
---
Ans: कार्यकर्ताओं ने, श्री बिश्नोई व पार्टी के, समर्थन में, नारे लगाये, और, एक-दूसरे को, लड्डïू खिलाकर, मुंह, मीठा कराया

17. खबर में पार्क के प्रवक्ता जैमी रिचर्ड्स के हवाले से कहा गया है, 'हमें अभी तक नहीं पता कि वे कैसे गिरे। हम यह समझने की कोशिश कर रहे हैं कि क्या हुआ।
---
Ans: खबर में, पार्क के प्रवक्ता, जैमी रिचर्ड्स के हवाले से, कहा गया है, 'हमें, अभी तक, नहीं पता कि, वे, कैसे गिरे, हम, यह, समझने की कोशिश, कर रहे हैं कि, क्या, हुआ

18. बिजली विभाग ने आज गांव चिडाव के ग्राम सचिवालय में खुला दरबार लगाया।
---
Ans: बिजली विभाग ने, आज, गांव, चिडाव के, ग्राम सचिवालय में, खुला दरबार, लगाया

19. कैरीजेन का ज्यादातर जीवन फिटनेस के आसपास ही घूमता रहा। ट्रेनिंग के केवल एक साल के बाद उन्होंने एक बेहतर शरीर का निर्माण किया उसके बाद उन्होंने फिटनेस प्रतियोगिता में भाग लेकर जीत को हासिल कर लिया।
---
Ans: कैरीजेन का, ज्यादातर जीवन, फिटनेस के, आसपास ही, घूमता रहा, ट्रेनिंग के, केवल एक साल के बाद, उन्होंने, एक बेहतर शरीर का, निर्माण किया, उसके बाद, उन्होंने, फिटनेस प्रतियोगिता में, भाग लेकर, जीत को, हासिल कर लिया

20. स्थान : प्राचीनतम शनि मंदिर संस्थान, जूनी इंदौर
---
Ans: स्थान,  प्राचीनतम शनि मंदिर संस्थान, जूनी इंदौर

21. शतरंज : एआईसीएफ की आम बैठक रविवार को  (19:58)
---
Ans: शतरंज, एआईसीएफ की, आम बैठक, रविवार को

22. आपको बता दें कि सपना ने याचिका में कहा कि यह रागिनी विभिन्न लोक गायक पिछले चार दशकों से भी अधिक समय से विभिन्न कलाकारों द्वारा प्रस्तुत की जा रही है।
---
Ans: आपको, बता दें, कि, सपना ने, याचिका में, कहा कि, यह रागिनी, विभिन्न लोक गायक, पिछले, चार दशकों से, भी ,अधिक समय से, विभिन्न कलाकारों द्वारा, प्रस्तुत की जा रही है

23. अब तक 16 टीमें पहुंच चुकी हैं।
---
Ans: अब तक, 16 टीमें, पहुंच चुकी हैं

24. प्रथम दो माह तक कैंसर के रोगी का आहार सिर्फ अंगूर ही होना चाहिए।
---
Ans: प्रथम दो माह तक, कैंसर के, रोगी का ,आहार, सिर्फ अंगूर ही, होना चाहिए

25. ऐसे लोग भ्रांति फैला कर उसका लाभ उठाना चाहते हैं।
---
Ans: ऐसे लोग, भ्रांति, फैला कर, उसका लाभ, उठाना चाहते हैं



# Question 4

### Some Pre-Processing

In [None]:
import sentencepiece as spm # importing SentencePiece library for training Unigram and BPE models

# change input parameter when running at different environment

# Train unigram tokenizer
spm.SentencePieceTrainer.train(input='/kaggle/input/hindi-corpus/hi_100_new.txt', model_prefix='uni_1k', model_type='unigram')

# Train BPE tokenizer with vocabulary size 1000
spm.SentencePieceTrainer.train(input='/kaggle/input/hindi-corpus/hi_100_new.txt', model_prefix='bpe_1k', vocab_size=1000, model_type='bpe')

# Train BPE tokenizer with vocabulary size 2000
spm.SentencePieceTrainer.train(input='/kaggle/input/hindi-corpus/hi_100_new.txt', model_prefix='bpe_2k', vocab_size=2000, model_type='bpe')



In [None]:
# function for bi-gram tokens
def token_bigrams(tokens):
  tokens_bi = []
  for i in range(1,len(tokens)):
    tokens_bi.append(tokens[i-1]+tokens[i])
  return tokens_bi

Function for finding and printing unigram frequencies of tokens, Characters and Syllables

In [None]:
# for printing uni-gram frequencies of tokens, characters and syllables of different tokenizer models given list of tokens of produced by that model.
def uni_gram_frequencies(tokens):
  print("\nUni-gram tokens:")
  top20(tokens)
  print("\nUni-gram Characters:")
  characters = character_count(tokens)
  top20(characters)
  del characters
  print("\nUni-gram Syllables:")
  syllables = syllable_unigrams(tokens)
  top20(syllables)

Function for finding and printing bigram frequencies of tokens, Characters and Syllables

In [None]:
# for printing bi-gram frequencies of tokens, characters and syllables of different tokenizer models given list of tokens of produced by that model.
def bi_gram_frequencies(tokens):
  token_bi = token_bigrams(tokens)
  top20(token_bi)
  print("\nBi-gram Characters:")
  del token_bi
  characters = character_bigrams(tokens)
  top20(characters)
  del characters
  print("\nBi-gram Syllables:")
  syllables = syllable_bigrams(tokens)
  top20(syllables)

Function for working with a tokenizer algorithm

In [None]:
# loads different tokenizer models and generate tokens
def algorithm_model(model,corpus):
  sp_model = spm.SentencePieceProcessor()
  sp_model.load(model)
  tokens = sp_model.encode_as_pieces(corpus)
  return tokens

In [None]:
# load 25 questions for generating tokens by all the models in question 4. We will use these tokens in quetion 5 for performance measuring.
with open('/kaggle/input/hindi-corpus/Q3_corpus.txt','r',encoding='utf-8') as f:
  q3_corpus = f.read()

In [None]:
# Read the entire corpus for working with different tokenizer models
with open('/kaggle/input/hindi-corpus/hi_100_new.txt','r',encoding='utf-8') as f:
  corpus = f.read()

### Unigram algorithm

In [None]:
tokens_uni_1k = algorithm_model('uni_1k.model',corpus) # generate tokens of whole corpus
tokens_uni_1k_25 = algorithm_model('uni_1k.model',q3_corpus) # generate tokens of 25 questions to be used in question 5
cleaned_tokens_uni1k = [token.replace('▁', '') for token in tokens_uni_1k if token not in noise and token not in matras ] # clean tokens of tokenizer model

##### Uni-gram frequencies

In [None]:
uni_gram_frequencies(cleaned_tokens_uni1k) # print uni-gram frequencies of tokens, characters and syllables


Uni-gram tokens:
के : 327776
। : 276509
में : 240971
है : 228767
की : 200438
को : 155030
से : 147370
का : 125966
ने : 124887
और : 115827
पर : 97774
कि : 83312
हैं : 66837
भी : 65971
कर : 64023
न : 60454
ों : 56936
एक : 54623
 : 53712
इस : 50577

Uni-gram Characters:
अ : 7687399
आ : 2945384
ए : 2283936
क् : 2221101
र् : 2115631
इ : 1424414
ई : 1391237
न् : 1334418
स् : 1283708
अं : 1181533
ह् : 1133159
म् : 1053237
त् : 980066
ल् : 919917
ओ : 882167
प् : 805896
य् : 753228
व् : 624743
द् : 607633
उ : 580536

Uni-gram Syllables:
र : 1082442
अं : 988776
क : 631185
न : 549470
स : 518598
के : 401109
प : 398871
ल : 370074
ए : 342237
त : 329456
ने : 322271
म : 315715
का : 302629
है : 296941
ह : 291857
मे : 290425
आ : 287786
इ : 283378
ब : 254355
ग : 241495


##### bi-gram frequencies

In [None]:
bi_gram_frequencies(cleaned_tokens_uni1k) # print bi-gram frequencies of tokens, characters and syllables

है। : 96169

केलिए : 43532

हैं। : 27981

हैकि : 25876

केसाथ : 18391

कहाकि : 16126

केबाद : 14512

था। : 12749

रहाहै : 12039

नेकहा : 11914

हैऔर : 11729

गयाहै : 11064

।इस : 10970

ोंके : 10586

रहीहै : 9153

करनेके : 8851

ोंमें : 8714

रहेहैं : 8424

ोंको : 8214

थी। : 7817



Bi-gram Characters:

र्अ : 1267976

अर् : 740114

क्अ : 647043

न्अ : 563047

स्अ : 540464

प्अ : 417601

क्ए : 402530

ल्अ : 382830

त्अ : 382752

अन् : 380380

अह् : 377309

आर् : 353337

एअं : 352351

म्अ : 351141

न्ए : 322538

क्आ : 307930

अक् : 301741

ह्ऐ : 297090

ह्अ : 294637

म्ए : 293213



Bi-gram Syllables:

मेअं : 258784

कर : 162688

और : 117143

पर : 103547

इस : 85443

ओअं : 78392

हैअं : 66837

एक : 55969

हीअं : 55359

लिए : 53591

नही : 49220

अप : 45593

कार : 42096

किया : 36932

कहा : 32993

रने : 32824

योअं : 32470

यह : 31725

एअं : 31612

सर : 31392


In [None]:
del cleaned_tokens_uni1k
del tokens_uni_1k

### BPE Algorithm Vocab size = 1k

In [None]:
# vocab size 1k
tokens_bpe_1k = algorithm_model('bpe_1k.model',corpus) # generate tokens of whole corpus
tokens_bpe_1k_25 = algorithm_model('bpe_1k.model',q3_corpus) # generate tokens of 25 questions to be used in question 5
cleaned_tokens_bpe1k = [token.replace('▁', '') for token in tokens_bpe_1k if token not in noise and token not in matras ]

##### Unigram Frequencies:

In [None]:
uni_gram_frequencies(cleaned_tokens_bpe1k) # print uni-gram frequencies of tokens, characters and syllables



Uni-gram tokens:

के : 344230

। : 276966

में : 245494

है : 215519

की : 214647

ने : 178508

को : 164642

से : 161960

का : 147974

क : 133331

न : 124503

और : 115365

म : 114131

स : 111941

पर : 105525

प : 99336

व : 96389

ल : 95954

त : 94389

कि : 92995



Uni-gram Characters:

अ : 8685760

आ : 2948310

ए : 2263983

क् : 2221101

र् : 2115631

ई : 1415545

इ : 1391135

न् : 1334418

स् : 1283708

अं : 1164817

ह् : 1133159

म् : 1053237

त् : 980066

ल् : 919917

ओ : 851777

प् : 805896

य् : 753228

व् : 624743

द् : 607633

ज् : 556610



Uni-gram Syllables:

र : 1164091

अं : 1039000

क : 666931

न : 583689

स : 563096

आ : 493637

इ : 476624

प : 452203

ल : 419895

के : 402872

ए : 392194

म : 390011

त : 370312

ह : 334884

ने : 325957

का : 304314

है : 296118

ब : 293508

ग : 291416

मे : 285742


##### bi-gram Frequencies

In [None]:
bi_gram_frequencies(cleaned_tokens_bpe1k) # print bi-gram frequencies of tokens, characters and syllables

है। : 91502

केलिए : 43669

हैं। : 34402

हैकि : 25341

केसाथ : 18478

कहाकि : 16133

केबाद : 14524

ोंके : 13519

ोंमें : 13068

था। : 12934

नेकहा : 12058

रहाहै : 12021

नेके : 11831

ताहै : 11145

।इस : 11081

गयाहै : 11053

हैऔर : 10845

रहेहैं : 10181

ोंको : 10154

 : 9698



Bi-gram Characters:

र्अ : 1360453

क्अ : 675991

अर् : 635321

न्अ : 589650

स्अ : 579574

प्अ : 465789

म्अ : 430109

ल्अ : 425884

त्अ : 409012

क्ए : 402872

आर् : 366396

एअं : 351357

अह् : 349873

ह्अ : 337544

न्ए : 325957

य्अ : 325819

क्आ : 304314

ह्ऐ : 296118

ब्अ : 293508

ग्अ : 293145



Bi-gram Syllables:

मेअं : 259459

कर : 169583

और : 119313

पर : 107325

ओअं : 100848

इस : 95508

हैअं : 80599

एअं : 57064

हीअं : 56185

एक : 54352

लिए : 53777

कार : 51507

नही : 49103

इत : 46809

अप : 46073

इक : 45433

अंग : 40905

आर : 38283

योअं : 36742

किया : 36546


In [None]:
del cleaned_tokens_bpe1k
del tokens_bpe_1k

### BPE Algorithm Vocab Size = 2k

In [None]:
# vocab size 2k
tokens_bpe_2k = algorithm_model('bpe_2k.model',corpus) # generate tokens of whole corpus
tokens_bpe_2k_25 = algorithm_model('bpe_2k.model',q3_corpus) # generate tokens of 25 questions to be used in question 5
cleaned_tokens_bpe2k = [token.replace('▁', '') for token in tokens_bpe_2k if token not in noise and token not in matras ]

##### Unigram Frequencies:

In [None]:
uni_gram_frequencies(cleaned_tokens_bpe2k) # print uni-gram frequencies of tokens, characters and syllables



Uni-gram tokens:

के : 344230

। : 276966

में : 245494

है : 215519

की : 214647

ने : 178508

को : 164642

से : 161960

का : 147974

क : 133331

न : 124503

और : 115365

म : 114131

स : 111941

पर : 105525

प : 99336

व : 96389

ल : 95954

त : 94389

कि : 92995



Uni-gram Characters:

अ : 8685760

आ : 2948310

ए : 2263983

क् : 2221101

र् : 2115631

ई : 1415545

इ : 1391135

न् : 1334418

स् : 1283708

अं : 1164817

ह् : 1133159

म् : 1053237

त् : 980066

ल् : 919917

ओ : 851777

प् : 805896

य् : 753228

व् : 624743

द् : 607633

ज् : 556610



Uni-gram Syllables:

र : 1164091

अं : 1039000

क : 666931

न : 583689

स : 563096

आ : 493637

इ : 476624

प : 452203

ल : 419895

के : 402872

ए : 392194

म : 390011

त : 370312

ह : 334884

ने : 325957

का : 304314

है : 296118

ब : 293508

ग : 291416

मे : 285742


##### bi-gram Frequencies

In [None]:
bi_gram_frequencies(cleaned_tokens_bpe2k) # print bi-gram frequencies of tokens, characters and syllables

है। : 91502

केलिए : 43669

हैं। : 34402

हैकि : 25341

केसाथ : 18478

कहाकि : 16133

केबाद : 14524

ोंके : 13519

ोंमें : 13068

था। : 12934

नेकहा : 12058

रहाहै : 12021

नेके : 11831

ताहै : 11145

।इस : 11081

गयाहै : 11053

हैऔर : 10845

रहेहैं : 10181

ोंको : 10154

 : 9698



Bi-gram Characters:

र्अ : 1360453

क्अ : 675991

अर् : 635321

न्अ : 589650

स्अ : 579574

प्अ : 465789

म्अ : 430109

ल्अ : 425884

त्अ : 409012

क्ए : 402872

आर् : 366396

एअं : 351357

अह् : 349873

ह्अ : 337544

न्ए : 325957

य्अ : 325819

क्आ : 304314

ह्ऐ : 296118

ब्अ : 293508

ग्अ : 293145



Bi-gram Syllables:

मेअं : 259459

कर : 169583

और : 119313

पर : 107325

ओअं : 100848

इस : 95508

हैअं : 80599

एअं : 57064

हीअं : 56185

एक : 54352

लिए : 53777

कार : 51507

नही : 49103

इत : 46809

अप : 46073

इक : 45433

अंग : 40905

आर : 38283

योअं : 36742

किया : 36546


In [None]:
del cleaned_tokens_bpe2k
del tokens_bpe_2k

### mBERT algorithm max_length = 1k

In [None]:
from transformers import BertTokenizer

In [None]:
from transformers import BertTokenizer
tokenizer_mbert_1k = BertTokenizer.from_pretrained('bert-base-multilingual-cased',max_length=1000)
tokens_mbert_1k = tokenizer_mbert_1k.tokenize(corpus) # generate tokens of whole corpus
tokens_mbert_1k_25 = tokenizer_mbert_1k.tokenize(q3_corpus) # generate tokens of 25 questions to be used in question 5

In [None]:
cleaned_tokens_mBERT_1k = [token.replace('#', '') for token in tokens_mbert_1k if token not in noise and token not in matras ]

##### Unigram Frequencies:

In [None]:
uni_gram_frequencies(cleaned_tokens_mBERT_1k) # print uni-gram frequencies of tokens, characters and syllables



Uni-gram tokens:

के : 347164

स : 330691

प : 314836

म : 305742

र : 301686

। : 276966

ब : 259624

में : 246133

न : 235575

है : 215601

की : 213189

ा : 205131

क : 193113

ल : 187736

को : 173966

ी : 173301

ने : 172673

से : 165303

का : 164733

ज : 151362



Uni-gram Characters:

अ : 10295489

आ : 2990545

ए : 2317673

क् : 2220811

र् : 2115389

ई : 1460042

इ : 1432641

न् : 1334247

स् : 1283571

अं : 1215374

ह् : 1133069

म् : 1053101

त् : 979855

ल् : 919790

ओ : 896257

प् : 805642

य् : 753100

व् : 624631

द् : 607566

उ : 586969



Uni-gram Syllables:

र : 1519633

अं : 1119929

क : 772941

स : 758570

आ : 737460

न : 727742

इ : 716501

प : 605704

ए : 586798

म : 525462

ल : 490884

त : 440043

उ : 411127

के : 397142

ब : 382913

ह : 352607

ग : 348705

ई : 348361

ओ : 338374

ने : 306789


##### Bi-gram Frequencies:

In [None]:
bi_gram_frequencies(cleaned_tokens_mBERT_1k) # print bi-gram frequencies of tokens, characters and syllables

है। : 91485

केलिए : 44091

प्र : 38159

हैं। : 34394

आप : 26605

हैकि : 25506

केसाथ : 18558

मु : 18220

ोंके : 17272

सम : 16871

सु : 16326

कहाकि : 16146

बता : 15907

सा : 15568

ोंमें : 15472

जर : 14583

केबाद : 14487

ोंको : 13865

पुल : 13842

मो : 13677



Bi-gram Characters:

र्अ : 1633762

क्अ : 776956

स्अ : 764871

न्अ : 734326

प्अ : 610571

अर् : 598163

म्अ : 542117

ल्अ : 497419

त्अ : 495787

क्ए : 397142

ब्अ : 383609

ह्अ : 352837

ग्अ : 352622

य्अ : 338215

एअं : 322613

व्अ : 310488

न्ए : 306789

आर् : 304446

ज्अ : 301061

क्आ : 299923



Bi-gram Syllables:

मेअं : 254882

कर : 205213

पर : 127688

और : 125194

इस : 119334

ओअं : 118355

हैअं : 80610

एक : 67768

अंग : 54850

लिए : 53250

एअं : 51529

नही : 47362

हीअं : 47362

कार : 47089

आर : 44496

उन : 44146

इन : 42615

इक : 41972

अप : 40042

आज : 38689


In [None]:
del cleaned_tokens_mBERT_1k
del tokens_mbert_1k

### mBERT algorithm max_length = 2k

In [None]:
tokenizer_mbert_2k = BertTokenizer.from_pretrained('bert-base-multilingual-cased',max_length=2000)
tokens_mbert_2k = tokenizer_mbert_2k.tokenize(corpus) # generate tokens of whole corpus
tokens_mbert_2k_25 = tokenizer_mbert_2k.tokenize(q3_corpus) # generate tokens of 25 questions to be used in question 5

In [None]:
cleaned_tokens_mBERT_2k = [token.replace('#', '') for token in tokens_mbert_2k if token not in noise and token not in matras ]

##### Unigram Frequencies:

In [None]:
uni_gram_frequencies(cleaned_tokens_mBERT_2k) # print uni-gram frequencies of tokens, characters and syllables



Uni-gram tokens:

के : 347164

स : 330691

प : 314836

म : 305742

र : 301686

। : 276966

ब : 259624

में : 246133

न : 235575

है : 215601

की : 213189

ा : 205131

क : 193113

ल : 187736

को : 173966

ी : 173301

ने : 172673

से : 165303

का : 164733

ज : 151362



Uni-gram Characters:

अ : 10295489

आ : 2990545

ए : 2317673

क् : 2220811

र् : 2115389

ई : 1460042

इ : 1432641

न् : 1334247

स् : 1283571

अं : 1215374

ह् : 1133069

म् : 1053101

त् : 979855

ल् : 919790

ओ : 896257

प् : 805642

य् : 753100

व् : 624631

द् : 607566

उ : 586969



Uni-gram Syllables:

र : 1519633

अं : 1119929

क : 772941

स : 758570

आ : 737460

न : 727742

इ : 716501

प : 605704

ए : 586798

म : 525462

ल : 490884

त : 440043

उ : 411127

के : 397142

ब : 382913

ह : 352607

ग : 348705

ई : 348361

ओ : 338374

ने : 306789


##### bi-gram frequencies

In [None]:
bi_gram_frequencies(cleaned_tokens_mBERT_2k) # print bi-gram frequencies of tokens, characters and syllables

है। : 91485

केलिए : 44091

प्र : 38159

हैं। : 34394

आप : 26605

हैकि : 25506

केसाथ : 18558

मु : 18220

ोंके : 17272

सम : 16871

सु : 16326

कहाकि : 16146

बता : 15907

सा : 15568

ोंमें : 15472

जर : 14583

केबाद : 14487

ोंको : 13865

पुल : 13842

मो : 13677



Bi-gram Characters:

र्अ : 1633762

क्अ : 776956

स्अ : 764871

न्अ : 734326

प्अ : 610571

अर् : 598163

म्अ : 542117

ल्अ : 497419

त्अ : 495787

क्ए : 397142

ब्अ : 383609

ह्अ : 352837

ग्अ : 352622

य्अ : 338215

एअं : 322613

व्अ : 310488

न्ए : 306789

आर् : 304446

ज्अ : 301061

क्आ : 299923



Bi-gram Syllables:

मेअं : 254882

कर : 205213

पर : 127688

और : 125194

इस : 119334

ओअं : 118355

हैअं : 80610

एक : 67768

अंग : 54850

लिए : 53250

एअं : 51529

नही : 47362

हीअं : 47362

कार : 47089

आर : 44496

उन : 44146

इन : 42615

इक : 41972

अप : 40042

आज : 38689


In [None]:
del cleaned_tokens_mBERT_2k
del tokens_mbert_2k

### IndicBERT algorithm max_length = 1k

In [None]:
from transformers import AutoModel, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('ai4bharat/indic-bert')
# model = AutoModel.from_pretrained('ai4bharat/indic-bert')

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/507 [00:00<?, ?B/s]

spiece.model:   0%|          | 0.00/5.65M [00:00<?, ?B/s]

In [None]:
with open('/kaggle/input/hindi-corpus/hi_100_new.txt','r',encoding='utf-8') as f:
  corpus = f.read()

In [None]:
# function to process big corpus in pieces to avoid RAM exhaust
# this function takes corpus and max_len of model and returns tokens for that corpus
def gen_indic_tokens(corpus,max_len):
  chunk_length = 1000
  # Split the corpus into chunks of maximum length
  corpus_chunks = [corpus[i:i+chunk_length] for i in range(0, len(corpus), chunk_length)]

  # Tokenize each chunk and concatenate the tokenized outputs
  tokenized_chunks = [tokenizer(chunk, max_length=max_len, truncation=True) for chunk in corpus_chunks]

  # list of list of tokens of each processed chunk
  tokens1 = []
  for i in tokenized_chunks:
    tokens1.append(tokenizer.convert_ids_to_tokens(i['input_ids']))

  # converting list of list in a flat list
  token_list = []
  for token in tokens1:
    for i in token:
      token_list.append(i)
  del tokens1 # free RAM when not in use
  # cleaning tokens generated by indicBERT
  cleaned = [token.replace('▁', '') for token in token_list if token not in noise and token not in matras ]
  return cleaned

In [None]:
max_length = 1000 # model_parameter
cleaned_indicBert_list_1k_uni = gen_indic_tokens(corpus,max_length) # generate tokens of whole corpus
cleaned_indicBert_list_1k_uni_25 = gen_indic_tokens(q3_corpus,max_length) # generate tokens of 25 questions to be used in question 5

##### Unigram Frequencies

In [None]:
uni_gram_frequencies(cleaned_indicBert_list_1k_uni) # print uni-gram frequencies of tokens, characters and syllables


Uni-gram tokens:
क : 1149619
ह : 529391
य : 451473
न : 416539
स : 388838
म : 359719
त : 314868
पर : 278447
। : 274211
 : 271663
कर : 207963
द : 187896
ल : 172532
व : 165384
ग : 158512
ज : 156784
र : 148374
थ : 139655
ए : 136874
भ : 122324

Uni-gram Characters:
अ : 18095486
क् : 2221101
र् : 2115912
न् : 1335232
स् : 1283708
ह् : 1133159
म् : 1053237
त् : 980066
ल् : 919917
प् : 805896
य् : 753228
व् : 624743
द् : 607633
ज् : 556610
ब् : 524636
ग् : 479960
ट् : 318634
श् : 297486
ए : 286325
च् : 272542

Uni-gram Syllables:
क : 2221101
र : 2115912
न : 1335232
स : 1283708
ह : 1133159
म : 1053237
त : 980066
ल : 919917
प : 805896
य : 753228
व : 624743
द : 607633
ज : 556610
ब : 524636
ग : 479960
ट : 318634
श : 297486
ए : 286325
च : 272542
अ : 253205


##### bi-gram Frequencies

In [None]:
bi_gram_frequencies(cleaned_indicBert_list_1k_uni) # print bi-gram frequencies of tokens, characters and syllables

ह। : 129440
नह : 61172
तह : 59822
कय : 58481
यक : 57725
लए : 54073
कल : 49225
नक : 46468
हक : 42942
सथ : 41912
[SEP][CLS] : 41292
गय : 39313
कस : 37775
क : 37722
रहह : 36339
दन : 36266
यह : 35287
कपर : 32744
थ। : 29421
तक : 29076

Bi-gram Characters:
क्अ : 2221101
र्अ : 2115912
अर् : 1536928
न्अ : 1335232
स्अ : 1283708
ह्अ : 1133159
म्अ : 1053237
त्अ : 980066
ल्अ : 919917
प्अ : 805896
य्अ : 753228
अन् : 691975
व्अ : 624743
द्अ : 607633
ज्अ : 556610
अल् : 525058
ब्अ : 524636
ग्अ : 479960
अत् : 422023
अह् : 410066

Bi-gram Syllables:
कर : 330952
पर : 311009
और : 115799
इस : 100836
तर : 94794
रह : 93168
वर : 91039
रत : 81009
दर : 81006
सम : 72959
सर : 69763
गर : 69521
जन : 67514
लग : 63840
मन : 62159
एक : 60602
बर : 59171
पन : 58488
उन : 57173
मर : 55779


In [None]:
del cleaned_indicBert_list_1k_uni

### IndicBERT algorithm max_length = 2k

In [None]:
max_length = 2000 # model_parameter
cleaned_indicBert_list_2k_uni = gen_indic_tokens(corpus,max_length) # generate tokens of whole corpus
cleaned_indicBert_list_2k_uni_25 = gen_indic_tokens(q3_corpus,max_length) # generate tokens of 25 questions to be used in question 5

##### Unigram Frequencies:

In [None]:
uni_gram_frequencies(cleaned_indicBert_list_2k_uni) # print uni-gram frequencies of tokens, characters and syllables


Uni-gram tokens:
क : 1149619
ह : 529391
य : 451473
न : 416539
स : 388838
म : 359719
त : 314868
पर : 278447
। : 274211
 : 271663
कर : 207963
द : 187896
ल : 172532
व : 165384
ग : 158512
ज : 156784
र : 148374
थ : 139655
ए : 136874
भ : 122324

Uni-gram Characters:
अ : 18095486
क् : 2221101
र् : 2115912
न् : 1335232
स् : 1283708
ह् : 1133159
म् : 1053237
त् : 980066
ल् : 919917
प् : 805896
य् : 753228
व् : 624743
द् : 607633
ज् : 556610
ब् : 524636
ग् : 479960
ट् : 318634
श् : 297486
ए : 286325
च् : 272542

Uni-gram Syllables:
क : 2221101
र : 2115912
न : 1335232
स : 1283708
ह : 1133159
म : 1053237
त : 980066
ल : 919917
प : 805896
य : 753228
व : 624743
द : 607633
ज : 556610
ब : 524636
ग : 479960
ट : 318634
श : 297486
ए : 286325
च : 272542
अ : 253205


##### bi-gram Frequencies:

In [None]:
bi_gram_frequencies(cleaned_indicBert_list_2k_uni) # print bi-gram frequencies of tokens, characters and syllables

ह। : 129440
नह : 61172
तह : 59822
कय : 58481
यक : 57725
लए : 54073
कल : 49225
नक : 46468
हक : 42942
सथ : 41912
[SEP][CLS] : 41292
गय : 39313
कस : 37775
क : 37722
रहह : 36339
दन : 36266
यह : 35287
कपर : 32744
थ। : 29421
तक : 29076

Bi-gram Characters:
क्अ : 2221101
र्अ : 2115912
अर् : 1536928
न्अ : 1335232
स्अ : 1283708
ह्अ : 1133159
म्अ : 1053237
त्अ : 980066
ल्अ : 919917
प्अ : 805896
य्अ : 753228
अन् : 691975
व्अ : 624743
द्अ : 607633
ज्अ : 556610
अल् : 525058
ब्अ : 524636
ग्अ : 479960
अत् : 422023
अह् : 410066

Bi-gram Syllables:
कर : 330952
पर : 311009
और : 115799
इस : 100836
तर : 94794
रह : 93168
वर : 91039
रत : 81009
दर : 81006
सम : 72959
सर : 69763
गर : 69521
जन : 67514
लग : 63840
मन : 62159
एक : 60602
बर : 59171
पन : 58488
उन : 57173
मर : 55779


In [None]:
del cleaned_indicBert_list_2k_uni

### White-Space tokenizer

In [None]:
from nltk.tokenize import WhitespaceTokenizer
tk = WhitespaceTokenizer()

In [None]:
white_space_tokens = tk.tokenize(corpus) # generate tokens of whole corpus
white_space_tokens_25 = tk.tokenize(q3_corpus) # generate tokens of 25 questions to be used in question 5

##### unigram frequencies:

In [None]:
uni_gram_frequencies(white_space_tokens) # print uni-gram frequencies of tokens, characters and syllables


Uni-gram tokens:
के : 316314
में : 237426
की : 189769
को : 145266
से : 136979
और : 114563
का : 109743
ने : 102378
पर : 88560
है। : 88260
कि : 76741
है : 72656
भी : 63920
एक : 49279
लिए : 47955
इस : 47558
कर : 44563
नहीं : 44168
ही : 40104
तो : 33469

Uni-gram Characters:
अ : 7082229
आ : 2991109
ए : 2318442
क् : 2219964
र् : 2115649
ई : 1460305
इ : 1432973
न् : 1334448
स् : 1283708
अं : 1215588
ह् : 1133159
म् : 1053237
त् : 980066
ल् : 919917
ओ : 896588
प् : 805896
य् : 752819
व् : 624743
द् : 607633
उ : 587149

Uni-gram Syllables:
र : 1005547
अं : 1002821
क : 596506
न : 502798
स : 487412
के : 404826
प : 388127
ने : 328058
ल : 322039
त : 308134
का : 307758
ए : 306908
है : 297056
मे : 292362
म : 290360
ह : 278520
ब : 242393
आ : 237245
अ : 236246
की : 234967


##### bi-gram frequencies:

In [None]:
bi_gram_frequencies(white_space_tokens) # print bi-gram frequencies of tokens, characters and syllables

केलिए : 42448
हैकि : 24816
केसाथ : 17075
कहाकि : 15922
केबाद : 14163
हैऔर : 10096
नेकहा : 9098
करनेके : 8826
बतायाकि : 6392
कोलेकर : 5977
गयाहै। : 5678
.. : 5638
रहाहै। : 5484
केखिलाफ : 5312
केदौरान : 5162
केबीच : 5117
बारेमें : 5059
करतेहुए : 4817
रहेहैं। : 4701
मेंभी : 4682

Bi-gram Characters:
र्अ : 1169953
अर् : 785626
क्अ : 610555
स्अ : 517928
न्अ : 515086
अन् : 432178
क्ए : 407130
प्अ : 403704
अह् : 390461
आर् : 368646
एअं : 360549
त्अ : 354071
अक् : 350794
ल्अ : 329260
न्ए : 328954
म्अ : 322851
क्आ : 314323
अत् : 308624
य्आ : 297778
ह्ऐ : 297241

Bi-gram Syllables:
मेअं : 259276
कर : 159729
और : 115735
पर : 99547
इस : 82722
हैअं : 80777
हीअं : 55811
एक : 54457
लिए : 54045
नही : 49371
अप : 45131
कार : 38882
किया : 37453
योअं : 34596
रने : 34498
कहा : 33141
यह : 31405
गया : 30316
सर : 30078
उन : 28940


In [None]:
del white_space_tokens

# Question 5

### Some Pre Processing

In [None]:
# different lists for q5 generated by models in question 4

In [None]:
# tokens_uni_1k_25
# tokens_bpe_1k_25
# tokens_bpe_2k_25
# tokens_mbert_1k_25
# tokens_mbert_2k_25
# cleaned_indicBert_list_1k_uni_25
# cleaned_indicBert_list_2k_uni_25
# white_space_tokens_25

In [None]:
# function to clean tokens generated by tokenizer models
def clean_tokens(tokens):
  cleaned = [token.replace('▁', '') for token in tokens if token not in noise and token not in matras ]
  return cleaned

In [None]:
# cleaning tokens
tokens_uni_1k_25 = clean_tokens(tokens_uni_1k_25)
tokens_bpe_1k_25 = clean_tokens(tokens_bpe_1k_25)
tokens_bpe_2k_25 = clean_tokens(tokens_bpe_2k_25)

In [None]:
# load word groups which works as ground truth
with open('/cs689q3_assignment.txt','r', encoding='utf-8') as f:
  word_groups = f.read()
word_groups = word_groups.split(',') # creates a list of words separated based on comma(,).

Function to calculate Precision, Recall and F-Score for all the required algorithms

In [None]:
# returns tuple of precision, recall and f-score as percentage given predicted_tokens and true_tokens
def calculate_metrics(predicted_tokens, true_tokens):
    true_positives = len(set(predicted_tokens) & set(true_tokens))
    false_positives = len(set(predicted_tokens) - set(true_tokens))
    false_negatives = len(set(true_tokens) - set(predicted_tokens))

    precision = true_positives / (true_positives + false_positives)
    recall = true_positives / (true_positives + false_negatives)

    if precision + recall == 0:
        f_score = 0
    else:
        f_score = 2 * (precision * recall) / (precision + recall)

    return 100*precision, 100*recall, 100*f_score

Calculation of Precision, Recall and F-Score for all the required algorithms

In [None]:
#Unigram algorithm
precision_uni, recall_uni, f_score_uni = calculate_metrics(tokens_uni_1k_25, word_groups)
#BPE Algorithm Vocab size = 1k
precision_bpe_1k, recall_bpe_1k, f_score_bpe_1k = calculate_metrics(tokens_bpe_1k_25, word_groups)
#BPE Algorithm Vocab Size = 2k
precision_bpe_2k, recall_bpe_2k, f_score_bpe_2k = calculate_metrics(tokens_bpe_2k_25, word_groups)
#mBERT algorithm max_length = 1k
precision_mBERT_1k, recall_mBERT_1k, f_score_mBERT_1k = calculate_metrics(tokens_mbert_1k_25, word_groups)
# mBERT algorithm max_length = 2k
precision_mBERT_2k, recall_mBERT_2k, f_score_mBERT_2k = calculate_metrics(tokens_mbert_2k_25, word_groups)
# IndicBERT algorithm max_length = 1k
precision_IndicBERT_1k, recall_IndicBERT_1k, f_score_IndicBERT_1k = calculate_metrics(cleaned_indicBert_list_1k_uni_25, word_groups)
# IndicBERT algorithm max_length = 2k
precision_IndicBERT_2k, recall_IndicBERT_2k, f_score_IndicBERT_2k = calculate_metrics(cleaned_indicBert_list_2k_uni_25, word_groups)
# White-Space tokenizer
precision_white_space, recall_white_space, f_score_white_space = calculate_metrics(white_space_tokens_25, word_groups)


### Precision (Precision=TP/(TP+FP))

In [None]:
print("\nUnigram algorithm: {:.2f}".format(precision_uni))
print("\nBPE Algorithm Vocab size = 1k: {:.2f}".format(precision_bpe_1k))
print("\nBPE Algorithm Vocab Size = 2k: {:.2f}".format(precision_bpe_2k))
print("\nmBERT algorithm max_length = 1k: {:.2f}".format(precision_mBERT_1k))
print("\nmBERT algorithm max_length = 2k: {:.2f}".format(precision_mBERT_2k))
print("\nIndicBERT algorithm max_length = 1k: {:.2f}".format(precision_IndicBERT_1k))
print("\nIndicBERT algorithm max_length = 2k: {:.2f}".format(precision_IndicBERT_2k))
print("\nWhite-Space tokenizer: {:.2f}".format(precision_white_space))



Unigram algorithm: 0.59



BPE Algorithm Vocab size = 1k: 1.09



BPE Algorithm Vocab Size = 2k: 1.41



mBERT algorithm max_length = 1k: 0.90



mBERT algorithm max_length = 2k: 0.90



IndicBERT algorithm max_length = 1k: 1.47



IndicBERT algorithm max_length = 2k: 1.47



White-Space tokenizer: 1.79


### Recall (Recall  = TP / (TP+FN))

In [None]:
print("\nUnigram algorithm: {:.2f}".format(recall_uni))
print("\nBPE Algorithm Vocab size = 1k: {:.2f}".format(recall_bpe_1k))
print("\nBPE Algorithm Vocab Size = 2k: {:.2f}".format(recall_bpe_2k))
print("\nmBERT algorithm max_length = 1k: {:.2f}".format(recall_mBERT_1k))
print("\nmBERT algorithm max_length = 2k: {:.2f}".format(recall_mBERT_2k))
print("\nIndicBERT algorithm max_length = 1k: {:.2f}".format(recall_IndicBERT_1k))
print("\nIndicBERT algorithm max_length = 2k: {:.2f}".format(recall_IndicBERT_2k))
print("\nWhite-Space tokenizer: {:.2f}".format(recall_white_space))



Unigram algorithm: 0.82



BPE Algorithm Vocab size = 1k: 1.63



BPE Algorithm Vocab Size = 2k: 2.45



mBERT algorithm max_length = 1k: 1.63



mBERT algorithm max_length = 2k: 1.63



IndicBERT algorithm max_length = 1k: 2.45



IndicBERT algorithm max_length = 2k: 2.45



White-Space tokenizer: 2.86


### F-Score (F1 = 2 x Precision x Recall / (Precision + Recall))

In [None]:
print("\nUnigram algorithm: {:.2f}".format(f_score_uni))
print("\nBPE Algorithm Vocab size = 1k: {:.2f}".format(f_score_bpe_1k))
print("\nBPE Algorithm Vocab Size = 2k: {:.2f}".format(f_score_bpe_2k))
print("\nmBERT algorithm max_length = 1k: {:.2f}".format(f_score_mBERT_1k))
print("\nmBERT algorithm max_length = 2k: {:.2f}".format(f_score_mBERT_2k))
print("\nIndicBERT algorithm max_length = 1k: {:.2f}".format(f_score_IndicBERT_1k))
print("\nIndicBERT algorithm max_length = 2k: {:.2f}".format(f_score_IndicBERT_2k))
print("\nWhite-Space tokenizer: {:.2f}".format(f_score_white_space))



Unigram algorithm: 0.68



BPE Algorithm Vocab size = 1k: 1.31



BPE Algorithm Vocab Size = 2k: 1.79



mBERT algorithm max_length = 1k: 1.16



mBERT algorithm max_length = 2k: 1.16



IndicBERT algorithm max_length = 1k: 1.83



IndicBERT algorithm max_length = 2k: 1.83



White-Space tokenizer: 2.20


# Question 6

### Learning From comparison

Based on the outcomes of different tokenizer models,
White Space Tokenizer is giving best precision out of 8 diifferent modelss.
While comparing different models it is evident that mBERT and IndicBERT are better able to handle Hindi language as comapared to BPE and Unigram algorithm

Impact of Vocab Size: In BPE as we increase vocab size Precision, Recall and F-Score improve significantly.

Though I have not witnessed any significant improvement in performance of mBERT and IndicBERT models.

Reason behind this insignificant improvement in performance of BERT models might be due to the fact that initially I could not run these models on whole corpus.

Overall White Space Tokenizer is giving best performance metrics followed by IndicBERT, BPE(2k), mBERT, BPE(1k) and Unigram tokenizer models