In [9]:
with open('hindilit.txt', 'r', encoding='utf-8') as f:
    text = f.read()

print("the length of the data is: ", len(text))
print("the first 1000:", text[:1000])

the length of the data is:  198222
the first 1000: जो सुमिरत सिधि होइ गन नायक करिबर बदन।
करउ अनुग्रह सोइ बुद्धि रासि सुभ गुन सदन॥1॥
मूक होइ बाचाल पंगु चढइ गिरिबर गहन।
जासु कृपाँ सो दयाल द्रवउ सकल कलि मल दहन॥2॥
नील सरोरुह स्याम तरुन अरुन बारिज नयन।
करउ सो मम उर धाम सदा छीरसागर सयन॥3॥
कुंद इंदु सम देह उमा रमन करुना अयन।
जाहि दीन पर नेह करउ कृपा मर्दन मयन॥4॥
बंदउ गुरु पद कंज कृपा सिंधु नररूप हरि।
महामोह तम पुंज जासु बचन रबि कर निकर॥5॥
बंदउ गुरु पद पदुम परागा। सुरुचि सुबास सरस अनुरागा॥
अमिय मूरिमय चूरन चारू। समन सकल भव रुज परिवारू॥
सुकृति संभु तन बिमल बिभूती। मंजुल मंगल मोद प्रसूती॥
जन मन मंजु मुकुर मल हरनी। किएँ तिलक गुन गन बस करनी॥
श्रीगुर पद नख मनि गन जोती। सुमिरत दिब्य द्रृष्टि हियँ होती॥
दलन मोह तम सो सप्रकासू। बड़े भाग उर आवइ जासू॥
उघरहिं बिमल बिलोचन ही के। मिटहिं दोष दुख भव रजनी के॥
सूझहिं राम चरित मनि मानिक। गुपुत प्रगट जहँ जो जेहि खानिक॥
दो0-जथा सुअंजन अंजि दृग साधक सिद्ध सुजान।
कौतुक देखत सैल बन भूतल भूरि निधान॥1॥

एहि महँ रघुपति नाम उदारा। अति पावन पुरान श्रुति सारा॥
मंगल भवन अम

In [10]:
normalization_dict = {
    # Variants of "मैं" (I)
    'मै': 'मैं',
    'मुझको': 'मुझे',
    'मुझसे': 'मुझे',
    'मैने': 'मैंने',

    # Variants of "यहाँ" (here) and "वहाँ" (there)
    'यहा': 'यहाँ',
    'वहा': 'वहाँ',

    # Variants of "क्यों" (why) and related forms
    'क्यु': 'क्यों',
    'क्युकी': 'क्योंकि',
    'क्यू': 'क्यों',

    # Variants of "तुम्हें" (you)
    'तुम्हे': 'तुम्हें',
    'तुमको': 'तुम्हें',

    # Variants of "हमें" (us)
    'हमको': 'हमें',
    'हमसे': 'हमें',

    # Variants of "करूं" (I do)
    'करु': 'करूं',
    'करूँ': 'करूं',  # Alternate Unicode representation

    # Variants of "गए" (went)
    'गये': 'गए',

    # Variants of "पढ़ाई" (study)
    'पढाई': 'पढ़ाई',
    'पढना': 'पढ़ना',

    # Casual/phonetic forms
    'कैसा': 'कैसे',  # Normalize gender-neutral "कैसे"
    'किसे': 'किसे',  # Sometimes used as "किसको"
    'जो': 'जो',  # Ensure no typo between "जो" and "झो"

    # Variants of common auxiliary verbs
    'हू': 'हूँ',
    'हैं': 'है',  # Simplify plural to singular for some cases
    'था': 'थे',  # Normalize tense differences
    'थी': 'थे',

    # Typo corrections
    'और': 'और',
    'से': 'से',
    'तो': 'तो',

}


In [11]:
import re

#Normalizing Orthographic Variations
for key, value in normalization_dict.items():
  # Replace variations using regex
  text = re.sub(r'\b' + re.escape(key) + r'\b', value, text)

#Compound words separated
# Replace hyphen-separated or underscore-separated compounds with space-separated words
text = re.sub(r'(\w+)[-_](\w+)', r'\1 \2', text)
# Replace other compound connectors (e.g., dots in specific cases)
text = re.sub(r'(\w+)\.(\w+)', r'\1 \2', text)

#Final cleaning of non-hindi characters
# Remove non-Devanagari characters and non-space characters
cleaned_text = re.sub(r'[^अ-ह\s]', '', text)

#Finally removing unecessary spaces and making it all one line
cleaned_text = re.sub(r'\s+', ' ', text).strip()  # Replace multiple spaces with a single space
print(cleaned_text[:1000])  # Output: "नमस्ते  है"

जो सुमिरत सिधि होइ गन नायक करिबर बदन। करउ अनुग्रह सोइ बुद्धि रासि सुभ गुन सदन॥1॥ मूक होइ बाचाल पंगु चढइ गिरिबर गहन। जासु कृपाँ सो दयाल द्रवउ सकल कलि मल दहन॥2॥ नील सरोरुह स्याम तरुन अरुन बारिज नयन। करउ सो मम उर धाम सदा छीरसागर सयन॥3॥ कुंद इंदु सम देह उमा रमन करूंना अयन। जाहि दीन पर नेह करउ कृपा मर्दन मयन॥4॥ बंदउ गुरु पद कंज कृपा सिंधु नररूप हरि। महामोह तम पुंज जासु बचन रबि कर निकर॥5॥ बंदउ गुरु पद पदुम परागा। सुरुचि सुबास सरस अनुरागा॥ अमिय मूरिमय चूरन चारू। समन सकल भव रुज परिवारू॥ सुकृति संभु तन बिमल बिभूती। मंजुल मंगल मोद प्रसूती॥ जन मन मंजु मुकुर मल हरनी। किएँ तिलक गुन गन बस करनी॥ श्रीगुर पद नख मनि गन जोती। सुमिरत दिब्य द्रृष्टि हियँ होती॥ दलन मोह तम सो सप्रकासू। बड़े भाग उर आवइ जासू॥ उघरहिं बिमल बिलोचन ही के। मिटहिं दोष दुख भव रजनी के॥ सूझहिं राम चरित मनि मानिक। गुपुत प्रगट जहँ जो जेहि खानिक॥ दो0 जथा सुअंजन अंजि दृग साधक सिद्ध सुजान। कौतुक देखत सैल बन भूतल भूरि निधान॥1॥ एहि महँ रघुपति नाम उदारा। अति पावन पुरान श्रुति सारा॥ मंगल भवन अमंगल हारी। उमा सहित जेहि जपत पुरारी॥ भनिति बिचित्र स

In [12]:
chars = sorted(list(set(cleaned_text)))
vocab_size = len(chars)
print(''.join(chars))
print(vocab_size)

 (),-0123456789ûँंःअआइईउऊएऐओऔकखगघङचछजझटठडढणतथदधनपफबभमयरलवशषसह़ऽािीुूृेैोौ्।॥०१२३४५६७८९
86


In [13]:
# create a mapping from characters to integers
stoi = { ch:i for i,ch in enumerate(chars) }
itos = { i:ch for i,ch in enumerate(chars) }
encode = lambda s: [stoi[c] for c in s] # encoder: take a string, output a list of integers
decode = lambda l: ''.join([itos[i] for i in l]) # decoder: take a list of integers, output a string


In [14]:
tokens = cleaned_text.encode("utf-8") # raw bytes
tokens = list(map(int, tokens)) # convert to a list of integers in range 0..255 for convenience

In [15]:
#Making pairs and getting a count
def get_stats(ids):
    counts = {}
    for pair in zip(ids, ids[1:]):
        counts[pair] = counts.get(pair, 0) + 1
    return counts
#Merging the given pair and giving it a new index
def merge(ids, pair, idx):
  newids = []
  i = 0
  while i < len(ids):
    if i < len(ids) - 1 and ids[i] == pair[0] and ids[i+1] == pair[1]:
      newids.append(idx)
      i += 2
    else:
      newids.append(ids[i])
      i += 1
  return newids

In [16]:
# ---
vocab_size = 4500 # the desired final vocabulary size
num_merges = vocab_size - 256
ids = list(tokens) # copy so we don't destroy the original list

merges = {} # (int, int) -> int
for i in range(num_merges):
  stats = get_stats(ids)
  pair = max(stats, key=stats.get)
  idx = 256 + i
  print(f"merging {pair} with freq {stats[pair]} into a new token {idx}")
  ids = merge(ids, pair, idx)
  merges[pair] = idx

merging (224, 164) with freq 126416 into a new token 256
merging (32, 256) with freq 37331 into a new token 257
merging (224, 165) with freq 32686 into a new token 258
merging (256, 190) with freq 12178 into a new token 259
merging (256, 191) with freq 12068 into a new token 260
merging (259, 256) with freq 9131 into a new token 261
merging (258, 129) with freq 7832 into a new token 262
merging (256, 176) with freq 7691 into a new token 263
merging (260, 256) with freq 6100 into a new token 264
merging (257, 184) with freq 5745 into a new token 265
merging (256, 185) with freq 5710 into a new token 266
merging (256, 168) with freq 5525 into a new token 267
merging (260, 257) with freq 4490 into a new token 268
merging (164, 257) with freq 4296 into a new token 269
merging (258, 165) with freq 4142 into a new token 270
merging (258, 128) with freq 3892 into a new token 271
merging (258, 135) with freq 3846 into a new token 272
merging (258, 141) with freq 3451 into a new token 273
mergi

In [17]:
print("tokens length:", len(tokens))
print("ids length:", len(ids))
print(f"compression ratio: {len(tokens) / len(ids):.2f}X")

tokens length: 516076
ids length: 55830
compression ratio: 9.24X
