In [2]:
with open('hindilit.txt', 'r', encoding='utf-8') as f:
    text = f.read()

print("the length of the data is: ", len(text))
print("the first 1000:", text[:1000])

FileNotFoundError: [Errno 2] No such file or directory: 'hindilit.txt'

In [14]:
normalization_dict = {
    # Variants of "मैं" (I)
    'मै': 'मैं',
    'मुझको': 'मुझे',
    'मुझसे': 'मुझे',
    'मैने': 'मैंने',

    # Variants of "यहाँ" (here) and "वहाँ" (there)
    'यहा': 'यहाँ',
    'वहा': 'वहाँ',

    # Variants of "क्यों" (why) and related forms
    'क्यु': 'क्यों',
    'क्युकी': 'क्योंकि',
    'क्यू': 'क्यों',

    # Variants of "तुम्हें" (you)
    'तुम्हे': 'तुम्हें',
    'तुमको': 'तुम्हें',

    # Variants of "हमें" (us)
    'हमको': 'हमें',
    'हमसे': 'हमें',

    # Variants of "करूं" (I do)
    'करु': 'करूं',
    'करूँ': 'करूं',  # Alternate Unicode representation

    # Variants of "गए" (went)
    'गये': 'गए',

    # Variants of "पढ़ाई" (study)
    'पढाई': 'पढ़ाई',
    'पढना': 'पढ़ना',

    # Casual/phonetic forms
    'कैसा': 'कैसे',  # Normalize gender-neutral "कैसे"
    'किसे': 'किसे',  # Sometimes used as "किसको"
    'जो': 'जो',  # Ensure no typo between "जो" and "झो"

    # Variants of common auxiliary verbs
    'हू': 'हूँ',
    'हैं': 'है',  # Simplify plural to singular for some cases
    'था': 'थे',  # Normalize tense differences
    'थी': 'थे',

    # Typo corrections
    'और': 'और',
    'से': 'से',
    'तो': 'तो',

}


In [20]:
import re

#Normalizing Orthographic Variations
for key, value in normalization_dict.items():
  # Replace variations using regex
  text = re.sub(r'\b' + re.escape(key) + r'\b', value, text)

#Compound words separated
# Replace hyphen-separated or underscore-separated compounds with space-separated words
text = re.sub(r'(\w+)[-_](\w+)', r'\1 \2', text)
# Replace other compound connectors (e.g., dots in specific cases)
text = re.sub(r'(\w+)\.(\w+)', r'\1 \2', text)

#Final cleaning of non-hindi characters
# Remove non-Devanagari characters and non-space characters
cleaned_text = re.sub(r'[^अ-ह\s]', '', text)

#Finally removing unecessary spaces and making it all one line
cleaned_text = re.sub(r'\s+', ' ', text).strip()  # Replace multiple spaces with a single space
print(cleaned_text[:1000])  # Output: "नमस्ते  है"

इसज समरत सध हइ गन नयक करबर बदन करउ अनगरह सइ बदध रस सभ गन सदन मक हइ बचल पग चढइ गरबर गहन जस कप स दयल दरवउ सकल कल मल दहन नल सररह सयम तरन अरन बरज नयन करउ स मम उर धम सद छरसगर सयन कद इद सम दह उम रमन करन अयन जह दन पर नह करउ कप मरदन मयन बदउ गर पद कज कप सध नररप हर महमह तम पज जस बचन रब कर नकर बदउ गर पद पदम परग सरच सबस सरस अनरग अमय मरमय चरन चर समन सकल भव रज परवर सकत सभ तन बमल बभत मजल मगल मद परसत जन मन मज मकर मल हरन कए तलक गन गन बस करन शरगर पद नख मन गन जत समरत दबय दरषट हय हत दलन मह तम स सपरकस बड भग उर आवइ जस उघरह बमल बलचन ह क मटह दष दख भव रजन क सझह रम चरत मन मनक गपत परगट जह ज जह खनक द जथ सअजन अज दग सधक सदध सजन कतक दखत सल बन भतल भर नधन एह मह रघपत नम उदर अत पवन परन शरत सर मगल भवन अमगल हर उम सहत जह जपत परर भनत बचतर सकब कत जऊ रम नम बन सह न सऊ बधबदन सब भत सवर सन न बसन बन बर नर सब गन रहत ककब कत बन रम नम जस अकत जन सदर कहह सनह बध तह मधकर सरस सत गनगरह जदप कबत रस एकउ नह रम परतप परकट एह मह सइ भरस मर मन आव कह न ससग बडपपन पव धमउ तजइ सहज करआई अगर परसग सगध बसई भनत भदस बसत भल बरन रम कथ जग मगल करन छ मगल करन कल मल 

In [21]:
chars = sorted(list(set(cleaned_text)))
vocab_size = len(chars)
print(''.join(chars))
print(vocab_size)

 अआइईउऊएऐओऔकखगघङचछजझटठडढणतथदधनपफबभमयरलवशषसह
43


In [22]:
# create a mapping from characters to integers
stoi = { ch:i for i,ch in enumerate(chars) }
itos = { i:ch for i,ch in enumerate(chars) }
encode = lambda s: [stoi[c] for c in s] # encoder: take a string, output a list of integers
decode = lambda l: ''.join([itos[i] for i in l]) # decoder: take a list of integers, output a string


In [26]:
tokens = cleaned_text.encode("utf-8") # raw bytes
tokens = list(map(int, tokens)) # convert to a list of integers in range 0..255 for convenience

In [29]:
#Making pairs and getting a count
def get_stats(ids):
    counts = {}
    for pair in zip(ids, ids[1:]):
        counts[pair] = counts.get(pair, 0) + 1
    return counts
#Merging the given pair and giving it a new index
def merge(ids, pair, idx):
  newids = []
  i = 0
  while i < len(ids):
    if i < len(ids) - 1 and ids[i] == pair[0] and ids[i+1] == pair[1]:
      newids.append(idx)
      i += 2
    else:
      newids.append(ids[i])
      i += 1
  return newids

In [36]:
# ---
vocab_size = 4500 # the desired final vocabulary size
num_merges = vocab_size - 256
ids = list(tokens) # copy so we don't destroy the original list

merges = {} # (int, int) -> int
for i in range(num_merges):
  stats = get_stats(ids)
  pair = max(stats, key=stats.get)
  idx = 256 + i
  print(f"merging {pair} with freq {stats[pair]} into a new token {idx}")
  ids = merge(ids, pair, idx)
  merges[pair] = idx

merging (224, 164) with freq 96878 into a new token 256
merging (32, 256) with freq 37331 into a new token 257
merging (256, 176) with freq 9084 into a new token 258
merging (256, 168) with freq 7540 into a new token 259
merging (256, 185) with freq 6534 into a new token 260
merging (257, 184) with freq 5745 into a new token 261
merging (256, 164) with freq 4221 into a new token 262
merging (259, 257) with freq 4102 into a new token 263
merging (260, 257) with freq 4053 into a new token 264
merging (258, 257) with freq 3854 into a new token 265
merging (261, 256) with freq 3762 into a new token 266
merging (172, 256) with freq 3001 into a new token 267
merging (262, 257) with freq 2815 into a new token 268
merging (258, 256) with freq 2782 into a new token 269
merging (149, 256) with freq 2131 into a new token 270
merging (256, 174) with freq 1785 into a new token 271
merging (256, 184) with freq 1686 into a new token 272
merging (256, 178) with freq 1509 into a new token 273
merging (

In [37]:
print("tokens length:", len(tokens))
print("ids length:", len(ids))
print(f"compression ratio: {len(tokens) / len(ids):.2f}X")

tokens length: 327965
ids length: 38829
compression ratio: 8.45X
