In [1]:
# Import required libraries
from nemo_text_processing.text_normalization.normalize import Normalizer
# Initialize normalizers
normalizer = Normalizer(input_case='cased', lang='mr', overwrite_cache=True)

print("✓ Normalizers initialized successfully!")

✓ Normalizers initialized successfully!


In [2]:
# Test cardinal numbers
test_cases = [
    "०", "१", "२", "३", "४", "५",
    "१०", "११", "२०", "२१",
    "१००", "१०१", "२००", "३०१",
    "१०००", "३०००", "८००३",
    "१००८००३", "२ कोटी", "-१००"
]

print("=" * 50)
print("CARDINAL NUMBERS")
print("=" * 50)
for test in test_cases:
    result = normalizer.normalize(test, verbose=False)
    print(f"{test:15} -> {result}")

CARDINAL NUMBERS
०               -> शून्य
१               -> एक
२               -> दोन
३               -> तीन
४               -> चार
५               -> पाच
१०              -> दहा
११              -> अकरा
२०              -> वीस
२१              -> एकवीस
१००             -> एक शे
१०१             -> एक शे एक
२००             -> दोन शे
३०१             -> तीन शे एक
१०००            ->  एक हजार
३०००            ->  तीन हजार
८००३            ->  आठ हजार तीन
१००८००३         -> दहा लाख आठ हजार तीन
२ कोटी          -> दोन कोटी
-१००            -> minus एक शे


In [3]:
# Test decimal numbers
test_cases = [
    "३३.३", "४००.०५", "८००.०३१",
    "२०००.८१२५", "१०.५६", "७.७",
    "०.८७६", "-०.१२३", "-२.८१२",
    "१००.९", "९९.९९९"
]

print("=" * 50)
print("DECIMAL NUMBERS")
print("=" * 50)
for test in test_cases:
    result = normalizer.normalize(test, verbose=False)
    print(f"{test:15} -> {result}")

DECIMAL NUMBERS
३३.३            -> तेहेतीस दशमलव तीन
४००.०५          -> चार शे दशमलव शून्य पाच
८००.०३१         -> आठ शे दशमलव शून्य तीन एक
२०००.८१२५       -> दोन हजार दशमलव आठ एक दोन पाच
१०.५६           -> दहा दशमलव पाच सहा
७.७             -> सात दशमलव सात
०.८७६           -> शून्य दशमलव आठ सात सहा
-०.१२३          ->  वजावट शून्य दशमलव एक दोन तीन
-२.८१२          ->  वजावट दोन दशमलव आठ एक दोन
१००.९           -> एक शे दशमलव नऊ
९९.९९९          -> नव्याण्णव दशमलव नऊ नऊ नऊ


In [4]:
# Test fractions
test_cases = [
    "१/२", "१/४", "३/४", "२/३", "४/५",
    "१ १/२", "२ ३/४", "५ १/४", "१० १/२"
]

print("=" * 50)
print("FRACTIONS")
print("=" * 50)
for test in test_cases:
    result = normalizer.normalize(test, verbose=False)
    print(f"{test:15} -> {result}")

FRACTIONS
१/२             -> एकछेददोन
१/४             -> एकछेदचार
३/४             -> तीनछेदचार
२/३             -> दोनछेदतीन
४/५             -> चारछेदपाच
१ १/२           -> ढीड
२ ३/४           -> पाऊने तीन
५ १/४           -> सव्वा पाच
१० १/२          -> साढ़े दहा


In [5]:
# Test ordinals
test_cases = [
    "१वा", "२रा", "३रा", "४था", "५वा",
    "१०वा", "११वा", "२१वी", "२२वा",
    "१००वा", "१ला", "२री", "३रे"
]

print("=" * 50)
print("ORDINAL NUMBERS")
print("=" * 50)
for test in test_cases:
    result = normalizer.normalize(test, verbose=False)
    print(f"{test:15} -> {result}")

ORDINAL NUMBERS
१वा             -> एकवा
२रा             -> दुसरा
३रा             -> तिसरा
४था             -> चौथा
५वा             -> पाचवा
१०वा            -> दहावा
११वा            -> अकरावा
२१वी            -> एकवीसवी
२२वा            -> बावीसवा
१००वा           -> एक शेवा
१ला             -> पहिला
२री             -> दुसरी
३रे             -> तिसरे


In [13]:
# Test money
test_cases = [
    "₹५०", "₹५०.५०", "₹०.५०", "₹१००",
    "₹१०००", "₹५०००", "₹१००.२५", "२००",
    "-₹१००", "-₹५०.५०", "₹१२३४.५६",
    "₹१ लाख", "₹२.५ लाख"
]

print("=" * 50)
print("MONEY")
print("=" * 50)
for test in test_cases:
    result = normalizer.normalize(test, verbose=False)
    print(f"{test:15} -> {result}")



MONEY
₹५०             -> पन्नास रुपये
₹५०.५०          -> पन्नास रुपये पन्नास पैसे
₹०.५०           -> पन्नास पैसे
₹१००            -> एक शे रुपये
₹१०००           -> एक हजार रुपये
₹५०००           -> पाच हजार रुपये
₹१००.२५         -> एक शे रुपये पंचवीस पैसे
२००             -> दोन शे
-₹१००           -> -₹१००
-₹५०.५०         -> -₹५०.५०
₹१२३४.५६        -> एक हजार दोन शे चौतीस रुपये छप्पन्न पैसे
₹१ लाख          -> एक रुपये लाख
₹२.५ लाख        -> दोन रुपये पाच पैसे लाख


In [7]:
# Test measures
test_cases = [
    "१२kg", "-१२kg", "१२.२kg", "५००g",
    "१०००ml", "२.५km", "१००m",
    "-५०.७५kg", "-१९ m²", "२० km²",
    "४ m", "१८ mi", "३४ in", "४० ft"
]

print("=" * 50)
print("MEASURES")
print("=" * 50)
for test in test_cases:
    result = normalizer.normalize(test, verbose=False)
    print(f"{test:15} -> {result}")

MEASURES
१२kg            -> बारा किलोग्राम
-१२kg           -> minus बारा किलोग्राम
१२.२kg          -> बारा दशमलव दोन किलोग्राम
५००g            -> पाच शे ग्राम
१०००ml          -> एक हजार मिलीलीटर
२.५km           -> दोन दशमलव पाच किलोमीटर
१००m            -> एक शे मीटर
-५०.७५kg        ->  वजावट पन्नास दशमलव सात पाच किलोग्राम
-१९ m²          -> minus एकोणीस वर्ग मीटर
२० km²          -> वीस वर्ग किलोमीटर
४ m             -> चार मीटर
१८ mi           -> अठरा मैल
३४ in           -> चौतीस इंच
४० ft           -> चाळीस फूट


In [8]:
# Test dates
test_cases = [
    "०१-०४", "०२-०१", "२५-०३-२०२०",
    "३०-०५-२०७०", "१२-०७-१९७०",
    "०९-१२-२१०१", "२३-०८-२०२४",
    "१०-२९-२०००", "०३-२०१०", "११-२०२४",
    "२०२४", "१९९९", "१९९०"
]

print("=" * 50)
print("DATES")
print("=" * 50)
for test in test_cases:
    result = normalizer.normalize(test, verbose=False)
    print(f"{test:15} -> {result}")

DATES
०१-०४           -> एक एप्रिल
०२-०१           -> दोन जानेवारी
२५-०३-२०२०      -> पंचवीस मार्च दोन हजार वीस
३०-०५-२०७०      -> तीस मे दोन हजार सत्तर
१२-०७-१९७०      -> बारा जुलै एकोणीस शे सत्तर
०९-१२-२१०१      -> नऊ डिसेंबर एकवीस शे एक
२३-०८-२०२४      -> तेवीस ऑगस्ट दोन हजार चोवीस
१०-२९-२०००      -> ऑक्टोबर एकोणतीस दोन हजार
०३-२०१०         -> मार्च दोन हजार दहा
११-२०२४         -> नोव्हेंबर दोन हजार चोवीस
२०२४            ->  दोन हजार चोवीस
१९९९            ->  एकोणीस शे नव्याण्णव
१९९०            ->  एकोणीस शे नव्वद


In [9]:
# Test time
test_cases = [
    "०४:३०", "११:३०", "०८:१५", "१२:१५",
    "०५:४५", "०९:४५", "१०:५५", "०७:५३",
    "११:०२", "१२:०५", "०१:०७", "०१:३०",
    "०२:३०", "१२:००:००", "१:३०:४५"
]

print("=" * 50)
print("TIME")
print("=" * 50)
for test in test_cases:
    result = normalizer.normalize(test, verbose=False)
    print(f"{test:15} -> {result}")

TIME
०४:३०           -> चार वाजून तीस मिनिटे
११:३०           -> साढ़े अकरा
०८:१५           -> आठ वाजून पंधरा मिनिटे
१२:१५           -> सव्वा बारा
०५:४५           -> पाच वाजून पंचेचाळीस मिनिटे
०९:४५           -> नऊ वाजून पंचेचाळीस मिनिटे
१०:५५           -> दहा वाजून पंचावन्न मिनिटे
०७:५३           -> सात वाजून त्रेपन्न मिनिटे
११:०२           -> अकरा वाजून दोन मिनिटे
१२:०५           -> बारा वाजून पाच मिनिटे
०१:०७           -> एक वाजून सात मिनिटे
०१:३०           -> एक वाजून तीस मिनिटे
०२:३०           -> दोन वाजून तीस मिनिटे
१२:००:००        -> बारा वाजता : शून्य शून्य
१:३०:४५         -> ढीड : पंचेचाळीस


In [12]:
# Test telephone
test_cases = [
    "९८७६५४३२१०",
    "०२२-२३४५६७८९",
    "+९१-९८७६५४३२१०",
    "(०२२२९) ४१११२८",
    "०२२.२९४१११२८",
    "₹१०००"
]

print("=" * 50)
print("TELEPHONE NUMBERS")
print("=" * 50)
for test in test_cases:
    result = normalizer.normalize(test, verbose=False)
    print(f"{test:20} -> {result}")

TELEPHONE NUMBERS
९८७६५४३२१०           -> नऊ अब्ज सत्त्याऐंशी कोटी पासष्ट लाख त्रेचाळीस हजार दोन शे दहा
०२२-२३४५६७८९         -> शून्य दोन दोन दोन तीन चार पाच सहा सात आठ नऊ
+९१-९८७६५४३२१०       -> + एक्क्याण्णव - नऊ अब्ज सत्त्याऐंशी कोटी पासष्ट लाख त्रेचाळीस हजार दोन शे दहा
(०२२२९) ४१११२८       -> शून्य दोन दोन दोन नऊ चार एक एक एक दोन आठ
०२२.२९४१११२८         -> शून्य दोन दोन दोन नऊ चार एक एक एक दोन आठ
₹१०००                -> एक हजार रुपये


In [11]:
# Custom test - modify this to test your own inputs
custom_input = "₹१०००"

result = normalizer.normalize(custom_input, verbose=False)
print(f"Input:  {custom_input}")
print(f"Output: {result}")

Input:  ₹१०००
Output: एक हजार रुपये


In [62]:
# Quick test - one example from each category
quick_tests = {
    "Cardinal": "१२३",
    "Decimal": "१२.३४",
    "Fraction": "१/२",
    "Ordinal": "१वा",
    "Money": "₹१००",
    "Measure": "१२kg",
    "Date": "०१-०४-२०२४",
    "Time": "१२:३०",
    "Telephone": "९८७६५४३२१०"
}

print("=" * 50)
print("QUICK TEST - ALL CATEGORIES")
print("=" * 50)
for category, test_input in quick_tests.items():
    result = normalizer.normalize(test_input, verbose=False)
    print(f"{category:12} | {test_input:15} -> {result}")

QUICK TEST - ALL CATEGORIES
Cardinal     | १२३             -> एक शे तेवीस
Decimal      | १२.३४           -> बारा दशमलव तीन चार
Fraction     | १/२             -> एकछेददोन
Ordinal      | १वा             -> एकवा
Money        | ₹१००            -> एक शे रुपये
Measure      | १२kg            -> बारा किलोग्राम
Date         | ०१-०४-२०२४      -> एक एप्रिल दोन हजार चोवीस
Time         | १२:३०           -> साढ़े बारा
Telephone    | ९८७६५४३२१०      -> नऊ अब्ज सत्त्याऐंशी कोटी पासष्ट लाख त्रेचाळीस हजार दोन शे दहा
