# Hindi Text Normalization Test Cases

This notebook tests the Hindi text normalization implementation.

## Test Categories:
1. Cardinal Numbers
2. Decimal Numbers
3. Fractions
4. Dates
5. Time
6. Money
7. Measurements
8. Ordinal Numbers
9. Telephone Numbers
10. Whitelist/Abbreviations
11. Mixed Content
12. Batch Testing



In [1]:
import sys
import os

# Add the NeMo-text-processing directory to the path
sys.path.insert(0, os.path.abspath('.'))

from nemo_text_processing.text_normalization.normalize import Normalizer

print("Imports successful!")


Imports successful!


In [2]:
# Initialize Hindi normalizer
normalizer_hi = Normalizer(
    input_case='cased',
    lang='hi',
    cache_dir=None,  # Set to a directory path if you want to cache .far files
    overwrite_cache=False,
    post_process=True
)

print("Hindi Text Normalizer initialized successfully!")
print(f"Language: {normalizer_hi.lang}")


Hindi Text Normalizer initialized successfully!
Language: hi


## 1. Cardinal Numbers Test



In [3]:
cardinal_tests = [
    "मैंने आज 3 किताबें खरीदीं और 2 दोस्तों को दीं।",
    "१२३४",
    "१२३४५",
    "१२३४५६",
    "१२३४५६७",
    "१२३४५६७८",
    "-१२३",
    "120",
    "-8920",
    "१०००",
    "१०००००",  # 1 lakh
    "१०००००००० ",
    "एक 123 करोड़ तेईस लाख पैंतालीस हज़ार छह सौ अठहत्तर"# 1 crore
]

print("=" * 60)
print("CARDINAL NUMBERS TEST")
print("=" * 60)
for test in cardinal_tests:
    result = normalizer_hi.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


CARDINAL NUMBERS TEST
Input:  मैंने आज 3 किताबें खरीदीं और 2 दोस्तों को दीं। -> Output: मैंने आज तीन किताबें खरीदीं और दो दोस्तों को दीं ।
Input:  १२३४            -> Output: एक हज़ार दो सौ चौंतीस
Input:  १२३४५           -> Output: बारह हज़ार तीन सौ पैंतालीस
Input:  १२३४५६          -> Output: एक लाख तेईस हज़ार चार सौ छप्पन
Input:  १२३४५६७         -> Output: बारह लाख चौंतीस हज़ार पाँच सौ सड़सठ
Input:  १२३४५६७८        -> Output: एक करोड़ तेईस लाख पैंतालीस हज़ार छह सौ अठहत्तर
Input:  -१२३            -> Output:  माइनस एक सौ तेईस
Input:  120             -> Output: एक सौ बीस
Input:  -8920           -> Output:  माइनस आठ हज़ार नौ सौ बीस
Input:  १०००            -> Output: एक हज़ार
Input:  १०००००          -> Output: एक लाख
Input:  १००००००००       -> Output: दस करोड़
Input:  एक 123 करोड़ तेईस लाख पैंतालीस हज़ार छह सौ अठहत्तर -> Output: एक एक सौ तेईस करोड़ तेईस लाख पैंतालीस हज़ार छह सौ अठहत्तर


In [5]:
cardinal_tests = [
    "मेरा फ़ोन नंबर 9943206292 है।",
    "आज निर्मला सीतारमण ने एआई वॉयस टेक के लिए ₹5,69,300 जारी किए।"
]

print("=" * 60)
print("CARDINAL NUMBERS TEST")
print("=" * 60)
for test in cardinal_tests:
    result = normalizer_hi.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")

CARDINAL NUMBERS TEST
Input:  मेरा फ़ोन नंबर 9943206292 है। -> Output: मेरा फ़ोन नंबर शून्य नौ नौ चार तीन दो शून्य छह दो नौ दो है ।
Input:  आज निर्मला सीतारमण ने एआई वॉयस टेक के लिए ₹5,69,300 जारी किए। -> Output: आज निर्मला सीतारमण ने एआई वॉयस टेक के लिए पाँच लाख उनहत्तर हज़ार तीन सौ रुपए जारी किए ।


## 1.2. Time Test (English Digits)



In [4]:
# Test English digits for time - should work now!
time_tests_english = [
    "12:30",
    "1:40",
    "12:00",
    "12:30:45",
    "09:15",
    "23:59",
    "9:15",
]

print("=" * 60)
print("TIME TEST (ENGLISH DIGITS)")
print("=" * 60)
for test in time_tests_english:
    result = normalizer_hi.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


TIME TEST (ENGLISH DIGITS)
Input:  12:30           -> Output: बारह बजकर तीस मिनट
Input:  1:40            -> Output: एक बजकर चालीस मिनट
Input:  12:00           -> Output: बारह बजे
Input:  12:30:45        -> Output: बारह बजकर तीस मिनट पैंतालीस सेकंड
Input:  09:15           -> Output: नौ बजकर पंद्रह मिनट
Input:  23:59           -> Output: तेईस बजकर उनसठ मिनट
Input:  9:15            -> Output: नौ बजकर पंद्रह मिनट


## 1.3. Money Test (English Digits)



In [11]:
# Test English digits for money - should work now!
money_tests_english = [
    "₹100",
    "₹1234",
    "₹50.50",
    "₹0.23",
    "₹1000000",
    "₹1050000",
    "₹500",
    "₹१ लाख"
]

print("=" * 60)
print("MONEY TEST (ENGLISH DIGITS)")
print("=" * 60)
for test in money_tests_english:
    result = normalizer_hi.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


MONEY TEST (ENGLISH DIGITS)
Input:  ₹100            -> Output: एक सौ रुपए
Input:  ₹1234           -> Output: एक हज़ार दो सौ चौंतीस रुपए
Input:  ₹50.50          -> Output: पचास रुपए पचास पैसे
Input:  ₹0.23           -> Output: तेईस पैसे
Input:  ₹1000000        -> Output: दस लाख रुपए
Input:  ₹1050000        -> Output: दस लाख पचास हज़ार रुपए
Input:  ₹500            -> Output: पाँच सौ रुपए
Input:  ₹१ लाख          -> Output: एक रुपए लाख


## 2. Decimal Numbers Test



In [6]:
# Test both Hindi and English digits for decimals
decimal_tests = [
    "१२.३४",      # Hindi digits
    "१२३.४५६",    # Hindi digits
    "०.५",         # Hindi digits
    "-१२.३४",     # Hindi digits
    "१२.३४५६",    # Hindi digits
    "12.34",        # English digits
    "123.456",      # English digits
    "0.5",          # English digits
    "-12.34",       # English digits
    "12.3456",      # English digits
]

print("=" * 60)
print("DECIMAL NUMBERS TEST (HINDI & ENGLISH DIGITS)")
print("=" * 60)
for test in decimal_tests:
    result = normalizer_hi.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


DECIMAL NUMBERS TEST (HINDI & ENGLISH DIGITS)
Input:  १२.३४           -> Output: बारह दशमलव तीन चार
Input:  १२३.४५६         -> Output: एक सौ तेईस दशमलव चार पाँच छह
Input:  ०.५             -> Output: शून्य दशमलव पाँच
Input:  -१२.३४          -> Output:  ऋणात्मक बारह दशमलव तीन चार
Input:  १२.३४५६         -> Output: बारह दशमलव तीन चार पाँच छह
Input:  12.34           -> Output: बारह दशमलव तीन चार
Input:  123.456         -> Output: एक सौ तेईस दशमलव चार पाँच छह
Input:  0.5             -> Output: शून्य दशमलव पाँच
Input:  -12.34          -> Output:  ऋणात्मक बारह दशमलव तीन चार
Input:  12.3456         -> Output: बारह दशमलव तीन चार पाँच छह


## 3. Fractions Test



In [7]:
# Test both Hindi and English digits for fractions
fraction_tests = [
    "३/४",         # Hindi digits
    "१/२",         # Hindi digits
    "१/४",         # Hindi digits
    "१२ ३/४",      # Hindi digits
    "-१/२",        # Hindi digits
    "3/4",          # English digits
    "1/2",          # English digits
    "1/4",          # English digits
    "12 3/4",       # English digits
    "-1/2",         # English digits
]

print("=" * 60)
print("FRACTIONS TEST (HINDI & ENGLISH DIGITS)")
print("=" * 60)
for test in fraction_tests:
    result = normalizer_hi.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


FRACTIONS TEST (HINDI & ENGLISH DIGITS)
Input:  ३/४             -> Output: तीन बटा चार
Input:  १/२             -> Output: एक बटा दो
Input:  १/४             -> Output: एक बटा चार
Input:  १२ ३/४          -> Output: बारह और तीन बटा चार
Input:  -१/२            -> Output:  ऋणात्मक एक बटा दो
Input:  3/4             -> Output: तीन बटा चार
Input:  1/2             -> Output: एक बटा दो
Input:  1/4             -> Output: एक बटा चार
Input:  12 3/4          -> Output: बारह और तीन बटा चार
Input:  -1/2            -> Output:  ऋणात्मक एक बटा दो


## 4. Dates Test



In [8]:
# Test both Hindi and English digits for dates
date_tests = [
    "०१-०४-२०२४",      # Hindi digits
    "१५-०६-२०२४",      # Hindi digits
    "२०२४-०१-१५",      # Hindi digits
    "१५/०६/२०२४",      # Hindi digits
    "०४-०१-२०२४",      # MM-DD format, Hindi digits
    "01-04-2024",        # English digits
    "15-06-2024",        # English digits
    "2024-01-15",        # English digits
    "15/06/2024",        # English digits
    "04-01-2024",        # MM-DD format, English digits
]

print("=" * 60)
print("DATES TEST (HINDI & ENGLISH DIGITS)")
print("=" * 60)
for test in date_tests:
    result = normalizer_hi.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


DATES TEST (HINDI & ENGLISH DIGITS)
Input:  ०१-०४-२०२४      -> Output: एक अप्रैल दो हज़ार चौबीस
Input:  १५-०६-२०२४      -> Output: पंद्रह जून दो हज़ार चौबीस
Input:  २०२४-०१-१५      -> Output: दो हज़ार चौबीस माइनस शून्य एक माइनस पंद्रह
Input:  १५/०६/२०२४      -> Output: पंद्रह जून दो हज़ार चौबीस
Input:  ०४-०१-२०२४      -> Output: चार जनवरी दो हज़ार चौबीस
Input:  01-04-2024      -> Output: एक अप्रैल दो हज़ार चौबीस
Input:  15-06-2024      -> Output: पंद्रह जून दो हज़ार चौबीस
Input:  2024-01-15      -> Output: दो हज़ार चौबीस माइनस शून्य एक माइनस पंद्रह
Input:  15/06/2024      -> Output: पंद्रह जून दो हज़ार चौबीस
Input:  04-01-2024      -> Output: चार जनवरी दो हज़ार चौबीस


## 5. Time Test



In [9]:
# Test both Hindi and English digits for time
time_tests = [
    "१२:३०",         # Hindi digits
    "१:४०",          # Hindi digits
    "१२:००",         # Hindi digits
    "१२:३०:४५",      # Hindi digits
    "०९:१५",         # Hindi digits
    "२३:५९",         # Hindi digits
    "12:30",          # English digits
    "1:40",           # English digits
    "12:00",          # English digits
    "12:30:45",       # English digits
    "09:15",          # English digits
    "23:59",          # English digits
    "9:15",           # English digits (single digit hour)
]

print("=" * 60)
print("TIME TEST (HINDI & ENGLISH DIGITS)")
print("=" * 60)
for test in time_tests:
    result = normalizer_hi.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


TIME TEST (HINDI & ENGLISH DIGITS)
Input:  १२:३०           -> Output: साढ़े बारह
Input:  १:४०            -> Output: एक बजकर चालीस मिनट
Input:  १२:००           -> Output: बारह बजे
Input:  १२:३०:४५        -> Output: बारह बजकर तीस मिनट पैंतालीस सेकंड
Input:  ०९:१५           -> Output: नौ बजकर पंद्रह मिनट
Input:  २३:५९           -> Output: तेईस बजकर उनसठ मिनट
Input:  12:30           -> Output: बारह बजकर तीस मिनट
Input:  1:40            -> Output: एक बजकर चालीस मिनट
Input:  12:00           -> Output: बारह बजे
Input:  12:30:45        -> Output: बारह बजकर तीस मिनट पैंतालीस सेकंड
Input:  09:15           -> Output: नौ बजकर पंद्रह मिनट
Input:  23:59           -> Output: तेईस बजकर उनसठ मिनट
Input:  9:15            -> Output: नौ बजकर पंद्रह मिनट


## 6. Money Test



In [10]:
# Test both Hindi and English digits for money
money_tests = [
    "₹१००",         # Hindi digits
    "₹१२३४",        # Hindi digits
    "₹५०.५०",       # Hindi digits
    "₹०.५०",        # Hindi digits
    "रु १०००",      # Hindi digits
    "₹100",          # English digits
    "₹1234",         # English digits
    "₹50.50",        # English digits
    "₹0.50",         # English digits
    "₹1000",         # English digits
    "₹500",          # English digits
]

print("=" * 60)
print("MONEY TEST (HINDI & ENGLISH DIGITS)")
print("=" * 60)
for test in money_tests:
    result = normalizer_hi.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


MONEY TEST (HINDI & ENGLISH DIGITS)
Input:  ₹१००            -> Output: एक सौ रुपए
Input:  ₹१२३४           -> Output: एक हज़ार दो सौ चौंतीस रुपए
Input:  ₹५०.५०          -> Output: पचास रुपए पचास पैसे
Input:  ₹०.५०           -> Output: पचास पैसे
Input:  रु १०००         -> Output: रु एक हज़ार
Input:  ₹100            -> Output: एक सौ रुपए
Input:  ₹1234           -> Output: एक हज़ार दो सौ चौंतीस रुपए
Input:  ₹50.50          -> Output: पचास रुपए पचास पैसे
Input:  ₹0.50           -> Output: पचास पैसे
Input:  ₹1000           -> Output: एक हज़ार रुपए
Input:  ₹500            -> Output: पाँच सौ रुपए


## 7. Measurements Test



In [11]:
# Test both Hindi and English digits for measurements
measure_tests = [
    "१२ kg",         # Hindi digits
    "१२५ kg",        # Hindi digits
    "१०० m",         # Hindi digits
    "५ km",          # Hindi digits
    "१२.३४ cm",      # Hindi digits
    "12 kg",          # English digits
    "125 kg",         # English digits
    "100 m",          # English digits
    "5 km",           # English digits
    "12.34 cm",       # English digits
]

print("=" * 60)
print("MEASUREMENTS TEST (HINDI & ENGLISH DIGITS)")
print("=" * 60)
for test in measure_tests:
    result = normalizer_hi.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


MEASUREMENTS TEST (HINDI & ENGLISH DIGITS)
Input:  १२ kg           -> Output: बारह किलोग्राम
Input:  १२५ kg          -> Output: एक सौ पच्चीस किलोग्राम
Input:  १०० m           -> Output: एक सौ मीटर
Input:  ५ km            -> Output: पाँच किलोमीटर
Input:  १२.३४ cm        -> Output: बारह दशमलव तीन चार सेंटीमीटर
Input:  12 kg           -> Output: बारह किलोग्राम
Input:  125 kg          -> Output: एक सौ पच्चीस किलोग्राम
Input:  100 m           -> Output: एक सौ मीटर
Input:  5 km            -> Output: पाँच किलोमीटर
Input:  12.34 cm        -> Output: बारह दशमलव तीन चार सेंटीमीटर


## 8. Ordinal Numbers Test



In [4]:
# Test both Hindi and English digits for ordinals
ordinal_tests = [
    "१वाँ",           # Hindi digits
    "२वाँ",           # Hindi digits
    "१०वाँ",          # Hindi digits
    "२१वाँ",          # Hindi digits
    "१००वाँ",         # Hindi digits
    "1वाँ",            # English digits with Hindi suffix
    "2वाँ",            # English digits with Hindi suffix
    "10वाँ",           # English digits with Hindi suffix
    "21वाँ",           # English digits with Hindi suffix
    "100वाँ",          # English digits with Hindi suffix
]

print("=" * 60)
print("ORDINAL NUMBERS TEST (HINDI & ENGLISH DIGITS)")
print("=" * 60)
for test in ordinal_tests:
    result = normalizer_hi.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


ORDINAL NUMBERS TEST (HINDI & ENGLISH DIGITS)
Input:  १वाँ            -> Output: पहला
Input:  २वाँ            -> Output: दूसरा
Input:  १०वाँ           -> Output: १०वाँ
Input:  २१वाँ           -> Output: २१वाँ
Input:  १००वाँ          -> Output: १००वाँ
Input:  1वाँ            -> Output: पहला
Input:  2वाँ            -> Output: दूसरा
Input:  10वाँ           -> Output: 10वाँ
Input:  21वाँ           -> Output: 21वाँ
Input:  100वाँ          -> Output: 100वाँ


## 9. Telephone Numbers Test



In [9]:
telephone_tests = [
    "+९१५७११४००७",
    "+९१ ९२१०५१५६०६",
    "१३७४-३०९९८८",
    "9943206292",
]

print("=" * 60)
print("TELEPHONE NUMBERS TEST")
print("=" * 60)
for test in telephone_tests:
    result = normalizer_hi.normalize(test)
    print(f"Input:  {test:20} -> Output: {result}")


TELEPHONE NUMBERS TEST
Input:  +९१५७११४००७          -> Output:  प्लस नौ अरब पंद्रह करोड़ इकहत्तर लाख चौदह हज़ार सात
Input:  +९१ ९२१०५१५६०६       -> Output: प्लस नौ एक नौ दो एक शून्य पाँच एक पाँच छह शून्य छह
Input:  १३७४-३०९९८८          -> Output: एक हज़ार तीन सौ चौहत्तर माइनस तीन लाख नौ हज़ार नौ सौ अट्ठासी
Input:  9943206292           -> Output: नौ अरब चौरानबे करोड़ बत्तीस लाख छह हज़ार दो सौ बानबे


## 10. Whitelist/Abbreviations Test



In [14]:
whitelist_tests = [
    "डॉ.",
    "प्रो.",
    "श्री",
    "कि.मी.",
    "मी.",
]

print("=" * 60)
print("WHITELIST/ABBREVIATIONS TEST")
print("=" * 60)
for test in whitelist_tests:
    result = normalizer_hi.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


WHITELIST/ABBREVIATIONS TEST
Input:  डॉ.             -> Output: डॉक्टर
Input:  प्रो.           -> Output: प्रोफेसर
Input:  श्री            -> Output: श्री
Input:  कि.मी.          -> Output: कि.मी .
Input:  मी.             -> Output: मी .


## 11. Mixed Content Test



In [15]:
mixed_tests = [
    "आज १५-०६-२०२४ को १२:३० बजे बैठक है।",
    "₹१००० और ₹५०० मिलाकर ₹१५०० होता है।",
    "१२३ किलोग्राम वजन और ५० किलोमीटर दूरी।",
    "१वाँ स्थान और २वाँ स्थान।",
]

print("=" * 60)
print("MIXED CONTENT TEST")
print("=" * 60)
for test in mixed_tests:
    result = normalizer_hi.normalize(test)
    print(f"Input:  {test}")
    print(f"Output: {result}")
    print("-" * 60)


MIXED CONTENT TEST
Input:  आज १५-०६-२०२४ को १२:३० बजे बैठक है।
Output: आज पंद्रह जून दो हज़ार चौबीस को साढ़े बारह बजे बैठक है ।
------------------------------------------------------------
Input:  ₹१००० और ₹५०० मिलाकर ₹१५०० होता है।
Output: एक हज़ार रुपए और पाँच सौ रुपए मिलाकर एक हज़ार पाँच सौ रुपए होता है ।
------------------------------------------------------------
Input:  १२३ किलोग्राम वजन और ५० किलोमीटर दूरी।
Output: एक सौ तेईस किलोग्राम वजन और पचास किलोमीटर दूरी ।
------------------------------------------------------------
Input:  १वाँ स्थान और २वाँ स्थान।
Output: पहला स्थान और दूसरा स्थान ।
------------------------------------------------------------


## 12. Batch Testing



In [16]:
# Test multiple inputs at once
batch_tests = [
    "123",
    "१२.३४",
    "१२:३०",
    "₹१००",
    "१५-०६-२०२४",
]

print("=" * 60)
print("BATCH TESTING")
print("=" * 60)
results = normalizer_hi.normalize_list(batch_tests)
for input_text, output_text in zip(batch_tests, results):
    print(f"Input:  {input_text:15} -> Output: {output_text}")


BATCH TESTING


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 1023.50it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 101.41it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 39.38it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<?, ?it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 54.37it/s]

Input:  123             -> Output: 123
Input:  १२.३४           -> Output: बारह दशमलव तीन चार
Input:  १२:३०           -> Output: साढ़े बारह
Input:  ₹१००            -> Output: एक सौ रुपए
Input:  १५-०६-२०२४      -> Output: पंद्रह जून दो हज़ार चौबीस





## Summary

All test cases have been executed. Check the outputs above to verify that Hindi text normalization is working correctly for all categories.

### Usage Tips:
- Run each cell sequentially (Shift+Enter)
- Modify test cases in any cell to test your own inputs
- Use `verbose=True` in normalize() to see detailed processing information
- Set `cache_dir` to a directory path to speed up subsequent runs

