# Marathi Text Normalization Test Cases

This notebook tests the Marathi text normalization implementation.

## Test Categories:
1. Cardinal Numbers
2. Decimal Numbers
3. Fractions
4. Dates
5. Time
6. Money
7. Measurements
8. Ordinal Numbers
9. Telephone Numbers
10. Whitelist/Abbreviations
11. Mixed Content
12. Batch Testing



In [1]:
import sys
import os

# Add the NeMo-text-processing directory to the path
sys.path.insert(0, os.path.abspath('.'))

from nemo_text_processing.text_normalization.normalize import Normalizer

print("Imports successful!")



Imports successful!


In [2]:
# Initialize Marathi normalizer
normalizer_mr = Normalizer(
    input_case='cased',
    lang='mr',
    cache_dir=None,  # Set to a directory path if you want to cache .far files
    overwrite_cache=False,
    post_process=True
)

print("Marathi Text Normalizer initialized successfully!")
print(f"Language: {normalizer_mr.lang}")



Marathi Text Normalizer initialized successfully!
Language: mr


## 1. Cardinal Numbers Test



In [3]:
cardinal_tests = [
    "123",
    "१२३४",
    "१२३४५",
    "१२३४५६",
    "१२३४५६७",
    "१२३४५६७८",
    "-१२३",
    "-120",
    "१०००",
    "१०००००",  # 1 lakh
    "१०००००००",  # 1 crore
]

print("=" * 60)
print("CARDINAL NUMBERS TEST")
print("=" * 60)
for test in cardinal_tests:
    result = normalizer_mr.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")



CARDINAL NUMBERS TEST
Input:  123             -> Output: एक शंभर तेवीस
Input:  १२३४            -> Output:  बारा शंभर चौतीस
Input:  १२३४५           -> Output: बारा हजार तीन शंभर पंचेचाळीस
Input:  १२३४५६          -> Output: एक लाख तेवीस हजार चार शंभर छप्पन्न
Input:  १२३४५६७         -> Output: बारा लाख चौतीस हजार पाच शंभर सदुसष्ठ
Input:  १२३४५६७८        -> Output: एक कोटी तेवीस लाख पंचेचाळीस हजार सहा शंभर अठ्ठ्याहत्तर
Input:  -१२३            -> Output: minus एक शंभर तेवीस
Input:  -120            -> Output: minus एक शंभर वीस
Input:  १०००            -> Output:  एक हजार
Input:  १०००००          -> Output: एक लाख
Input:  १०००००००        -> Output: एक कोटी


## 2. Decimal Numbers Test



In [4]:
# Test both Marathi and English digits for decimals
decimal_tests = [
    "१२.३४",      # Marathi digits
    "१२३.४५६",    # Marathi digits
    "०.५",         # Marathi digits
    "-१२.३४",     # Marathi digits
    "१२.३४५६",    # Marathi digits
    "12.34",        # English digits
    "123.456",      # English digits
    "0.5",          # English digits
    "-12.34",       # English digits
    "12.3456",      # English digits
]

print("=" * 60)
print("DECIMAL NUMBERS TEST (MARATHI & ENGLISH DIGITS)")
print("=" * 60)
for test in decimal_tests:
    result = normalizer_mr.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")



DECIMAL NUMBERS TEST (MARATHI & ENGLISH DIGITS)
Input:  १२.३४           -> Output: बारा बिंदू तीन चार
Input:  १२३.४५६         -> Output: एक शंभर तेवीस बिंदू चार पाच सहा
Input:  ०.५             -> Output: शून्य बिंदू पाच
Input:  -१२.३४          -> Output:  ऋणात्मक बारा बिंदू तीन चार
Input:  १२.३४५६         -> Output: बारा बिंदू तीन चार पाच सहा
Input:  12.34           -> Output: बारा . चौतीस
Input:  123.456         -> Output: एक शंभर तेवीस . चार शंभर छप्पन्न
Input:  0.5             -> Output: शून्य . पाच
Input:  -12.34          -> Output: minus बारा . चौतीस
Input:  12.3456         -> Output: बारा . तीन हजार चार शंभर छप्पन्न


## 3. Fractions Test



In [5]:
# Test both Marathi and English digits for fractions
fraction_tests = [
    "३/४",         # Marathi digits
    "१/२",         # Marathi digits
    "१/४",         # Marathi digits
    "१२ ३/४",      # Marathi digits
    "-१/२",        # Marathi digits
    "3/4",          # English digits
    "1/2",          # English digits
    "1/4",          # English digits
    "12 3/4",       # English digits
    "-1/2",         # English digits
]

print("=" * 60)
print("FRACTIONS TEST (MARATHI & ENGLISH DIGITS)")
print("=" * 60)
for test in fraction_tests:
    result = normalizer_mr.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")



FRACTIONS TEST (MARATHI & ENGLISH DIGITS)
Input:  ३/४             -> Output: तीन बटा चार
Input:  १/२             -> Output: एक बटा दोन
Input:  १/४             -> Output: एक बटा चार
Input:  १२ ३/४          -> Output: पावणे तेरा
Input:  -१/२            -> Output:  ऋणात्मक एक बटा दोन
Input:  3/4             -> Output: तीन बटा चार
Input:  1/2             -> Output: एक बटा दोन
Input:  1/4             -> Output: एक बटा चार
Input:  12 3/4          -> Output: बारा और तीन बटा चार
Input:  -1/2            -> Output:  ऋणात्मक एक बटा दोन


## 4. Dates Test



In [6]:
# Test both Marathi and English digits for dates
date_tests = [
    "०१-०४-२०२४",      # Marathi digits
    "१५-०६-२०२४",      # Marathi digits
    "२०२४-०१-१५",      # Marathi digits
    "१५/०६/२०२४",      # Marathi digits
    "०४-०१-२०२४",      # MM-DD format, Marathi digits
    "01-04-2024",        # English digits
    "15-06-2024",        # English digits
    "2024-01-15",        # English digits
    "15/06/2024",        # English digits
    "04-01-2024",        # MM-DD format, English digits
]

print("=" * 60)
print("DATES TEST (MARATHI & ENGLISH DIGITS)")
print("=" * 60)
for test in date_tests:
    result = normalizer_mr.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")



DATES TEST (MARATHI & ENGLISH DIGITS)
Input:  ०१-०४-२०२४      -> Output: एक एप्रिल दोन हजार चोवीस
Input:  १५-०६-२०२४      -> Output: पंधरा जून दोन हजार चोवीस
Input:  २०२४-०१-१५      -> Output: दोन हजार चोवीस वजा शून्य एक वजा पंधरा
Input:  १५/०६/२०२४      -> Output: पंधरा जून दोन हजार चोवीस
Input:  ०४-०१-२०२४      -> Output: चार जानेवारी दोन हजार चोवीस
Input:  01-04-2024      -> Output: शून्य एक वजा शून्य चार वजा दोन हजार चोवीस
Input:  15-06-2024      -> Output: पंधरा वजा शून्य सहा वजा दोन हजार चोवीस
Input:  2024-01-15      -> Output: दोन हजार चोवीस वजा शून्य एक वजा पंधरा
Input:  15/06/2024      -> Output: पंधरा / शून्य सहा बटा दोन हजार चोवीस
Input:  04-01-2024      -> Output: शून्य चार वजा शून्य एक वजा दोन हजार चोवीस


## 5. Time Test



In [7]:
# Test both Marathi and English digits for time
time_tests = [
    "१२:३०",         # Marathi digits
    "१:४०",          # Marathi digits
    "१२:००",         # Marathi digits
    "१२:३०:४५",      # Marathi digits
    "०९:१५",         # Marathi digits
    "२३:५९",         # Marathi digits
    "12:30",          # English digits
    "1:40",           # English digits
    "12:00",          # English digits
    "12:30:45",       # English digits
    "09:15",          # English digits
    "23:59",          # English digits
    "9:15",           # English digits (single digit hour)
]

print("=" * 60)
print("TIME TEST (MARATHI & ENGLISH DIGITS)")
print("=" * 60)
for test in time_tests:
    result = normalizer_mr.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")



TIME TEST (MARATHI & ENGLISH DIGITS)
Input:  १२:३०           -> Output: साडे बारा
Input:  १:४०            -> Output: एक बजकर चाळीस मिनट
Input:  १२:००           -> Output: बारा बजे
Input:  १२:३०:४५        -> Output: बारा बजकर तीस मिनट पंचेचाळीस सेकंड
Input:  ०९:१५           -> Output: शून्य नऊ : पंधरा
Input:  २३:५९           -> Output: तेवीस बजकर एकोणसाठ मिनट
Input:  12:30           -> Output: बारा बजकर तीस मिनट
Input:  1:40            -> Output: एक बजकर चाळीस मिनट
Input:  12:00           -> Output: बारा बजे
Input:  12:30:45        -> Output: बारा बजकर तीस मिनट पंचेचाळीस सेकंड
Input:  09:15           -> Output: शून्य नऊ : पंधरा
Input:  23:59           -> Output: तेवीस बजकर एकोणसाठ मिनट
Input:  9:15            -> Output: नऊ बजकर पंधरा मिनट


## 6. Money Test



In [8]:
# Test both Marathi and English digits for money
money_tests = [
    "₹१००",         # Marathi digits
    "₹१२३४",        # Marathi digits
    "₹५०.५०",       # Marathi digits
    "₹०.५०",        # Marathi digits
    "₹१०००",        # Marathi digits
    "₹100",          # English digits
    "₹1234",         # English digits
    "₹50.50",        # English digits
    "₹0.50",         # English digits
    "₹1000",         # English digits
    "₹500",          # English digits
]

print("=" * 60)
print("MONEY TEST (MARATHI & ENGLISH DIGITS)")
print("=" * 60)
for test in money_tests:
    result = normalizer_mr.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")



MONEY TEST (MARATHI & ENGLISH DIGITS)
Input:  ₹१००            -> Output: एक शंभर रुपये
Input:  ₹१२३४           -> Output: एक हजार दोन शंभर चौतीस रुपये
Input:  ₹५०.५०          -> Output: पन्नास रुपये पन्नास पैसे
Input:  ₹०.५०           -> Output: पन्नास पैसे
Input:  ₹१०००           -> Output: एक हजार रुपये
Input:  ₹100            -> Output: एक शंभर रुपये
Input:  ₹1234           -> Output: एक हजार दोन शंभर चौतीस रुपये
Input:  ₹50.50          -> Output: पन्नास रुपये पन्नास पैसे
Input:  ₹0.50           -> Output: पन्नास पैसे
Input:  ₹1000           -> Output: एक हजार रुपये
Input:  ₹500            -> Output: पाच शंभर रुपये


## 7. Measurements Test



In [9]:
# Test both Marathi and English digits for measurements
measure_tests = [
    "१२ kg",         # Marathi digits
    "१२५ kg",        # Marathi digits
    "१०० m",         # Marathi digits
    "५ km",          # Marathi digits
    "१२.३४ cm",      # Marathi digits
    "12 kg",          # English digits
    "125 kg",         # English digits
    "100 m",          # English digits
    "5 km",           # English digits
    "12.34 cm",       # English digits
]

print("=" * 60)
print("MEASUREMENTS TEST (MARATHI & ENGLISH DIGITS)")
print("=" * 60)
for test in measure_tests:
    result = normalizer_mr.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")



MEASUREMENTS TEST (MARATHI & ENGLISH DIGITS)
Input:  १२ kg           -> Output: बारा किलोग्राम
Input:  १२५ kg          -> Output: एक शंभर पंचवीस किलोग्राम
Input:  १०० m           -> Output: एक शंभर मीटर
Input:  ५ km            -> Output: पाच किलोमीटर
Input:  १२.३४ cm        -> Output: बारा बिंदू तीन चार सेंटीमीटर
Input:  12 kg           -> Output: बारा kg
Input:  125 kg          -> Output: एक शंभर पंचवीस kg
Input:  100 m           -> Output: एक शंभर m
Input:  5 km            -> Output: पाच km
Input:  12.34 cm        -> Output: बारा . चौतीस cm


## 8. Ordinal Numbers Test



In [10]:
# Test both Marathi and English digits for ordinals
ordinal_tests = [
    "१ला",           # Marathi digits
    "२रा",           # Marathi digits
    "१०वा",          # Marathi digits
    "२१वा",          # Marathi digits
    "१००वा",         # Marathi digits
    "1ला",            # English digits with Marathi suffix
    "2रा",            # English digits with Marathi suffix
    "10वा",           # English digits with Marathi suffix
    "21वा",           # English digits with Marathi suffix
    "100वा",          # English digits with Marathi suffix
]

print("=" * 60)
print("ORDINAL NUMBERS TEST (MARATHI & ENGLISH DIGITS)")
print("=" * 60)
for test in ordinal_tests:
    result = normalizer_mr.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")



ORDINAL NUMBERS TEST (MARATHI & ENGLISH DIGITS)
Input:  १ला             -> Output: पहिला
Input:  २रा             -> Output: दुसरा
Input:  १०वा            -> Output: दहावा
Input:  २१वा            -> Output: एकवीसवा
Input:  १००वा           -> Output: एक शंभरवा
Input:  1ला             -> Output: एकला
Input:  2रा             -> Output: 2रा
Input:  10वा            -> Output: दहावा
Input:  21वा            -> Output: एकवीसवा
Input:  100वा           -> Output: एक शंभरवा


## 9. Telephone Numbers Test



In [11]:
telephone_tests = [
    "+९१५७११४००७",
    "+९१ ९२१०५१५६०६",
    "१३७४-३०९९८८",
    "9943206292",
]

print("=" * 60)
print("TELEPHONE NUMBERS TEST")
print("=" * 60)
for test in telephone_tests:
    result = normalizer_mr.normalize(test)
    print(f"Input:  {test:20} -> Output: {result}")



TELEPHONE NUMBERS TEST
Input:  +९१५७११४००७          -> Output: + नऊ अब्ज पंधरा कोटी एक्काहत्तर लाख चौदा हजार सात
Input:  +९१ ९२१०५१५६०६       -> Output: प्लस नऊ एक नऊ दोन एक शून्य पाच एक पाच सहा शून्य सहा
Input:  १३७४-३०९९८८          -> Output: एक हजार तीन शंभर चौर्याहत्तर वजा तीन लाख नऊ हजार नऊ शंभर अठ्ठ्याऐंशी
Input:  9943206292           -> Output: नऊ अब्ज चौऱ्याण्णव कोटी बत्तीस लाख सहा हजार दोन शंभर ब्याण्णव


## 10. Whitelist/Abbreviations Test



In [12]:
whitelist_tests = [
    "डॉ.",
    "प्रो.",
    "इं.",
    "ले.",
    "वै.",
]

print("=" * 60)
print("WHITELIST/ABBREVIATIONS TEST")
print("=" * 60)
for test in whitelist_tests:
    result = normalizer_mr.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")



WHITELIST/ABBREVIATIONS TEST
Input:  डॉ.             -> Output: डॉक्टर
Input:  प्रो.           -> Output: प्रोफेसर
Input:  इं.             -> Output: इंजिनीअर
Input:  ले.             -> Output: लेफ्टनंट
Input:  वै.             -> Output: वैज्ञानिक


## 11. Mixed Content Test



In [13]:
mixed_tests = [
    "आज १५-०६-२०२४ रोजी १२:३० वाजता सभा आहे.",
    "₹१००० आणि ₹५०० मिळून ₹१५०० होते.",
    "१२३ किलोग्रॅम वजन आणि ५० किलोमीटर अंतर.",
    "१ला क्रमांक आणि २रा क्रमांक.",
]

print("=" * 60)
print("MIXED CONTENT TEST")
print("=" * 60)
for test in mixed_tests:
    result = normalizer_mr.normalize(test)
    print(f"Input:  {test}")
    print(f"Output: {result}")
    print("-" * 60)



MIXED CONTENT TEST
Input:  आज १५-०६-२०२४ रोजी १२:३० वाजता सभा आहे.
Output: आज पंधरा जून दोन हजार चोवीस रोजी साडे बारा वाजता सभा आहे .
------------------------------------------------------------
Input:  ₹१००० आणि ₹५०० मिळून ₹१५०० होते.
Output: एक हजार रुपये आणि पाच शंभर रुपये मिळून एक हजार पाच शंभर रुपये होते .
------------------------------------------------------------
Input:  १२३ किलोग्रॅम वजन आणि ५० किलोमीटर अंतर.
Output: एक शंभर तेवीस किलोग्रॅम वजन आणि पन्नास किलोमीटर अंतर .
------------------------------------------------------------
Input:  १ला क्रमांक आणि २रा क्रमांक.
Output: पहिला क्रमांक आणि दुसरा क्रमांक .
------------------------------------------------------------


## 12. Batch Testing



In [14]:
# Test multiple inputs at once
batch_tests = [
    "123",
    "१२.३४",
    "१२:३०",
    "₹१००",
    "१५-०६-२०२४",
]

print("=" * 60)
print("BATCH TESTING")
print("=" * 60)
results = normalizer_mr.normalize_list(batch_tests)
for input_text, output_text in zip(batch_tests, results):
    print(f"Input:  {input_text:15} -> Output: {output_text}")



BATCH TESTING


100%|███████████████████████████████████████████████████| 1/1 [00:00<?, ?it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 58.58it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 60.42it/s]
100%|███████████████████████████████████████████████████| 1/1 [00:00<?, ?it/s]
100%|███████████████████████████████████████████| 1/1 [00:00<00:00, 46.83it/s]

Input:  123             -> Output: एक शंभर तेवीस
Input:  १२.३४           -> Output: बारा बिंदू तीन चार
Input:  १२:३०           -> Output: साडे बारा
Input:  ₹१००            -> Output: एक शंभर रुपये
Input:  १५-०६-२०२४      -> Output: पंधरा जून दोन हजार चोवीस





## Summary

All test cases have been executed. Check the outputs above to verify that Marathi text normalization is working correctly for all categories.

### Usage Tips:
- Run each cell sequentially (Shift+Enter)
- Modify test cases in any cell to test your own inputs
- Use `verbose=True` in normalize() to see detailed processing information
- Set `cache_dir` to a directory path to speed up subsequent runs

