# Malayalam Text Normalization Test Cases

This notebook tests the Malayalam text normalization implementation.

## Test Categories:
1. Cardinal Numbers
2. Decimal Numbers
3. Fractions
4. Dates
5. Time
6. Money
7. Measurements
8. Ordinal Numbers
9. Telephone Numbers
10. Whitelist/Abbreviations
11. Mixed Content
12. Batch Testing


In [21]:
import sys
import os

# Add the NeMo-text-processing directory to the path
sys.path.insert(0, os.path.abspath('.'))

from nemo_text_processing.text_normalization.normalize import Normalizer
print("Imports successful!")


Imports successful!


In [22]:
# Initialize Malayalam normalizer
normalizer_ma = Normalizer(
    input_case='cased',
    lang='ma',
    cache_dir=None,  # Set to a directory path if you want to cache .far files
    overwrite_cache=False,
    post_process=True
)

print("Malayalam Text Normalizer initialized successfully!")
print(f"Language: {normalizer_ma.lang}")


Malayalam Text Normalizer initialized successfully!
Language: ma


## 1. Cardinal Numbers Test


In [3]:
cardinal_tests = [
    "155=100",          # unchanged (looks like a logic test)
    "൧൨൩൪",            # 1234
    "൧൨൩൪൫",          # 12345
    "൧൨൩൪൫൬",        # 123456
    "൧൨൩൪൫൬൭",      # 1234567
    "൧൨൩൪൫൬൭൮",    # 12345678
    "൧൨൩",            # -123
    "൧൨൦",            # -120  (Malayalam digits)
    "൧൦൦൦",            # 1000
    "൧൦൦൦൦൦",        # 100000 (1 lakh)
    "൧൦൦൦൦൦൦൦൦",    # 10 million (1 crore correct length)
    "൪൫൬",              # 456
    "൯൯൪൩൨൦൬൮൭൦",  # 9943206870
    "1234566",         # unchanged (English digit formatted test)
    "45",
    "XCIV"
]


print("=" * 60)
print("CARDINAL NUMBERS TEST")
print("=" * 60)
for test in cardinal_tests:
    result = normalizer_ma.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


CARDINAL NUMBERS TEST
Input:  155=100         -> Output: ഒന്ന് നൂറ് അമ്പത്തിയഞ്ച് തുല്യം ഒന്ന് നൂറ്
Input:  ൧൨൩൪            -> Output: ഒന്ന് ആയിരം രണ്ട് നൂറ് മുപ്പത്തിനാല്
Input:  ൧൨൩൪൫           -> Output: പന്ത്രണ്ട് ആയിരം മൂന്ന് നൂറ് നാല്പത്തിയഞ്ച്
Input:  ൧൨൩൪൫൬          -> Output: ഒന്ന് ലക്ഷം ഇരുപത്തിമൂന്ന് ആയിരം നാല് നൂറ് അമ്പത്തിയാറ്
Input:  ൧൨൩൪൫൬൭         -> Output: പൂജ്യം ഒന്ന് രണ്ട് മൂന്ന് നാല് അഞ്ച് ആറ് ഏഴ്
Input:  ൧൨൩൪൫൬൭൮        -> Output: പൂജ്യം ഒന്ന് രണ്ട് മൂന്ന് നാല് അഞ്ച് ആറ് ഏഴ് എട്ട്
Input:  ൧൨൩             -> Output: ഒന്ന് നൂറ് ഇരുപത്തിമൂന്ന്
Input:  ൧൨൦             -> Output: ഒന്ന് നൂറ് ഇരുപത്
Input:  ൧൦൦൦            -> Output: ഒന്ന് ആയിരം
Input:  ൧൦൦൦൦൦          -> Output: ഒന്ന് ലക്ഷം
Input:  ൧൦൦൦൦൦൦൦൦       -> Output: പൂജ്യം ഒന്ന് പൂജ്യം പൂജ്യം പൂജ്യം പൂജ്യം പൂജ്യം പൂജ്യം പൂജ്യം പൂജ്യം
Input:  ൪൫൬             -> Output: നാല് നൂറ് അമ്പത്തിയാറ്
Input:  ൯൯൪൩൨൦൬൮൭൦      -> Output: പൂജ്യം ഒമ്പത് ഒമ്പത് നാല് മൂന്ന് രണ്ട് പൂജ്യം ആറ് എട്ട് ഏഴ് പൂജ്യം
Input:  1234566     

In [4]:
# Test English digits for time - should work now!
time_tests_english = [
    "12:30",
    "1:40",
    "12:00",
    "12:14",
    "12:30:45",
    "9:15",
    "09:15",
    "23:59",
    "12:49",
]

print("=" * 60)
print("TIME TEST (ENGLISH DIGITS)")
print("=" * 60)
for test in time_tests_english:
    result = normalizer_ma.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


TIME TEST (ENGLISH DIGITS)
Input:  12:30           -> Output: പന്ത്രണ്ട് മണിക്ക് മുപ്പത് മിനിറ്റ്
Input:  1:40            -> Output: ഒന്ന് മണിക്ക് നാല്പത് മിനിറ്റ്
Input:  12:00           -> Output: പന്ത്രണ്ട് മണി
Input:  12:14           -> Output: പന്ത്രണ്ട് മണിക്ക് പതിനാല് മിനിറ്റ്
Input:  12:30:45        -> Output: പന്ത്രണ്ട് മണിക്ക് മുപ്പത് മിനിറ്റ് നാല്പത്തിയഞ്ച് സെക്കൻഡ്
Input:  9:15            -> Output: ഒമ്പത് മണിക്ക് പതിനഞ്ച് മിനിറ്റ്
Input:  09:15           -> Output: ഒമ്പത് മണിക്ക് പതിനഞ്ച് മിനിറ്റ്
Input:  23:59           -> Output: ഇരുപത്തിമൂന്ന് മണിക്ക് അമ്പത്തിയൊമ്പത് മിനിറ്റ്
Input:  12:49           -> Output: പന്ത്രണ്ട് മണിക്ക് നാല്പത്തിയൊമ്പത് മിനിറ്റ്


## 1.3. Money Test (English Digits)


In [5]:
# Test English digits for money - should work now!
money_tests_english = [
    "₹100",
    "₹568",
    "₹3546",

    "₹50.50",
    "₹0.50",
    "₹1000000",
    "₹1050000",
    "₹500",
]

print("=" * 60)
print("MONEY TEST (ENGLISH DIGITS)")
print("=" * 60)
for test in money_tests_english:
    result = normalizer_ma.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


MONEY TEST (ENGLISH DIGITS)
Input:  ₹100            -> Output: ഒന്ന് നൂറ് രൂപ
Input:  ₹568            -> Output: അഞ്ച് നൂറ് അറുപത്തിയെട്ട് രൂപ
Input:  ₹3546           -> Output: മൂന്ന് ആയിരം അഞ്ച് നൂറ് നാല്പത്തിയാറ് രൂപ
Input:  ₹50.50          -> Output: അമ്പത് രൂപ അമ്പത് പൈസ
Input:  ₹0.50           -> Output: അമ്പത് പൈസ
Input:  ₹1000000        -> Output: ₹1000000
Input:  ₹1050000        -> Output: ₹1050000
Input:  ₹500            -> Output: അഞ്ച് നൂറ് രൂപ


## 2. Decimal Numbers Test


In [6]:
# Test both Malayalam and English digits for decimals
decimal_tests = [
    "൧൨.൩൪",        # Malayalam digits
    "൧൨൩.൪൫൬",      # Malayalam digits (fixed ௫ → ൫ and ௬ → ൬)
    "൦.൫",           # Malayalam digits (fixed ௫ → ൫)
    "-൧൨.൩൪",       # Malayalam digits
    "൧൨.൩൪൫൬",      # Malayalam digits (all correct)
    "12.34",         # English digits
    "123.456",       # English digits
    "0.5",           # English digits
    "-12.34",        # English digits
    "96.3456",       # English digits
]

print("=" * 60)
print("DECIMAL NUMBERS TEST (MALAYALAM & ENGLISH DIGITS)")
print("=" * 60)
for test in decimal_tests:
    result = normalizer_ma.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


DECIMAL NUMBERS TEST (MALAYALAM & ENGLISH DIGITS)
Input:  ൧൨.൩൪           -> Output: പന്ത്രണ്ട് ദശാംശം മൂന്ന് നാല്
Input:  ൧൨൩.൪൫൬         -> Output: ഒന്ന് നൂറ് ഇരുപത്തിമൂന്ന് ദശാംശം നാല് അഞ്ച് ആറ്
Input:  ൦.൫             -> Output: പൂജ്യം ദശാംശം അഞ്ച്
Input:  -൧൨.൩൪          -> Output:  മൈനസ് പന്ത്രണ്ട് ദശാംശം മൂന്ന് നാല്
Input:  ൧൨.൩൪൫൬         -> Output: പന്ത്രണ്ട് ദശാംശം മൂന്ന് നാല് അഞ്ച് ആറ്
Input:  12.34           -> Output: പന്ത്രണ്ട് ദശാംശം മൂന്ന് നാല്
Input:  123.456         -> Output: ഒന്ന് നൂറ് ഇരുപത്തിമൂന്ന് ദശാംശം നാല് അഞ്ച് ആറ്
Input:  0.5             -> Output: പൂജ്യം ദശാംശം അഞ്ച്
Input:  -12.34          -> Output:  മൈനസ് പന്ത്രണ്ട് ദശാംശം മൂന്ന് നാല്
Input:  96.3456         -> Output: തൊണ്ണൂറ്റിയാറ് ദശാംശം മൂന്ന് നാല് അഞ്ച് ആറ്


## 3. Fractions Test


In [7]:
# Test both Malayalam and English digits for fractions
fraction_tests = [
    "൩/൪",         # Malayalam digits
    "൧/൨",         # Malayalam digits
    "൧/൪",         # Malayalam digits
    "൧൨൩/൪",      # Malayalam digits
    "-൧/൨",        # Malayalam digits
    "3/4",          # English digits
    "1/2",          # English digits
    "1/4",          # English digits
    "23/4",       # English digits
    "-1/2",         # English digits
]

print("=" * 60)
print("FRACTIONS TEST (MALAYALAM & ENGLISH DIGITS)")
print("=" * 60)
for test in fraction_tests:
    result = normalizer_ma.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


FRACTIONS TEST (MALAYALAM & ENGLISH DIGITS)
Input:  ൩/൪             -> Output: മൂന്ന് ഭാഗിച്ച് നാല്
Input:  ൧/൨             -> Output: ഒന്ന് ഭാഗിച്ച് രണ്ട്
Input:  ൧/൪             -> Output: ഒന്ന് ഭാഗിച്ച് നാല്
Input:  ൧൨൩/൪           -> Output: ഒന്ന് നൂറ് ഇരുപത്തിമൂന്ന് ഭാഗിച്ച് നാല്
Input:  -൧/൨            -> Output:  മൈനസ് ഒന്ന് ഭാഗിച്ച് രണ്ട്
Input:  3/4             -> Output: മൂന്ന് ഭാഗിച്ച് നാല്
Input:  1/2             -> Output: ഒന്ന് ഭാഗിച്ച് രണ്ട്
Input:  1/4             -> Output: ഒന്ന് ഭാഗിച്ച് നാല്
Input:  23/4            -> Output: ഇരുപത്തിമൂന്ന് ഭാഗിച്ച് നാല്
Input:  -1/2            -> Output:  മൈനസ് ഒന്ന് ഭാഗിച്ച് രണ്ട്


## 4. Dates Test


In [8]:
# Test both Malayalam and English digits for dates
date_tests = [
    "൦൧-൦൪-൨൦൨൪",      # Malayalam digits
    "൧൫-൦൬-൨൦൨൪",      # Malayalam digits (fixed ௫ → ൫)
    "൨൦൨൪-൦൧-൧൫",      # Malayalam digits (fixed ௫ → ൫)
    "൧൫/൦൬/൨൦൨൪",      # Malayalam digits (fixed ௫ → ൫)
    "൦൪-൦൧-൨൦൨൪",      # MM-DD format, Malayalam digits
    "01-04-2024",        # English digits
    "15-06-2024",        # English digits
    "2024-01-15",        # English digits
    "15/06/2024",        # English digits
    "04-01-2024",        # MM-DD format, English digits
]

print("=" * 60)
print("DATES TEST (MALAYALAM & ENGLISH DIGITS)")
print("=" * 60)
for test in date_tests:
    result = normalizer_ma.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


DATES TEST (MALAYALAM & ENGLISH DIGITS)
Input:  ൦൧-൦൪-൨൦൨൪      -> Output: തിങ്കൾ ഏപ്രിൽ രണ്ട് ആയിരം ഇരുപത്തിനാല്
Input:  ൧൫-൦൬-൨൦൨൪      -> Output: പതിനഞ്ച് മൈനസ് പൂജ്യം ആറ് മൈനസ് രണ്ട് ആയിരം ഇരുപത്തിനാല്
Input:  ൨൦൨൪-൦൧-൧൫      -> Output: രണ്ട് ആയിരം ഇരുപത്തിനാല് മൈനസ് പൂജ്യം ഒന്ന് മൈനസ് പതിനഞ്ച്
Input:  ൧൫/൦൬/൨൦൨൪      -> Output: പതിനഞ്ച് / പൂജ്യം ആറ് ഭാഗിച്ച് രണ്ട് ആയിരം ഇരുപത്തിനാല്
Input:  ൦൪-൦൧-൨൦൨൪      -> Output: വ്യാഴം ജനുവരി രണ്ട് ആയിരം ഇരുപത്തിനാല്
Input:  01-04-2024      -> Output: തിങ്കൾ ഏപ്രിൽ രണ്ട് ആയിരം ഇരുപത്തിനാല്
Input:  15-06-2024      -> Output: പതിനഞ്ച് മൈനസ് പൂജ്യം ആറ് മൈനസ് രണ്ട് ആയിരം ഇരുപത്തിനാല്
Input:  2024-01-15      -> Output: രണ്ട് ആയിരം ഇരുപത്തിനാല് മൈനസ് പൂജ്യം ഒന്ന് മൈനസ് പതിനഞ്ച്
Input:  15/06/2024      -> Output: പതിനഞ്ച്/പൂജ്യം ആറ്/രണ്ട് ആയിരം ഇരുപത്തിനാല്
Input:  04-01-2024      -> Output: വ്യാഴം ജനുവരി രണ്ട് ആയിരം ഇരുപത്തിനാല്


## 5. Time Test


In [9]:
# Test both Malayalam and English digits for time
time_tests = [
    "൧൨:൩൦",         # Malayalam digits
    "൧:൪൦",          # Malayalam digits
    "൧൨:൦൦",         # Malayalam digits
    "൧൨:൩൦:൪൫",      # Malayalam digits (fixed ௫ → ൫)
    "൦൯:൧൫",         # Malayalam digits (fixed ௯ → ൯, ௫ → ൫)
    "൨൩:൫൯",         # Malayalam digits (fixed ௫ → ൫, ௯ → ൯)
    "12:30",          # English digits
    "1:40",           # English digits
    "12:00",          # English digits
    "12:30:45",       # English digits
    "09:15",          # English digits
    "23:59",          # English digits
    "9:15",           # English digits (single digit hour)
]

print("=" * 60)
print("TIME TEST (MALAYALAM & ENGLISH DIGITS)")
print("=" * 60)
for test in time_tests:
    result = normalizer_ma.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


TIME TEST (MALAYALAM & ENGLISH DIGITS)
Input:  ൧൨:൩൦           -> Output: അര അധികം പന്ത്രണ്ട്
Input:  ൧:൪൦            -> Output: ഒന്ന് മണിക്ക് നാല്പത് മിനിറ്റ്
Input:  ൧൨:൦൦           -> Output: പന്ത്രണ്ട് മണി
Input:  ൧൨:൩൦:൪൫        -> Output: പന്ത്രണ്ട് മണിക്ക് മുപ്പത് മിനിറ്റ് നാല്പത്തിയഞ്ച് സെക്കൻഡ്
Input:  ൦൯:൧൫           -> Output: ഒമ്പത് മണിക്ക് പതിനഞ്ച് മിനിറ്റ്
Input:  ൨൩:൫൯           -> Output: ഇരുപത്തിമൂന്ന് മണിക്ക് അമ്പത്തിയൊമ്പത് മിനിറ്റ്
Input:  12:30           -> Output: പന്ത്രണ്ട് മണിക്ക് മുപ്പത് മിനിറ്റ്
Input:  1:40            -> Output: ഒന്ന് മണിക്ക് നാല്പത് മിനിറ്റ്
Input:  12:00           -> Output: പന്ത്രണ്ട് മണി
Input:  12:30:45        -> Output: പന്ത്രണ്ട് മണിക്ക് മുപ്പത് മിനിറ്റ് നാല്പത്തിയഞ്ച് സെക്കൻഡ്
Input:  09:15           -> Output: ഒമ്പത് മണിക്ക് പതിനഞ്ച് മിനിറ്റ്
Input:  23:59           -> Output: ഇരുപത്തിമൂന്ന് മണിക്ക് അമ്പത്തിയൊമ്പത് മിനിറ്റ്
Input:  9:15            -> Output: ഒമ്പത് മണിക്ക് പതിനഞ്ച് മിനിറ്റ്


## 6. Money Test


In [10]:
# Test both Malayalam and English digits for money
money_tests = [
    "₹൧൦൦",         # Malayalam digits
    "₹൧൨൩൪",        # Malayalam digits
    "₹൫൦.൫൦",       # Malayalam digits (fixed ௫ → ൫ and ௦ → ൦)
    "₹൦.൫൦",        # Malayalam digits (fixed ௫ → ൫ and ௦ → ൦)
    "രൂപ ൧൦൦൦",      # Malayalam digits
    "₹100",          # English digits
    "₹1234",         # English digits
    "₹50.50",        # English digits
    "₹0.50",         # English digits
    "₹1000",         # English digits
    "₹500",          # English digits
]

print("=" * 60)
print("MONEY TEST (MALAYALAM & ENGLISH DIGITS)")
print("=" * 60)
for test in money_tests:
    result = normalizer_ma.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


MONEY TEST (MALAYALAM & ENGLISH DIGITS)
Input:  ₹൧൦൦            -> Output: ഒന്ന് നൂറ് രൂപ
Input:  ₹൧൨൩൪           -> Output: ഒന്ന് ആയിരം രണ്ട് നൂറ് മുപ്പത്തിനാല് രൂപ
Input:  ₹൫൦.൫൦          -> Output: അമ്പത് രൂപ അമ്പത് പൈസ
Input:  ₹൦.൫൦           -> Output: അമ്പത് പൈസ
Input:  രൂപ ൧൦൦൦        -> Output: രൂപ ഒന്ന് ആയിരം
Input:  ₹100            -> Output: ഒന്ന് നൂറ് രൂപ
Input:  ₹1234           -> Output: ഒന്ന് ആയിരം രണ്ട് നൂറ് മുപ്പത്തിനാല് രൂപ
Input:  ₹50.50          -> Output: അമ്പത് രൂപ അമ്പത് പൈസ
Input:  ₹0.50           -> Output: അമ്പത് പൈസ
Input:  ₹1000           -> Output: ഒന്ന് ആയിരം രൂപ
Input:  ₹500            -> Output: അഞ്ച് നൂറ് രൂപ


## 7. Measurements Test


In [11]:
# Test both Malayalam and English digits for measurements
measure_tests = [
    "൧൨ kg",         # Malayalam digits
    "൧൨൫ kg",        # Malayalam digits (fixed ௫ → ൫)
    "൧൦൦ m",         # Malayalam digits
    "൫ km",          # Malayalam digits (fixed ௫ → ൫)
    "൧൨.൩൪ cm",      # Malayalam digits
    "12 kg",         # English digits
    "125 kg",        # English digits
    "100 m",         # English digits
    "5 km",          # English digits
    "12.34 cm",      # English digits
]

print("=" * 60)
print("MEASUREMENTS TEST (MALAYALAM & ENGLISH DIGITS)")
print("=" * 60)
for test in measure_tests:
    result = normalizer_ma.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


MEASUREMENTS TEST (MALAYALAM & ENGLISH DIGITS)
Input:  ൧൨ kg           -> Output: പന്ത്രണ്ട് കിലോഗ്രാം
Input:  ൧൨൫ kg          -> Output: ഒന്ന് നൂറ് ഇരുപത്തിയഞ്ച് കിലോഗ്രാം
Input:  ൧൦൦ m           -> Output: ഒന്ന് നൂറ് മീറ്റർ
Input:  ൫ km            -> Output: അഞ്ച് കിലോമീറ്റർ
Input:  ൧൨.൩൪ cm        -> Output: പന്ത്രണ്ട് ദശാംശം മൂന്ന് നാല് സെന്റിമീറ്റർ
Input:  12 kg           -> Output: പന്ത്രണ്ട് കിലോഗ്രാം
Input:  125 kg          -> Output: ഒന്ന് നൂറ് ഇരുപത്തിയഞ്ച് കിലോഗ്രാം
Input:  100 m           -> Output: ഒന്ന് നൂറ് മീറ്റർ
Input:  5 km            -> Output: അഞ്ച് കിലോമീറ്റർ
Input:  12.34 cm        -> Output: പന്ത്രണ്ട് ദശാംശം മൂന്ന് നാല് സെന്റിമീറ്റർ


## 8. Ordinal Numbers Test


In [12]:
# Test both Malayalam and English digits for ordinals
ordinal_tests = [
    "൧ാം",           # Malayalam digits
    "൨ാം",           # Malayalam digits
    "൧൦ാം",          # Malayalam digits
    "൨൧ാം",          # Malayalam digits
    "൧൦൦ാം",         # Malayalam digits
    "1 kg",          # English digits (not ordinal)
    "2ാം",           # English digits with Malayalam suffix
    "10ാം",          # English digits with Malayalam suffix
    "21ാം",          # English digits with Malayalam suffix
    "100ാം",         # English digits with Malayalam suffix
]

print("=" * 60)
print("ORDINAL NUMBERS TEST (MALAYALAM & ENGLISH DIGITS)")
print("=" * 60)
for test in ordinal_tests:
    result = normalizer_ma.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


ORDINAL NUMBERS TEST (MALAYALAM & ENGLISH DIGITS)
Input:  ൧ാം             -> Output: ഒന്ന്ാം
Input:  ൨ാം             -> Output: രണ്ട്ാം
Input:  ൧൦ാം            -> Output: പത്ത്ാം
Input:  ൨൧ാം            -> Output: ഇരുപത്തിയൊന്ന്ാം
Input:  ൧൦൦ാം           -> Output: ഒന്ന് നൂറ്ാം
Input:  1 kg            -> Output: ഒന്ന് കിലോഗ്രാം
Input:  2ാം             -> Output: രണ്ട്ാം
Input:  10ാം            -> Output: പത്ത്ാം
Input:  21ാം            -> Output: ഇരുപത്തിയൊന്ന്ാം
Input:  100ാം           -> Output: ഒന്ന് നൂറ്ാം


## 9. Telephone Numbers Test


In [20]:
telephone_tests = [
    "എന്റെ മൊബൈൽ നമ്പർ +൯൧൫൭൧൧൪൦൦൭",
    "+൯൧ ൯൨൧൦൫൧൫൬൦൬",
    "എന്റെ മൊബൈൽ നമ്പർ ൧൩൭൪൩൦൯൯൮൮",
    "9943206292",
    "123456",
    "1234567",
    "1,234,567"
]

print("=" * 60)
print("TELEPHONE NUMBERS TEST")
print("=" * 60)
for test in telephone_tests:
    result = normalizer_ma.normalize(test)
    print(f"Input:  {test:20} -> Output: {result}")


TELEPHONE NUMBERS TEST
Input:  എന്റെ മൊബൈൽ നമ്പർ +൯൧൫൭൧൧൪൦൦൭ -> Output: എന്റെ മൊബൈൽ നമ്പർ പ്ലസ് ഒമ്പത് ഒന്ന് അഞ്ച് ഏഴ് ഒന്ന് ഒന്ന് നാല് പൂജ്യം പൂജ്യം ഏഴ്
Input:  +൯൧ ൯൨൧൦൫൧൫൬൦൬       -> Output: പ്ലസ് ഒമ്പത് ഒന്ന് ഒമ്പത് രണ്ട് ഒന്ന് പൂജ്യം അഞ്ച് ഒന്ന് അഞ്ച് ആറ് പൂജ്യം ആറ്
Input:  എന്റെ മൊബൈൽ നമ്പർ ൧൩൭൪൩൦൯൯൮൮ -> Output: എന്റെ മൊബൈൽ നമ്പർ പൂജ്യം ഒന്ന് മൂന്ന് ഏഴ് നാല് മൂന്ന് പൂജ്യം ഒമ്പത് ഒമ്പത് എട്ട് എട്ട്
Input:  9943206292           -> Output: 9943206292
Input:  123456               -> Output: ഒന്ന് ലക്ഷം ഇരുപത്തിമൂന്ന് ആയിരം നാല് നൂറ് അമ്പത്തിയാറ്
Input:  1234567              -> Output: 1234567
Input:  1,234,567            -> Output: പന്ത്രണ്ട് ലക്ഷം മുപ്പത്തിനാല് ആയിരം അഞ്ച് നൂറ് അറുപത്തിയേഴ്


## 10. Whitelist/Abbreviations Test


In [14]:
whitelist_tests = [
    "டா.",
    "புரொ.",
    "ஸ்ரீ",
    "கி.மீ.",
    "மீ.",
]

print("=" * 60)
print("WHITELIST/ABBREVIATIONS TEST")
print("=" * 60)
for test in whitelist_tests:
    result = normalizer_ma.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


WHITELIST/ABBREVIATIONS TEST
Input:  டா.             -> Output: டா .
Input:  புரொ.           -> Output: புரொ .
Input:  ஸ்ரீ            -> Output: ஸ்ரீ
Input:  கி.மீ.          -> Output: கி.மீ .
Input:  மீ.             -> Output: மீ .


## 11. Mixed Content Test


In [15]:
mixed_tests = [
    "இன்று ൧௫-൦൬-൨൦൨൪ அன்று ൧൨:൩൦ மணிக்கு கூட்டம் உள்ளது.",
    "₹൧൦൦൦ மற்றும் ₹௫൦൦ சேர்த்தால் ₹൧௫൦൦ ஆகும்.",
    "൧൨൩ கிலோகிராம் எடை மற்றும் ௫൦ கிலோமீட்டர் தூரம்.",
    "൧ാം இடம் மற்றும் ൨ാം இடம்.",
    "என்னுடைய மொபைல் எண்ணு 9876543210."
]

print("=" * 60)
print("MIXED CONTENT TEST")
print("=" * 60)
for test in mixed_tests:
    result = normalizer_ma.normalize(test)
    print(f"Input:  {test}")
    print(f"Output: {result}")
    print("-" * 60)


MIXED CONTENT TEST
Input:  இன்று ൧௫-൦൬-൨൦൨൪ அன்று ൧൨:൩൦ மணிக்கு கூட்டம் உள்ளது.
Output: இன்று ൧௫-൦൬-൨൦൨൪ அன்று അര അധികം പന്ത്രണ്ട് மணிக்கு கூட்டம் உள்ளது .
------------------------------------------------------------
Input:  ₹൧൦൦൦ மற்றும் ₹௫൦൦ சேர்த்தால் ₹൧௫൦൦ ஆகும்.
Output: ഒന്ന് ആയിരം രൂപ மற்றும் ₹௫൦൦ சேர்த்தால் ₹൧௫൦൦ ஆகும் .
------------------------------------------------------------
Input:  ൧൨൩ கிலோகிராம் எடை மற்றும் ௫൦ கிலோமீட்டர் தூரம்.
Output: ഒന്ന് നൂറ് ഇരുപത്തിമൂന്ന് கிலோகிராம் எடை மற்றும் ௫൦ கிலோமீட்டர் தூரம் .
------------------------------------------------------------
Input:  ൧ാം இடம் மற்றும் ൨ാം இடம்.
Output: ഒന്ന്ാം இடம் மற்றும் രണ്ട്ാം இடம் .
------------------------------------------------------------
Input:  என்னுடைய மொபைல் எண்ணு 9876543210.
Output: என்னுடைய மொபைல் எண்ணு 9876543210 .
------------------------------------------------------------


## 12. Batch Testing


In [16]:
# Test multiple inputs at once
batch_tests = [
    "123",
    "൧൨.൩൪",
    "൧൨:൩൦",
    "₹൧൦൦",
    "൧௫-൦൬-൨൦൨൪",
]

print("=" * 60)
print("BATCH TESTING")
print("=" * 60)
results = normalizer_ma.normalize_list(batch_tests)
for input_text, output_text in zip(batch_tests, results):
    print(f"Input:  {input_text:15} -> Output: {output_text}")


BATCH TESTING


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 68.90it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 43.34it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 30.13it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 285.60it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 23.91it/s]

Input:  123             -> Output: 123
Input:  ൧൨.൩൪           -> Output: പന്ത്രണ്ട് ദശാംശം മൂന്ന് നാല്
Input:  ൧൨:൩൦           -> Output: അര അധികം പന്ത്രണ്ട്
Input:  ₹൧൦൦            -> Output: ഒന്ന് നൂറ് രൂപ
Input:  ൧௫-൦൬-൨൦൨൪      -> Output: ൧௫-൦൬-൨൦൨൪





## Summary

All test cases have been executed. Check the outputs above to verify that Malayalam text normalization is working correctly for all categories.

### Usage Tips:
- Run each cell sequentially (Shift+Enter)
- Modify test cases in any cell to test your own inputs
- Use `verbose=True` in normalize() to see detailed processing information
- Set `cache_dir` to a directory path to speed up subsequent runs
