# Tamil Text Normalization Test Cases

This notebook tests the Tamil text normalization implementation.

## Test Categories:
1. Cardinal Numbers
2. Decimal Numbers
3. Fractions
4. Dates
5. Time
6. Money
7. Measurements
8. Ordinal Numbers
9. Telephone Numbers
10. Whitelist/Abbreviations
11. Mixed Content
12. Batch Testing


In [1]:
import sys
import os

# Add the NeMo-text-processing directory to the path
sys.path.insert(0, os.path.abspath('.'))

from nemo_text_processing.text_normalization.normalize import Normalizer

print("Imports successful!")


Imports successful!


In [2]:
# Initialize Tamil normalizer
normalizer_ta = Normalizer(
    input_case='cased',
    lang='ta',
    cache_dir=None,  # Set to a directory path if you want to cache .far files
    overwrite_cache=False,
    post_process=True
)

print("Tamil Text Normalizer initialized successfully!")
print(f"Language: {normalizer_ta.lang}")


Tamil Text Normalizer initialized successfully!
Language: ta


## 1. Cardinal Numbers Test


In [18]:
cardinal_tests = [
    "155=100",
    "௧௨௩௪",
    "௧௨௩௪௫",
    "௧௨௩௪௫௬",
    "௧௨௩௪௫௬௭",
    "௧௨௩௪௫௬௭௮",
    "-௧௨௩",
    "-120",
    "௧௦௦௦",
    "௧௦௦௦௦௦",  # 1 lakh
    "௧௦௦௦௦௦௦௦௦ ",
    "456",
    "9943206870",
    "1,234,566"
]

print("=" * 60)
print("CARDINAL NUMBERS TEST")
print("=" * 60)
for test in cardinal_tests:
    result = normalizer_ta.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


CARDINAL NUMBERS TEST
Input:  155=100         -> Output: நூற்றைம்பத்துஐந்து சமம் நூறு
Input:  ௧௨௩௪            -> Output: ஒன்று ஆயிரம் இரு நூற்றுப் முப்பத்துநான்கு
Input:  ௧௨௩௪௫           -> Output: பன்னிரண்டு ஆயிரம் முன் நூற்றுப் நாற்பத்தைந்து
Input:  ௧௨௩௪௫௬          -> Output: ஒன்று இலட்சம் இருபத்துமூன்று ஆயிரம் நான் நூற்றுப் ஐம்பத்தாறு
Input:  ௧௨௩௪௫௬௭         -> Output: பன்னிரண்டு இலட்சம் முப்பத்துநான்கு ஆயிரம் ஐந் நூற்றுப் அறுபத்தேழு
Input:  ௧௨௩௪௫௬௭௮        -> Output: ஒன்று கோடி இருபத்துமூன்று இலட்சம் நாற்பத்தைந்து ஆயிரம் அறு நூற்றுப் எழுபத்தெட்டு
Input:  -௧௨௩            -> Output: minus நூற்றுப் இருபத்துமூன்று
Input:  -120            -> Output: minus நூற்றுப் இருபது
Input:  ௧௦௦௦            -> Output: ஒன்று ஆயிரம்
Input:  ௧௦௦௦௦௦          -> Output: ஒன்று இலட்சம்
Input:  ௧௦௦௦௦௦௦௦௦       -> Output: பத்து கோடி
Input:  456             -> Output: நான் நூற்றுப் ஐம்பத்தாறு
Input:  9943206870      -> Output: ஒன்பது ஒன்பது நான்கு மூன்று இரண்டு பூஜ்யம் ஆறு எட்டு ஏழு பூஜ்யம்
Input:  1,234,566 

In [4]:
# Test English digits for time - should work now!
time_tests_english = [
    "12:30",
    "1:40",
    "12:00",
    "12:14",
    "12:30:45",
    "9:15",
    "09:15",
    "23:59",
    "12:49",
]

print("=" * 60)
print("TIME TEST (ENGLISH DIGITS)")
print("=" * 60)
for test in time_tests_english:
    result = normalizer_ta.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


TIME TEST (ENGLISH DIGITS)
Input:  12:30           -> Output: பன்னிரண்டு முப்பது நிமிடம் மணிக்கு
Input:  1:40            -> Output: ஒன்று நாற்பது நிமிடம் மணிக்கு
Input:  12:00           -> Output: பன்னிரண்டு மணி
Input:  12:14           -> Output: பன்னிரண்டு பதினான்கு நிமிடம் மணிக்கு
Input:  12:30:45        -> Output: பன்னிரண்டு முப்பது நிமிடம் நாற்பத்தைந்து வினாடி மணிக்கு
Input:  9:15            -> Output: ஒன்பது பதினைந்து நிமிடம் மணிக்கு
Input:  09:15           -> Output: ஒன்பது பதினைந்து நிமிடம் மணிக்கு
Input:  23:59           -> Output: இருபத்துமூன்று ஐம்பத்தொன்பது நிமிடம் மணிக்கு
Input:  12:49           -> Output: பன்னிரண்டு நாற்பத்தொன்பது நிமிடம் மணிக்கு


## 1.3. Money Test (English Digits)


In [5]:
# Test English digits for money - should work now!
money_tests_english = [
    "₹100",
    "₹1234",
    "₹50.50",
    "₹0.50",
    "₹1000000",
    "₹1050000",
    "₹500",
]

print("=" * 60)
print("MONEY TEST (ENGLISH DIGITS)")
print("=" * 60)
for test in money_tests_english:
    result = normalizer_ta.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


MONEY TEST (ENGLISH DIGITS)
Input:  ₹100            -> Output: நூறு ரூபாய்
Input:  ₹1234           -> Output: ஒன்று ஆயிரம் இரு நூற்றுப் முப்பத்துநான்கு ரூபாய்
Input:  ₹50.50          -> Output: ஐம்பது ரூபாய் ஐம்பது பைசா
Input:  ₹0.50           -> Output: ஐம்பது பைசா
Input:  ₹1000000        -> Output: பத்து இலட்சம் ரூபாய்
Input:  ₹1050000        -> Output: பத்து இலட்சம் ஐம்பது ஆயிரம் ரூபாய்
Input:  ₹500            -> Output: ஐந்நூறு ரூபாய்


## 2. Decimal Numbers Test


In [6]:
# Test both Tamil and English digits for decimals
decimal_tests = [
    "௧௨.௩௪",      # Tamil digits
    "௧௨௩.௪௫௬",    # Tamil digits
    "௦.௫",         # Tamil digits
    "-௧௨.௩௪",     # Tamil digits
    "௧௨.௩௪௫௬",    # Tamil digits
    "12.34",        # English digits
    "123.456",      # English digits
    "0.5",          # English digits
    "-12.34",       # English digits
    "96.3456",      # English digits
]

print("=" * 60)
print("DECIMAL NUMBERS TEST (TAMIL & ENGLISH DIGITS)")
print("=" * 60)
for test in decimal_tests:
    result = normalizer_ta.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


DECIMAL NUMBERS TEST (TAMIL & ENGLISH DIGITS)
Input:  ௧௨.௩௪           -> Output: பன்னிரண்டு புள்ளி மூன்று நான்கு
Input:  ௧௨௩.௪௫௬         -> Output:  நூற்றுப் இருபத்துமூன்று புள்ளி நான்கு ஐந்து ஆறு
Input:  ௦.௫             -> Output: பூஜ்யம் புள்ளி ஐந்து
Input:  -௧௨.௩௪          -> Output:  கழித்தல் பன்னிரண்டு புள்ளி மூன்று நான்கு
Input:  ௧௨.௩௪௫௬         -> Output: பன்னிரண்டு புள்ளி மூன்று நான்கு ஐந்து ஆறு
Input:  12.34           -> Output: பன்னிரண்டு புள்ளி மூன்று நான்கு
Input:  123.456         -> Output:  நூற்றுப் இருபத்துமூன்று புள்ளி நான்கு ஐந்து ஆறு
Input:  0.5             -> Output: பூஜ்யம் புள்ளி ஐந்து
Input:  -12.34          -> Output:  கழித்தல் பன்னிரண்டு புள்ளி மூன்று நான்கு
Input:  96.3456         -> Output: தொண்ணூற்றாறு புள்ளி மூன்று நான்கு ஐந்து ஆறு


## 3. Fractions Test


In [7]:
# Test both Tamil and English digits for fractions
fraction_tests = [
    "௩/௪",         # Tamil digits
    "௧/௨",         # Tamil digits
    "௧/௪",         # Tamil digits
    "௧௨௩/௪",      # Tamil digits
    "-௧/௨",        # Tamil digits
    "3/4",          # English digits
    "1/2",          # English digits
    "1/4",          # English digits
    "23/4",       # English digits
    "-1/2",         # English digits
]

print("=" * 60)
print("FRACTIONS TEST (TAMIL & ENGLISH DIGITS)")
print("=" * 60)
for test in fraction_tests:
    result = normalizer_ta.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")




FRACTIONS TEST (TAMIL & ENGLISH DIGITS)
Input:  ௩/௪             -> Output: ௩/௪
Input:  ௧/௨             -> Output: ஒன்று அரை
Input:  ௧/௪             -> Output: ஒன்று கால்
Input:  ௧௨௩/௪           -> Output: ௧௨௩/௪
Input:  -௧/௨            -> Output: - ஒன்று அரை
Input:  3/4             -> Output: 3/4
Input:  1/2             -> Output: ஒன்று அரை
Input:  1/4             -> Output: ஒன்று கால்
Input:  23/4            -> Output: 23/4
Input:  -1/2            -> Output: - ஒன்று அரை


## 4. Dates Test


In [8]:
# Test both Tamil and English digits for dates
date_tests = [
    "௦௧-௦௪-௨௦௨௪",      # Tamil digits
    "௧௫-௦௬-௨௦௨௪",      # Tamil digits
    "௨௦௨௪-௦௧-௧௫",      # Tamil digits
    "௧௫/௦௬/௨௦௨௪",      # Tamil digits
    "௦௪-௦௧-௨௦௨௪",      # MM-DD format, Tamil digits
    "01-04-2024",        # English digits
    "15-06-2024",        # English digits
    "2024-01-15",        # English digits
    "15/06/2024",        # English digits
    "04-01-2024",        # MM-DD format, English digits
]

print("=" * 60)
print("DATES TEST (TAMIL & ENGLISH DIGITS)")
print("=" * 60)
for test in date_tests:
    result = normalizer_ta.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


DATES TEST (TAMIL & ENGLISH DIGITS)
Input:  ௦௧-௦௪-௨௦௨௪      -> Output: ஒன்று ஏப்ரல் இரண்டு ஆயிரம் இருபத்துநான்கு
Input:  ௧௫-௦௬-௨௦௨௪      -> Output: பதினைந்து ஜூன் இரண்டு ஆயிரம் இருபத்துநான்கு
Input:  ௨௦௨௪-௦௧-௧௫      -> Output: இரண்டு ஆயிரம் இருபத்துநான்கு ஜனவரி பதினைந்து
Input:  ௧௫/௦௬/௨௦௨௪      -> Output: பதினைந்து ஜூன் இரண்டு ஆயிரம் இருபத்துநான்கு
Input:  ௦௪-௦௧-௨௦௨௪      -> Output: நான்கு ஜனவரி இரண்டு ஆயிரம் இருபத்துநான்கு
Input:  01-04-2024      -> Output: ஒன்று ஏப்ரல் இரண்டு ஆயிரம் இருபத்துநான்கு
Input:  15-06-2024      -> Output: பதினைந்து ஜூன் இரண்டு ஆயிரம் இருபத்துநான்கு
Input:  2024-01-15      -> Output: இரண்டு ஆயிரம் இருபத்துநான்கு ஜனவரி பதினைந்து
Input:  15/06/2024      -> Output: பதினைந்து ஜூன் இரண்டு ஆயிரம் இருபத்துநான்கு
Input:  04-01-2024      -> Output: நான்கு ஜனவரி இரண்டு ஆயிரம் இருபத்துநான்கு


## 5. Time Test


In [9]:
# Test both Tamil and English digits for time
time_tests = [
    "௧௨:௩௦",         # Tamil digits
    "௧:௪௦",          # Tamil digits
    "௧௨:௦௦",         # Tamil digits
    "௧௨:௩௦:௪௫",      # Tamil digits
    "௦௯:௧௫",         # Tamil digits
    "௨௩:௫௯",         # Tamil digits
    "12:30",          # English digits
    "1:40",           # English digits
    "12:00",          # English digits
    "12:30:45",       # English digits
    "09:15",          # English digits
    "23:59",          # English digits
    "9:15",           # English digits (single digit hour)
]

print("=" * 60)
print("TIME TEST (TAMIL & ENGLISH DIGITS)")
print("=" * 60)
for test in time_tests:
    result = normalizer_ta.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


TIME TEST (TAMIL & ENGLISH DIGITS)
Input:  ௧௨:௩௦           -> Output: அரை பன்னிரண்டு
Input:  ௧:௪௦            -> Output: ஒன்று நாற்பது நிமிடம் மணிக்கு
Input:  ௧௨:௦௦           -> Output: பன்னிரண்டு மணி
Input:  ௧௨:௩௦:௪௫        -> Output: பன்னிரண்டு முப்பது நிமிடம் நாற்பத்தைந்து வினாடி மணிக்கு
Input:  ௦௯:௧௫           -> Output: ஒன்பது பதினைந்து நிமிடம் மணிக்கு
Input:  ௨௩:௫௯           -> Output: இருபத்துமூன்று ஐம்பத்தொன்பது நிமிடம் மணிக்கு
Input:  12:30           -> Output: பன்னிரண்டு முப்பது நிமிடம் மணிக்கு
Input:  1:40            -> Output: ஒன்று நாற்பது நிமிடம் மணிக்கு
Input:  12:00           -> Output: பன்னிரண்டு மணி
Input:  12:30:45        -> Output: பன்னிரண்டு முப்பது நிமிடம் நாற்பத்தைந்து வினாடி மணிக்கு
Input:  09:15           -> Output: ஒன்பது பதினைந்து நிமிடம் மணிக்கு
Input:  23:59           -> Output: இருபத்துமூன்று ஐம்பத்தொன்பது நிமிடம் மணிக்கு
Input:  9:15            -> Output: ஒன்பது பதினைந்து நிமிடம் மணிக்கு


## 6. Money Test


In [10]:
# Test both Tamil and English digits for money
money_tests = [
    "₹௧௦௦",         # Tamil digits
    "₹௧௨௩௪",        # Tamil digits
    "₹௫௦.௫௦",       # Tamil digits
    "₹௦.௫௦",        # Tamil digits
    "ரூ ௧௦௦௦",      # Tamil digits
    "₹100",          # English digits
    "₹1234",         # English digits
    "₹50.50",        # English digits
    "₹0.50",         # English digits
    "₹1000",         # English digits
    "₹500",          # English digits
]

print("=" * 60)
print("MONEY TEST (TAMIL & ENGLISH DIGITS)")
print("=" * 60)
for test in money_tests:
    result = normalizer_ta.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


MONEY TEST (TAMIL & ENGLISH DIGITS)
Input:  ₹௧௦௦            -> Output: நூறு ரூபாய்
Input:  ₹௧௨௩௪           -> Output: ஒன்று ஆயிரம் இரு நூற்றுப் முப்பத்துநான்கு ரூபாய்
Input:  ₹௫௦.௫௦          -> Output: ஐம்பது ரூபாய் ஐம்பது பைசா
Input:  ₹௦.௫௦           -> Output: ஐம்பது பைசா
Input:  ரூ ௧௦௦௦         -> Output: ரூ ஒன்று ஆயிரம்
Input:  ₹100            -> Output: நூறு ரூபாய்
Input:  ₹1234           -> Output: ஒன்று ஆயிரம் இரு நூற்றுப் முப்பத்துநான்கு ரூபாய்
Input:  ₹50.50          -> Output: ஐம்பது ரூபாய் ஐம்பது பைசா
Input:  ₹0.50           -> Output: ஐம்பது பைசா
Input:  ₹1000           -> Output: ஒன்று ஆயிரம் ரூபாய்
Input:  ₹500            -> Output: ஐந்நூறு ரூபாய்


## 7. Measurements Test


In [11]:
# Test both Tamil and English digits for measurements
measure_tests = [
    "௧௨ kg",         # Tamil digits
    "௧௨௫ kg",        # Tamil digits
    "௧௦௦ m",         # Tamil digits
    "௫ km",          # Tamil digits
    "௧௨.௩௪ cm",      # Tamil digits
    "12 kg",          # English digits
    "125 kg",         # English digits
    "100 m",          # English digits
    "5 km",           # English digits
    "12.34 cm",       # English digits
]

print("=" * 60)
print("MEASUREMENTS TEST (TAMIL & ENGLISH DIGITS)")
print("=" * 60)
for test in measure_tests:
    result = normalizer_ta.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


MEASUREMENTS TEST (TAMIL & ENGLISH DIGITS)
Input:  ௧௨ kg           -> Output: பன்னிரண்டு கிலோகிராம்
Input:  ௧௨௫ kg          -> Output:  நூற்றுப் இருபத்தைந்து கிலோகிராம்
Input:  ௧௦௦ m           -> Output: நூறு மீட்டர்
Input:  ௫ km            -> Output: ஐந்து கிலோமீட்டர்
Input:  ௧௨.௩௪ cm        -> Output: பன்னிரண்டு புள்ளி மூன்று நான்கு சென்டிமீட்டர்
Input:  12 kg           -> Output: பன்னிரண்டு கிலோகிராம்
Input:  125 kg          -> Output:  நூற்றுப் இருபத்தைந்து கிலோகிராம்
Input:  100 m           -> Output: நூறு மீட்டர்
Input:  5 km            -> Output: ஐந்து கிலோமீட்டர்
Input:  12.34 cm        -> Output: பன்னிரண்டு புள்ளி மூன்று நான்கு சென்டிமீட்டர்


## 8. Ordinal Numbers Test


In [12]:
# Test both Tamil and English digits for ordinals
ordinal_tests = [
    "௧வது",           # Tamil digits
    "௨வது",           # Tamil digits
    "௧௦வது",          # Tamil digits
    "௨௧வது",          # Tamil digits
    "௧௦௦வது",         # Tamil digits
    "1 kg",            # English digits with Tamil suffix
    "2வது",            # English digits with Tamil suffix
    "10வது",           # English digits with Tamil suffix
    "21வது",           # English digits with Tamil suffix
    "100வது",          # English digits with Tamil suffix
]

print("=" * 60)
print("ORDINAL NUMBERS TEST (TAMIL & ENGLISH DIGITS)")
print("=" * 60)
for test in ordinal_tests:
    result = normalizer_ta.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


ORDINAL NUMBERS TEST (TAMIL & ENGLISH DIGITS)
Input:  ௧வது            -> Output: ஒன்றுவது
Input:  ௨வது            -> Output: இரண்டுவது
Input:  ௧௦வது           -> Output: பத்துவது
Input:  ௨௧வது           -> Output: இருபத்தொன்றுவது
Input:  ௧௦௦வது          -> Output: நூறுவது
Input:  1 kg            -> Output: ஒன்று கிலோகிராம்
Input:  2வது            -> Output: இரண்டுவது
Input:  10வது           -> Output: பத்துவது
Input:  21வது           -> Output: இருபத்தொன்றுவது
Input:  100வது          -> Output: நூறுவது


## 9. Telephone Numbers Test


In [19]:
telephone_tests = [
    "என்னுடைய மொபைல் எண்ணு +௯௧௫௭௧௧௪௦௦௭",
    "+௯௧ ௯௨௧௦௫௧௫௬௦௬",
    "என்னுடைய மொபைல் எண்ணு ௧௩௭௪௩௦௯௯௮௮",
    "9943206292",
    "9943206292",
    "1,234,567"
]

print("=" * 60)
print("TELEPHONE NUMBERS TEST")
print("=" * 60)
for test in telephone_tests:
    result = normalizer_ta.normalize(test)
    print(f"Input:  {test:20} -> Output: {result}")


TELEPHONE NUMBERS TEST
Input:  என்னுடைய மொபைல் எண்ணு +௯௧௫௭௧௧௪௦௦௭ -> Output: என்னுடைய மொபைல் எண்ணு + ஒன்பது ஒன்று ஐந்து ஏழு ஒன்று ஒன்று நான்கு பூஜ்யம் பூஜ்யம் ஏழு
Input:  +௯௧ ௯௨௧௦௫௧௫௬௦௬       -> Output: பிளஸ் ஒன்பது ஒன்று ஒன்பது இரண்டு ஒன்று பூஜ்யம் ஐந்து ஒன்று ஐந்து ஆறு பூஜ்யம் ஆறு
Input:  என்னுடைய மொபைல் எண்ணு ௧௩௭௪௩௦௯௯௮௮ -> Output: என்னுடைய மொபைல் எண்ணு ஒன்று மூன்று ஏழு நான்கு மூன்று பூஜ்யம் ஒன்பது ஒன்பது எட்டு எட்டு
Input:  9943206292           -> Output: ஒன்பது ஒன்பது நான்கு மூன்று இரண்டு பூஜ்யம் ஆறு இரண்டு ஒன்பது இரண்டு
Input:  9943206292           -> Output: ஒன்பது ஒன்பது நான்கு மூன்று இரண்டு பூஜ்யம் ஆறு இரண்டு ஒன்பது இரண்டு
Input:  1,234,567            -> Output: ஒன்று கமா இரு நூற்றுப் முப்பத்துநான்கு கமா ஐந் நூற்றுப் அறுபத்தேழு


## 10. Whitelist/Abbreviations Test


In [18]:
whitelist_tests = [
    "டா.",
    "புரொ.",
    "ஸ்ரீ",
    "கி.மீ.",
    "மீ.",
]

print("=" * 60)
print("WHITELIST/ABBREVIATIONS TEST")
print("=" * 60)
for test in whitelist_tests:
    result = normalizer_ta.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


WHITELIST/ABBREVIATIONS TEST
Input:  டா.             -> Output: டா .
Input:  புரொ.           -> Output: புரொ .
Input:  ஸ்ரீ            -> Output: ஸ்ரீ
Input:  கி.மீ.          -> Output: கி.மீ .
Input:  மீ.             -> Output: மீ .


## 11. Mixed Content Test


In [29]:
mixed_tests = [
    "இன்று ௧௫-௦௬-௨௦௨௪ அன்று ௧௨:௩௦ மணிக்கு கூட்டம் உள்ளது.",
    "₹௧௦௦௦ மற்றும் ₹௫௦௦ சேர்த்தால் ₹௧௫௦௦ ஆகும்.",
    "௧௨௩ கிலோகிராம் எடை மற்றும் ௫௦ கிலோமீட்டர் தூரம்.",
    "௧வது இடம் மற்றும் ௨வது இடம்.",
    "என்னுடைய மொபைல் எண்ணு 9876543210."
]

print("=" * 60)
print("MIXED CONTENT TEST")
print("=" * 60)
for test in mixed_tests:
    result = normalizer_ta.normalize(test)
    print(f"Input:  {test}")
    print(f"Output: {result}")
    print("-" * 60)


MIXED CONTENT TEST
Input:  இன்று ௧௫-௦௬-௨௦௨௪ அன்று ௧௨:௩௦ மணிக்கு கூட்டம் உள்ளது.
Output: இன்று பதினைந்து ஜூன் இரண்டு ஆயிரம் இருபத்துநான்கு அன்று பன்னிரண்டு முப்பது நிமிடம் மணிக்கு கூட்டம் உள்ளது .
------------------------------------------------------------
Input:  ₹௧௦௦௦ மற்றும் ₹௫௦௦ சேர்த்தால் ₹௧௫௦௦ ஆகும்.
Output: ஒன்று ஆயிரம் ரூபாய் மற்றும் ஐந்நூறு ரூபாய் சேர்த்தால் ஒன்று ஆயிரம் ஐந்நூறு ரூபாய் ஆகும் .
------------------------------------------------------------
Input:  ௧௨௩ கிலோகிராம் எடை மற்றும் ௫௦ கிலோமீட்டர் தூரம்.
Output:  நூற்றுப் இருபத்துமூன்று கிலோகிராம் எடை மற்றும் ஐம்பது கிலோமீட்டர் தூரம் .
------------------------------------------------------------
Input:  ௧வது இடம் மற்றும் ௨வது இடம்.
Output: ஒன்றுவது இடம் மற்றும் இரண்டுவது இடம் .
------------------------------------------------------------
Input:  என்னுடைய மொபைல் எண்ணு 9876543210.
Output: என்னுடைய மொபைல் எண்ணு பூஜ்யம் ஒன்பது எட்டு ஏழு ஆறு ஐந்து நான்கு மூன்று இரண்டு ஒன்று பூஜ்யம் .
-------------------------------------------

## 12. Batch Testing


In [30]:
# Test multiple inputs at once
batch_tests = [
    "123",
    "௧௨.௩௪",
    "௧௨:௩௦",
    "₹௧௦௦",
    "௧௫-௦௬-௨௦௨௪",
]

print("=" * 60)
print("BATCH TESTING")
print("=" * 60)
results = normalizer_ta.normalize_list(batch_tests)
for input_text, output_text in zip(batch_tests, results):
    print(f"Input:  {input_text:15} -> Output: {output_text}")


BATCH TESTING


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 109.00it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 58.37it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 91.99it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 97.99it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 34.10it/s]

Input:  123             -> Output:  நூற்றுப் இருபத்துமூன்று
Input:  ௧௨.௩௪           -> Output: பன்னிரண்டு புள்ளி மூன்று நான்கு
Input:  ௧௨:௩௦           -> Output: அரை பன்னிரண்டு
Input:  ₹௧௦௦            -> Output: நூறு ரூபாய்
Input:  ௧௫-௦௬-௨௦௨௪      -> Output: பதினைந்து ஜூன் இரண்டு ஆயிரம் இருபத்துநான்கு





## Summary

All test cases have been executed. Check the outputs above to verify that Tamil text normalization is working correctly for all categories.

### Usage Tips:
- Run each cell sequentially (Shift+Enter)
- Modify test cases in any cell to test your own inputs
- Use `verbose=True` in normalize() to see detailed processing information
- Set `cache_dir` to a directory path to speed up subsequent runs
