# Kannada Text Normalization Test Cases

This notebook tests the Kannada text normalization implementation.

## Test Categories:
1. Cardinal Numbers
2. Decimal Numbers
3. Fractions
4. Dates
5. Time
6. Money
7. Measurements
8. Ordinal Numbers
9. Telephone Numbers
10. Whitelist/Abbreviations
11. Mixed Content
12. Batch Testing



In [1]:
import sys
import os

# Add the NeMo-text-processing directory to the path
sys.path.insert(0, os.path.abspath('.'))

from nemo_text_processing.text_normalization.normalize import Normalizer

print("Imports successful!")

Imports successful!


In [2]:
# Initialize Kannada normalizer
normalizer_kn = Normalizer(
    input_case='cased',
    lang='kn',
    cache_dir=None,  # Set to a directory path if you want to cache .far files
    overwrite_cache=False,
    post_process=True
)

print("Kannada Text Normalizer initialized successfully!")
print(f"Language: {normalizer_kn.lang}")



Kannada Text Normalizer initialized successfully!
Language: kn


## 1. Cardinal Numbers Test



In [3]:
cardinal_tests = [
    "ಇದರಲ್ಲಿ 12345 ಮತ್ತು 99 ಸಂಖ್ಯೆಗಳೂ ಸೇರಿವೆ.",
    "೧೨೩೪",
    "೧೨೩೪೫",
    "೧೨೩೪೫೬",
    "೧೨೩೪೫೬೭",
    "೧೨೩೪೫೬೭೮",
    "-೧೨೩",
    "-120",
    "೧೦೦೦",
    "೧೦೦೦೦೦",  # 1 lakh
    "೧೦೦೦೦೦೦೦೦ ",  # 1 crore
]

print("=" * 60)
print("CARDINAL NUMBERS TEST")
print("=" * 60)
for test in cardinal_tests:
    result = normalizer_kn.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")



CARDINAL NUMBERS TEST
Input:  ಇದರಲ್ಲಿ 12345 ಮತ್ತು 99 ಸಂಖ್ಯೆಗಳೂ ಸೇರಿವೆ. -> Output: ಇದರಲ್ಲಿ ಹನ್ನೆರಡು ಸಾವಿರ ಮೂರು ನೂರು ನಲವತ್ತೈದು
Input:  ೧೨೩೪            -> Output:  ಹನ್ನೆರಡು ನೂರು ಮೂವತ್ತನಾಲ್ಕು
Input:  ೧೨೩೪೫           -> Output: ಹನ್ನೆರಡು ಸಾವಿರ ಮೂರು ನೂರು ನಲವತ್ತೈದು
Input:  ೧೨೩೪೫೬          -> Output: ಹನ್ನೆರಡು ಸಾವಿರ ಮೂರು ನೂರು ನಲವತ್ತೈದುಆರನೇ
Input:  ೧೨೩೪೫೬೭         -> Output: ಹನ್ನೆರಡು ಲಕ್ಷ ಮೂವತ್ತನಾಲ್ಕು ಸಾವಿರ ಐದು ನೂರು ಅರವತ್ತೇಳು
Input:  ೧೨೩೪೫೬೭೮        -> Output: ಹನ್ನೆರಡು ಲಕ್ಷ ಮೂವತ್ತನಾಲ್ಕು ಸಾವಿರ ಐದು ನೂರು ಅರವತ್ತೇಳುಎಂಟನೇ
Input:  -೧೨೩            -> Output:  ಋಣಾತ್ಮಕ ಒಂದು ನೂರು ಇಪ್ಪತ್ತಮೂರು
Input:  -120            -> Output:  ಋಣಾತ್ಮಕ ಒಂದು ನೂರು ಇಪ್ಪತ್ತು
Input:  ೧೦೦೦            -> Output:  ಒಂದು ಸಾವಿರ
Input:  ೧೦೦೦೦೦          -> Output: ಒಂದು ಲಕ್ಷ
Input:  ೧೦೦೦೦೦೦೦೦       -> Output: ಹತ್ತು ಕೋಟಿ


In [4]:
# Test English digits for time - should work now!
time_tests_english = [
    "12:30",
    "1:40",
    "12:00",
    "12:30:45",
    "09:15",
    "23:59",
    "9:15",
]

print("=" * 60)
print("TIME TEST (ENGLISH DIGITS)")
print("=" * 60)
for test in time_tests_english:
    result = normalizer_kn.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")



TIME TEST (ENGLISH DIGITS)
Input:  12:30           -> Output: ಹನ್ನೆರಡು ಗಂಟೆಗೆ ಮೂವತ್ತು ನಿಮಿಷ
Input:  1:40            -> Output: ಒಂದು
Input:  12:00           -> Output: ಹನ್ನೆರಡು ಗಂಟೆಗೆ ಸೊನ್ನೆ ನಿಮಿಷ
Input:  12:30:45        -> Output: ಹನ್ನೆರಡು ಗಂಟೆಗೆ ಮೂವತ್ತು ನಿಮಿಷ
Input:  09:15           -> Output: ಒಂಬತ್ತು ಗಂಟೆಗೆ ಹದಿನೈದು ನಿಮಿಷ
Input:  23:59           -> Output: ಇಪ್ಪತ್ತಮೂರು
Input:  9:15            -> Output: ಒಂಬತ್ತು


## 1.3. Money Test (English Digits)



In [5]:
# Test English digits for money - should work now!
money_tests_english = [
    "₹100",
    "₹1234",
    "₹50.50",
    "₹0.50",
    "₹1000000",
    "₹1050000",
    "₹500",
]

print("=" * 60)
print("MONEY TEST (ENGLISH DIGITS)")
print("=" * 60)
for test in money_tests_english:
    result = normalizer_kn.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")



MONEY TEST (ENGLISH DIGITS)
Input:  ₹100            -> Output: ಒಂದು ನೂರು ರೂಪಾಯಿ
Input:  ₹1234           -> Output: ಒಂದು ಸಾವಿರ ಎರಡು ನೂರು ಮೂವತ್ತನಾಲ್ಕು ರೂಪಾಯಿ
Input:  ₹50.50          -> Output: ಐವತ್ತು ರೂಪಾಯಿ ಐವತ್ತು ಪೈಸೆ
Input:  ₹0.50           -> Output: ಐವತ್ತು ಪೈಸೆ
Input:  ₹1000000        -> Output: ಹತ್ತು ಲಕ್ಷ ರೂಪಾಯಿ
Input:  ₹1050000        -> Output: ಹತ್ತು ಲಕ್ಷ ಐವತ್ತು ಸಾವಿರ ರೂಪಾಯಿ
Input:  ₹500            -> Output: ಐದು ನೂರು ರೂಪಾಯಿ


## 2. Decimal Numbers Test



In [6]:
# Test both Kannada and English digits for decimals
decimal_tests = [
    "೧೨.೩೪",      # Kannada digits
    "೧೨೩.೪೫೬",    # Kannada digits
    "೦.೫",         # Kannada digits
    "-೧೨.೩೪",     # Kannada digits
    "೧೨.೩೪೫೬",    # Kannada digits
    "12.34",        # English digits
    "123.456",      # English digits
    "0.5",          # English digits
    "-12.34",       # English digits
    "12.3456",      # English digits
]

print("=" * 60)
print("DECIMAL NUMBERS TEST (KANNADA & ENGLISH DIGITS)")
print("=" * 60)
for test in decimal_tests:
    result = normalizer_kn.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")



DECIMAL NUMBERS TEST (KANNADA & ENGLISH DIGITS)
Input:  ೧೨.೩೪           -> Output: ಹನ್ನೆರಡು ದಶಮಲವ ಮೂರು ನಾಲ್ಕು
Input:  ೧೨೩.೪೫೬         -> Output: ಒಂದು ನೂರು ಇಪ್ಪತ್ತಮೂರು ದಶಮಲವ ನಾಲ್ಕು ಐದು ಆರು
Input:  ೦.೫             -> Output: ಸೊನ್ನೆ ದಶಮಲವ ಐದು
Input:  -೧೨.೩೪          -> Output:  ಋಣಾತ್ಮಕ ಹನ್ನೆರಡು ದಶಮಲವ ಮೂರು ನಾಲ್ಕು
Input:  ೧೨.೩೪೫೬         -> Output: ಹನ್ನೆರಡು ದಶಮಲವ ಮೂರು ನಾಲ್ಕು ಐದು ಆರು
Input:  12.34           -> Output: ಹನ್ನೆರಡು ದಶಮಲವ ಮೂರು ನಾಲ್ಕು
Input:  123.456         -> Output: ಒಂದು ನೂರು ಇಪ್ಪತ್ತಮೂರು ದಶಮಲವ ನಾಲ್ಕು ಐದು ಆರು
Input:  0.5             -> Output: ಸೊನ್ನೆ ದಶಮಲವ ಐದು
Input:  -12.34          -> Output:  ಋಣಾತ್ಮಕ ಹನ್ನೆರಡು ದಶಮಲವ ಮೂರು ನಾಲ್ಕು
Input:  12.3456         -> Output: ಹನ್ನೆರಡು ದಶಮಲವ ಮೂರು ನಾಲ್ಕು ಐದು ಆರು


## 3. Fractions Test



In [7]:
# Test both Kannada and English digits for fractions
fraction_tests = [
    "೩/೪",         # Kannada digits
    "೧/೨",         # Kannada digits
    "೧/೪",         # Kannada digits
    "೧೨ ೩/೪",      # Kannada digits
    "-೧/೨",        # Kannada digits
    "3/4",          # English digits
    "1/2",          # English digits
    "1/4",          # English digits
    "12 3/4",       # English digits
    "-1/2",         # English digits
]

print("=" * 60)
print("FRACTIONS TEST (KANNADA & ENGLISH DIGITS)")
print("=" * 60)
for test in fraction_tests:
    result = normalizer_kn.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")



FRACTIONS TEST (KANNADA & ENGLISH DIGITS)
Input:  ೩/೪             -> Output: ಮೂರು ಬಿಟ್ಟು ನಾಲ್ಕು
Input:  ೧/೨             -> Output: ಒಂದು ಬಿಟ್ಟು ಎರಡು
Input:  ೧/೪             -> Output: ಒಂದು ಬಿಟ್ಟು ನಾಲ್ಕು
Input:  ೧೨ ೩/೪          -> Output: ಪೌನೆ ಹನ್ನೆರಡು
Input:  -೧/೨            -> Output:  ಋಣಾತ್ಮಕ ಒಂದು ಬಿಟ್ಟು ಎರಡು
Input:  3/4             -> Output: ಮೂರು ಬಿಟ್ಟು ನಾಲ್ಕು
Input:  1/2             -> Output: ಒಂದು ಬಿಟ್ಟು ಎರಡು
Input:  1/4             -> Output: ಒಂದು ಬಿಟ್ಟು ನಾಲ್ಕು
Input:  12 3/4          -> Output: ಹನ್ನೆರಡು ಮತ್ತು ಮೂರು ಬಿಟ್ಟು ನಾಲ್ಕು
Input:  -1/2            -> Output:  ಋಣಾತ್ಮಕ ಒಂದು ಬಿಟ್ಟು ಎರಡು


## 4. Dates Test



In [8]:
# Test both Kannada and English digits for dates
date_tests = [
    "೦೧-೦೪-೨೦೨೪",      # Kannada digits
    "೧೫-೦೬-೨೦೨೪",      # Kannada digits
    "೨೦೨೪-೦೧-೧೫",      # Kannada digits
    "೧೫/೦೬/೨೦೨೪",      # Kannada digits
    "೦೪-೦೧-೨೦೨೪",      # MM-DD format, Kannada digits
    "01-04-2024",        # English digits
    "15-06-2024",        # English digits
    "2024-01-15",        # English digits
    "15/06/2024",        # English digits
    "04-01-2024",        # MM-DD format, English digits
]

print("=" * 60)
print("DATES TEST (KANNADA & ENGLISH DIGITS)")
print("=" * 60)
for test in date_tests:
    result = normalizer_kn.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")



DATES TEST (KANNADA & ENGLISH DIGITS)
Input:  ೦೧-೦೪-೨೦೨೪      -> Output: ಒಂದು ಏಪ್ರಿಲ್ ಎರಡು ಸಾವಿರ ಇಪ್ಪತ್ತನಾಲ್ಕು
Input:  ೧೫-೦೬-೨೦೨೪      -> Output: ಹದಿನೈದು ಜೂನ್ ಎರಡು ಸಾವಿರ ಇಪ್ಪತ್ತನಾಲ್ಕು
Input:  ೨೦೨೪-೦೧-೧೫      -> Output: ಎರಡು ಸಾವಿರ ಇಪ್ಪತ್ತನಾಲ್ಕು ಮೈನಸ್ ಸೊನ್ನೆ ಒಂದು ಮೈನಸ್ ಹದಿನೈದು
Input:  ೧೫/೦೬/೨೦೨೪      -> Output: ಹದಿನೈದು ಜೂನ್ ಎರಡು ಸಾವಿರ ಇಪ್ಪತ್ತನಾಲ್ಕು
Input:  ೦೪-೦೧-೨೦೨೪      -> Output: ನಾಲ್ಕು ಜನವರಿ ಎರಡು ಸಾವಿರ ಇಪ್ಪತ್ತನಾಲ್ಕು
Input:  01-04-2024      -> Output: ಒಂದು ಏಪ್ರಿಲ್ ಎರಡು ಸಾವಿರ ಇಪ್ಪತ್ತನಾಲ್ಕು
Input:  15-06-2024      -> Output: ಹದಿನೈದು ಜೂನ್ ಎರಡು ಸಾವಿರ ಇಪ್ಪತ್ತನಾಲ್ಕು
Input:  2024-01-15      -> Output: ಎರಡು ಸಾವಿರ ಇಪ್ಪತ್ತನಾಲ್ಕು ಮೈನಸ್ ಸೊನ್ನೆ ಒಂದು ಮೈನಸ್ ಹದಿನೈದು
Input:  15/06/2024      -> Output: ಹದಿನೈದು ಜೂನ್ ಎರಡು ಸಾವಿರ ಇಪ್ಪತ್ತನಾಲ್ಕು
Input:  04-01-2024      -> Output: ನಾಲ್ಕು ಜನವರಿ ಎರಡು ಸಾವಿರ ಇಪ್ಪತ್ತನಾಲ್ಕು


## 5. Time Test



In [9]:
# Test both Kannada and English digits for time
time_tests = [
    "೧೨:೩೦",         # Kannada digits
    "೧:೪೦",          # Kannada digits
    "೧೨:೦೦",         # Kannada digits
    "೧೨:೩೦:೪೫",      # Kannada digits
    "೦೯:೧೫",         # Kannada digits
    "೨೩:೫೯",         # Kannada digits
    "12:30",          # English digits
    "1:40",           # English digits
    "12:00",          # English digits
    "12:30:45",       # English digits
    "09:15",          # English digits
    "23:59",          # English digits
    "9:15",           # English digits (single digit hour)
]

print("=" * 60)
print("TIME TEST (KANNADA & ENGLISH DIGITS)")
print("=" * 60)
for test in time_tests:
    result = normalizer_kn.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")



TIME TEST (KANNADA & ENGLISH DIGITS)
Input:  ೧೨:೩೦           -> Output: ಹನ್ನೆರಡು ಗಂಟೆಗೆ ಮೂವತ್ತು ನಿಮಿಷ
Input:  ೧:೪೦            -> Output: ಒಂದು
Input:  ೧೨:೦೦           -> Output: ಹನ್ನೆರಡು ಗಂಟೆಗೆ ಸೊನ್ನೆ ನಿಮಿಷ
Input:  ೧೨:೩೦:೪೫        -> Output: ಹನ್ನೆರಡು ಗಂಟೆಗೆ ಮೂವತ್ತು ನಿಮಿಷ
Input:  ೦೯:೧೫           -> Output: ಒಂಬತ್ತು ಗಂಟೆಗೆ ಹದಿನೈದು ನಿಮಿಷ
Input:  ೨೩:೫೯           -> Output: ಇಪ್ಪತ್ತಮೂರು
Input:  12:30           -> Output: ಹನ್ನೆರಡು ಗಂಟೆಗೆ ಮೂವತ್ತು ನಿಮಿಷ
Input:  1:40            -> Output: ಒಂದು
Input:  12:00           -> Output: ಹನ್ನೆರಡು ಗಂಟೆಗೆ ಸೊನ್ನೆ ನಿಮಿಷ
Input:  12:30:45        -> Output: ಹನ್ನೆರಡು ಗಂಟೆಗೆ ಮೂವತ್ತು ನಿಮಿಷ
Input:  09:15           -> Output: ಒಂಬತ್ತು ಗಂಟೆಗೆ ಹದಿನೈದು ನಿಮಿಷ
Input:  23:59           -> Output: ಇಪ್ಪತ್ತಮೂರು
Input:  9:15            -> Output: ಒಂಬತ್ತು


## 6. Money Test



In [10]:
# Test both Kannada and English digits for money
money_tests = [
    "₹೧೦೦",         # Kannada digits
    "₹೧೨೩೪",        # Kannada digits
    "₹೫೦.೫೦",       # Kannada digits
    "₹೦.೫೦",        # Kannada digits
    "ರೂ ೧೦೦೦",      # Kannada digits
    "₹100",          # English digits
    "₹1234",         # English digits
    "₹50.50",        # English digits
    "₹0.50",         # English digits
    "₹1000",         # English digits
    "₹500",          # English digits
]

print("=" * 60)
print("MONEY TEST (KANNADA & ENGLISH DIGITS)")
print("=" * 60)
for test in money_tests:
    result = normalizer_kn.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")



MONEY TEST (KANNADA & ENGLISH DIGITS)
Input:  ₹೧೦೦            -> Output: ಒಂದು ನೂರು ರೂಪಾಯಿ
Input:  ₹೧೨೩೪           -> Output: ಒಂದು ಸಾವಿರ ಎರಡು ನೂರು ಮೂವತ್ತನಾಲ್ಕು ರೂಪಾಯಿ
Input:  ₹೫೦.೫೦          -> Output: ಐವತ್ತು ರೂಪಾಯಿ ಐವತ್ತು ಪೈಸೆ
Input:  ₹೦.೫೦           -> Output: ಐವತ್ತು ಪೈಸೆ
Input:  ರೂ ೧೦೦೦         -> Output: ರೂ ಒಂದು ಸಾವಿರ
Input:  ₹100            -> Output: ಒಂದು ನೂರು ರೂಪಾಯಿ
Input:  ₹1234           -> Output: ಒಂದು ಸಾವಿರ ಎರಡು ನೂರು ಮೂವತ್ತನಾಲ್ಕು ರೂಪಾಯಿ
Input:  ₹50.50          -> Output: ಐವತ್ತು ರೂಪಾಯಿ ಐವತ್ತು ಪೈಸೆ
Input:  ₹0.50           -> Output: ಐವತ್ತು ಪೈಸೆ
Input:  ₹1000           -> Output: ಒಂದು ಸಾವಿರ ರೂಪಾಯಿ
Input:  ₹500            -> Output: ಐದು ನೂರು ರೂಪಾಯಿ


## 7. Measurements Test



In [12]:
# Test both Kannada and English digits for measurements
measure_tests = [
    "೧೨ kg",         # Kannada digits
    "೧೨೫ kg",        # Kannada digits
    "೧೦೦ m",         # Kannada digits
    "೫ km",          # Kannada digits
    "೧೨.೩೪ cm",      # Kannada digits
    "12 kg",          # English digits
    "125 kg",         # English digits
    "100 m",          # English digits
    "5 km",           # English digits
    "12.34 cm",       # English digits
]

print("=" * 60)
print("MEASUREMENTS TEST (KANNADA & ENGLISH DIGITS)")
print("=" * 60)
for test in measure_tests:
    result = normalizer_kn.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")



MEASUREMENTS TEST (KANNADA & ENGLISH DIGITS)
Input:  ೧೨ kg           -> Output: ಹನ್ನೆರಡು ಕಿಲೋಗ್ರಾಂ
Input:  ೧೨೫ kg          -> Output: ಒಂದು ನೂರು ಇಪ್ಪತ್ತೈದು ಕಿಲೋಗ್ರಾಂ
Input:  ೧೦೦ m           -> Output: ಒಂದು ನೂರು ಮೀಟರ್
Input:  ೫ km            -> Output: ಐದು ಕಿಲೋಮೀಟರ್
Input:  ೧೨.೩೪ cm        -> Output: ಹನ್ನೆರಡು ದಶಮಲವ ಮೂರು ನಾಲ್ಕು ಸೆಂಟಿಮೀಟರ್
Input:  12 kg           -> Output: ಹನ್ನೆರಡು ಕಿಲೋಗ್ರಾಂ
Input:  125 kg          -> Output: ಒಂದು ನೂರು ಇಪ್ಪತ್ತೈದು ಕಿಲೋಗ್ರಾಂ
Input:  100 m           -> Output: ಒಂದು ನೂರು ಮೀಟರ್
Input:  5 km            -> Output: ಐದು ಕಿಲೋಮೀಟರ್
Input:  12.34 cm        -> Output: ಹನ್ನೆರಡು ದಶಮಲವ ಮೂರು ನಾಲ್ಕು ಸೆಂಟಿಮೀಟರ್


## 8. Ordinal Numbers Test



In [16]:
# Test both Kannada and English digits for ordinals
ordinal_tests = [
    "೧ನೇ",           # Kannada digits
    "೨ನೇ",           # Kannada digits
    "೧೦ನೇ",          # Kannada digits
    "೨೧ನೇ",          # Kannada digits
    "೧೦೦ನೇ",         # Kannada digits
    "1 kg",            # English digits with Kannada suffix
    "2ನೇ",            # English digits with Kannada suffix
    "10ನೇ",           # English digits with Kannada suffix
    "21ನೇ",           # English digits with Kannada suffix
    "100ನೇ",          # English digits with Kannada suffix
]

print("=" * 60)
print("ORDINAL NUMBERS TEST (KANNADA & ENGLISH DIGITS)")
print("=" * 60)
for test in ordinal_tests:
    result = normalizer_kn.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")



ORDINAL NUMBERS TEST (KANNADA & ENGLISH DIGITS)
Input:  ೧ನೇ             -> Output: ಮೊದಲನೇ
Input:  ೨ನೇ             -> Output: ಎರಡನೇ
Input:  ೧೦ನೇ            -> Output: ಹತ್ತುನೇ
Input:  ೨೧ನೇ            -> Output: ಇಪ್ಪತ್ತೊಂದುನೇ
Input:  ೧೦೦ನೇ           -> Output: ಒಂದು ನೂರುನೇ
Input:  1 kg            -> Output: ಒಂದು
Input:  2ನೇ             -> Output: ಎರಡುನೇ
Input:  10ನೇ            -> Output: ಹತ್ತುನೇ
Input:  21ನೇ            -> Output: ಇಪ್ಪತ್ತೊಂದುನೇ
Input:  100ನೇ           -> Output: ಒಂದು ನೂರುನೇ


## 9. Telephone Numbers Test



In [17]:
telephone_tests = [
    "+೯೧೫೭೧೧೪೦೦೭",
    "+೯೧ ೯೨೧೦೫೧೫೬೦೬",
    "೧೩೭೪-೩೦೯೯೮೮",
    "9943206292",
]

print("=" * 60)
print("TELEPHONE NUMBERS TEST")
print("=" * 60)
for test in telephone_tests:
    result = normalizer_kn.normalize(test)
    print(f"Input:  {test:20} -> Output: {result}")



TELEPHONE NUMBERS TEST
Input:  +೯೧೫೭೧೧೪೦೦೭          -> Output: + ತೊಂಬತ್ತೊಂದು ಕೋಟಿ ಐವತ್ತೇಳು ಲಕ್ಷ ಹನ್ನೊಂದು ಸಾವಿರ ನಾಲ್ಕು ನೂರುಏಳನೇ
Input:  +೯೧ ೯೨೧೦೫೧೫೬೦೬       -> Output: ಪ್ಲಸ್ ಒಂಬತ್ತು ಒಂದು ಒಂಬತ್ತು ಎರಡು ಒಂದು ಸೊನ್ನೆ ಐದು ಒಂದು ಐದು ಆರು ಸೊನ್ನೆ ಆರು
Input:  ೧೩೭೪-೩೦೯೯೮೮          -> Output: ಸೊನ್ನೆ ಒಂದು ಮೂರು ಏಳು ನಾಲ್ಕು ಮೂರು ಸೊನ್ನೆ ಒಂಬತ್ತು ಒಂಬತ್ತು ಎಂಟು ಎಂಟು
Input:  9943206292           -> Output: 9943206292


## 10. Whitelist/Abbreviations Test



In [18]:
whitelist_tests = [
    "ಡಾ.",
    "ಪ್ರೊ.",
    "ಶ್ರೀ",
    "ಕೆ.ಎಂ.",
    "ಮೀ.",
]

print("=" * 60)
print("WHITELIST/ABBREVIATIONS TEST")
print("=" * 60)
for test in whitelist_tests:
    result = normalizer_kn.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")



WHITELIST/ABBREVIATIONS TEST
Input:  ಡಾ.             -> Output: ಡಾಕ್ಟರ್
Input:  ಪ್ರೊ.           -> Output: ಪ್ರೊಫೆಸರ್
Input:  ಶ್ರೀ            -> Output: ಶ್ರೀ
Input:  ಕೆ.ಎಂ.          -> Output: ಕಿಲೋಮೀಟರ್
Input:  ಮೀ.             -> Output: ಮೀಟರ್


## 11. Mixed Content Test



 ..

## 12. Batch Testing



In [7]:
mixed_tests = [
    "ಇಂದು ೧೫-೦೬-೨೦೨೪ ರಂದು ೧೨:೩೦ ಗಂಟೆಗೆ ಸಭೆ ಇದೆ.",
    "₹500 ಮತ್ತು ₹೫೦೦ ಸೇರಿ ₹೧೫೦೦ ಆಗುತ್ತದೆ.",
    "೧೨೩ ಕಿಲೋಗ್ರಾಂ ತೂಕ ಮತ್ತು ೫೦ ಕಿಲೋಮೀಟರ್ ದೂರ.",
    "೧ನೇ ಸ್ಥಾನ ಮತ್ತು ೨ನೇ ಸ್ಥಾನ.",
]

print("=" * 60)
print("MIXED CONTENT TEST")
print("=" * 60)
for test in mixed_tests:
    result = normalizer_kn.normalize(test)
    print(f"Input:  {test}")
    print(f"Output: {result}")
    print("-" * 60)



MIXED CONTENT TEST
Input:  ಇಂದು ೧೫-೦೬-೨೦೨೪ ರಂದು ೧೨:೩೦ ಗಂಟೆಗೆ ಸಭೆ ಇದೆ.
Output: ಇಂದು ಹದಿನೈದು ಜೂನ್ ಎರಡು ಸಾವಿರ ಇಪ್ಪತ್ತನಾಲ್ಕು
------------------------------------------------------------
Input:  ₹500 ಮತ್ತು ₹೫೦೦ ಸೇರಿ ₹೧೫೦೦ ಆಗುತ್ತದೆ.
Output: ಐದು ನೂರು ರೂಪಾಯಿ
------------------------------------------------------------
Input:  ೧೨೩ ಕಿಲೋಗ್ರಾಂ ತೂಕ ಮತ್ತು ೫೦ ಕಿಲೋಮೀಟರ್ ದೂರ.
Output: ಹನ್ನೆರಡುಮೂರನೇ
------------------------------------------------------------
Input:  ೧ನೇ ಸ್ಥಾನ ಮತ್ತು ೨ನೇ ಸ್ಥಾನ.
Output: ಒಂದುನೇ
------------------------------------------------------------


d 

In [20]:
# Test multiple inputs at once
batch_tests = [
    "123",
    "೧೨.೩೪",
    "೧೨:೩೦",
    "₹೧೦೦",
    "೧೫-೦೬-೨೦೨೪",
]

print("=" * 60)
print("BATCH TESTING")
print("=" * 60)
results = normalizer_kn.normalize_list(batch_tests)
for input_text, output_text in zip(batch_tests, results):
    print(f"Input:  {input_text:15} -> Output: {output_text}")



BATCH TESTING


100%|█████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 60.03it/s]
100%|████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 164.21it/s]
100%|████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 159.05it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<?, ?it/s]
100%|█████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 48.92it/s]

Input:  123             -> Output: ಒಂದು ನೂರು ಇಪ್ಪತ್ತಮೂರು
Input:  ೧೨.೩೪           -> Output: ಹನ್ನೆರಡು ದಶಮಲವ ಮೂರು ನಾಲ್ಕು
Input:  ೧೨:೩೦           -> Output: ಸಾವಿರೆ ಹನ್ನೆರಡು
Input:  ₹೧೦೦            -> Output: ಒಂದು ನೂರು ರೂಪಾಯಿ
Input:  ೧೫-೦೬-೨೦೨೪      -> Output: ಹದಿನೈದು ಜೂನ್ ಎರಡು ಸಾವಿರ ಇಪ್ಪತ್ತನಾಲ್ಕು





## Summary

All test cases have been executed. Check the outputs above to verify that Kannada text normalization is working correctly for all categories.

### Usage Tips:
- Run each cell sequentially (Shift+Enter)
- Modify test cases in any cell to test your own inputs
- Use `verbose=True` in normalize() to see detailed processing information
- Set `cache_dir` to a directory path to speed up subsequent runs

