# Assamese Text Normalization Test Cases

This notebook tests the Assamese text normalization implementation.

## Test Categories:
1. Cardinal Numbers
2. Decimal Numbers
3. Fractions
4. Dates
5. Time
6. Money
7. Measurements
8. Ordinal Numbers
9. Telephone Numbers
10. Whitelist/Abbreviations
11. Mixed Content
12. Batch Testing

In [1]:
import sys
import os

# Add the NeMo-text-processing directory to the path
sys.path.insert(0, os.path.abspath('.'))

from nemo_text_processing.text_normalization.normalize import Normalizer

print("Imports successful!")

Imports successful!


In [2]:
# Initialize Assamese normalizer
normalizer_ase = Normalizer(
    input_case='cased',
    lang='ase',
    cache_dir=None,
    overwrite_cache=False,
    post_process=True
)

print("Assamese Text Normalizer initialized successfully!")
print(f"Language: {normalizer_ase.lang}")

Assamese Text Normalizer initialized successfully!
Language: ase


## 1. Cardinal Numbers Test

In [3]:
cardinal_tests = [
    "155=100",
    "১২৩৪",
    "১২৩৪৫",
    "১২৩৪৫৬",
    "১২৩৪৫৬৭",
    "১২৩৪৫৬৭৮",
    "-১২৩",
    "-120",
    "১০০০",
    "১০০০০০",  # 1 lakh
    "১০০০০০০০০",
    "456",
    "9943206870",
    "1,234,566"
]

print("=" * 60)
print("CARDINAL NUMBERS TEST")
print("=" * 60)
for test in cardinal_tests:
    result = normalizer_ase.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")

CARDINAL NUMBERS TEST
Input:  155=100         -> Output: 155=100
Input:  ১২৩৪            -> Output: ১২৩৪
Input:  ১২৩৪৫           -> Output: ১২৩৪৫
Input:  ১২৩৪৫৬          -> Output: ১২৩৪৫৬
Input:  ১২৩৪৫৬৭         -> Output: ১২৩৪৫৬৭
Input:  ১২৩৪৫৬৭৮        -> Output: ১২৩৪৫৬৭৮
Input:  -১২৩            -> Output: - ১২৩
Input:  -120            -> Output: - 120
Input:  ১০০০            -> Output: ১০০০
Input:  ১০০০০০          -> Output: ১০০০০০
Input:  ১০০০০০০০০       -> Output: ১০০০০০০০০
Input:  456             -> Output: 456
Input:  9943206870      -> Output: शून्य নটা নটা চাৰি তিন দুই শূন্য ছয় আঠ সাত শূন্য
Input:  1,234,566       -> Output: 1,234,566


## 2. Time Test (English Digits)

In [4]:
time_tests_english = [
    "12:30",
    "1:40",
    "12:00",
    "12:14",
    "12:30:45",
    "9:15",
    "09:15",
    "23:59",
    "12:49",
]

print("=" * 60)
print("TIME TEST (ENGLISH DIGITS)")
print("=" * 60)
for test in time_tests_english:
    result = normalizer_ase.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")

TIME TEST (ENGLISH DIGITS)
Input:  12:30           -> Output: 12:30
Input:  1:40            -> Output: 1:40
Input:  12:00           -> Output: 12:00
Input:  12:14           -> Output: 12:14
Input:  12:30:45        -> Output: 12:30:45
Input:  9:15            -> Output: 9:15
Input:  09:15           -> Output: 09:15
Input:  23:59           -> Output: 23:59
Input:  12:49           -> Output: 12:49


## 3. Money Test (English Digits)

In [5]:
money_tests_english = [
    "₹100",
    "₹1234",
    "₹50.50",
    "₹0.50",
    "₹1000000",
    "₹1050000",
    "₹500",
]

print("=" * 60)
print("MONEY TEST (ENGLISH DIGITS)")
print("=" * 60)
for test in money_tests_english:
    result = normalizer_ase.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")

MONEY TEST (ENGLISH DIGITS)
Input:  ₹100            -> Output: ₹100
Input:  ₹1234           -> Output: ₹1234
Input:  ₹50.50          -> Output: ₹50.50
Input:  ₹0.50           -> Output: ₹0.50
Input:  ₹1000000        -> Output: ₹1000000
Input:  ₹1050000        -> Output: ₹1050000
Input:  ₹500            -> Output: ₹500


## 4. Decimal Numbers Test

In [6]:
decimal_tests = [
    "১২.৩৪",      # Assamese digits
    "১২৩.৪৫৬",    # Assamese digits
    "০.৫",         # Assamese digits
    "-১২.৩৪",     # Assamese digits
    "১২.৩৪৫৬",    # Assamese digits
    "12.34",        # English digits
    "123.456",      # English digits
    "0.5",          # English digits
    "-12.34",       # English digits
    "96.3456",      # English digits
]

print("=" * 60)
print("DECIMAL NUMBERS TEST (ASSAMESE & ENGLISH DIGITS)")
print("=" * 60)
for test in decimal_tests:
    result = normalizer_ase.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")



DECIMAL NUMBERS TEST (ASSAMESE & ENGLISH DIGITS)
Input:  ১২.৩৪           -> Output: ১২.৩৪
Input:  ১২৩.৪৫৬         -> Output: ১২৩.৪৫৬
Input:  ০.৫             -> Output: ০.৫
Input:  -১২.৩৪          -> Output: - ১২.৩৪
Input:  ১২.৩৪৫৬         -> Output: ১২.৩৪৫৬
Input:  12.34           -> Output: 12.34
Input:  123.456         -> Output: 123.456
Input:  0.5             -> Output: 0.5
Input:  -12.34          -> Output: -12.34
Input:  96.3456         -> Output: 96.3456


## 5. Fractions Test

In [7]:
fraction_tests = [
    "৩/৪",         # Assamese digits
    "১/২",         # Assamese digits
    "১/৪",         # Assamese digits
    "১২৩/৪",      # Assamese digits
    "-১/২",        # Assamese digits
    "3/4",          # English digits
    "1/2",          # English digits
    "1/4",          # English digits
    "23/4",       # English digits
    "-1/2",         # English digits
]

print("=" * 60)
print("FRACTIONS TEST (ASSAMESE & ENGLISH DIGITS)")
print("=" * 60)
for test in fraction_tests:
    result = normalizer_ase.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")

FRACTIONS TEST (ASSAMESE & ENGLISH DIGITS)
Input:  ৩/৪             -> Output: ৩/৪
Input:  ১/২             -> Output: ১/২
Input:  ১/৪             -> Output: ১/৪
Input:  ১২৩/৪           -> Output: ১২৩/৪
Input:  -১/২            -> Output: - ১/২
Input:  3/4             -> Output: 3/4
Input:  1/2             -> Output: 1/2
Input:  1/4             -> Output: 1/4
Input:  23/4            -> Output: 23/4
Input:  -1/2            -> Output: - 1/2


## 6. Dates Test

In [8]:
date_tests = [
    "০১-০৪-২০২৪",      # Assamese digits
    "১৫-০৬-২০২৪",      # Assamese digits
    "২০২৪-০১-১৫",      # Assamese digits
    "১৫/০৬/২০২৪",      # Assamese digits
    "০৪-০১-২০২৪",      # MM-DD format, Assamese digits
    "01-04-2024",        # English digits
    "15-06-2024",        # English digits
    "2024-01-15",        # English digits
    "15/06/2024",        # English digits
    "04-01-2024",        # MM-DD format, English digits
]

print("=" * 60)
print("DATES TEST (ASSAMESE & ENGLISH DIGITS)")
print("=" * 60)
for test in date_tests:
    result = normalizer_ase.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")

DATES TEST (ASSAMESE & ENGLISH DIGITS)
Input:  ০১-০৪-২০২৪      -> Output: ০১-০৪-২০২৪
Input:  ১৫-০৬-২০২৪      -> Output: ১৫-০৬-২০২৪
Input:  ২০২৪-০১-১৫      -> Output: ২০২৪-০১-১৫
Input:  ১৫/০৬/২০২৪      -> Output: ১৫/০৬/২০২৪
Input:  ০৪-০১-২০২৪      -> Output: ০৪-০১-২০২৪
Input:  01-04-2024      -> Output: शून्य এক শূন্য চাৰি দুই শূন্য দুই চাৰি
Input:  15-06-2024      -> Output: शून्य এক পাঁচ শূন্য ছয় দুই শূন্য দুই চাৰি
Input:  2024-01-15      -> Output: शून्य দুই শূন্য দুই চাৰি শূন্য এক এক পাঁচ
Input:  15/06/2024      -> Output: 15/06/2024
Input:  04-01-2024      -> Output: शून्य চাৰি শূন্য এক দুই শূন্য দুই চাৰি


## 7. Time Test

In [9]:
time_tests = [
    "১২:৩০",         # Assamese digits
    "১:৪০",          # Assamese digits
    "১২:০০",         # Assamese digits
    "১২:৩০:৪৫",      # Assamese digits
    "০৯:১৫",         # Assamese digits
    "২৩:৫৯",         # Assamese digits
    "12:30",          # English digits
    "1:40",           # English digits
    "12:00",          # English digits
    "12:30:45",       # English digits
    "09:15",          # English digits
    "23:59",          # English digits
    "9:15",           # English digits (single digit hour)
]

print("=" * 60)
print("TIME TEST (ASSAMESE & ENGLISH DIGITS)")
print("=" * 60)
for test in time_tests:
    result = normalizer_ase.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")

TIME TEST (ASSAMESE & ENGLISH DIGITS)
Input:  ১২:৩০           -> Output: ১২:৩০
Input:  ১:৪০            -> Output: ১:৪০
Input:  ১২:০০           -> Output: ১২:০০
Input:  ১২:৩০:৪৫        -> Output: ১২:৩০:৪৫
Input:  ০৯:১৫           -> Output: ০৯:১৫
Input:  ২৩:৫৯           -> Output: ২৩:৫৯
Input:  12:30           -> Output: 12:30
Input:  1:40            -> Output: 1:40
Input:  12:00           -> Output: 12:00
Input:  12:30:45        -> Output: 12:30:45
Input:  09:15           -> Output: 09:15
Input:  23:59           -> Output: 23:59
Input:  9:15            -> Output: 9:15


## 8. Money Test

In [10]:
money_tests = [
    "₹১০০",         # Assamese digits
    "₹১২৩৪",        # Assamese digits
    "₹৫০.৫০",       # Assamese digits
    "₹০.৫০",        # Assamese digits
    "₹১০০০",      # Assamese digits
    "₹100",          # English digits
    "₹1234",         # English digits
    "₹50.50",        # English digits
    "₹0.50",         # English digits
    "₹1000",         # English digits
    "₹500",          # English digits
]

print("=" * 60)
print("MONEY TEST (ASSAMESE & ENGLISH DIGITS)")
print("=" * 60)
for test in money_tests:
    result = normalizer_ase.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")

MONEY TEST (ASSAMESE & ENGLISH DIGITS)
Input:  ₹১০০            -> Output: ₹১০০
Input:  ₹১২৩৪           -> Output: ₹১২৩৪
Input:  ₹৫০.৫০          -> Output: ₹৫০.৫০
Input:  ₹০.৫০           -> Output: ₹০.৫০
Input:  ₹১০০০           -> Output: ₹১০০০
Input:  ₹100            -> Output: ₹100
Input:  ₹1234           -> Output: ₹1234
Input:  ₹50.50          -> Output: ₹50.50
Input:  ₹0.50           -> Output: ₹0.50
Input:  ₹1000           -> Output: ₹1000
Input:  ₹500            -> Output: ₹500


## 9. Measurements Test

In [11]:
measure_tests = [
    "১২ kg",         # Assamese digits
    "১২৫ kg",        # Assamese digits
    "১০০ m",         # Assamese digits
    "৫ km",          # Assamese digits
    "১২.৩৪ cm",      # Assamese digits
    "12 kg",          # English digits
    "125 kg",         # English digits
    "100 m",          # English digits
    "5 km",           # English digits
    "12.34 cm",       # English digits
]

print("=" * 60)
print("MEASUREMENTS TEST (ASSAMESE & ENGLISH DIGITS)")
print("=" * 60)
for test in measure_tests:
    result = normalizer_ase.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")



MEASUREMENTS TEST (ASSAMESE & ENGLISH DIGITS)
Input:  ১২ kg           -> Output: ১২ kg
Input:  ১২৫ kg          -> Output: ১২৫ kg
Input:  ১০০ m           -> Output: ১০০ m
Input:  ৫ km            -> Output: ৫ km
Input:  ১২.৩৪ cm        -> Output: ১২.৩৪ cm
Input:  12 kg           -> Output: 12 kg
Input:  125 kg          -> Output: 125 kg
Input:  100 m           -> Output: 100 m
Input:  5 km            -> Output: 5 km
Input:  12.34 cm        -> Output: 12.34 cm


## 10. Ordinal Numbers Test

In [12]:
ordinal_tests = [
    "১তম",           # Assamese digits
    "২তম",           # Assamese digits
    "১০তম",          # Assamese digits
    "২১তম",          # Assamese digits
    "১০০তম",         # Assamese digits
    "1তম",            # English digits with Assamese suffix
    "2তম",            # English digits with Assamese suffix
    "10তম",           # English digits with Assamese suffix
    "21তম",           # English digits with Assamese suffix
    "100তম",          # English digits with Assamese suffix
]

print("=" * 60)
print("ORDINAL NUMBERS TEST (ASSAMESE & ENGLISH DIGITS)")
print("=" * 60)
for test in ordinal_tests:
    result = normalizer_ase.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")

ORDINAL NUMBERS TEST (ASSAMESE & ENGLISH DIGITS)
Input:  ১তম             -> Output: ১তম
Input:  ২তম             -> Output: ২তম
Input:  ১০তম            -> Output: ১০তম
Input:  ২১তম            -> Output: ২১তম
Input:  ১০০তম           -> Output: ১০০তম
Input:  1তম             -> Output: 1তম
Input:  2তম             -> Output: 2তম
Input:  10তম            -> Output: 10তম
Input:  21তম            -> Output: 21তম
Input:  100তম           -> Output: 100তম


## 11. Telephone Numbers Test

In [13]:
telephone_tests = [
    "মোৰ মোবাইল নম্বৰ +৯১৫৭১১৪০০৭",
    "+৯১ ৯২১০৫১৫৬০৬",
    "মোৰ মোবাইল নম্বৰ ১৩৭৪৩০৯৯৮৮",
    "9943206292",
    "9943206292",
    "1,234,567"
]

print("=" * 60)
print("TELEPHONE NUMBERS TEST")
print("=" * 60)
for test in telephone_tests:
    result = normalizer_ase.normalize(test)
    print(f"Input:  {test:20} -> Output: {result}")

TELEPHONE NUMBERS TEST
Input:  মোৰ মোবাইল নম্বৰ +৯১৫৭১১৪০০৭ -> Output: মোৰ মোবাইল নম্বৰ + ৯১৫৭১১৪০০৭
Input:  +৯১ ৯২১০৫১৫৬০৬       -> Output: + ৯১ ৯২১০৫১৫৬০৬
Input:  মোৰ মোবাইল নম্বৰ ১৩৭৪৩০৯৯৮৮ -> Output: মোৰ মোবাইল নম্বৰ ১৩৭৪৩০৯৯৮৮
Input:  9943206292           -> Output: शून्य নটা নটা চাৰি তিন দুই শূন্য ছয় দুই নটা দুই
Input:  9943206292           -> Output: शून्य নটা নটা চাৰি তিন দুই শূন্য ছয় দুই নটা দুই
Input:  1,234,567            -> Output: 1,234,567


## 12. Whitelist/Abbreviations Test

In [14]:
whitelist_tests = [
    "ডা.",
    "প্ৰফে.",
    "শ্ৰী",
    "কি.মি.",
    "মি.",
]

print("=" * 60)
print("WHITELIST/ABBREVIATIONS TEST")
print("=" * 60)
for test in whitelist_tests:
    result = normalizer_ase.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")

WHITELIST/ABBREVIATIONS TEST
Input:  ডা.             -> Output: ডা .
Input:  প্ৰফে.          -> Output: প্ৰফে .
Input:  শ্ৰী            -> Output: শ্ৰী
Input:  কি.মি.          -> Output: কি.মি .
Input:  মি.             -> Output: মি .


## 13. Mixed Content Test

In [15]:
mixed_tests = [
    "আজি ১৫-০৬-২০২৪ তাৰিখে ১২:৩০ বজাত সভা আছে।",
    "₹১০০০ আৰু ₹৫০০ যোগ কৰিলে ₹১৫০০ হয়।",
    "১২৩ কিলোগ্ৰাম ওজন আৰু ৫০ কিলোমিটাৰ দূৰত্ব।",
    "১তম স্থান আৰু ২তম স্থান।",
    "মোৰ মোবাইল নম্বৰ 9876543210।"
]

print("=" * 60)
print("MIXED CONTENT TEST")
print("=" * 60)
for test in mixed_tests:
    result = normalizer_ase.normalize(test)
    print(f"Input:  {test}")
    print(f"Output: {result}")
    print("-" * 60)

MIXED CONTENT TEST
Input:  আজি ১৫-০৬-২০২৪ তাৰিখে ১২:৩০ বজাত সভা আছে।
Output: আজি ১৫-০৬-২০২৪ তাৰিখে ১২:৩০ বজাত সভা আছে ।
------------------------------------------------------------
Input:  ₹১০০০ আৰু ₹৫০০ যোগ কৰিলে ₹১৫০০ হয়।
Output: ₹১০০০ আৰু ₹৫০০ যোগ কৰিলে ₹১৫০০ হয় ।
------------------------------------------------------------
Input:  ১২৩ কিলোগ্ৰাম ওজন আৰু ৫০ কিলোমিটাৰ দূৰত্ব।
Output: ১২৩ কিলোগ্ৰাম ওজন আৰু ৫০ কিলোমিটাৰ দূৰত্ব ।
------------------------------------------------------------
Input:  ১তম স্থান আৰু ২তম স্থান।
Output: ১তম স্থান আৰু ২তম স্থান ।
------------------------------------------------------------
Input:  মোৰ মোবাইল নম্বৰ 9876543210।
Output: মোৰ মোবাইল নম্বৰ शून्य নটা আঠ সাত ছয় পাঁচ চাৰি তিন দুই এক শূন্য ।
------------------------------------------------------------
