# Bengali Text Normalization Test Cases

This notebook tests the Bengali text normalization implementation.

## Test Categories:
1. Cardinal Numbers
2. Decimal Numbers
3. Fractions
4. Dates
5. Time
6. Money
7. Ordinal Numbers
8. Telephone Numbers
9. Mixed Content
10. Batch Testing



In [1]:
import sys
import os

# Add the NeMo-text-processing directory to the path
sys.path.insert(0, os.path.abspath('.'))

from nemo_text_processing.text_normalization.normalize import Normalizer

print("Imports successful!")

Imports successful!


In [2]:
# Initialize Bengali normalizer
normalizer_bn = Normalizer(
    input_case='cased',
    lang='bn',
    cache_dir=None,  # Set to a directory path if you want to cache .far files
    overwrite_cache=False,
    post_process=True
)

print("Bengali Text Normalizer initialized successfully!")
print(f"Language: {normalizer_bn.lang}")



Bengali Text Normalizer initialized successfully!
Language: bn


## 1. Cardinal Numbers Test



In [3]:
# Test both Bengali and Arabic digits for cardinals
cardinal_tests = [
    "1=2",          # Arabic digits
    "১+৩",          # Bengali digits
    "১২৩৪",         # Bengali digits
    "১২৩৪৫",        # Bengali digits
    "১২৩৪৫৬",       # Bengali digits
    "-১২৩",         # Negative, Bengali digits
    "-123",         # Negative, Arabic digits
    "১০০০",         # 1000, Bengali digits
    "1000",         # 1000, Arabic digits
    "১০০০০০",       # 1 lakh, Bengali digits
    "100000",       # 1 lakh, Arabic digits
    "১০০০০০০০",     # 1 crore, Bengali digits
    "10000000",     # 1 crore, Arabic digits
]

print("=" * 60)
print("CARDINAL NUMBERS TEST (BENGALI & ARABIC DIGITS)")
print("=" * 60)
for test in cardinal_tests:
    result = normalizer_bn.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")



CARDINAL NUMBERS TEST (BENGALI & ARABIC DIGITS)
Input:  1=2             -> Output: এক সমান দুই
Input:  ১+৩             -> Output: এক প্লাস তিন
Input:  ১২৩৪            -> Output: এক হাজার দুই শত চৌত্রিশ
Input:  ১২৩৪৫           -> Output: বারো হাজার তিন শত পঁয়তাল্লিশ
Input:  ১২৩৪৫৬          -> Output: এক লক্ষ তেইশ হাজার চার শত ছাপ্পান্ন
Input:  -১২৩            -> Output: ঋণাত্মক এক শত তেইশ
Input:  -123            -> Output: ঋণাত্মক এক শত তেইশ
Input:  ১০০০            -> Output: এক হাজার
Input:  1000            -> Output: এক হাজার
Input:  ১০০০০০          -> Output: এক লক্ষ
Input:  100000          -> Output: এক লক্ষ
Input:  ১০০০০০০০        -> Output: এক কোটি
Input:  10000000        -> Output: এক কোটি


## 2. Decimal Numbers Test



In [4]:
# Test both Bengali and Arabic digits for decimals
decimal_tests = [
    "১২.৩৪",        # Bengali digits
    "১২৩.৪৫৬",      # Bengali digits
    "০.৫",          # Bengali digits
    "-১২.৩৪",       # Negative, Bengali digits
    "১২.৩৪৫৬",      # Bengali digits
    "12.34",        # Arabic digits
    "123.456",      # Arabic digits
    "05",          # Arabic digits
    "-12.34",       # Negative, Arabic digits
    "12.3456",      # Arabic digits
]

print("=" * 60)
print("DECIMAL NUMBERS TEST (BENGALI & ARABIC DIGITS)")
print("=" * 60)
for test in decimal_tests:
    result = normalizer_bn.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")



DECIMAL NUMBERS TEST (BENGALI & ARABIC DIGITS)
Input:  ১২.৩৪           -> Output: বারো দশমিক তিন চার
Input:  ১২৩.৪৫৬         -> Output: এক শত তেইশ দশমিক চার পাঁচ ছয়
Input:  ০.৫             -> Output: শূন্য দশমিক পাঁচ
Input:  -১২.৩৪          -> Output:  ঋণাত্মক বারো দশমিক তিন চার
Input:  ১২.৩৪৫৬         -> Output: বারো দশমিক তিন চার পাঁচ ছয়
Input:  12.34           -> Output: বারো দশমিক তিন চার
Input:  123.456         -> Output: এক শত তেইশ দশমিক চার পাঁচ ছয়
Input:  05              -> Output: শূন্য পাঁচ
Input:  -12.34          -> Output:  ঋণাত্মক বারো দশমিক তিন চার
Input:  12.3456         -> Output: বারো দশমিক তিন চার পাঁচ ছয়


## 3. Fractions Test



In [5]:
# Test both Bengali and Arabic digits for fractions
fraction_tests = [
    "৩/৪",          # Bengali digits
    "১/২",          # Bengali digits
    "১/৪",          # Bengali digits
    "১২ ৩/৪",       # Bengali digits
    "-১/২",         # Negative, Bengali digits
    "3/4",          # Arabic digits
    "1/2",          # Arabic digits
    "1/4",          # Arabic digits
    "123/4",       # Arabic digits
    "-1/2",         # Negative, Arabic digits
]

print("=" * 60)
print("FRACTIONS TEST (BENGALI & ARABIC DIGITS)")
print("=" * 60)
for test in fraction_tests:
    result = normalizer_bn.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")



FRACTIONS TEST (BENGALI & ARABIC DIGITS)
Input:  ৩/৪             -> Output: তিনভাগ চার
Input:  ১/২             -> Output: একভাগ দুই
Input:  ১/৪             -> Output: একভাগ চার
Input:  ১২ ৩/৪          -> Output: বারোএবং তিনভাগ চার
Input:  -১/২            -> Output: - একভাগ দুই
Input:  3/4             -> Output: তিনভাগ চার
Input:  1/2             -> Output: একভাগ দুই
Input:  1/4             -> Output: একভাগ চার
Input:  123/4           -> Output: এক শত তেইশভাগ চার
Input:  -1/2            -> Output: - একভাগ দুই


## 4. Dates Test



In [6]:
# Test both Bengali and Arabic digits for dates
date_tests = [
    "০১-০৪-২০২৪",      # Bengali digits
    "১৫-০৬-২০২৪",      # Bengali digits
    "২০২৪-০১-১৫",      # Bengali digits
    "১৫/০৬/২০২৪",      # Bengali digits
    "০৪-০১-২০২৪",      # MM-DD format, Bengali digits
    "01-04-2024",      # Arabic digits
    "15-06-2024",      # Arabic digits
    "2024-01-15",      # Arabic digits
    "15/06/2024",      # Arabic digits
    "04-01-2024",      # MM-DD format, Arabic digits
]

print("=" * 60)
print("DATES TEST (BENGALI & ARABIC DIGITS)")
print("=" * 60)
for test in date_tests:
    result = normalizer_bn.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")



DATES TEST (BENGALI & ARABIC DIGITS)
Input:  ০১-০৪-২০২৪      -> Output: এক এপ্রিল দুই হাজার চব্বিশ
Input:  ১৫-০৬-২০২৪      -> Output: পনেরো জুন দুই হাজার চব্বিশ
Input:  ২০২৪-০১-১৫      -> Output: জানুয়ারি পনেরো দুই হাজার চব্বিশ
Input:  ১৫/০৬/২০২৪      -> Output: পনেরো জুন দুই হাজার চব্বিশ
Input:  ০৪-০১-২০২৪      -> Output: চার জানুয়ারি দুই হাজার চব্বিশ
Input:  01-04-2024      -> Output: এক এপ্রিল দুই হাজার চব্বিশ
Input:  15-06-2024      -> Output: পনেরো জুন দুই হাজার চব্বিশ
Input:  2024-01-15      -> Output: জানুয়ারি পনেরো দুই হাজার চব্বিশ
Input:  15/06/2024      -> Output: পনেরো জুন দুই হাজার চব্বিশ
Input:  04-01-2024      -> Output: চার জানুয়ারি দুই হাজার চব্বিশ


## 5. Time Test



In [7]:
# Test both Bengali and Arabic digits for time
time_tests = [
    "১২:৩০",         # Bengali digits
    "১:৪০",          # Bengali digits
    "১২:০০",         # Bengali digits
    "১২:৩০:৪৫",      # Bengali digits
    "০৯:১৫",         # Bengali digits
    "২৩:৫৯",         # Bengali digits
    "12:30",         # Arabic digits
    "1:40",          # Arabic digits
    "12:00",         # Arabic digits
    "12:30:45",      # Arabic digits
    "09:15",         # Arabic digits
    "23:59",         # Arabic digits
    "9:15",          # Arabic digits (single digit hour)
]

print("=" * 60)
print("TIME TEST (BENGALI & ARABIC DIGITS)")
print("=" * 60)
for test in time_tests:
    result = normalizer_bn.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")



TIME TEST (BENGALI & ARABIC DIGITS)
Input:  ১২:৩০           -> Output: বারো বাজে ত্রিশ মিনিট
Input:  ১:৪০            -> Output: এক বাজে চল্লিশ মিনিট
Input:  ১২:০০           -> Output: বারো বাজে শূন্য মিনিট
Input:  ১২:৩০:৪৫        -> Output: বারো বাজে ত্রিশ মিনিট পঁয়তাল্লিশ সেকেন্ড
Input:  ০৯:১৫           -> Output: নয় বাজে পনেরো মিনিট
Input:  ২৩:৫৯           -> Output: তেইশ বাজে ঊনষাট মিনিট
Input:  12:30           -> Output: বারো বাজে ত্রিশ মিনিট
Input:  1:40            -> Output: এক বাজে চল্লিশ মিনিট
Input:  12:00           -> Output: বারো বাজে শূন্য মিনিট
Input:  12:30:45        -> Output: বারো বাজে ত্রিশ মিনিট পঁয়তাল্লিশ সেকেন্ড
Input:  09:15           -> Output: নয় বাজে পনেরো মিনিট
Input:  23:59           -> Output: তেইশ বাজে ঊনষাট মিনিট
Input:  9:15            -> Output: নয় বাজে পনেরো মিনিট


## 6. Money Test



In [8]:
# Test both Bengali and Arabic digits for money
money_tests = [
    "₹১০০",         # Bengali digits
    "₹১২৩৪",        # Bengali digits
    "₹৫০.৫০",       # Bengali digits
    "₹০.৫০",        # Bengali digits
    "₹১০০০",        # Bengali digits
    "₹500",         # Arabic digits
    "₹1234",        # Arabic digits
    "₹50.50",       # Arabic digits
    "₹0.50",        # Arabic digits
    "₹1000",        # Arabic digits
    "টাকা ৫০০",     # Bengali text with Bengali digits
]

print("=" * 60)
print("MONEY TEST (BENGALI & ARABIC DIGITS)")
print("=" * 60)
for test in money_tests:
    result = normalizer_bn.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")



MONEY TEST (BENGALI & ARABIC DIGITS)
Input:  ₹১০০            -> Output: এক শত টাকা
Input:  ₹১২৩৪           -> Output: এক হাজার দুই শত চৌত্রিশ টাকা
Input:  ₹৫০.৫০          -> Output: পঞ্চাশ টাকা পঞ্চাশ পয়সা
Input:  ₹০.৫০           -> Output: পঞ্চাশ পয়সা
Input:  ₹১০০০           -> Output: এক হাজার টাকা
Input:  ₹500            -> Output: পাঁচ শত টাকা
Input:  ₹1234           -> Output: এক হাজার দুই শত চৌত্রিশ টাকা
Input:  ₹50.50          -> Output: পঞ্চাশ টাকা পঞ্চাশ পয়সা
Input:  ₹0.50           -> Output: পঞ্চাশ পয়সা
Input:  ₹1000           -> Output: এক হাজার টাকা
Input:  টাকা ৫০০        -> Output: টাকা পাঁচ শত


## 7. Ordinal Numbers Test



In [9]:
# Test both Bengali and Arabic digits for ordinals
ordinal_tests = [
    "১ম",           # Bengali digits
    "২ম",           # Bengali digits
    "১০ম",          # Bengali digits
    "২১তম",         # Bengali digits
    "১০০তম",        # Bengali digits
    "1ম",           # Arabic digits with Bengali suffix
    "2ম",           # Arabic digits with Bengali suffix
    "10ম",          # Arabic digits with Bengali suffix
    "21তম",         # Arabic digits with Bengali suffix
    "100তম",        # Arabic digits with Bengali suffix
]

print("=" * 60)
print("ORDINAL NUMBERS TEST (BENGALI & ARABIC DIGITS)")
print("=" * 60)
for test in ordinal_tests:
    result = normalizer_bn.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")



ORDINAL NUMBERS TEST (BENGALI & ARABIC DIGITS)
Input:  ১ম              -> Output: একম
Input:  ২ম              -> Output: দুইম
Input:  ১০ম             -> Output: দশম
Input:  ২১তম            -> Output: একুশতম
Input:  ১০০তম           -> Output: এক শততম
Input:  1ম              -> Output: একম
Input:  2ম              -> Output: দুইম
Input:  10ম             -> Output: দশম
Input:  21তম            -> Output: একুশতম
Input:  100তম           -> Output: এক শততম


## 8. Telephone Numbers Test



In [10]:
telephone_tests = [
    "+৯৮৭৬৫৪৩২১০",      # Bengali digits
    "+৯১ ৯৮৭৬৫৪৩২১০",   # Bengali digits with space
    "৯৮৭৬-৫৪৩২১০",      # Bengali digits with dash
    "9876543210",        # Arabic digits
    "+91 9876543210",    # Arabic digits with space
    "9876-543210",       # Arabic digits with dash
]

print("=" * 60)
print("TELEPHONE NUMBERS TEST")
print("=" * 60)
for test in telephone_tests:
    result = normalizer_bn.normalize(test)
    print(f"Input:  {test:20} -> Output: {result}")



TELEPHONE NUMBERS TEST
Input:  +৯৮৭৬৫৪৩২১০          -> Output: + নয় আট সাত ছয় পাঁচ চার তিন দুই এক শূন্য 
Input:  +৯১ ৯৮৭৬৫৪৩২১০       -> Output: প্লাসএকানব্বই নয় আট সাত ছয় পাঁচ চার তিন দুই এক শূন্য 
Input:  ৯৮৭৬-৫৪৩২১০          -> Output: নয় হাজার আট শত ছিয়াত্তর মাইনাস পাঁচ লক্ষ তেতাল্লিশ হাজার দুই শত দশ
Input:  9876543210           -> Output: নয় আট সাত ছয় পাঁচ চার তিন দুই এক শূন্য 
Input:  +91 9876543210       -> Output: প্লাসএকানব্বই নয় আট সাত ছয় পাঁচ চার তিন দুই এক শূন্য 
Input:  9876-543210          -> Output: নয় হাজার আট শত ছিয়াত্তর মাইনাস পাঁচ লক্ষ তেতাল্লিশ হাজার দুই শত দশ


## 9. Mixed Content Test



In [11]:
# Test mixed Bengali text with numbers
mixed_tests = [
    "আমি ১২৩ টাকা খরচ করেছি।",
    "আজ ১৫-০৬-২০২৪ তারিখে ১২:৩০ বাজে সভা আছে।",
    "₹১০০০ এবং ₹৫০০ যোগ করলে ₹১৫০০ হয়।",
    "১২৩ কিলোগ্রাম ওজন এবং ৫০ কিলোমিটার দূরত্ব।",
    "১ম স্থান এবং ২য় স্থান।",
    "I spent 123 rupees today.",
    "The meeting is at 12:30 on 15-06-2024.",
]

print("=" * 60)
print("MIXED CONTENT TEST")
print("=" * 60)
for test in mixed_tests:
    result = normalizer_bn.normalize(test)
    print(f"Input:  {test}")
    print(f"Output: {result}")
    print("-" * 60)



MIXED CONTENT TEST
Input:  আমি ১২৩ টাকা খরচ করেছি।
Output: আমি এক শত তেইশ টাকা খরচ করেছি ।
------------------------------------------------------------
Input:  আজ ১৫-০৬-২০২৪ তারিখে ১২:৩০ বাজে সভা আছে।
Output: আজ পনেরো জুন দুই হাজার চব্বিশ তারিখে বারো বাজে ত্রিশ মিনিট বাজে সভা আছে ।
------------------------------------------------------------
Input:  ₹১০০০ এবং ₹৫০০ যোগ করলে ₹১৫০০ হয়।
Output: এক হাজার টাকা এবং পাঁচ শত টাকা যোগ করলে এক হাজার পাঁচ শত টাকা হয় ।
------------------------------------------------------------
Input:  ১২৩ কিলোগ্রাম ওজন এবং ৫০ কিলোমিটার দূরত্ব।
Output: এক শত তেইশ কিলোগ্রাম ওজন এবং পঞ্চাশ কিলোমিটার দূরত্ব ।
------------------------------------------------------------
Input:  ১ম স্থান এবং ২য় স্থান।
Output: একম স্থান এবং ২য় স্থান ।
------------------------------------------------------------
Input:  I spent 123 rupees today.
Output: I spent এক শত তেইশ rupees today .
------------------------------------------------------------
Input:  The meeting is at 12:30 on 15

## 10. Batch Testing



In [12]:
# Test multiple inputs at once
batch_tests = [
    "123",              # Arabic digits
    "১২.৩৪",            # Bengali decimal
    "১২:৩০",            # Bengali time
    "₹১০০",             # Bengali money
    "১৫-০৬-২০২৪",       # Bengali date
    "1/2",              # Arabic fraction
    "১০০০",             # Bengali thousand
]

print("=" * 60)
print("BATCH TESTING")
print("=" * 60)
results = normalizer_bn.normalize_list(batch_tests)
for input_text, output_text in zip(batch_tests, results):
    print(f"Input:  {input_text:15} -> Output: {output_text}")



BATCH TESTING


100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 119.29it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 58.72it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 41.10it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 190.88it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 70.05it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 52.68it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 116.29it/s]

Input:  123             -> Output: এক শত তেইশ
Input:  ১২.৩৪           -> Output: ১২.৩৪
Input:  ১২:৩০           -> Output: বারো বাজে ত্রিশ মিনিট
Input:  ₹১০০            -> Output: ₹১০০
Input:  ১৫-০৬-২০২৪      -> Output: পনেরো জুন দুই হাজার চব্বিশ
Input:  1/2             -> Output: 1/2
Input:  ১০০০            -> Output:  এক হাজার





## Summary

All test cases have been executed. Check the outputs above to verify that Bengali text normalization is working correctly for all categories.

### Usage Tips:
- Run each cell sequentially (Shift+Enter)
- Modify test cases in any cell to test your own inputs
- Use `verbose=True` in normalize() to see detailed processing information
- Set `cache_dir` to a directory path to speed up subsequent runs
- The normalizer supports both Bengali digits (০-৯) and Arabic digits (0-9)

