# Gujarati Text Normalization Test Cases

This notebook tests the Gujarati text normalization implementation.

## Test Categories:
1. Cardinal Numbers
2. Decimal Numbers
3. Fractions
4. Dates
5. Time
6. Money
7. Measurements
8. Ordinal Numbers
9. Telephone Numbers
10. Whitelist/Abbreviations
11. Mixed Content
12. Batch Testing



In [1]:
import sys
import os

# Add the NeMo-text-processing directory to the path
sys.path.insert(0, os.path.abspath('.'))

from nemo_text_processing.text_normalization.normalize import Normalizer

print("Imports successful!")


Imports successful!


In [2]:
# Initialize Gujarati normalizer
normalizer_gu = Normalizer(
    input_case='cased',
    lang='gu',
    cache_dir=None,  # Set to a directory path if you want to cache .far files
    overwrite_cache=False,
    post_process=True
)

print("Gujarati Text Normalizer initialized successfully!")
print(f"Language: {normalizer_gu.lang}")


Gujarati Text Normalizer initialized successfully!
Language: gu


## 1. Cardinal Numbers Test



In [3]:
cardinal_tests = [
    "155=100",
    "૧૨૩૪",
    "૧૨૩૪૫",
    "૧૨૩૪૫૬",
    "૧૨૩૪૫૬૭",
    "૧૨૩૪૫૬૭૮",
    "-૧૨૩",
    "-120",
    "૧૦૦૦",
    "૧૦૦૦૦૦",  # 1 lakh
    "૧૦૦૦૦૦૦૦૦ ",  # 1 crore
]

print("=" * 60)
print("CARDINAL NUMBERS TEST")
print("=" * 60)
for test in cardinal_tests:
    result = normalizer_gu.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


CARDINAL NUMBERS TEST
Input:  155=100         -> Output:  સો પંચાવન બરાબર સો
Input:  ૧૨૩૪            -> Output: એક હજાર બેસો ચોત્રીસ
Input:  ૧૨૩૪૫           -> Output: બાર હજાર ત્રણસો પિસ્તાલીસ
Input:  ૧૨૩૪૫૬          -> Output: એક લાખ તેવીસ હજાર ચારસો છપ્પન
Input:  ૧૨૩૪૫૬૭         -> Output: બાર લાખ ચોત્રીસ હજાર પાંચસો સડસઠ
Input:  ૧૨૩૪૫૬૭૮        -> Output: એક કરોડ તેવીસ લાખ પિસ્તાલીસ હજાર છસો અઠ્યોતેર
Input:  -૧૨૩            -> Output: minus સો તેવીસ
Input:  -120            -> Output: minus સો વીસ
Input:  ૧૦૦૦            -> Output: એક હજાર
Input:  ૧૦૦૦૦૦          -> Output: એક લાખ
Input:  ૧૦૦૦૦૦૦૦૦       -> Output: દસ કરોડ


## 2. Decimal Numbers Test



In [4]:
# Test both Gujarati and English digits for decimals
decimal_tests = [
    "૧૨.૩૪",      # Gujarati digits
    "૧૨૩.૪૫૬",    # Gujarati digits
    "૦.૫",         # Gujarati digits
    "-૧૨.૩૪",     # Gujarati digits
    "૧૨.૩૪૫૬",    # Gujarati digits
    "12.34",        # English digits
    "123.456",      # English digits
    "0.5",          # English digits
    "-12.34",       # English digits
    "12.3456",      # English digits
]

print("=" * 60)
print("DECIMAL NUMBERS TEST (GUJARATI & ENGLISH DIGITS)")
print("=" * 60)
for test in decimal_tests:
    result = normalizer_gu.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


DECIMAL NUMBERS TEST (GUJARATI & ENGLISH DIGITS)
Input:  ૧૨.૩૪           -> Output: બાર બિંદુ ત્રણ ચાર
Input:  ૧૨૩.૪૫૬         -> Output:  સો તેવીસ બિંદુ ચાર પાંચ છ
Input:  ૦.૫             -> Output: શૂન્ય બિંદુ પાંચ
Input:  -૧૨.૩૪          -> Output:  ઋણાત્મક બાર બિંદુ ત્રણ ચાર
Input:  ૧૨.૩૪૫૬         -> Output: બાર બિંદુ ત્રણ ચાર પાંચ છ
Input:  12.34           -> Output: બાર બિંદુ ત્રણ ચાર
Input:  123.456         -> Output:  સો તેવીસ બિંદુ ચાર પાંચ છ
Input:  0.5             -> Output: શૂન્ય બિંદુ પાંચ
Input:  -12.34          -> Output:  ઋણાત્મક બાર બિંદુ ત્રણ ચાર
Input:  12.3456         -> Output: બાર બિંદુ ત્રણ ચાર પાંચ છ


## 3. Fractions Test



In [5]:
# Test both Gujarati and English digits for fractions
fraction_tests = [
    "૩/૪",         # Gujarati digits
    "૧/૨",         # Gujarati digits
    "૧/૪",         # Gujarati digits
    "૧૨ ૩/૪",      # Gujarati digits
    "-૧/૨",        # Gujarati digits
    "3/4",          # English digits
    "1/2",          # English digits
    "1/4",          # English digits
    "12 3/4",       # English digits
    "-1/2",         # English digits
]

print("=" * 60)
print("FRACTIONS TEST (GUJARATI & ENGLISH DIGITS)")
print("=" * 60)
for test in fraction_tests:
    result = normalizer_gu.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


FRACTIONS TEST (GUJARATI & ENGLISH DIGITS)
Input:  ૩/૪             -> Output: ત્રણ પાવ
Input:  ૧/૨             -> Output: અડધું
Input:  ૧/૪             -> Output: પાવ
Input:  ૧૨ ૩/૪          -> Output: બાર અને ત્રણ પાવ
Input:  -૧/૨            -> Output:  ઋણાત્મક અડધું
Input:  3/4             -> Output: ત્રણ પાવ
Input:  1/2             -> Output: અડધું
Input:  1/4             -> Output: પાવ
Input:  12 3/4          -> Output: બાર અને ત્રણ પાવ
Input:  -1/2            -> Output:  ઋણાત્મક અડધું


## 4. Dates Test



In [6]:
# Test both Gujarati and English digits for dates
date_tests = [
    "૦૧-૦૪-૨૦૨૪",      # Gujarati digits
    "૧૫-૦૬-૨૦૨૪",      # Gujarati digits
    "૨૦૨૪-૦૧-૧૫",      # Gujarati digits
    "૧૫/૦૬/૨૦૨૪",      # Gujarati digits
    "૦૪-૦૧-૨૦૨૪",      # MM-DD format, Gujarati digits
    "01-04-2024",        # English digits
    "15-06-2024",        # English digits
    "2024-01-15",        # English digits
    "15/06/2024",        # English digits
    "04-01-2024",        # MM-DD format, English digits
]

print("=" * 60)
print("DATES TEST (GUJARATI & ENGLISH DIGITS)")
print("=" * 60)
for test in date_tests:
    result = normalizer_gu.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


DATES TEST (GUJARATI & ENGLISH DIGITS)
Input:  ૦૧-૦૪-૨૦૨૪      -> Output: એક એપ્રિલ બે હજાર ચોવીસ
Input:  ૧૫-૦૬-૨૦૨૪      -> Output: પંદર જૂન બે હજાર ચોવીસ
Input:  ૨૦૨૪-૦૧-૧૫      -> Output: બે હજાર ચોવીસ બાદબાકી શૂન્ય એક બાદબાકી પંદર
Input:  ૧૫/૦૬/૨૦૨૪      -> Output: પંદર જૂન બે હજાર ચોવીસ
Input:  ૦૪-૦૧-૨૦૨૪      -> Output: ચાર જાન્યુઆરી બે હજાર ચોવીસ
Input:  01-04-2024      -> Output: એક એપ્રિલ બે હજાર ચોવીસ
Input:  15-06-2024      -> Output: પંદર જૂન બે હજાર ચોવીસ
Input:  2024-01-15      -> Output: બે હજાર ચોવીસ બાદબાકી શૂન્ય એક બાદબાકી પંદર
Input:  15/06/2024      -> Output: પંદર જૂન બે હજાર ચોવીસ
Input:  04-01-2024      -> Output: ચાર જાન્યુઆરી બે હજાર ચોવીસ


## 5. Time Test



In [7]:
# Test both Gujarati and English digits for time
time_tests = [
    "૧૨:૩૦",         # Gujarati digits
    "૧:૪૦",          # Gujarati digits
    "૧૨:૦૦",         # Gujarati digits
    "૧૨:૩૦:૪૫",      # Gujarati digits
    "૦૯:૧૫",         # Gujarati digits
    "૨૩:૫૯",         # Gujarati digits
    "12:30",          # English digits
    "1:40",           # English digits
    "12:00",          # English digits
    "12:30:45",       # English digits
    "09:15",          # English digits
    "23:59",          # English digits
    "9:15",           # English digits (single digit hour)
]

print("=" * 60)
print("TIME TEST (GUJARATI & ENGLISH DIGITS)")
print("=" * 60)
for test in time_tests:
    result = normalizer_gu.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


TIME TEST (GUJARATI & ENGLISH DIGITS)
Input:  ૧૨:૩૦           -> Output: સાડા બાર
Input:  ૧:૪૦            -> Output: એક ચાલીસ મિનિટ વાગ્યે
Input:  ૧૨:૦૦           -> Output: બાર વાગ્યે
Input:  ૧૨:૩૦:૪૫        -> Output: બાર ત્રીસ મિનિટ પિસ્તાલીસ સેકંડ વાગ્યે
Input:  ૦૯:૧૫           -> Output: નવ પંદર મિનિટ વાગ્યે
Input:  ૨૩:૫૯           -> Output: તેવીસ ઓગણસાઠ મિનિટ વાગ્યે
Input:  12:30           -> Output: બાર ત્રીસ મિનિટ વાગ્યે
Input:  1:40            -> Output: એક ચાલીસ મિનિટ વાગ્યે
Input:  12:00           -> Output: બાર વાગ્યે
Input:  12:30:45        -> Output: બાર ત્રીસ મિનિટ પિસ્તાલીસ સેકંડ વાગ્યે
Input:  09:15           -> Output: નવ પંદર મિનિટ વાગ્યે
Input:  23:59           -> Output: તેવીસ ઓગણસાઠ મિનિટ વાગ્યે
Input:  9:15            -> Output: નવ પંદર મિનિટ વાગ્યે


## 6. Money Test



In [8]:
# Test both Gujarati and English digits for money
money_tests = [
    "₹૧૦૦",         # Gujarati digits
    "₹૧૨૩૪",        # Gujarati digits
    "₹૫૦.૫૦",       # Gujarati digits
    "₹૦.૫૦",        # Gujarati digits
    "રૂ ૧૦૦૦",      # Gujarati digits
    "₹100",          # English digits
    "₹1234",         # English digits
    "₹50.50",        # English digits
    "₹0.50",         # English digits
    "₹1000",         # English digits
    "₹500",          # English digits
]

print("=" * 60)
print("MONEY TEST (GUJARATI & ENGLISH DIGITS)")
print("=" * 60)
for test in money_tests:
    result = normalizer_gu.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


MONEY TEST (GUJARATI & ENGLISH DIGITS)
Input:  ₹૧૦૦            -> Output: સો રૂપિયા
Input:  ₹૧૨૩૪           -> Output: એક હજાર બેસો ચોત્રીસ રૂપિયા
Input:  ₹૫૦.૫૦          -> Output: પચાસ રૂપિયા પચાસ પૈસા
Input:  ₹૦.૫૦           -> Output: પચાસ પૈસા
Input:  રૂ ૧૦૦૦         -> Output: રૂ એક હજાર
Input:  ₹100            -> Output: સો રૂપિયા
Input:  ₹1234           -> Output: એક હજાર બેસો ચોત્રીસ રૂપિયા
Input:  ₹50.50          -> Output: પચાસ રૂપિયા પચાસ પૈસા
Input:  ₹0.50           -> Output: પચાસ પૈસા
Input:  ₹1000           -> Output: એક હજાર રૂપિયા
Input:  ₹500            -> Output: પાંચસો રૂપિયા


## 7. Measurements Test



In [9]:
# Test both Gujarati and English digits for measurements
measure_tests = [
    "૧૨ kg",         # Gujarati digits
    "૧૨૫ kg",        # Gujarati digits
    "૧૦૦ m",         # Gujarati digits
    "૫ km",          # Gujarati digits
    "૧૨.૩૪ cm",      # Gujarati digits
    "12 kg",          # English digits
    "125 kg",         # English digits
    "100 m",          # English digits
    "5 km",           # English digits
    "12.34 cm",       # English digits
]

print("=" * 60)
print("MEASUREMENTS TEST (GUJARATI & ENGLISH DIGITS)")
print("=" * 60)
for test in measure_tests:
    result = normalizer_gu.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


MEASUREMENTS TEST (GUJARATI & ENGLISH DIGITS)
Input:  ૧૨ kg           -> Output: બાર કિલોગ્રામ
Input:  ૧૨૫ kg          -> Output:  સો પચ્ચીસ કિલોગ્રામ
Input:  ૧૦૦ m           -> Output: સો મીટર
Input:  ૫ km            -> Output: પાંચ કિલોમીટર
Input:  ૧૨.૩૪ cm        -> Output: બાર બિંદુ ત્રણ ચાર સેન્ટિમીટર
Input:  12 kg           -> Output: બાર કિલોગ્રામ
Input:  125 kg          -> Output:  સો પચ્ચીસ કિલોગ્રામ
Input:  100 m           -> Output: સો મીટર
Input:  5 km            -> Output: પાંચ કિલોમીટર
Input:  12.34 cm        -> Output: બાર બિંદુ ત્રણ ચાર સેન્ટિમીટર


## 8. Ordinal Numbers Test



In [10]:
# Test both Gujarati and English digits for ordinals
ordinal_tests = [
    "૧મું",           # Gujarati digits
    "૨મી",           # Gujarati digits
    "૧૦મું",          # Gujarati digits
    "૨૧મી",          # Gujarati digits
    "૧૦૦મું",         # Gujarati digits
    "1 kg",            # English digits with Gujarati suffix
    "2મી",            # English digits with Gujarati suffix
    "10મું",           # English digits with Gujarati suffix
    "21મી",           # English digits with Gujarati suffix
    "100મું",          # English digits with Gujarati suffix
]

print("=" * 60)
print("ORDINAL NUMBERS TEST (GUJARATI & ENGLISH DIGITS)")
print("=" * 60)
for test in ordinal_tests:
    result = normalizer_gu.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


ORDINAL NUMBERS TEST (GUJARATI & ENGLISH DIGITS)
Input:  ૧મું            -> Output: એકમું
Input:  ૨મી             -> Output: બેમી
Input:  ૧૦મું           -> Output: દસમું
Input:  ૨૧મી            -> Output: એકવીસમી
Input:  ૧૦૦મું          -> Output: સોમું
Input:  1 kg            -> Output: એક કિલોગ્રામ
Input:  2મી             -> Output: બેમી
Input:  10મું           -> Output: દસમું
Input:  21મી            -> Output: એકવીસમી
Input:  100મું          -> Output: સોમું


## 9. Telephone Numbers Test



In [11]:
telephone_tests = [
    "+૯૧૫૭૧૧૪૦૦૭",
    "+૯૧ ૯૨૧૦૫૧૫૬૦૬",
    "૧૩૭૪-૩૦૯૯૮૮",
    "9943206292",
]

print("=" * 60)
print("TELEPHONE NUMBERS TEST")
print("=" * 60)
for test in telephone_tests:
    result = normalizer_gu.normalize(test)
    print(f"Input:  {test:20} -> Output: {result}")


TELEPHONE NUMBERS TEST
Input:  +૯૧૫૭૧૧૪૦૦૭          -> Output: પ્લસ નવ એક પાંચ સાત એક એક ચાર શૂન્ય શૂન્ય સાત
Input:  +૯૧ ૯૨૧૦૫૧૫૬૦૬       -> Output: પ્લસ નવ એક નવ બે એક શૂન્ય પાંચ એક પાંચ છ શૂન્ય છ
Input:  ૧૩૭૪-૩૦૯૯૮૮          -> Output: શૂન્ય એક ત્રણ સાત ચાર ત્રણ શૂન્ય નવ નવ આઠ આઠ
Input:  9943206292           -> Output: શૂન્ય નવ નવ ચાર ત્રણ બે શૂન્ય છ બે નવ બે


## 10. Whitelist/Abbreviations Test



In [12]:
whitelist_tests = [
    "ડૉક્.",
    "પ્રો.",
    "શ્રી",
    "કિ.મી.",
    "મી.",
]

print("=" * 60)
print("WHITELIST/ABBREVIATIONS TEST")
print("=" * 60)
for test in whitelist_tests:
    result = normalizer_gu.normalize(test)
    print(f"Input:  {test:15} -> Output: {result}")


WHITELIST/ABBREVIATIONS TEST
Input:  ડૉક્.           -> Output: ડૉક્ટર
Input:  પ્રો.           -> Output: પ્રોફેસર
Input:  શ્રી            -> Output: શ્રી
Input:  કિ.મી.          -> Output: કિ.મી .
Input:  મી.             -> Output: મી .


## 11. Mixed Content Test



In [13]:
mixed_tests = [
    "આજે ૧૫-૦૬-૨૦૨૪ ના રોજ ૧૨:૩૦ વાગ્યે સભા છે.",
    "₹૧૦૦૦ અને ₹૫૦૦ મળીને ₹૧૫૦૦ થાય છે.",
    "૧૨૩ કિલોગ્રામ વજન અને ૫૦ કિલોમીટર અંતર.",
    "૧મું સ્થાન અને ૨મી સ્થાન.",
]

print("=" * 60)
print("MIXED CONTENT TEST")
print("=" * 60)
for test in mixed_tests:
    result = normalizer_gu.normalize(test)
    print(f"Input:  {test}")
    print(f"Output: {result}")
    print("-" * 60)


MIXED CONTENT TEST
Input:  આજે ૧૫-૦૬-૨૦૨૪ ના રોજ ૧૨:૩૦ વાગ્યે સભા છે.
Output: આજે પંદર જૂન - બે હજાર ચોવીસ ના રોજ બાર ત્રીસ મિનિટ વાગ્યે સભા છે .
------------------------------------------------------------
Input:  ₹૧૦૦૦ અને ₹૫૦૦ મળીને ₹૧૫૦૦ થાય છે.
Output: એક હજાર રૂપિયા અને પાંચસો રૂપિયા મળીને એક હજાર પાંચસો રૂપિયા થાય છે .
------------------------------------------------------------
Input:  ૧૨૩ કિલોગ્રામ વજન અને ૫૦ કિલોમીટર અંતર.
Output:  સો તેવીસ કિલોગ્રામ વજન અને પચાસ કિલોમીટર અંતર .
------------------------------------------------------------
Input:  ૧મું સ્થાન અને ૨મી સ્થાન.
Output: એકમું સ્થાન અને બેમી સ્થાન .
------------------------------------------------------------


## 12. Batch Testing



In [None]:
# Test multiple inputs at once
batch_tests = [
    "123",
    "૧૨.૩૪",
    "૧૨:૩૦",
    "₹૧૦૦",
    "૧૫-૦૬-૨૦૨૪",
]

print("=" * 60)
print("BATCH TESTING")
print("=" * 60)
results = normalizer_gu.normalize_list(batch_tests)
for input_text, output_text in zip(batch_tests, results):
    print(f"Input:  {input_text:15} -> Output: {output_text}")


## Summary

All test cases have been executed. Check the outputs above to verify that Gujarati text normalization is working correctly for all categories.

### Usage Tips:
- Run each cell sequentially (Shift+Enter)
- Modify test cases in any cell to test your own inputs
- Use `verbose=True` in normalize() to see detailed processing information
- Set `cache_dir` to a directory path to speed up subsequent runs

