In [3]:
import re


def custom_syllable_splitter(text: str) -> list:
    """
    Performs a deep syllable split by breaking down all consonant stacks.
    This function uses a two-step process to achieve the required logic for
    cases like 'နက္ခ တ္တ' and 'ဥက္ကဋ္ဌ'.
    """

    
    # --- Step 1: Pre-processing to split stacks using a loop ---
    # This loop is the only reliable way to handle chained stacks.
    stacked_consonant_pattern = r'([က-အ])(်?္)([က-အ])'
    processed_text = text
    while re.search(stacked_consonant_pattern, processed_text):
        processed_text = re.sub(stacked_consonant_pattern, r'\1်'  + r'\3', processed_text)
    processed_text = re.sub(r"(([A-Za-z0-9]+)|[က-အ|ဥ|ဦ](င်္|[က-အ|ဥ][ှ]*[့း]*[်]|္[က-အ]|[ါ-ှႏꩻ][ꩻ]*){0,}|.)",r"\1 ", processed_text)
    print()
   #Step 2: Tokenization of the processed parts ---
   # The string is now clean of stacks, so we can tokenize it reliably.
    final_list = processed_text.split(" ")
    
    # Filter out empty strings caused by trailing spaces
    final_list = [word for word in final_list if word.strip()]
        
    return final_list

In [4]:
text_to_test = '''တောင်ပံကွန့်မြူး၊ ပိုးစုန်းကြူး၊ အထူးအဆန်းပင်။
အရောင်တွဲ့တွဲ့၊ ထွန်းလင်းခဲ့၊ မီးရဲ့ပမာသွင်။
ပျင်းရိလျက်သာ၊ အိပ်နေပါ၊ ရောင်ဝါမပေါ်လွင်။
ထိုနည်းတူစွာ၊ လူတို့မှာ၊ ပမာနှိုင်းဆင်ခြင်။
ကိုယ်နှင့်ဆိုင်ဘိ၊ အလုပ်ရှိ၊ လျှံငြိဂုဏ်ရောင်ထင်။
ကမ္ဘာတိုက်ဘောင်၊ အလုပ်ရောင်၊ ထွန်းပြောင်အမြဲပင်။
ပျင်းပျင်းရိရိ၊ အိပ်နေဘိ၊ မရှိအလုပ်ခွင်။
မှေးတေးမှိန်တိမ်၊ သေးသိမ်သိမ်၊ အရှိန်ကင်းလိမ့်ပင်။
လူဖြစ်ပါခဲ့၊ အရှိန်မဲ့၊ တကယ့်နွားအသွင်
အပျင်းရောဂါ၊ စွဲကပ်လာ၊ မြန်စွာကုဖို့ပြင်
မကုစားဘဲ အပျင်းစွဲ၊ ငမွဲငနုံပင်။ '''
result = custom_syllable_splitter(text_to_test)

print(f"Result:   {result}")


Result:   ['တောင်', 'ပံ', 'ကွန့်', 'မြူး', '၊', 'ပိုး', 'စုန်း', 'ကြူး', '၊', 'အ', 'ထူး', 'အ', 'ဆန်း', 'ပင်', '။', '\nအ', 'ရောင်', 'တွဲ့', 'တွဲ့', '၊', 'ထွန်း', 'လင်း', 'ခဲ့', '၊', 'မီး', 'ရဲ့', 'ပ', 'မာ', 'သွင်', '။', '\nပျင်း', 'ရိ', 'လျက်', 'သာ', '၊', 'အိပ်', 'နေ', 'ပါ', '၊', 'ရောင်', 'ဝါ', 'မ', 'ပေါ်', 'လွင်', '။', '\nထို', 'နည်း', 'တူ', 'စွာ', '၊', 'လူ', 'တို့', 'မှာ', '၊', 'ပ', 'မာ', 'နှိုင်း', 'ဆင်', 'ခြင်', '။', '\nကိုယ်', 'နှင့်', 'ဆိုင်', 'ဘိ', '၊', 'အ', 'လုပ်', 'ရှိ', '၊', 'လျှံ', 'ငြိ', 'ဂုဏ်', 'ရောင်', 'ထင်', '။', '\nကမ်', 'ဘာ', 'တိုက်', 'ဘောင်', '၊', 'အ', 'လုပ်', 'ရောင်', '၊', 'ထွန်း', 'ပြောင်', 'အ', 'မြဲ', 'ပင်', '။', '\nပျင်း', 'ပျင်း', 'ရိ', 'ရိ', '၊', 'အိပ်', 'နေ', 'ဘိ', '၊', 'မ', 'ရှိ', 'အ', 'လုပ်', 'ခွင်', '။', '\nမှေး', 'တေး', 'မှိန်', 'တိမ်', '၊', 'သေး', 'သိမ်', 'သိမ်', '၊', 'အ', 'ရှိန်', 'ကင်း', 'လိမ့်', 'ပင်', '။', '\nလူ', 'ဖြစ်', 'ပါ', 'ခဲ့', '၊', 'အ', 'ရှိန်', 'မဲ့', '၊', 'တ', 'ကယ့်', 'နွား', 'အ', 'သွင်', '\nအ', 'ပျင်း', 'ရော', 'ဂါ', '၊', 'စွဲ', 'ကပ်', 'လာ', 