In [3]:
import re
import time

def clean_sent(text):
    text = text.strip()
    text = re.sub(r'\([^)]*\)', '', text) # Remove anything within parentheses, including the parentheses
    text = re.sub("^[၀၁၂၃၄၅၆၇၈၉]+\. *", '', text)
    text = re.sub("^∆ *", '', text)
    text = re.sub("^[0123456789]+\. *", '', text)
    text = re.sub("[0123456789]+$", '', text)
    text = re.sub("-+", "", text)
    text = re.sub("••+", "", text)
    text = re.sub("^• *", '', text)
    text = re.sub("\(", '', text)
    text = re.sub("\)", '', text)
    
    text = re.sub(' +', ' ', text)
    return text.strip()

def filter_sent(sentence):
    # Check if the sentence contains any Latin characters a-z or A-Z
    if re.search(r'[a-zA-Z]', sentence):
        return False
    
    # Check if the sentence is below 2 characters
    if len(sentence) < 2:
        return False
    
    # Check if the sentence contains any forbidden characters
    forbidden_characters = ['=', '/']
    if any(char in sentence for char in forbidden_characters):
        return False
    
    # Check if the sentence contains any Bengali characters
    if re.search(r'[\u0980-\u09FF]', sentence):
        return False
    
    # Check if the sentence contains at least one Burmese character
    if not re.search(r'[\u1000-\u109F]', sentence):
        return False
    
    # If all checks are passed, return True
    return True

def tokenize_burmese_text(text):
    # Split the text into lines first
    lines = text.splitlines()

    # Initialize an empty list to store the sentences
    sentences = []

    # Iterate through each line
    for line in lines:
        line = re.sub("၊၊", "။", line)
        
        # Split the line by the sentence-ending character "။"
        line_sentences = line.split("။")

        # If the line had sentence-ending characters, add them back to the sentences except the last one
        for i in range(len(line_sentences) - 1):
            # Add the sentence-ending character back and strip any extra whitespace
            sentences.append(line_sentences[i].strip() + "။")

        # Add the last part of the line as a sentence if it's non-empty
        if line_sentences[-1].strip():
            sentences.append(line_sentences[-1])

    sentences = [clean_sent(sent) for sent in sentences]
    
    return [sent for sent in sentences if filter_sent(sent)]

In [4]:
print("===========Generating corpora===========")

# Start time
start_time = time.time()

# Read document text
with open("text-corpusing/Re Fung Jang.pdf.txt", "r") as f:
    doc_text = f.read()
    
doc_sents = tokenize_burmese_text(doc_text)

# Write sentences to text file
with open("text-corpusing/Sentences from Re Fung Jang.pdf.txt", "w") as f:
    for s in doc_sents:
        f.write(s+"\n")

# End time
end_time = time.time()

# Calculate elapsed time
elapsed_time = end_time - start_time

print(f"{len(doc_sents)} sentences extracted")
print(f"Elapsed time: {elapsed_time} seconds")

223 sentences extracted
Elapsed time: 0.015915870666503906 seconds


In [87]:
text = """ကြာဇန် အလက်မှာ ၁၅ လုံး ဇီးသီး ဟိရယ်၊၊ ကြဇန် ၃ ယောက် အဖက်သား ဘောင်းမှာ တဒိ ပျင်ရို့ ဝီရို့ပီးကေ တယောက်စီ မျှာလုံးကျ ဇီးသီး ငဖို့လဲ?

မောင်သိန်း အိမ်မာ သရက်ပင် ၂ ပင်  ဟိရယ်၊၊ တပင်က ၈ လုံး၊ အခြါးတပင်က ၇ လုံး သရက်သီး ရရယ်၊၊ ယားဂနီရို့ ၆ လုံး သရက်သီး နမှာ့ရှေကို ပီးလစ်ကေ မောင်သိန်း  အလက်မှာ မျှာလုံး သရက်သီး ကျံဖို့လဲ ?

"""


In [95]:
text = """
ဆအကျွန်တို့ ရီသွင်းသွင်း


 

အကျွန်တို့ ရီသွင်းသွင်းသည်

သွင်းသွင်းမြည်လို့ စီးဆင်းနေ

ကဆုန် နံယုန် ဝါဆိုလ

ငါးသျှေပေါ်လို့ လိပ်ပြာက။


 

အနီးအနား အိုင်ဝန်းပေါ်၊

တန်းတင် ဖားက တကျော်ကျော်

သဒွတ် သပွတ် သျှဉိ့သျှေစား

ရောင်းရင် အောက်ချင်း မြည်သံကြား၊


 

ပြည်တွင်း ပြည်ပ လူများဖော်

လည်ပတ်သွားလာ မြူးတူးပျော်

ဧမြ ရိပ်သာ တန်းရှင်အောက်

ခရသည်များ အနားရောက်


 

ပန်ဖြေ ရိပ်သာ သာသာယာ

အကျွန်ရို့နယ်  အေးချမ်းသာ

တောင်တန်းနယ် သဘာဝ

အကျွန်ရို့ပြည် အလှပ။

"""

In [96]:
for i in tokenize_burmese_text(text):
    print(i)

ဆအကျွန်တို့ ရီသွင်းသွင်း
အကျွန်တို့ ရီသွင်းသွင်းသည်
သွင်းသွင်းမြည်လို့ စီးဆင်းနေ
ကဆုန် နံယုန် ဝါဆိုလ
ငါးသျှေပေါ်လို့ လိပ်ပြာက။
အနီးအနား အိုင်ဝန်းပေါ်၊
တန်းတင် ဖားက တကျော်ကျော်
သဒွတ် သပွတ် သျှဉိ့သျှေစား
ရောင်းရင် အောက်ချင်း မြည်သံကြား၊
ပြည်တွင်း ပြည်ပ လူများဖော်
လည်ပတ်သွားလာ မြူးတူးပျော်
ဧမြ ရိပ်သာ တန်းရှင်အောက်
ခရသည်များ အနားရောက်
ပန်ဖြေ ရိပ်သာ သာသာယာ
အကျွန်ရို့နယ် အေးချမ်းသာ
တောင်တန်းနယ် သဘာဝ
အကျွန်ရို့ပြည် အလှပ။


In [83]:
text.split("၊၊")

['ကြာဇန် အလက်မှာ ၁၅ လုံး ဇီးသီး ဟိရယ်',
 ' ကြဇန် ၃ ယောက် အဖက်သား ဘောင်းမှာ တဒိ ပျင်ရို့ ဝီရို့ပီးကေ တယောက်စီ မျှာလုံးကျ ဇီးသီး ငဖို့လဲ?']

# OCR

In [6]:
import pytesseract
import re
from PIL import Image

#Setup language for Tesseract
LANG = "mya"

# Function to perform OCR on an image
def ocr_image_to_text(image_path):
    try:
        image = Image.open(image_path)
        text = pytesseract.image_to_string(image, lang=LANG)
        return text
    except Exception as e:
        print(f"⚠️Error during OCR for {image_path}⚠️: {e}")
        return ""

In [8]:
text = ocr_image_to_text("/Users/alp/Desktop/Screenshot 2024-08-15 at 11.28.24.png")
print(text)

မီး မိမ ဂြ

ဘာ

ဖိုးမောင်လေးကအရမ်းပဲ ကစားမက်တယ်; ါးလည်းလက်ကိုစင်အောင်
ကစားရင်းနဲ့လည်း မုန့်စားလေ့ရှိတယ်# | မဆေးဘူးး လက်ဆေး, ထဲကို
နး ဆေးပြီး စားလိုက်တာ

ဖိုးမောင်လေးဘာဖြစ်လို့ ဗိုက်နာပြီး ၀မ်းခဏခဏ သွားနေတာလဲ#

