# Bangla Text Preprocessing

Create a function to normalize bangla text

In [7]:
import re

def normalize_bangla_text(text):
    # Remove digits
    text = re.sub(r'[০-৯]', '', text) 
    
    # Step 1: Remove invisible characters
    text = text.replace('\u200d', '')  # Zero-width joiner
    text = text.replace('\u200c', '')  # Zero-width non-joiner
    text = text.replace('\u00a0', ' ') # Non-breaking space to regular space
    
    # Step 2: Normalize visually similar characters
    text = re.sub(r'[য়]', 'য়', text)   # Normalize 'য়' to 'য়'
    text = re.sub(r'[র‍]', 'র', text)   # Remove ZWJ from 'র‍' if used wrongly
    text = re.sub(r'[ৎ]', 'ত্', text)   # Rare cases where 'ৎ' needs to be decomposed
    text = re.sub(r'[ড়]', 'র়', text)   # Normalize dotted র
    text = re.sub(r'[ঢ়]', 'ঢ়', text)   # Normalize dotted ঢ
    text = re.sub(r'[ঙ‍]', 'ঙ', text)   # Remove ZWJ after ঙ if it exists

    # Step 3: Normalize vowel signs and nukta forms
    text = re.sub(r'[\u09c7\u09c8]', '\u09c7', text)  # Normalize e-kar and ai-kar variants
    text = re.sub(r'[\u09cb\u09cc]', '\u09cb', text)  # Normalize o-kar and au-kar variants
  
    # Optional: remove duplicate diacritics (common from faulty OCR or typing)
    text = re.sub(r'([ািীুূেৈোৌ])\1+', r'\1', text)   # Collapse repeated vowel signs
    
    return text

In [13]:
bangla_text = "আমি বাংলায় বই পড়তে ভালোবাসি। এটি খুবই আনন্দদায়ক! কিন্তু, কিছু বইয়ের দাম বেশি। নাহলে আমি ৪ টি বই কিনার ইচ্ছা আসে।"

text = normalize_bangla_text(bangla_text)
text

'আমি বাংলায়য় বই পডয়তে ভালোবাসি। এটি খুবই আনন্দদায়য়ক! কিন্তু, কিছু বইয়য়ের দাম বেশি। নাহলে আমি  টি বই কিনার ইচ্ছা আসে।'

In [16]:
# Remove punctuation (including Bangla and English punctuation)
punctuation_pattern = r'[^\w\s\u0980-\u09FF]'  # Retain Bangla and English word characters and whitespace
text = re.sub(punctuation_pattern, '', text)
text = text.strip()
text

'আম বলয়য় বই পডয়ত ভলবস এট খবই আননদদয়য়ক কনত কছ বইয়য়র দম বশ নহল আম  ট বই কনর ইচছ আস'

In [17]:
# Tokenize (split by whitespace)
tokens = text.split()
print(tokens)

['আম', 'বলয়য়', 'বই', 'পডয়ত', 'ভলবস', 'এট', 'খবই', 'আননদদয়য়ক', 'কনত', 'কছ', 'বইয়য়র', 'দম', 'বশ', 'নহল', 'আম', 'ট', 'বই', 'কনর', 'ইচছ', 'আস']


In [20]:
# Define a basic set of Bangla stopwords
bangla_stopwords = set([
    'আমি', 'আমরা', 'তুমি', 'তোমরা', 'সে', 'তারা', 'এই', 'ওই', 'এটি', 'ওটি', 'এ', 'ও', 'কিছু', 'কিন্তু', 'আর', 'তবে', 'যে', 'যা', 'তাই', 'এবং', 'বা', 'এর', 'তার', 'এরই', 'তাদের', 'নাহলে', 'টি', 'একটি', 'খুবই', 'ভালো', 'ভালোবাসি', 'আসে', 'হয়', 'হয়', 'দিয়ে', 'দিয়ে', 'করে', 'করেছে', 'করেন', 'করছি', 'করবে', 'করার', 'কিনার', 'পড়তে', 'পড়ে', 'পড়ার', 'দাম', 'বেশি', 'আনন্দ', 'আনন্দদায়ক', 'আনন্দদায়ক', 'ভালোবাসা', 'ভালোবাসি', 'নয়', 'নয়', 'হয়েছে', 'হয়েছে', 'হয়নি', 'হয়নি'
])

# Remove stopwords
filtered_tokens = [token for token in tokens if token not in bangla_stopwords]
print(filtered_tokens)

['আম', 'বলয়য়', 'বই', 'পডয়ত', 'ভলবস', 'এট', 'খবই', 'আননদদয়য়ক', 'কনত', 'কছ', 'বইয়য়র', 'দম', 'বশ', 'নহল', 'আম', 'ট', 'বই', 'কনর', 'ইচছ', 'আস']
