# Bangla Text Preprocessing

Create a function to normalize bangla text

In [1]:
import re

def normalize_bangla_text(text):
    # Remove digits
    text = re.sub(r'[০-৯]', '', text) 
    
    # Step 1: Remove invisible characters
    text = text.replace('\u200d', '')  # Zero-width joiner
    text = text.replace('\u200c', '')  # Zero-width non-joiner
    text = text.replace('\u00a0', ' ') # Non-breaking space to regular space
    
    # Step 2: Normalize visually similar characters
    text = re.sub(r'[য়]', 'য়', text)   # Normalize 'য়' to 'য়'
    text = re.sub(r'[র‍]', 'র', text)   # Remove ZWJ from 'র‍' if used wrongly
    text = re.sub(r'[ৎ]', 'ত্', text)   # Rare cases where 'ৎ' needs to be decomposed
    text = re.sub(r'[ড়]', 'র়', text)   # Normalize dotted র
    text = re.sub(r'[ঢ়]', 'ঢ়', text)   # Normalize dotted ঢ
    text = re.sub(r'[ঙ‍]', 'ঙ', text)   # Remove ZWJ after ঙ if it exists

    # Step 3: Normalize vowel signs and nukta forms
    text = re.sub(r'[\u09c7\u09c8]', '\u09c7', text)  # Normalize e-kar and ai-kar variants
    text = re.sub(r'[\u09cb\u09cc]', '\u09cb', text)  # Normalize o-kar and au-kar variants
  
    # Optional: remove duplicate diacritics (common from faulty OCR or typing)
    text = re.sub(r'([ািীুূেৈোৌ])\1+', r'\1', text)   # Collapse repeated vowel signs
    
    return text

In [2]:
bangla_text = "আমি বাংলায় বই পড়তে ভালোবাসি। এটি খুবই আনন্দদায়ক! কিন্তু, কিছু বইয়ের দাম বেশি। নাহলে আমি ৪ টি বই কিনার ইচ্ছা আসে।"

text = normalize_bangla_text(bangla_text)
text

'আমি বাংলায়য় বই পডয়তে ভালোবাসি। এটি খুবই আনন্দদায়য়ক! কিন্তু, কিছু বইয়য়ের দাম বেশি। নাহলে আমি  টি বই কিনার ইচ্ছা আসে।'

In [3]:
# Remove punctuation (including Bangla and English punctuation)
punctuation_pattern = r'[^\w\s\u0980-\u09FF]'  # Retain Bangla and English word characters and whitespace
text = re.sub(punctuation_pattern, '', text)
text = text.strip()
text

'আমি বাংলায়য় বই পডয়তে ভালোবাসি এটি খুবই আনন্দদায়য়ক কিন্তু কিছু বইয়য়ের দাম বেশি নাহলে আমি  টি বই কিনার ইচ্ছা আসে'

In [4]:
# Tokenize (split by whitespace)
tokens = text.split()
print(tokens)

['আমি', 'বাংলায়য়', 'বই', 'পডয়তে', 'ভালোবাসি', 'এটি', 'খুবই', 'আনন্দদায়য়ক', 'কিন্তু', 'কিছু', 'বইয়য়ের', 'দাম', 'বেশি', 'নাহলে', 'আমি', 'টি', 'বই', 'কিনার', 'ইচ্ছা', 'আসে']


In [5]:
# Define a basic set of Bangla stopwords
bangla_stopwords = set([
    'আমি', 'আমরা', 'তুমি', 'তোমরা', 'সে', 'তারা', 'এই', 'ওই', 'এটি', 'ওটি', 'এ', 'ও', 'কিছু', 'কিন্তু', 'আর', 'তবে', 'যে', 'যা', 'তাই', 'এবং', 'বা', 'এর', 'তার', 'এরই', 'তাদের', 'নাহলে', 'টি', 'একটি', 'খুবই', 'ভালো', 'ভালোবাসি', 'আসে', 'হয়', 'হয়', 'দিয়ে', 'দিয়ে', 'করে', 'করেছে', 'করেন', 'করছি', 'করবে', 'করার', 'কিনার', 'পড়তে', 'পড়ে', 'পড়ার', 'দাম', 'বেশি', 'আনন্দ', 'আনন্দদায়ক', 'আনন্দদায়ক', 'ভালোবাসা', 'ভালোবাসি', 'নয়', 'নয়', 'হয়েছে', 'হয়েছে', 'হয়নি', 'হয়নি'
])

# Remove stopwords
filtered_tokens = [token for token in tokens if token not in bangla_stopwords]
print(filtered_tokens)

['বাংলায়য়', 'বই', 'পডয়তে', 'আনন্দদায়য়ক', 'বইয়য়ের', 'বই', 'ইচ্ছা']


# Tokenize using bnlp

Doc: https://github.com/sagorbrur/bnlp/tree/main/docs

In [6]:
%pip install bnlp_toolkit

Note: you may need to restart the kernel to use updated packages.


# Basic Tokenization

In [7]:
from bnlp import BasicTokenizer

tokenizer = BasicTokenizer()

raw_text = "আমি বাংলায় গান গাই।"
tokens = tokenizer(raw_text)
print(tokens)
# output: ["আমি", "বাংলায়", "গান", "গাই", "।"]

  from .autonotebook import tqdm as notebook_tqdm


['আমি', 'বাংলায়', 'গান', 'গাই', '।']


# NLTK Tokenization

In [None]:
from bnlp import NLTKTokenizer

bnltk = NLTKTokenizer()

text = "আমি ভাত খাই। সে বাজারে যায়। তিনি কি সত্যিই ভালো মানুষ?"
word_tokens = bnltk.word_tokenize(text)
sentence_tokens = bnltk.sentence_tokenize(text)
print(word_tokens)
print(sentence_tokens)
# output
# word_token: ["আমি", "ভাত", "খাই", "।", "সে", "বাজারে", "যায়", "।", "তিনি", "কি", "সত্যিই", "ভালো", "মানুষ", "?"]
# sentence_token: ["আমি ভাত খাই।", "সে বাজারে যায়।", "তিনি কি সত্যিই ভালো মানুষ?"]

['আমি', 'ভাত', 'খাই', '।', 'সে', 'বাজারে', 'যায়', '।', 'তিনি', 'কি', 'সত্যিই', 'ভালো', 'মানুষ', '?']
['আমি ভাত খাই।', 'সে বাজারে যায়।', 'তিনি কি সত্যিই ভালো মানুষ?']


# Bengali SentencePiece Tokenization

Tokenization using trained model

In [9]:
from bnlp import SentencepieceTokenizer

bsp = SentencepieceTokenizer()


input_text = "আমি ভাত খাই। সে বাজারে যায়।"
tokens = bsp.tokenize(input_text)
print(tokens)
text2id = bsp.text2id(input_text)
print(text2id)
id2text = bsp.id2text(text2id)
print(id2text)

['▁আমি', '▁ভাত', '▁খাই', '।', '▁সে', '▁বাজারে', '▁যায়', '।']
[914, 5265, 24224, 3, 124, 2244, 41, 3]
আমি ভাত খাই। সে বাজারে যায়।


In [10]:
from bnlp import BengaliCorpus as corpus

# Preprocessing Bangla text
text = "আমি ভাত খাই। সে বাজারে যায়।"

# Removing punctuations
punctuations_removed = ''.join([char for char in text if char not in corpus.punctuations])
print("Punctuations removed:", punctuations_removed)

# Removing digits
digits_removed = ''.join([char for char in punctuations_removed if char not in corpus.digits])
print("Digits removed:", digits_removed)


Punctuations removed: আমি ভাত খাই সে বাজারে যায়
Digits removed: আমি ভাত খাই সে বাজারে যায়


In [11]:
from bnlp import NLTKTokenizer

bnltk = NLTKTokenizer()

word_tokens = bnltk.word_tokenize(digits_removed)

print(word_tokens)

['আমি', 'ভাত', 'খাই', 'সে', 'বাজারে', 'যায়']


In [12]:
# Removing stopwords
stopwords_removed = [word for word in word_tokens if word not in corpus.stopwords]
print("Stopwords removed:", stopwords_removed)

Stopwords removed: ['ভাত', 'খাই', 'বাজারে', 'যায়']


# Stemming

In [13]:
def bangla_stem(word):
    suffixes = [
        "গুলো", "গুলি", "রা", "টির", "তে", "কে", "তো", "টা", "টির", "টির", "দের", "য়ের",
        "য়", "ের", "ে", "ি", "র", "টি", "টা", "েরা", "েরা", "কে", "ও"
    ]

    for suffix in sorted(suffixes, key=len, reverse=True):  # Longest match first
        if word.endswith(suffix) and len(word) > len(suffix) + 1:
            return word[:-len(suffix)]
    return word


In [14]:
print([bangla_stem(word) for word in word_tokens])

['আম', 'ভাত', 'খাই', 'সে', 'বাজার', 'যায়']
