1: Install and Import Required Modules and Libraries

In [2]:
%pip install pandas numpy nltk scikit-learn
%pip install -U bnlp_toolkit

import pandas as pd
import nltk
nltk.download('punkt_tab')
nltk.download('stopwords')
from nltk.corpus import stopwords
import re
from bnlp import BengaliCorpus as corpus # Import the BengaliCorpus class
from bnlp import NLTKTokenizer

Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.


[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\thetr\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\thetr\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
  from .autonotebook import tqdm as notebook_tqdm


2: Load the dataset

In [3]:
# Load the CSV file
df = pd.read_csv("data.csv", encoding='utf-8')

# Display basic info and a sample of the data
df.info()
df.head() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20000 entries, 0 to 19999
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   content   19996 non-null  object
 1   category  20000 non-null  object
dtypes: object(2)
memory usage: 312.6+ KB


Unnamed: 0,content,category
0,গাজীপুরের কালিয়াকৈর উপজেলার তেলিরচালা এলাকায়...,bangladesh
1,এবারের উইম্বলডনটা স্মরণীয় করে রাখার মিশনেই যে...,sports
2,জাতীয় সংসদে বিএনপি চেয়ারপারসন ও বিরোধীদলীয় ...,bangladesh
3,সহজ পাসওয়ার্ডের কারণে অনলাইন অ্যাকাউন্ট সহজেই...,technology
4,কম্পিউটার মাউসের উদ্ভাবক ডগলাস অ্যাঙ্গেলবার্ট ...,technology


3: Text Cleaning and Normalization

In [4]:
def clean_text(text):
    # Check if text is a string, otherwise convert to an empty string
    if not isinstance(text, str):
        text = ""
    # Keep only Bangla characters and remove punctuation or symbols or unnecessary whitespace
    text = re.sub(r'[^\u0980-\u09FF\s]', '', text)  # Keep only Bangla characters
    text = re.sub(r'\s+', ' ', text).strip()  # Remove extra spaces
    return text

df['cleaned_text'] = df['content'].apply(clean_text) 
df[['content', 'cleaned_text']].head()

Unnamed: 0,content,cleaned_text
0,গাজীপুরের কালিয়াকৈর উপজেলার তেলিরচালা এলাকায়...,গাজীপুরের কালিয়াকৈর উপজেলার তেলিরচালা এলাকায়...
1,এবারের উইম্বলডনটা স্মরণীয় করে রাখার মিশনেই যে...,এবারের উইম্বলডনটা স্মরণীয় করে রাখার মিশনেই যে...
2,জাতীয় সংসদে বিএনপি চেয়ারপারসন ও বিরোধীদলীয় ...,জাতীয় সংসদে বিএনপি চেয়ারপারসন ও বিরোধীদলীয় ...
3,সহজ পাসওয়ার্ডের কারণে অনলাইন অ্যাকাউন্ট সহজেই...,সহজ পাসওয়ার্ডের কারণে অনলাইন অ্যাকাউন্ট সহজেই...
4,কম্পিউটার মাউসের উদ্ভাবক ডগলাস অ্যাঙ্গেলবার্ট ...,কম্পিউটার মাউসের উদ্ভাবক ডগলাস অ্যাঙ্গেলবার্ট ...


4: Tokenization

In [5]:
# Initialize tokenizer
tokenizer = NLTKTokenizer()

def tokenize_text(text):
    tokens = tokenizer.word_tokenize(text)
    return tokens

df['tokens'] = df['cleaned_text'].apply(tokenize_text)
df[['cleaned_text', 'tokens']].head()

Unnamed: 0,cleaned_text,tokens
0,গাজীপুরের কালিয়াকৈর উপজেলার তেলিরচালা এলাকায়...,"[গাজীপুরের, কালিয়াকৈর, উপজেলার, তেলিরচালা, এল..."
1,এবারের উইম্বলডনটা স্মরণীয় করে রাখার মিশনেই যে...,"[এবারের, উইম্বলডনটা, স্মরণীয়, করে, রাখার, মিশ..."
2,জাতীয় সংসদে বিএনপি চেয়ারপারসন ও বিরোধীদলীয় ...,"[জাতীয়, সংসদে, বিএনপি, চেয়ারপারসন, ও, বিরোধী..."
3,সহজ পাসওয়ার্ডের কারণে অনলাইন অ্যাকাউন্ট সহজেই...,"[সহজ, পাসওয়ার্ডের, কারণে, অনলাইন, অ্যাকাউন্ট,..."
4,কম্পিউটার মাউসের উদ্ভাবক ডগলাস অ্যাঙ্গেলবার্ট ...,"[কম্পিউটার, মাউসের, উদ্ভাবক, ডগলাস, অ্যাঙ্গেলব..."


5: Stop Word Removal

In [6]:
# Load Bangla stop words as a set for faster lookup
stop_words = set(corpus.stopwords)

def remove_stopwords(tokens):
    return [word for word in tokens if word not in stop_words]

df['tokens_no_stopwords'] = df['tokens'].apply(remove_stopwords)
df['preprocessed_text'] = df['tokens_no_stopwords'].apply(lambda tokens: ' '.join(tokens))
df[['cleaned_text', 'tokens_no_stopwords', 'preprocessed_text']].head()

Unnamed: 0,cleaned_text,tokens_no_stopwords,preprocessed_text
0,গাজীপুরের কালিয়াকৈর উপজেলার তেলিরচালা এলাকায়...,"[গাজীপুরের, কালিয়াকৈর, উপজেলার, তেলিরচালা, এল...",গাজীপুরের কালিয়াকৈর উপজেলার তেলিরচালা এলাকায়...
1,এবারের উইম্বলডনটা স্মরণীয় করে রাখার মিশনেই যে...,"[এবারের, উইম্বলডনটা, স্মরণীয়, রাখার, মিশনেই, ...",এবারের উইম্বলডনটা স্মরণীয় রাখার মিশনেই নেমেছে...
2,জাতীয় সংসদে বিএনপি চেয়ারপারসন ও বিরোধীদলীয় ...,"[জাতীয়, সংসদে, বিএনপি, চেয়ারপারসন, বিরোধীদলী...",জাতীয় সংসদে বিএনপি চেয়ারপারসন বিরোধীদলীয় নে...
3,সহজ পাসওয়ার্ডের কারণে অনলাইন অ্যাকাউন্ট সহজেই...,"[সহজ, পাসওয়ার্ডের, কারণে, অনলাইন, অ্যাকাউন্ট,...",সহজ পাসওয়ার্ডের কারণে অনলাইন অ্যাকাউন্ট সহজেই...
4,কম্পিউটার মাউসের উদ্ভাবক ডগলাস অ্যাঙ্গেলবার্ট ...,"[কম্পিউটার, মাউসের, উদ্ভাবক, ডগলাস, অ্যাঙ্গেলব...",কম্পিউটার মাউসের উদ্ভাবক ডগলাস অ্যাঙ্গেলবার্ট ...


6: Save Preprocessed Data

In [7]:
df[['content', 'preprocessed_text']].to_csv("preprocessed_data.csv", index=False)
print("Preprocessed data saved to 'preprocessed_data.csv'")

Preprocessed data saved to 'preprocessed_data.csv'


In [8]:
# Check length of preprocessed text
df['preprocessed_text'].apply(lambda x: len(x.split())).describe()

count    20000.000000
mean       175.535000
std        133.718553
min          0.000000
25%         88.000000
50%        142.000000
75%        222.000000
max       1497.000000
Name: preprocessed_text, dtype: float64