# install required libraries

In [1]:
#!pip install nltk pandas scikit-learn

# Import Libraries & Download NLTK Resources

In [2]:
import re
import pandas as pd
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

# Download required NLTK data
nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('indian')  # Contains Bengali language support
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package indian to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package indian is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

##  Load Bengali Text Data

In [3]:
# Sample Bengali text
text = """
বাংলা ভাষা বাংলাদেশের রাষ্ট্রভাষা। ১৯৫২ সালের ভাষা আন্দোলনের মাধ্যমে বাংলা ভাষার মর্যাদা প্রতিষ্ঠিত হয়। 
আমরা বাংলায় কথা বলি, গান গাই এবং লেখালেখি করি। বাংলা সাহিত্য সমৃদ্ধ ও প্রাচীন।
"""

# Preprocess: Remove extra whitespace and newlines
text = re.sub(r'\s+', ' ', text).strip()
print("Original Text:\n", text)

Original Text:
 বাংলা ভাষা বাংলাদেশের রাষ্ট্রভাষা। ১৯৫২ সালের ভাষা আন্দোলনের মাধ্যমে বাংলা ভাষার মর্যাদা প্রতিষ্ঠিত হয়। আমরা বাংলায় কথা বলি, গান গাই এবং লেখালেখি করি। বাংলা সাহিত্য সমৃদ্ধ ও প্রাচীন।


## Word Tokenization (using the Indian language tokenizer)

In [4]:
# Word Tokenization (using the Indian language tokenizer)
words = word_tokenize(text)
print("\nWord Tokens:\n", words)


Word Tokens:
 ['বাংলা', 'ভাষা', 'বাংলাদেশের', 'রাষ্ট্রভাষা।', '১৯৫২', 'সালের', 'ভাষা', 'আন্দোলনের', 'মাধ্যমে', 'বাংলা', 'ভাষার', 'মর্যাদা', 'প্রতিষ্ঠিত', 'হয়।', 'আমরা', 'বাংলায়', 'কথা', 'বলি', ',', 'গান', 'গাই', 'এবং', 'লেখালেখি', 'করি।', 'বাংলা', 'সাহিত্য', 'সমৃদ্ধ', 'ও', 'প্রাচীন।']


In [5]:
# Sentence Tokenization
sentences = nltk.sent_tokenize(text)
print("\nSentence Tokens:\n", sentences)


Sentence Tokens:
 ['বাংলা ভাষা বাংলাদেশের রাষ্ট্রভাষা। ১৯৫২ সালের ভাষা আন্দোলনের মাধ্যমে বাংলা ভাষার মর্যাদা প্রতিষ্ঠিত হয়। আমরা বাংলায় কথা বলি, গান গাই এবং লেখালেখি করি। বাংলা সাহিত্য সমৃদ্ধ ও প্রাচীন।']


## Punctuation Removal

In [6]:
# Define Bengali punctuation marks
bengali_punctuations = '''!()-[]{};:'"\,<>./?@#$%^&*_~।'''

# Remove punctuations
filtered_words = [word for word in words if word not in bengali_punctuations]
print("\nAfter Punctuation Removal:\n", filtered_words)


After Punctuation Removal:
 ['বাংলা', 'ভাষা', 'বাংলাদেশের', 'রাষ্ট্রভাষা।', '১৯৫২', 'সালের', 'ভাষা', 'আন্দোলনের', 'মাধ্যমে', 'বাংলা', 'ভাষার', 'মর্যাদা', 'প্রতিষ্ঠিত', 'হয়।', 'আমরা', 'বাংলায়', 'কথা', 'বলি', 'গান', 'গাই', 'এবং', 'লেখালেখি', 'করি।', 'বাংলা', 'সাহিত্য', 'সমৃদ্ধ', 'ও', 'প্রাচীন।']


  bengali_punctuations = '''!()-[]{};:'"\,<>./?@#$%^&*_~।'''


## Stopword Removal

In [7]:
# Load Bengali stopwords (manually defined, as NLTK doesn't have built-in Bengali stopwords)
bengali_stopwords = set([
    "এবং", "আমি", "আমরা", "তুমি", "তোমরা", "সে", "তারা", "এই", "যে", "কি", "হয়", "হতে", "হচ্ছে", 
    "এর", "করে", "নেই", "না", "এ", "কিন্তু", "বা", "ও", "যখন", "তখন", "সব", "একটি", "আর"
])

# Remove stopwords
filtered_words = [word for word in filtered_words if word.lower() not in bengali_stopwords]
print("\nAfter Stopword Removal:\n", filtered_words)


After Stopword Removal:
 ['বাংলা', 'ভাষা', 'বাংলাদেশের', 'রাষ্ট্রভাষা।', '১৯৫২', 'সালের', 'ভাষা', 'আন্দোলনের', 'মাধ্যমে', 'বাংলা', 'ভাষার', 'মর্যাদা', 'প্রতিষ্ঠিত', 'হয়।', 'বাংলায়', 'কথা', 'বলি', 'গান', 'গাই', 'লেখালেখি', 'করি।', 'বাংলা', 'সাহিত্য', 'সমৃদ্ধ', 'প্রাচীন।']


## Stemming (Snowball Stemmer for Bengali)

In [8]:
#!pip install bangla-stemmer

from bangla_stemmer.stemmer import stemmer

# Initialize Bengali stemmer
bn_stemmer = stemmer.BanglaStemmer()

# Sample Bengali words
words = ["ভাষার", "বাংলাদেশের", "লেখালেখি"]

# Apply stemming
stemmed_words = [bn_stemmer.stem(word) for word in words]
print("Stemmed words:", stemmed_words)

applied fourth rules..
applied fourth rules..
Stemmed words: ['ভাষা', 'বাংলাদেশের', 'লেখালেখি']


# Bangla lemmetization

In [10]:
# First uninstall any existing versions and install the correct package
!pip uninstall -y bnlp bnlp-toolkit
!pip install bnlp-toolkit

# Correct import for current versions
from bnlp import BasicLemmatizer

# Initialize lemmatizer (will download models automatically)
lemmatizer = BasicLemmatizer()

# Example usage
words = ["করছি", "করেছিলাম", "করব", "করেছে", "করেছেন"]
for word in words:
    print(f"{word} → {lemmatizer.lemma(word)}")

Found existing installation: bnlp-toolkit 4.0.0




Uninstalling bnlp-toolkit-4.0.0:
  Successfully uninstalled bnlp-toolkit-4.0.0
Collecting bnlp-toolkit
  Using cached bnlp_toolkit-4.0.3-py3-none-any.whl.metadata (3.3 kB)
Collecting gensim==4.3.2 (from bnlp-toolkit)
  Using cached gensim-4.3.2.tar.gz (23.3 MB)
  Installing build dependencies: started
  Installing build dependencies: finished with status 'done'
  Getting requirements to build wheel: started
  Getting requirements to build wheel: finished with status 'done'
  Preparing metadata (pyproject.toml): started
  Preparing metadata (pyproject.toml): finished with status 'done'
INFO: pip is looking at multiple versions of bnlp-toolkit to determine which version is compatible with other requirements. This could take a while.
Collecting bnlp-toolkit
  Using cached bnlp_toolkit-4.0.2-py3-none-any.whl.metadata (3.3 kB)
  Using cached bnlp_toolkit-4.0.1-py3-none-any.whl.metadata (3.3 kB)
Collecting nltk==3.8.1 (from bnlp-toolkit)
  Using cached nltk-3.8.1-py3-none-any.whl.metadata (


[notice] A new release of pip is available: 24.3.1 -> 25.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


ImportError: cannot import name 'BasicLemmatizer' from 'bnlp' (C:\Users\user\AppData\Local\Programs\Python\Python312\Lib\site-packages\bnlp\__init__.py)

## TF-IDF and Count Vectorize

In [45]:
# Vectorization
documents = [
    "বাংলাদেশ একটি সুন্দর দেশ",
    "এখানে নদী ও পাহাড় আছে",
    "বাংলা ভাষা মিষ্টি ভাষা"
]

# CountVectorizer
count_vectorizer = CountVectorizer()
X_count = count_vectorizer.fit_transform(documents)
print("\nCount Vectorizer:\n", pd.DataFrame(X_count.toarray(), columns=count_vectorizer.get_feature_names_out()))

# TF-IDF Vectorizer
tfidf_vectorizer = TfidfVectorizer()
X_tfidf = tfidf_vectorizer.fit_transform(documents)
print("\nTF-IDF Vectorizer:\n", pd.DataFrame(X_tfidf.toarray(), columns=tfidf_vectorizer.get_feature_names_out()))


Count Vectorizer:
    আছ  একট  এখ  দর  নদ
0   0    1   0   1   0
1   1    0   1   0   1
2   0    0   0   0   0

TF-IDF Vectorizer:
         আছ       একট       এখ        দর       নদ
0  0.00000  0.707107  0.00000  0.707107  0.00000
1  0.57735  0.000000  0.57735  0.000000  0.57735
2  0.00000  0.000000  0.00000  0.000000  0.00000
