In [1]:
!pip install pyspark
!pip install bnlp_toolkit
!pip install nlu



In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from bnlp import BengaliCorpus as corpus
from bnlp import CleanText
from sklearn.feature_extraction.text import TfidfVectorizer
from bnlp import NLTKTokenizer
import nlu



In [3]:
train_df = pd.read_csv("/kaggle/input/sentnob-sentiment-analysis-in-noisy-bangla-texts/SentNoB Dataset/Train.csv")

In [4]:
train_df.head()

Unnamed: 0,Data,Label
0,মুগ্ধ হয়ে গেলাম মামু. আর তোমায় কি কমু. বলো তোম...,1
1,এই কুত্তার বাচ্চাদের জন্য দেশটা আজ এমন অবস্তায়...,2
2,ভাই আপনার কথাই যাদু রয়েছে,1
3,উওরটা আমার অনেক ভাল লেগেছে,1
4,আমার নিজের গাড়ী নিয়ে কি সাজেক যেতে পারবো না ?...,0


In [5]:
train_df.dropna(inplace=True)

In [6]:
longest_string = max(train_df["Data"], key=len)
print(len(longest_string))

372


In [7]:
clean_text = CleanText(
   fix_unicode=True,
   unicode_norm=True,
   unicode_norm_form="NFKC",
   remove_url=False,
   remove_email=False,
   remove_emoji=False,
   remove_number=False,
   remove_digits=False,
   remove_punct=False,
   replace_with_url="<URL>",
   replace_with_email="<EMAIL>",
   replace_with_number="<NUMBER>",
   replace_with_digit="<DIGIT>",
   replace_with_punct = "<PUNC>"
)

train_df['Data'] = train_df['Data'].apply(clean_text)

In [8]:
longest_string = max(train_df["Data"], key=len)
print(len(longest_string))

372


In [9]:
test_df = pd.read_csv("/kaggle/input/sentnob-sentiment-analysis-in-noisy-bangla-texts/SentNoB Dataset/Val.csv")

In [10]:
test_df.head()

Unnamed: 0,Data,Label
0,আর আমার খুবেই আনন্দ লাকছে ভাইটি চাকরি পেয়েছে,1
1,ভাই আমাদের আগের মেয়র আনিচুল হক নাই যে আমাদের ক...,2
2,আমি মার্ক ওয়েন আর সনির বিশাল ভক্ত । একটা সময় ভ...,1
3,৩ মাস না যেতেই একেকজন ফুলে ফেপে আলুর দম,2
4,"বাংলাদেশের পুলিশ হলো নিরীহ মানুষের যম , আর অত্...",2


In [11]:
test_df.dropna(inplace=True)

In [12]:
longest_string = max(test_df["Data"], key=len)
print(len(longest_string))

288


In [13]:
clean_text = CleanText(
   fix_unicode=True,
   unicode_norm=True,
   unicode_norm_form="NFKC",
   remove_url=False,
   remove_email=False,
   remove_emoji=False,
   remove_number=False,
   remove_digits=False,
   remove_punct=False,
   replace_with_url="<URL>",
   replace_with_email="<EMAIL>",
   replace_with_number="<NUMBER>",
   replace_with_digit="<DIGIT>",
   replace_with_punct = "<PUNC>"
)

test_df['Data'] = test_df['Data'].apply(clean_text)

In [14]:
longest_string = max(test_df["Data"], key=len)
print(len(longest_string))

292


In [15]:
stop_words={'অতএব',
 'অথচ',
  'অবধি',
 'অর্থাত',
 'আই',
 'আর',
 'আরও',
 'ই',
 'ইহা',
  'এ',
 'এই',
 'একই',
 'একে',
 'এটা',
 'এটাই',
  'এত',
  'এতে',
  'এব',
 'এর',
 'এস',
 'ঐ',
 'ও',
 'ওঁর',
 'ওঁরা',
 'ওই',
 'ওকে',
  'ওর',
 'ওরা',
 'কমনে',
  'করা',
 'করাই',
 'করায়',
 'করিয়ে',
 'করেই',
 'কাছ',
 'কারও',
 'কি',
 'কিংবা',
  'কী',
 'কে',
 'কেউ',
 'কেউই',
 'কেখা',
 'ছাড়াও',
 'জন্যওজে',
 'জানিয়েছে',
 'জে',
 'জ্নজন',
 'টি',
 'তত',
 'তা',
 'তাঁাহারা',
 'তাই',
 'তাও',
 'তাতে',
 'তারৈ',
 'তাহা',
 'তাহাতে',
 'তিনঐ',
 'তুলে',
 'তো',
 'দু',
 'ধামার',
 'পরেই',
 'পাচ',
 'পি',
 'পেয়্র্',
 'প্রযন্ত',
 'ফের',
 'বরং',
 'বহু',
 'বা',
 'বি',
 'মোটেই',
 'যা',
 'যে',
 'র',
 'সহ',
 'সহিত',
 'সি',
 'সে',
 'সেই',
 'সেটাই',
 'স্বয়ং',
 'হত',
 'হতেই',
 'হন',
  'হয়েই',
 'হলেই',
 'হৈলে'}

In [16]:
#Tokenizer
from bnlp import NLTKTokenizer
bnltk = NLTKTokenizer()

#for Train Set
for i in range(0,train_df.shape[0]):
    text = bnltk.word_tokenize(train_df['Data'][i])
    train_df['Data'][i] = text
#For Test Set   
for i in range(0,test_df.shape[0]):
    text = bnltk.word_tokenize(test_df['Data'][i])
    test_df['Data'][i] = text

In [17]:
for i in range(0,train_df.shape[0]):
    words = train_df['Data'][i]
    train_df['Data'][i] =  ([word for word in words if word.lower() not in stop_words])

In [18]:
for i in range(0,test_df.shape[0]):
    words = test_df['Data'][i]
    test_df['Data'][i] =  ([word for word in words if word.lower() not in stop_words])

In [19]:
def rejoin_text(text):
     return " ".join(text)

In [20]:
for i in range(0,train_df.shape[0]):
    train_df['Data'][i] = rejoin_text(train_df['Data'][i])
    
for i in range(0,test_df.shape[0]):
    test_df['Data'][i] = rejoin_text(test_df['Data'][i])

In [21]:
train_df['Data'].head()

0    মুগ্ধ হয়ে গেলাম মামু. তোমায় কমু. বলো তোমায় ...
1    কুত্তার বাচ্চাদের জন্য দেশটা আজ এমন অবস্তায় ত...
2                           ভাই আপনার কথাই যাদু রয়েছে
3                           উওরটা আমার অনেক ভাল লেগেছে
4    আমার নিজের গাড়ী নিয়ে সাজেক যেতে পারবো না ? প...
Name: Data, dtype: object

In [22]:
test_df['Data'].head()

0           আমার খুবেই আনন্দ লাকছে ভাইটি চাকরি পেয়েছে
1    ভাই আমাদের আগের মেয়র আনিচুল হক নাই আমাদের সুখ...
2    আমি মার্ক ওয়েন সনির বিশাল ভক্ত । একটা সময় ভা...
3              ৩ মাস না যেতেই একেকজন ফুলে ফেপে আলুর দম
4    বাংলাদেশের পুলিশ হলো নিরীহ মানুষের যম , অত্চার...
Name: Data, dtype: object

In [23]:
# from sklearn.model_selection import train_test_split
train = train_df['Data'].values.tolist()
test = test_df['Data'].values.tolist()
train_cluster_id = train_df['Label'].tolist()
test_cluster_id = test_df['Label'].tolist()

In [24]:
X_train = train
y_train = train_cluster_id
X_test = test
y_test = test_cluster_id

In [25]:
pip install ktrain

Note: you may need to restart the kernel to use updated packages.


In [26]:
import ktrain
from ktrain import text
MODEL_NAME = 'csebuetnlp/banglabert'
t = text.Transformer(MODEL_NAME, maxlen=500)

In [27]:
y_train = [str(x) for x in train_cluster_id]
y_test = [str(x) for x in test_cluster_id]

In [28]:
trn = t.preprocess_train(X_train, y_train)
val = t.preprocess_test(X_test, y_test)

preprocessing train...
language: bn
train sequence lengths:
	mean : 14
	95percentile : 34
	99percentile : 44


Is Multi-Label? False
preprocessing test...
language: bn
test sequence lengths:
	mean : 15
	95percentile : 35
	99percentile : 44


In [29]:
model = t.get_classifier()

learner = ktrain.get_learner(model, train_data=trn, val_data=val, batch_size=16)

learner.fit_onecycle(1e-4, 5)



begin training using onecycle policy with max lr of 0.0001...
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.src.callbacks.History at 0x7d507528d720>

In [30]:
learner.validate(class_names=t.get_classes())

              precision    recall  f1-score   support

           0       0.61      0.54      0.57       354
           1       0.78      0.83      0.81       623
           2       0.83      0.83      0.83       590

    accuracy                           0.76      1567
   macro avg       0.74      0.73      0.73      1567
weighted avg       0.76      0.76      0.76      1567



array([[190,  98,  66],
       [ 68, 520,  35],
       [ 55,  48, 487]])

In [31]:
predictor = ktrain.get_predictor(learner.model, preproc=t)
predictor.save('combined_model')

In [32]:
learner.model.summary()

Model: "tf_electra_for_sequence_classification_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 electra (TFElectraMainLaye  multiple                  110026752 
 r)                                                              
                                                                 
 classifier (TFElectraClass  multiple                  592899    
 ificationHead)                                                  
                                                                 
Total params: 110619651 (421.98 MB)
Trainable params: 110619651 (421.98 MB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________
