In [1]:
import pandas as pd

In [2]:
df = pd.read_excel("/content/drive/MyDrive/Colab Notebooks/CyberBulling_Dataset_Bangla.xlsx")

In [3]:
df

Unnamed: 0.1,Unnamed: 0,Description,Label
0,0,ওই হালার পুত এখন কি মদ খাওয়ার সময় রাতের বেলা...,sexual
1,1,আপনার জন্ম প্রক্রিয়ার সময় আপনার মায়ের ভিতর কি ...,sexual
2,2,ধজভংগ দের আর ভায়াগ্রা লাগবো না। ধংস হোক এই সব ...,sexual
3,3,বোকাচোদা একটা।,sexual
4,4,তোর দেশে ফেরার অপেক্ষায় রইলাম। জেলে একটা কামরা...,sexual
...,...,...,...
6005,6005,কপাল পোড়া,Neutral
6006,6006,আল্লাহ আপনাকে হেদায়েত দান করুক আমীন।আমিও একজন ...,Neutral
6007,6007,"শুধু সুন্দর চেহারার হিরো আপনি নন, সুন্দর মনের ...",Neutral
6008,6008,আল্লাহ আপনাকে সুস্থ রাখুক। ভাইরাস থেকে দেশের ম...,Neutral


In [58]:
df = df[["Description", "Label"]]

# **Data Engineering**

First, all labels to numeric values

In [59]:
multi_class_label_mapping = {'Political': 0, 'sexual': 1, 'troll': 2, 'Threat': 3, 'Neutral': 4}
binary_class_label_mapping = {'Political': 1, 'sexual': 1, 'troll': 1, 'Threat': 1, 'Neutral': 0}

df['multi_class_label'] = df['Label'].map(multi_class_label_mapping)
df['binary_class_label'] = df['Label'].map(binary_class_label_mapping)

In [60]:
df

Unnamed: 0,Description,Label,multi_class_label,binary_class_label
0,ওই হালার পুত এখন কি মদ খাওয়ার সময় রাতের বেলা...,sexual,1,1
1,আপনার জন্ম প্রক্রিয়ার সময় আপনার মায়ের ভিতর কি ...,sexual,1,1
2,ধজভংগ দের আর ভায়াগ্রা লাগবো না। ধংস হোক এই সব ...,sexual,1,1
3,বোকাচোদা একটা।,sexual,1,1
4,তোর দেশে ফেরার অপেক্ষায় রইলাম। জেলে একটা কামরা...,sexual,1,1
...,...,...,...,...
6005,কপাল পোড়া,Neutral,4,0
6006,আল্লাহ আপনাকে হেদায়েত দান করুক আমীন।আমিও একজন ...,Neutral,4,0
6007,"শুধু সুন্দর চেহারার হিরো আপনি নন, সুন্দর মনের ...",Neutral,4,0
6008,আল্লাহ আপনাকে সুস্থ রাখুক। ভাইরাস থেকে দেশের ম...,Neutral,4,0


# Let's prepare our data for training [**Remove stopwords, punctuations, apply tf-idf **]

In [61]:
!pip install bnlp_toolkit  # https://github.com/sagorbrur/bnlp/tree/main



In [62]:
from bnlp import BengaliCorpus as corpus
from bnlp import NLTKTokenizer

bnltk = NLTKTokenizer()

stopwords = corpus.stopwords
punctuations = corpus.punctuations

In [63]:
from bnlp import CleanText

clean_text = CleanText(
   fix_unicode=True,
   unicode_norm=True,
   unicode_norm_form="NFKC",
   remove_url=True,
   remove_email=True,
   remove_emoji=True,
   remove_number=True,
   remove_digits=True,
   remove_punct=True,
   replace_with_url="",
   replace_with_email="",
   replace_with_number="",
   replace_with_digit="",
   replace_with_punct = " "
)

In [None]:
df['cleaned_text'] = df['Description'].apply(clean_text)

In [65]:
df

Unnamed: 0,Description,Label,multi_class_label,binary_class_label,cleaned_text
0,ওই হালার পুত এখন কি মদ খাওয়ার সময় রাতের বেলা...,sexual,1,1,ওই হালার পুত এখন কি মদ খাওয়ার সময় রাতের বেলা...
1,আপনার জন্ম প্রক্রিয়ার সময় আপনার মায়ের ভিতর কি ...,sexual,1,1,আপনার জন্ম প্রক্রিয়ার সময় আপনার মায়ের ভিতর ...
2,ধজভংগ দের আর ভায়াগ্রা লাগবো না। ধংস হোক এই সব ...,sexual,1,1,ধজভংগ দের আর ভায়াগ্রা লাগবো না ধংস হোক এই সব...
3,বোকাচোদা একটা।,sexual,1,1,বোকাচোদা একটা
4,তোর দেশে ফেরার অপেক্ষায় রইলাম। জেলে একটা কামরা...,sexual,1,1,তোর দেশে ফেরার অপেক্ষায় রইলাম জেলে একটা কামর...
...,...,...,...,...,...
6005,কপাল পোড়া,Neutral,4,0,কপাল পোড়া
6006,আল্লাহ আপনাকে হেদায়েত দান করুক আমীন।আমিও একজন ...,Neutral,4,0,আল্লাহ আপনাকে হেদায়েত দান করুক আমীন আমিও একজন...
6007,"শুধু সুন্দর চেহারার হিরো আপনি নন, সুন্দর মনের ...",Neutral,4,0,শুধু সুন্দর চেহারার হিরো আপনি নন সুন্দর মনের ...
6008,আল্লাহ আপনাকে সুস্থ রাখুক। ভাইরাস থেকে দেশের ম...,Neutral,4,0,আল্লাহ আপনাকে সুস্থ রাখুক ভাইরাস থেকে দেশের ম...


In [66]:
def preprocess_text(text):
    tokens = bnltk.word_tokenize(text)
    tokens = [word for word in tokens if word not in stopwords and word not in punctuations]
    preprocessed_text = ' '.join(tokens)

    return preprocessed_text

In [67]:
df['processed_text'] = df['cleaned_text'].apply(preprocess_text)

In [68]:
df

Unnamed: 0,Description,Label,multi_class_label,binary_class_label,cleaned_text,processed_text
0,ওই হালার পুত এখন কি মদ খাওয়ার সময় রাতের বেলা...,sexual,1,1,ওই হালার পুত এখন কি মদ খাওয়ার সময় রাতের বেলা...,হালার পুত মদ খাওয়ার সময় রাতের বেলা মদ খাই দি...
1,আপনার জন্ম প্রক্রিয়ার সময় আপনার মায়ের ভিতর কি ...,sexual,1,1,আপনার জন্ম প্রক্রিয়ার সময় আপনার মায়ের ভিতর ...,জন্ম প্রক্রিয়ার সময় মায়ের ভিতর বাবা হুমায়ু...
2,ধজভংগ দের আর ভায়াগ্রা লাগবো না। ধংস হোক এই সব ...,sexual,1,1,ধজভংগ দের আর ভায়াগ্রা লাগবো না ধংস হোক এই সব...,ধজভংগ দের ভায়াগ্রা লাগবো ধংস কুলখানকিরা
3,বোকাচোদা একটা।,sexual,1,1,বোকাচোদা একটা,বোকাচোদা একটা
4,তোর দেশে ফেরার অপেক্ষায় রইলাম। জেলে একটা কামরা...,sexual,1,1,তোর দেশে ফেরার অপেক্ষায় রইলাম জেলে একটা কামর...,তোর দেশে ফেরার অপেক্ষায় রইলাম জেলে একটা কামরা...
...,...,...,...,...,...,...
6005,কপাল পোড়া,Neutral,4,0,কপাল পোড়া,কপাল পোড়া
6006,আল্লাহ আপনাকে হেদায়েত দান করুক আমীন।আমিও একজন ...,Neutral,4,0,আল্লাহ আপনাকে হেদায়েত দান করুক আমীন আমিও একজন...,আল্লাহ আপনাকে হেদায়েত দান করুক আমীন আমিও একজন...
6007,"শুধু সুন্দর চেহারার হিরো আপনি নন, সুন্দর মনের ...",Neutral,4,0,শুধু সুন্দর চেহারার হিরো আপনি নন সুন্দর মনের ...,সুন্দর চেহারার হিরো নন সুন্দর মনের হিরো ঈদ মোবারক
6008,আল্লাহ আপনাকে সুস্থ রাখুক। ভাইরাস থেকে দেশের ম...,Neutral,4,0,আল্লাহ আপনাকে সুস্থ রাখুক ভাইরাস থেকে দেশের ম...,আল্লাহ আপনাকে সুস্থ রাখুক ভাইরাস দেশের মানুষ ম...


In [69]:
df["multi_class_label"].value_counts()

0    1205
2    1202
1    1201
3    1201
4    1201
Name: multi_class_label, dtype: int64

In [70]:
import numpy as np
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, SimpleRNN, Dense
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.optimizers import Adam

In [71]:
texts = list(df["processed_text"])

In [72]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(texts)
vocab_size = len(tokenizer.word_index) + 1

In [73]:
vocab_size

17987

In [74]:
sequences = tokenizer.texts_to_sequences(texts)
max_len = max(len(seq) for seq in sequences)
padded_sequences = pad_sequences(sequences, maxlen=max_len, padding='post')

In [75]:
max_len

205

In [76]:
padded_sequences[0]

array([1099,  305, 1275,  789,   45, 1431, 1641, 1275, 1642,  790, 7246,
       4539,  597, 1643, 7247,   45,  791,   72, 7248,  293, 1912, 1100,
       7249,   31,   31, 4540,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,    0,    0,    0,    0,
          0,    0,    0,    0,    0,    0,    0,   

In [77]:
padded_sequences.shape

(6010, 205)

Input and output features

In [78]:
from tensorflow.keras.utils import to_categorical

X = padded_sequences
y_bin = np.array(df["binary_class_label"])
y_mul = to_categorical(np.array(df["multi_class_label"]), num_classes=5)

Train test split

In [80]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train_bin, y_test_bin = train_test_split(X, y_bin, test_size = 0.2, random_state = 42)  #binary classification
X_train, X_test, y_train_mul, y_test_mul = train_test_split(X, y_mul, test_size = 0.2, random_state = 42) #multiclass classificcation

In [81]:
# metrics

from keras import backend as K

def recall_m(y_true, y_pred):
    true_positives = K.sum(K.round(K.clip(y_true * y_pred, 0, 1)))
    possible_positives = K.sum(K.round(K.clip(y_true, 0, 1)))
    recall = true_positives / (possible_positives + K.epsilon())
    return recall

def precision_m(y_true, y_pred):
    true_positives = K.sum(K.round(K.clip(y_true * y_pred, 0, 1)))
    predicted_positives = K.sum(K.round(K.clip(y_pred, 0, 1)))
    precision = true_positives / (predicted_positives + K.epsilon())
    return precision

def f1_m(y_true, y_pred):
    precision = precision_m(y_true, y_pred)
    recall = recall_m(y_true, y_pred)
    return 2*((precision*recall)/(precision+recall+K.epsilon()))

# RNN binary classification

In [50]:
embedding_dim = 100
model = Sequential()
model.add(Embedding(input_dim=vocab_size, output_dim=embedding_dim, input_length=max_len))
model.add(SimpleRNN(1000))
model.add(Dense(1, activation='sigmoid'))
model.compile(optimizer=Adam(learning_rate=0.001), loss='binary_crossentropy', metrics=['accuracy', f1_m, precision_m, recall_m])

history = model.fit(X_train, np.array(y_train_bin), validation_data=(X_test, np.array(y_test_bin)), epochs=10, batch_size=64)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


# RNN Multi class classification

In [85]:
embedding_dim = 100
model = Sequential()
model.add(Embedding(input_dim=vocab_size, output_dim=embedding_dim, input_length=max_len))
model.add(SimpleRNN(1000))
model.add(Dense(5, activation='softmax'))
model.compile(optimizer=Adam(learning_rate=0.001), loss='categorical_crossentropy', metrics=['accuracy', f1_m, precision_m, recall_m])

history = model.fit(X_train, y_train_mul, validation_data=(X_test, y_test_mul), epochs=30, batch_size=128)

Epoch 1/30
Epoch 2/30
Epoch 3/30
Epoch 4/30
Epoch 5/30
Epoch 6/30
Epoch 7/30
Epoch 8/30
Epoch 9/30
Epoch 10/30
Epoch 11/30
Epoch 12/30
Epoch 13/30
Epoch 14/30
Epoch 15/30
Epoch 16/30
Epoch 17/30
Epoch 18/30
Epoch 19/30
Epoch 20/30
Epoch 21/30
Epoch 22/30
Epoch 23/30
Epoch 24/30
Epoch 25/30
Epoch 26/30
Epoch 27/30
Epoch 28/30
Epoch 29/30
Epoch 30/30


# LSTM binary classification

In [91]:
y_train_bin

array([0, 1, 1, ..., 0, 0, 1])

In [94]:
from tensorflow.keras.layers import Embedding, LSTM, Dense, Dropout

embedding_dim = 100
model = Sequential()
model.add(Embedding(input_dim=vocab_size, output_dim=embedding_dim, input_length=max_len))
model.add(LSTM(1000, return_sequences=True))
model.add(Dropout(0.2))
model.add(LSTM(256))
model.add(Dropout(0.2))
model.add(Dense(1, activation='sigmoid'))
model.compile(optimizer=Adam(learning_rate=0.00005), loss='binary_crossentropy', metrics=['accuracy', f1_m, precision_m, recall_m])

history = model.fit(X_train, y_train_bin, validation_data=(X_test, y_test_bin), epochs=20, batch_size=128)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


# LSTM multi class classification

In [96]:
from tensorflow.keras.layers import Embedding, LSTM, Dense, Dropout

embedding_dim = 100
model = Sequential()
model.add(Embedding(input_dim=vocab_size, output_dim=embedding_dim, input_length=max_len))
model.add(LSTM(1000, return_sequences=True))
model.add(Dropout(0.2))
model.add(LSTM(256))
model.add(Dropout(0.2))
model.add(Dense(5, activation='softmax'))
model.compile(optimizer=Adam(learning_rate=0.0001), loss='categorical_crossentropy', metrics=['accuracy', f1_m, precision_m, recall_m])

history = model.fit(X_train, y_train_mul, validation_data=(X_test, y_test_mul), epochs=20, batch_size=128)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


# GRU binary

In [98]:
from tensorflow.keras.layers import Embedding, LSTM, Dense, Dropout, GRU

embedding_dim = 100
model = Sequential()
model.add(Embedding(input_dim=vocab_size, output_dim=embedding_dim, input_length=max_len))
model.add(GRU(1000))
model.add(Dropout(0.2))
model.add(Dense(1, activation='sigmoid'))

model.compile(optimizer=Adam(learning_rate=0.00005), loss='binary_crossentropy', metrics=['accuracy', f1_m, precision_m, recall_m])

history = model.fit(X_train, y_train_bin, validation_data=(X_test, y_test_bin), epochs=20, batch_size=128)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


In [99]:
from tensorflow.keras.layers import Embedding, LSTM, Dense, Dropout, GRU

embedding_dim = 100
model = Sequential()
model.add(Embedding(input_dim=vocab_size, output_dim=embedding_dim, input_length=max_len))
model.add(GRU(1000))
model.add(Dropout(0.2))
model.add(Dense(5, activation='softmax'))

model.compile(optimizer=Adam(learning_rate=0.00005), loss='categorical_crossentropy', metrics=['accuracy', f1_m, precision_m, recall_m])

history = model.fit(X_train, y_train_mul, validation_data=(X_test, y_test_mul), epochs=20, batch_size=128)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
