In [20]:
import pandas as pd

## Observing the comments dataset


In [21]:
original_comments_dataset = pd.read_excel(
    "../dataset/Original_comments_dataset.xlsx",
    sheet_name="Sheet1",
)

original_comments_dataset = original_comments_dataset.dropna(subset=["comment"])

# Remove the rows with the same comment
original_comments_dataset = original_comments_dataset.drop_duplicates(
    subset=["comment"]
)

# Remove the rows with empty comments
original_comments_dataset = original_comments_dataset[
    original_comments_dataset["comment"] != ""
]

In [22]:
original_comments_dataset.head()

Unnamed: 0,comment,Category,Gender,comment react number,label
0,ওই হালার পুত এখন কি মদ খাওয়ার সময় রাতের বেলা...,Actor,Female,1.0,sexual
1,ঘরে বসে শুট করতে কেমন লেগেছে? ক্যামেরাতে কে ছি...,Singer,Male,2.0,not bully
2,"অরে বাবা, এই টা কোন পাগল????",Actor,Female,2.0,not bully
3,ক্যাপ্টেন অফ বাংলাদেশ,Sports,Male,0.0,not bully
4,পটকা মাছ,Politician,Male,0.0,troll


In [27]:
final_augmented_balanced_dataset = pd.read_csv(
    "../dataset/Final_augmented_balanced_dataset 58812.csv",
    engine="pyarrow",
    encoding="utf-8",
)

final_augmented_balanced_dataset.head()

Unnamed: 0,text,label
0,ওই হালার পুত এখন কি মদ খাওয়ার সময় রাতের বেলা...,sexual
1,ঘরে বসে শুট করতে কেমন লেগেছে? ক্যামেরাতে কে ছি...,not bully
2,"অরে বাবা, এই টা কোন পাগল????",not bully
3,ক্যাপ্টেন অফ বাংলাদেশ,not bully
4,পটকা মাছ,troll


# Text Cleaning and Preprocessing


In [23]:
from utils.text_cleaning_utils import TextCleaner

In [24]:
text_cleaner = TextCleaner()

In [25]:
cleaned_sentences = (
    original_comments_dataset["comment"]
    .apply(text_cleaner.remove_digits)
    .apply(text_cleaner.remove_english_and_special_chars)
    .apply(text_cleaner.remove_stopwords)
)

cleaned_sentences

0        হালার পুত মদ খাওয়ার সময় রাতের বেলা মদ খাই দি...
1                           ঘরে শুট কেমন লেগেছে ক্যামেরাতে
2                                         অরে বাবা টা পাগল
3                                    ক্যাপ্টেন অফ বাংলাদেশ
4                                                 পটকা মাছ
                               ...                        
43996                                   হিরো আলম এগিয়ে যাও
43997             হিরো আলমকে সাপোর্ট অসংখ্য ধন্যবাদ আপনাকে
43998                                   হিরো ভাই এগিয়ে য়াও
43999            হুম ভাও তোমরা এগিয়ে যাও তোমাদের পিছনে আছি
44000                            হ্যালো তোমাদের সাথে চ্যাট
Name: comment, Length: 43567, dtype: object

In [31]:
augmented_and_original_comments = (
    final_augmented_balanced_dataset["text"]
    .apply(text_cleaner.remove_digits)
    .apply(text_cleaner.remove_english_and_special_chars)
    .apply(text_cleaner.remove_stopwords)
)
augmented_and_original_comments

0        হালার পুত মদ খাওয়ার সময় রাতের বেলা মদ খাই দি...
1                           ঘরে শুট কেমন লেগেছে ক্যামেরাতে
2                                         অরে বাবা টা পাগল
3                                    ক্যাপ্টেন অফ বাংলাদেশ
4                                                 পটকা মাছ
                               ...                        
58807                                                     
58808                 মনের মত চুদব যতখন সামা দিয়া রক্ত বের
58809    সেফু নামক এক ইসলাম বিদ্বেষীর কুরআন রাসুল সঃ অপ...
58810                    জুতা মেরে গরু দান পুকি মেরে দিলা।
58811                                  মারুন রে জাহেদ জুতা
Name: text, Length: 58812, dtype: object

In [32]:
only_augmented_comments = augmented_and_original_comments[
    ~augmented_and_original_comments.isin(cleaned_sentences)
]

only_augmented_comments

44002    খানকিরা জানে খানকি বিত্তি কিভাবে আল্লাহতালা নর...
44005    তুই বড়যাত্রা এসেছ জুতা দেখেশিসতাহলে তর মাবাপের...
44006    এক সাক্ষাৎকারে মেয়েটি বলেছে বিশ্বাস না। ইসলাম...
44007                                  নাস্তিকের প্রার্থনা
44008    আজকাল লম্পট অশিক্ষিত ব্যক্তি মুখ বের আনে শীঘ্র...
                               ...                        
58804                              বোন বড় ভক্ত ছিলাম বললে
58806                            পেতাম জুতা তোমাকে মারতাম।
58809    সেফু নামক এক ইসলাম বিদ্বেষীর কুরআন রাসুল সঃ অপ...
58810                    জুতা মেরে গরু দান পুকি মেরে দিলা।
58811                                  মারুন রে জাহেদ জুতা
Name: text, Length: 6980, dtype: object