In [1]:
import pandas as pd

## Observing the comments dataset


In [2]:
original_comments_dataset = pd.read_excel(
    "../dataset/Original_comments_dataset.xlsx",
    sheet_name="Sheet1",
    usecols=["comment", "label"],
)

original_comments_dataset = original_comments_dataset.dropna(subset=["comment"])

# Remove the rows with the same comment
original_comments_dataset = original_comments_dataset.drop_duplicates(
    subset=["comment"]
)

# Remove the rows with empty comments
original_comments_dataset = original_comments_dataset[
    original_comments_dataset["comment"] != ""
]

In [3]:
original_comments_dataset

Unnamed: 0,comment,label
0,ওই হালার পুত এখন কি মদ খাওয়ার সময় রাতের বেলা...,sexual
1,ঘরে বসে শুট করতে কেমন লেগেছে? ক্যামেরাতে কে ছি...,not bully
2,"অরে বাবা, এই টা কোন পাগল????",not bully
3,ক্যাপ্টেন অফ বাংলাদেশ,not bully
4,পটকা মাছ,troll
...,...,...
43996,"হিরো আলম,, এগিয়ে যাও",not bully
43997,হিরো আলমকে সাপোর্ট দেওয়ার জন্য অসংখ্য ধন্যবাদ...,not bully
43998,হিরো ভাই তুমি এগিয়ে য়াও,not bully
43999,হুম ভাও তোমরা এগিয়ে যাও আমরা তোমাদের পিছনে আছি,not bully


In [4]:
final_augmented_balanced_dataset = pd.read_csv(
    "../dataset/Final_augmented_balanced_dataset 58812.csv",
    engine="pyarrow",
    encoding="utf-8",
)

final_augmented_balanced_dataset = final_augmented_balanced_dataset.dropna(
    subset=["text"]
)

final_augmented_balanced_dataset = final_augmented_balanced_dataset.drop_duplicates(
    subset=["text"]
)

final_augmented_balanced_dataset = final_augmented_balanced_dataset[
    final_augmented_balanced_dataset["text"] != ""
]

final_augmented_balanced_dataset

Unnamed: 0,text,label
0,ওই হালার পুত এখন কি মদ খাওয়ার সময় রাতের বেলা...,sexual
1,ঘরে বসে শুট করতে কেমন লেগেছে? ক্যামেরাতে কে ছি...,not bully
2,"অরে বাবা, এই টা কোন পাগল????",not bully
3,ক্যাপ্টেন অফ বাংলাদেশ,not bully
4,পটকা মাছ,troll
...,...,...
58799,When will your joke come?,threat
58801,আমি তোমার জুতাটা তোমার কপালে মেরেছি।,threat
58809,সেফু নামক এক ইসলাম বিদ্বেষীর কুরআন ও রাসুল (সঃ...,threat
58810,জুতা মেরে গরু দান নিজের পুকি মেরে দিলা।,threat


# Text Cleaning and Preprocessing


In [5]:
from utils.text_cleaning_utils import TextCleaner

In [6]:
text_cleaner = TextCleaner()

In [7]:
original_comments_dataset["comment"] = (
    original_comments_dataset["comment"]
    .apply(text_cleaner.remove_digits)
    .apply(text_cleaner.remove_english_and_special_chars)
    .apply(text_cleaner.remove_stopwords)
)

original_comments_dataset

Unnamed: 0,comment,label
0,হালার পুত মদ খাওয়ার সময় রাতের বেলা মদ খাই দি...,sexual
1,ঘরে শুট কেমন লেগেছে ক্যামেরাতে,not bully
2,অরে বাবা টা পাগল,not bully
3,ক্যাপ্টেন অফ বাংলাদেশ,not bully
4,পটকা মাছ,troll
...,...,...
43996,হিরো আলম এগিয়ে যাও,not bully
43997,হিরো আলমকে সাপোর্ট অসংখ্য ধন্যবাদ আপনাকে,not bully
43998,হিরো ভাই এগিয়ে য়াও,not bully
43999,হুম ভাও তোমরা এগিয়ে যাও তোমাদের পিছনে আছি,not bully


In [8]:
final_augmented_balanced_dataset["text"] = (
    final_augmented_balanced_dataset["text"]
    .apply(text_cleaner.remove_digits)
    .apply(text_cleaner.remove_english_and_special_chars)
    .apply(text_cleaner.remove_stopwords)
)

final_augmented_balanced_dataset

Unnamed: 0,text,label
0,হালার পুত মদ খাওয়ার সময় রাতের বেলা মদ খাই দি...,sexual
1,ঘরে শুট কেমন লেগেছে ক্যামেরাতে,not bully
2,অরে বাবা টা পাগল,not bully
3,ক্যাপ্টেন অফ বাংলাদেশ,not bully
4,পটকা মাছ,troll
...,...,...
58799,,threat
58801,জুতাটা কপালে মেরেছি।,threat
58809,সেফু নামক এক ইসলাম বিদ্বেষীর কুরআন রাসুল সঃ অপ...,threat
58810,জুতা মেরে গরু দান পুকি মেরে দিলা।,threat


In [9]:
only_augmented_comments_dataset = final_augmented_balanced_dataset[
    ~final_augmented_balanced_dataset["text"].isin(original_comments_dataset["comment"])
]

only_augmented_comments_dataset = only_augmented_comments_dataset.drop_duplicates(
    subset=["text"]
)

only_augmented_comments_dataset = only_augmented_comments_dataset.drop_duplicates(
    subset=["text"]
)

only_augmented_comments_dataset = only_augmented_comments_dataset[
    only_augmented_comments_dataset["text"] != ""
]

only_augmented_comments_dataset

Unnamed: 0,text,label
44002,খানকিরা জানে খানকি বিত্তি কিভাবে আল্লাহতালা নর...,religious
44005,তুই বড়যাত্রা এসেছ জুতা দেখেশিসতাহলে তর মাবাপের...,threat
44006,এক সাক্ষাৎকারে মেয়েটি বলেছে বিশ্বাস না। ইসলাম...,religious
44007,নাস্তিকের প্রার্থনা,religious
44008,আজকাল লম্পট অশিক্ষিত ব্যক্তি মুখ বের আনে শীঘ্র...,religious
...,...,...
58797,দেশ রুপার বিতাড়িত,threat
58801,জুতাটা কপালে মেরেছি।,threat
58809,সেফু নামক এক ইসলাম বিদ্বেষীর কুরআন রাসুল সঃ অপ...,threat
58810,জুতা মেরে গরু দান পুকি মেরে দিলা।,threat


In [11]:
# # Export the dataset
only_augmented_comments_dataset.to_csv(
    "../dataset/only_augmented_comments_dataset.csv", index=False
)

# # Export the dataset
original_comments_dataset.to_csv("../dataset/cleaned_comments_dataset.csv", index=False)