In [3]:
# Clean the text using bnlp
import re
from bnlp import CleanText
import pandas as pd

# Load the dataset from phase 1
dataset_path = "data-source/bangla_sentiment.csv"
df = pd.read_csv(dataset_path, encoding="utf-8")


# Create the cleaner with your settings
clean_text = CleanText(
   fix_unicode=True,
   unicode_norm=True,
   unicode_norm_form="NFKC",
   remove_url=False,           # keep URLs as <URL>
   replace_with_url="<URL>",
   remove_email=False,         # keep emails as <EMAIL>
   replace_with_email="<EMAIL>",
   remove_emoji=True,        # keep emojis, or replace with <EMOJI>
   remove_number=False,        # keep numbers
   replace_with_number="<NUMBER>",
   remove_digits=False,        # keep ASCII digits
   replace_with_digit="<DIGIT>",
   remove_punct=False,         # keep punctuation or replace
   replace_with_punct="<PUNC>"
)

def preprocess_text(text):
    # BNLP cleaning
    cleaned = clean_text(text)
    # Additional regex for URLs/hashtags (if BNLP misses any)
    cleaned = re.sub(r'http\S+|#\S+', '', cleaned)
    # remove leading & trainling spaces
    cleaned = cleaned.strip()
    # Remove extra spaces
    cleaned = ' '.join(cleaned.split())
    # Remove double quotes
    cleaned = cleaned.replace('"', '')
    # Remove single quotes
    cleaned = cleaned.replace("'", '')

    return cleaned

# Apply cleaning on the 'Text' column (change 'Text' to your actual column name)
df['Text'] = df['Text'].apply(preprocess_text)

# Show the cleaned text
#print(df[['Text', 'Cleaned_Text']].head())

# Save the cleaned dataset
df.to_csv("outputs/cleaned_dataset.csv", encoding='utf-8', index=False)

In [4]:
# Find rows where 'Text' contains at least one English letter
has_english = df[df['Text'].str.contains(r'[a-zA-Z]', regex=True, na=False)]

# Show these rows
print(has_english)

                                                   Text  Label
1     It s easy if they think কি হবে যদি আমরা রাসিয়...    0.0
6                vai maybe science বানান টা ভুল হয়েছে।    0.0
599   NASA জানিয়ে দিয়েছে মহাকাশ থেকে পৃথিবীর দিকে ...    0.0
625   ওবায়দুল কাদেরের তৈলাক্ত ভার্সন হলো BPC Chairm...    0.0
653   Joi Bangla সরকারের এমন উন্নয়নে সাধারণ মানুষের...    0.0
691   তেলের দাম বেড়ে গেছে সস্তা জালালি তেল তৈরি Pla...    2.0
969   বিশ্ববাজারে তেলের দাম বাড়ে নাই বরং বিশ্ব বাজা...    2.0
1122  তেলের দাম বেড়ে গেছে সস্তা জালালি তেল তৈরি Pla...    2.0
1163  সয়াবিন তেলের বদলে পানি use কর্সে বলে এখন ডিজে...    0.0
1225      10tk তেলের দাম কমলে 20 দিন পরে 20 টাকা বাড়বে    0.0
1235  তেলের দাম বেড়ে গেছে সস্তা জালালি তেল তৈরি Pla...    2.0
1287  ২০ দিন আগে থেকেই কিনে খাচ্ছি ১৮০ টাকা করে So S...    2.0
1649  তেলের দাম বেড়ে গেছে সস্তা জালালি তেল তৈরি Pla...    2.0
1887  MF এর স্বর্ত পূরোনে জ্বালানি তেলের মূল্য বৃদ্ধ...    0.0
2126                       50 taka বাড়িয়ে ৮ টাকা কমলো

In [5]:
has_english.to_csv("outputs/english_words.csv", encoding='utf-8', index=False)