In [27]:
# Clean the text using bnlp
import re
from bnlp import CleanText
import pandas as pd
# Load the dataset from phase 1
dataset_path = "data-source/bangla_sentiment.csv"
df = pd.read_csv(dataset_path, encoding="utf-8")


# Create the cleaner with your settings
clean_text = CleanText(
   fix_unicode=True,
   unicode_norm=True,
   unicode_norm_form="NFKC",
   remove_url=False,           # keep URLs as <URL>
   replace_with_url="<URL>",
   remove_email=False,         # keep emails as <EMAIL>
   replace_with_email="<EMAIL>",
   remove_emoji=True,        # keep emojis, or replace with <EMOJI>
   remove_number=False,        # keep numbers
   replace_with_number="<NUMBER>",
   remove_digits=False,        # keep ASCII digits
   replace_with_digit="<DIGIT>",
   remove_punct=False,         # keep punctuation or replace
   replace_with_punct="<PUNC>"
)

def preprocess_text(text):
    # BNLP cleaning
    cleaned = clean_text(text)
    # Additional regex for URLs/hashtags (if BNLP misses any)
    cleaned = re.sub(r'http\S+|#\S+', '', cleaned)
    # remove leading & trainling spaces
    cleaned = cleaned.strip()
    # Remove extra spaces
    cleaned = ' '.join(cleaned.split())
    # Remove double quotes
    cleaned = cleaned.replace('"', '')
    # Remove single quotes
    cleaned = cleaned.replace("'", '')

    return cleaned

# Apply cleaning on the 'Text' column (change 'Text' to your actual column name)
df['Cleaned_Text'] = df['Text'].apply(preprocess_text)

# Show the cleaned text
print(df[['Text', 'Cleaned_Text']].head())

# Save the cleaned dataset
df.to_csv("outputs/cleaned_dataset.csv", encoding='utf-8', index=False)

                                                Text  \
0  পণ্যদ্রব্যের দাম লাগামহীন ভাবে বেড়েই চলেছেসেই ...   
1  It s easy if they think কি হবে যদি আমরা রাসিয়া...   
2                সুইচ ব্যাংকে হাজার কোটি টাকা পাঁচার   
3  আমার চ্যানেলটা ঘুরে আসবেন আশা করি ♣♣♣♣♣♣♣দয়াকর...   
4       ২০১৫ সালে সরকারি চাকরিজীবীদের বেতন দিগুণ করে   

                                        Cleaned_Text  
0  পণ্যদ্রব্যের দাম লাগামহীন ভাবে বেড়েই চলেছেসেই...  
1  It s easy if they think কি হবে যদি আমরা রাসিয়...  
2                সুইচ ব্যাংকে হাজার কোটি টাকা পাঁচার  
3  আমার চ্যানেলটা ঘুরে আসবেন আশা করি দয়াকরে যাদে...  
4       ২০১৫ সালে সরকারি চাকরিজীবীদের বেতন দিগুণ করে  


In [28]:
# Find rows where 'Text' contains at least one English letter
has_english = df[df['Text'].str.contains(r'[a-zA-Z]', regex=True, na=False)]

# Show these rows
print(has_english.head())

                                                  Text  Label  \
1    It s easy if they think কি হবে যদি আমরা রাসিয়া...    0.0   
6                vai maybe science বানান টা ভুল হয়েছে।    0.0   
599  NASA জানিয়ে দিয়েছে মহাকাশ থেকে পৃথিবীর দিকে ক্...    0.0   
625  ওবায়দুল কাদেরের তৈলাক্ত ভার্সন হলো BPC Chairma...    0.0   
653  Joi Bangla সরকারের এমন উন্নয়নে সাধারণ মানুষের ...    0.0   

                                          Cleaned_Text  
1    It s easy if they think কি হবে যদি আমরা রাসিয়...  
6               vai maybe science বানান টা ভুল হয়েছে।  
599  NASA জানিয়ে দিয়েছে মহাকাশ থেকে পৃথিবীর দিকে ...  
625  ওবায়দুল কাদেরের তৈলাক্ত ভার্সন হলো BPC Chairm...  
653  Joi Bangla সরকারের এমন উন্নয়নে সাধারণ মানুষের...  


In [29]:
has_english.to_csv("outputs/english_words.csv", encoding='utf-8', index=False)

In [30]:
import re

# Example: English/Banglish to Bangla dictionary
# (Add your actual translations here)
translate_dict = {
    'bangla': 'বাংলা',
    'easy': 'সহজ',
    'maybe': 'সম্ভবত',
    'science': 'বিজ্ঞান',
    'nasa': 'নাসা',
    'it': 'এটা',
    'chairman': 'চেয়ারম্যান',
    'next': 'পরবর্তী',
    'time': 'সময়',
    'use': 'ব্যবহার',
    'so': 'তাই',
    'sad': 'দুঃখিত',
    'digital': 'ডিজিটাল',
    'bangladesh': 'বাংলাদেশ',
    'order': 'অর্ডার',
    'delivery': 'ডেলিভারি',
    'charge': 'চার্জ',
    'refund': 'রিফান্ড',
    'bank': 'ব্যাংক',
    'joi': 'জয়',
    'surplus': 'উদ্বৃত্ত',
    'land': 'জমি',
    'u': 'ইউ',
    'a': 'এ',
    'e': 'ই',
    's': 'স',
    'uae': 'ইউএই',
    'bts': 'বিটিএস',
    'manikgonj': 'মানিকগঞ্জ',
    'vai': 'ভাই',
    'if': 'যদি',
    'they': 'তারা',
    'think': 'মনে',
    'koto': 'কত',
    'mf': 'আন্তর্জাতিক আর্থিক তহবিল',
    'imf': 'আন্তর্জাতিক আর্থিক তহবিল',
    'tk': "টাকা",
    'taka': "টাকা",
    'plastic': 'প্লাস্টিক',
    'pyrolysis': 'পাইরোলাইসিস'
}

# English digit to Bangla digit map
en_to_bn_digit = str.maketrans('0123456789', '০১২৩৪৫৬৭৮৯')

def preprocess_text(text):
    # Lowercase to match dictionary (you can skip if Bangla words only)
    text = text.lower()
    
    # Replace English digits with Bangla digits
    text = text.translate(en_to_bn_digit)
    
    # Replace English/Banglish words with Bangla translation
    def translate_word(word):
        # Remove punctuation to match clean word
        clean_word = re.sub(r'[^\w]', '', word)
        if clean_word in translate_dict:
            return translate_dict[clean_word]
        else:
            return word
    
    # Tokenize on spaces (simple; you can use more advanced tokenizers)
    tokens = text.split()
    
    translated_tokens = [translate_word(token) for token in tokens]
    
    # Rejoin into text
    new_text = ' '.join(translated_tokens)
    
    return new_text

# Example: Apply to your dataframe column
has_english['Text'] = has_english['Text'].apply(preprocess_text)

has_english.to_csv('outputs/cleaned_english.csv')
# Show before/after
#print(df[['Text', 'Translated_Text']].head(10))

In [31]:
has_english

Unnamed: 0,Text,Label,Cleaned_Text
1,এটা স সহজ যদি তারা মনে কি হবে যদি আমরা রাসিয়া ...,0.0,It s easy if they think কি হবে যদি আমরা রাসিয়...
6,ভাই সম্ভবত বিজ্ঞান বানান টা ভুল হয়েছে।,0.0,vai maybe science বানান টা ভুল হয়েছে।
599,নাসা জানিয়ে দিয়েছে মহাকাশ থেকে পৃথিবীর দিকে ক্...,0.0,NASA জানিয়ে দিয়েছে মহাকাশ থেকে পৃথিবীর দিকে ...
625,ওবায়দুল কাদেরের তৈলাক্ত ভার্সন হলো bpc চেয়ারম...,0.0,ওবায়দুল কাদেরের তৈলাক্ত ভার্সন হলো BPC Chairm...
653,জয় বাংলা সরকারের এমন উন্নয়নে সাধারণ মানুষের জী...,0.0,Joi Bangla সরকারের এমন উন্নয়নে সাধারণ মানুষের...
691,তেলের দাম বেড়ে গেছে সস্তা জালালি তেল তৈরি প্লা...,2.0,তেলের দাম বেড়ে গেছে সস্তা জালালি তেল তৈরি Pla...
969,বিশ্ববাজারে তেলের দাম বাড়ে নাই বরং বিশ্ব বাজার...,2.0,বিশ্ববাজারে তেলের দাম বাড়ে নাই বরং বিশ্ব বাজা...
1122,তেলের দাম বেড়ে গেছে সস্তা জালালি তেল তৈরি প্লা...,2.0,তেলের দাম বেড়ে গেছে সস্তা জালালি তেল তৈরি Pla...
1163,সয়াবিন তেলের বদলে পানি ব্যবহার কর্সে বলে এখন ড...,0.0,সয়াবিন তেলের বদলে পানি use কর্সে বলে এখন ডিজে...
1225,১০tk তেলের দাম কমলে ২০ দিন পরে ২০ টাকা বাড়বে,0.0,10tk তেলের দাম কমলে 20 দিন পরে 20 টাকা বাড়বে
