In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import json
import nltk
import re
from nltk.corpus import stopwords

In [None]:
df = pd.read_csv('/content/drive/MyDrive/NLP/bangla_sentiment_data.csv')

In [None]:
df.head()

Unnamed: 0,text,label
0,আমি ভালো আছি 😊,happy
1,আমি খুব খারাপ আছি 😢,sad
2,এটা আমাকে খুব রাগিয়ে দেয় 😠,angry
3,আজকে আমার মন ভালো নেই 😔,sad
4,তুমি দারুণ কাজ করেছ 👍,happy


In [None]:
with open('/content/drive/MyDrive/NLP/bangla_stopwords.txt', 'r', encoding='utf-8') as f:
    bn_stopwords = f.read().splitlines()

In [None]:
print(bn_stopwords)

['আমি', 'আপনি', 'সে', 'তুমি', 'আমরা', 'আপনারা', 'তারা', 'এর', 'এই', 'ওই', 'তার', 'তাদের', 'আমাদের', 'আপনার', 'তোমার', 'আপনারা', 'আমরা', 'যে', 'যত', 'সব', 'কিছু', 'বহু', 'কোনো', 'কোন', 'একটি', 'এটি', 'তিন', 'চার', 'এখানে', 'যেখানে', 'এখানে', 'কিভাবে', 'কীভাবে', 'কেন', 'কেননা', 'যখন', 'যদি', 'তবে', 'কিন্তু', 'তবে', 'আর', 'তিন', 'চার', 'অথবা', 'নাহলে', 'যত', 'যেমন', 'কিন্তু', 'নিশ্চিত', 'সবাই', 'অনেক', 'কিছু', 'কেননা', 'অন্য', 'নতুন', 'পুরানো', 'বেশি', 'কম', 'অন্তত', 'বেশি', 'কম', 'এবং', 'অথবা', 'নির্বাচন', 'এই', 'ওই', 'ফিরে', 'তারপর', 'পরে', 'আগে', 'তখন', 'নতুন', 'পুরানো', 'যে', 'তবে', 'অথবা', 'একটি', 'অথবা', 'অবশ্য', 'এরপর', 'আমরা', 'বিভিন্ন', 'সকল', 'যেখানে', 'এখানে', 'কি', 'মাঝে', 'মধ্যে', 'মধ্যবর্তী', 'যে', 'শুধু', 'উল্লেখযোগ্য', 'অধিক', 'যেমন', 'বিভিন্ন', 'অপর', 'অন্য', 'কিছু', 'অন্যান্য', 'আর', 'যাওয়া', 'আসা', 'কী', 'যখন', 'এটি', 'কারণে', 'তারপর', 'তাদের', 'আমাদের', 'আরও', 'অবশ্যই', 'এবং', 'অথবা', 'বিশেষ', 'কি', 'ব্যাপারে', 'অথবা', 'দ্বারা', 'তারা', 'এক', 'মধ্যে', 'কিছু', 'তবে', '

In [None]:
with open('/content/drive/MyDrive/NLP/emoji_dictionary.json','r',encoding='utf-8') as f:
     emoji_dict = json.load(f)

In [None]:
print(emoji_dict)

{'😊': 'হাসি', '😢': 'কান্না', '😠': 'রাগ', '😔': 'মন খারাপ', '👍': 'দারুণ', '😎': 'ঠান্ডা', '😭': 'অশ্রু', '😁': 'মুচকি হাসি', '😅': 'হালকা হাসি', '😍': 'ভালবাসা', '😒': 'অসন্তুষ্ট', '😞': 'হতাশা', '😡': 'রাগান্বিত', '😃': 'খুশি', '😉': 'চোখ মারা', '😋': 'স্বাদ আস্বাদন', '😐': 'নির্বিকার', '😤': 'অসন্তুষ্ট', '😴': 'ঘুম', '😜': 'মজার', '😩': 'ক্লান্ত', '😯': 'আশ্চর্য', '😆': 'হাসি', '😷': 'মাস্ক', '🙄': 'গুর্গুরানি', '😳': 'বিস্মিত', '😬': 'চিন্তিত', '😚': 'চুম্বন', '😰': 'উদ্বিগ্ন', '🤗': 'আলিঙ্গন', '🤔': 'চিন্তাশীল', '🤐': 'মুখ বন্ধ', '😇': 'পুণ্যবান'}


In [None]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
import nltk

def remove_stopwords(text):
    words = nltk.word_tokenize(text)
    filtered_words = [word for word in words if word not in bn_stopwords]
    return ' '.join(filtered_words)

def remove_non_bangla_words(text):
    return ' '.join([word for word in text.split() if all('ঀ' <= c <= '৿' for c in word)])

def remove_null_characters(text):
    return text.replace('\x00', '')

def remove_urls(text):
    url_pattern = re.compile(r'https?://\S+|www\.\S+')
    return url_pattern.sub(r'', text)


def replace_emojis(text):
    for emoji, meaning in emoji_dict.items():
        text = text.replace(emoji, meaning)
    return text


def preprocess_text(text):
    text = replace_emojis(text)
    text = remove_stopwords(text)
    text = remove_non_bangla_words(text)
    text = remove_null_characters(text)
    text = remove_urls(text)
    return text

df['processed_text'] = df['text'].apply(preprocess_text)


In [None]:
df.sample(50)

Unnamed: 0,text,label,processed_text
186,আজকের দিনটি আমার জন্য অত্যন্ত কষ্টকর।,2,আজকের দিনটি আমার জন্য অত্যন্ত
14,তুমি খুব রাগ করেছ 😡,0,খুব রাগ করেছ রাগান্বিত
130,আজকের দিনটি আনন্দে পূর্ণ।,1,আজকের দিনটি আনন্দে
148,সবকিছু আমার জন্য ঠিকঠাক হচ্ছে না।,2,সবকিছু আমার জন্য ঠিকঠাক হচ্ছে
159,আমি এখন খুবই হতাশ।,2,এখন খুবই
129,এই পরিস্থিতি আমাকে অত্যন্ত খুশি করেছে।,1,পরিস্থিতি আমাকে অত্যন্ত খুশি
128,সবকিছু পরিকল্পনার চেয়ে আরও ভাল হয়েছে।,1,সবকিছু পরিকল্পনার চেয়ে ভাল
11,তুমি কি রেগে আছো? 😤,0,রেগে আছো অসন্তুষ্ট
97,তোমার আচরণ আমাকে সত্যিই বিরক্ত করেছে 😠,0,আচরণ আমাকে সত্যিই বিরক্ত করেছে রাগ
104,প্রকল্পের সফলতা আমাকে খুশি করেছে।,1,প্রকল্পের সফলতা আমাকে খুশি


In [None]:
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report
import joblib

In [None]:
vectorizer = TfidfVectorizer(max_features=1000)

In [None]:
X = vectorizer.fit_transform(df['processed_text'])

In [None]:
from sklearn.preprocessing import LabelEncoder

In [None]:
encoder =LabelEncoder()
df['label']=encoder.fit_transform(df['label'])

In [None]:
df.head()

Unnamed: 0,text,label,processed_text
0,আমি ভালো আছি 😊,1,ভালো আছি হাসি
1,আমি খুব খারাপ আছি 😢,2,খুব খারাপ আছি কান্না
2,এটা আমাকে খুব রাগিয়ে দেয় 😠,0,এটা আমাকে খুব রাগিয়ে দেয় রাগ
3,আজকে আমার মন ভালো নেই 😔,2,আজকে আমার মন ভালো নেই মন খারাপ
4,তুমি দারুণ কাজ করেছ 👍,1,দারুণ কাজ করেছ দারুণ


In [None]:
y = df['label']

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [None]:
model = LogisticRegression()
model.fit(X_train, y_train)

In [None]:
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")
print(classification_report(y_test, y_pred))

Accuracy: 0.63
              precision    recall  f1-score   support

           0       0.77      0.59      0.67        17
           1       0.59      0.71      0.65        14
           2       0.58      0.61      0.59        18

    accuracy                           0.63        49
   macro avg       0.65      0.64      0.64        49
weighted avg       0.65      0.63      0.63        49



In [None]:
def predict_sentiment(text):
    cleaned_text = preprocess_text(text)
    text_vector = vectorizer.transform([cleaned_text])  # Use transform, not fit_transform
    prediction = model.predict(text_vector)
    return prediction[0]

# Example usage
new_text = "এই ঘটনা আমাকে বিরক্ত করেছে।"
predicted_label = predict_sentiment(new_text)
print(f"The predicted sentiment for the text is: {predicted_label}")


The predicted sentiment for the text is: 0
