In [10]:
# importing Libraries
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [11]:
# loading and reading dataset
df = pd.read_csv("Bangla Emotion Dataset.csv")
df.head()

Unnamed: 0,ID,Data,Love,Joy,Surprise,Anger,Sadness,Fear,Topic,Domain
0,5454,লকাল বাস ভালো এটা থেকে,0,0,0.0,0.0,1,0,Travel,Youtube
1,22549,কত অভিজানই তো চলে কিন্তু ওয়াসার পানির অভিজান ক...,0,0,0.0,0.0,1,0,Politics,Youtube
2,7033,বিয়ের মহল ছেড়ে তিনি বিস্রাম নিতে চলে যান (৬ ...,0,0,0.0,1.0,0,0,Personal,Facebook
3,21114,চাচাজি তো কেবল মাকে ধর্ষণ করেছেন,0,0,0.0,0.0,1,0,Education,Facebook
4,23683,সত্যিকার মানুষ তারাই ভাই,0,1,0.0,0.0,0,0,Personal,Youtube


In [12]:
df.shape

(20651, 10)

In [16]:
df.describe()

Unnamed: 0,ID,Surprise,Anger,Fear
count,20651.0,20650.0,20650.0,20651.0
mean,14128.574113,0.049201,0.196804,0.017868
std,8007.322974,0.216293,0.397592,0.132476
min,8.0,0.0,0.0,0.0
25%,7362.5,0.0,0.0,0.0
50%,14314.0,0.0,0.0,0.0
75%,20790.5,0.0,0.0,0.0
max,28164.0,1.0,1.0,1.0


In [45]:
# Clean text using bnlp library
from bnlp import CleanText

clean_text = CleanText(
   fix_unicode=True,
   unicode_norm=True,
   unicode_norm_form="NFKC",
   remove_url=True,
   remove_email=True,
   remove_emoji=True,
   remove_number=True,
   remove_digits=True,
   remove_punct=True,
   replace_with_url="",
   replace_with_email="",
   replace_with_number="",
   replace_with_digit="",
   replace_with_punct = ""
)

df['clean_description'] = df['Data'].apply(clean_text)
print("Clean descriptions:")
print(df['clean_description'].head(15))

Clean descriptions:
0                                লকাল বাস ভালো এটা থেকে
1     কত অভিজানই তো চলে কিন্তু ওয়াসার পানির অভিজান ...
2     বিয়ের মহল ছেড়ে তিনি বিস্রাম নিতে চলে যান  নং...
3                      চাচাজি তো কেবল মাকে ধর্ষণ করেছেন
4                              সত্যিকার মানুষ তারাই ভাই
5                       ভালবাসা আরো হাগার গুণ বেড়ে গেল
6     ভাই নিজের সফটওয়্যার গুলোর প্রচার সহজে করে ফেল...
7     স্যার আমি আপনার এই নিয়ম এ স্কুল এ লিখেছিলাম ক...
8                      খেলতে না পারলে এটাই বলে বাংলাদেশ
9                            নিজ হাতে গড়া মোর কাঁচা ঘর
10      অসাধারণ ধন্যবাদ অমি ভাই সহ পুরো ব্যাচেলর টিম কে
11                                   বাহ গানটা তো মজার 
12    রানা ভাইরাল হইছে বলেতার পড়ালেখার খরচ নিতে চাচ...
13    আমি বুঝি  আমি যখন কলেজে দ্বিতীয় বর্ষে তখন তো ...
14      ভালোবাসার আরেক নাম প্রিয় নবী হযরত মুহাম্মদ  সা
Name: clean_description, dtype: object


In [46]:
# Removing Bangla stopwords
from bnlp import BengaliCorpus as corpus

# Define Bangla stopwords
bangla_stopwords=set(corpus.stopwords)

df['clean_description'] = df['clean_description'].apply(lambda x: ' '.join([w for w in x.split() if w not in bangla_stopwords]))
print("Clean descriptions:")
print(df['clean_description'].head(15))

Clean descriptions:
0                                         লকাল বাস ভালো
1                          অভিজানই ওয়াসার পানির অভিজান
2     বিয়ের মহল ছেড়ে বিস্রাম নং ছবি বিয়ের মারা নব...
3                                চাচাজি কেবল মাকে ধর্ষণ
4                              সত্যিকার মানুষ তারাই ভাই
5                           ভালবাসা আরো হাগার গুণ বেড়ে
6         ভাই সফটওয়্যার গুলোর প্রচার সহজে ফেলছেন ভালোই
7               স্যার নিয়ম স্কুল লিখেছিলাম কিন্তূ কেটে
8                                  খেলতে পারলে বাংলাদেশ
9                            নিজ হাতে গড়া মোর কাঁচা ঘর
10            অসাধারণ ধন্যবাদ অমি ভাই পুরো ব্যাচেলর টিম
11                                       বাহ গানটা মজার
12         রানা ভাইরাল হইছে বলেতার পড়ালেখার খরচ চাচ্ছো
13         বুঝি কলেজে দ্বিতীয় বর্ষে গরিব ছেলেদের কলেজে
14       ভালোবাসার আরেক নাম প্রিয় নবী হযরত মুহাম্মদ সা
Name: clean_description, dtype: object


In [50]:
from bnlp import NLTKTokenizer

bnltk = NLTKTokenizer()

df['clean_description'] = df['clean_description'].apply(bnltk.word_tokenize)
print("Clean descriptions:")
print(df['clean_description'].head(15))

Clean descriptions:
0                                     [লকাল, বাস, ভালো]
1                     [অভিজানই, ওয়াসার, পানির, অভিজান]
2     [বিয়ের, মহল, ছেড়ে, বিস্রাম, নং, ছবি, বিয়ের,...
3                           [চাচাজি, কেবল, মাকে, ধর্ষণ]
4                         [সত্যিকার, মানুষ, তারাই, ভাই]
5                     [ভালবাসা, আরো, হাগার, গুণ, বেড়ে]
6     [ভাই, সফটওয়্যার, গুলোর, প্রচার, সহজে, ফেলছেন,...
7        [স্যার, নিয়ম, স্কুল, লিখেছিলাম, কিন্তূ, কেটে]
8                              [খেলতে, পারলে, বাংলাদেশ]
9                     [নিজ, হাতে, গড়া, মোর, কাঁচা, ঘর]
10    [অসাধারণ, ধন্যবাদ, অমি, ভাই, পুরো, ব্যাচেলর, টিম]
11                                   [বাহ, গানটা, মজার]
12    [রানা, ভাইরাল, হইছে, বলেতার, পড়ালেখার, খরচ, চ...
13    [বুঝি, কলেজে, দ্বিতীয়, বর্ষে, গরিব, ছেলেদের, ...
14    [ভালোবাসার, আরেক, নাম, প্রিয়, নবী, হযরত, মুহা...
Name: clean_description, dtype: object
