In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
import re,nltk

In [2]:
data = pd.read_excel('../Data/Abusive_text.xlsx')
data.head()

Unnamed: 0,Comment,Label
0,হ্যাতেরা টিস্যু দিয়া মুখ মোছবে আর জনগনের পকেট ...,Neutral
1,"হ্যা! দেওয়াল ধরে দাড়ায় থাকো,পিছন দিয়ে এসে মেরে...",Negative
2,হ্যাঁ এইটা সুন্দর,Positive
3,হিজড়া হিরো,Negative
4,হোগা মারা সারা,Negative


In [3]:
data.groupby('Label').size().reset_index(name='counts')

Unnamed: 0,Label,counts
0,Negative,2984
1,Neutral,2068
2,Positive,1796


In [4]:
def process_comments(Comment): 
    Comment = re.sub('[^\u0980-\u09FF]',' ',Comment) #removing unnecessary punctuation
    Comment = re.sub('[?.`*^()!°¢܌Ͱ̰ߒנ~×Ҡߘ:ҰߑÍ|।;!,&%\'@#$><A-Za-z0+-9=./''""_০-৯]', '', Comment)
    Comment = re.sub(r'(\W)(?=\1)', '', Comment)
    Comment = re.sub(r'https?:\/\/.*[\r\n]*', '', Comment, flags=re.MULTILINE)
    Comment = re.sub(r'\<a href', ' ', Comment)
    Comment = re.sub(r'&amp;', '', Comment) 
    Comment = re.sub(r'<br />', ' ', Comment)
    Comment = re.sub(r'\'', ' ', Comment)
    Comment = re.sub(r'ߑͰߑ̰ߒנ', '', Comment)
    Comment = re.sub(r'ߎɰߎɰߎɍ', '', Comment)
    return Comment

In [5]:
data['Cleaned'] = data['Comment'].apply(process_comments)  
data

Unnamed: 0,Comment,Label,Cleaned
0,হ্যাতেরা টিস্যু দিয়া মুখ মোছবে আর জনগনের পকেট ...,Neutral,হ্যাতেরা টিস্যু দিয়া মুখ মোছবে আর জনগনের পকেট ...
1,"হ্যা! দেওয়াল ধরে দাড়ায় থাকো,পিছন দিয়ে এসে মেরে...",Negative,হ্যা দেওয়াল ধরে দাড়ায় থাকো পিছন দিয়ে এসে মেরে ...
2,হ্যাঁ এইটা সুন্দর,Positive,হ্যাঁ এইটা সুন্দর
3,হিজড়া হিরো,Negative,হিজড়া হিরো
4,হোগা মারা সারা,Negative,হোগা মারা সারা
...,...,...,...
6843,অনেক অনেক দোয়া রইল অফুরন্ত।,Positive,অনেক অনেক দোয়া রইল অফুরন্ত
6844,মোটামুটি ভালোই হয়েছে ভিডিওটা ।,Positive,মোটামুটি ভালোই হয়েছে ভিডিওটা
6845,বাংলাদেশ থেকে দাদা আপনার প্রতি অনেক অনেক ভালোবাসা,Positive,বাংলাদেশ থেকে দাদা আপনার প্রতি অনেক অনেক ভালোবাসা
6846,তোমার ভিডিও গুলি আমার মন ভালো করার জন্য যথেষ্ট,Positive,তোমার ভিডিও গুলি আমার মন ভালো করার জন্য যথেষ্ট


In [6]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6848 entries, 0 to 6847
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Comment  6848 non-null   object
 1   Label    6848 non-null   object
 2   Cleaned  6848 non-null   object
dtypes: object(3)
memory usage: 160.6+ KB


In [7]:
stopwords_list ='../Data/stopwords-bn.txt'

In [8]:
def stopword_removal(Comment,stopwords= stopwords_list):
    stp,num_of_stopwords =stopwords_info(stopwords)
    result = Comment.split()
    Comments = [word.strip() for word in result if word not in stp ]
    Comments =" ".join(Comments)
    return Comments

In [9]:
def stopwords_info(filename):
    stp = open(filename,'r',encoding='utf-8').read().split()
    num_of_stopwords = len(stp)
    return stp,num_of_stopwords

In [10]:
data['Cleaned'] = data['Cleaned'].apply(stopword_removal)  
data

Unnamed: 0,Comment,Label,Cleaned
0,হ্যাতেরা টিস্যু দিয়া মুখ মোছবে আর জনগনের পকেট ...,Neutral,হ্যাতেরা টিস্যু দিয়া মুখ মোছবে জনগনের পকেট কাটা
1,"হ্যা! দেওয়াল ধরে দাড়ায় থাকো,পিছন দিয়ে এসে মেরে...",Negative,হ্যা দেওয়াল দাড়ায় থাকো পিছন দিয়ে মেরে দিবে
2,হ্যাঁ এইটা সুন্দর,Positive,হ্যাঁ এইটা সুন্দর
3,হিজড়া হিরো,Negative,হিজড়া হিরো
4,হোগা মারা সারা,Negative,হোগা মারা সারা
...,...,...,...
6843,অনেক অনেক দোয়া রইল অফুরন্ত।,Positive,দোয়া রইল অফুরন্ত
6844,মোটামুটি ভালোই হয়েছে ভিডিওটা ।,Positive,মোটামুটি ভালোই ভিডিওটা
6845,বাংলাদেশ থেকে দাদা আপনার প্রতি অনেক অনেক ভালোবাসা,Positive,বাংলাদেশ দাদা ভালোবাসা
6846,তোমার ভিডিও গুলি আমার মন ভালো করার জন্য যথেষ্ট,Positive,তোমার ভিডিও মন ভালো যথেষ্ট


In [11]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6848 entries, 0 to 6847
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   Comment  6848 non-null   object
 1   Label    6848 non-null   object
 2   Cleaned  6848 non-null   object
dtypes: object(3)
memory usage: 160.6+ KB


In [12]:
data.to_excel('Abusive_text_clean.xlsx')