In [1]:
import os
import nltk
import pandas
import re

### Read Data

In [2]:
def read_File():
    sentences = []
    labels = []
    scrip_dir = os.path.dirname(os.path.realpath('__file__'))
    rel_path = "data.txt"
    abs_file_path = os.path.join(scrip_dir, rel_path)
    with open(abs_file_path, encoding='utf-8') as f:
        for line in f:
            sent = line.split()
            labels.append(sent[0])
            sentence = re.sub(sent[0]+'\t', '', line)
            sentences.append(sentence)
    print('read file complete')
    
    return sentences, labels

In [3]:
sentences, labels = read_File()


read file complete


### Create pandas dataframe

In [4]:
import pandas as pd

data = {'label': labels,
        'sentence': sentences
        }

df = pd.DataFrame(data, columns = ['label', 'sentence'])

df.head()

Unnamed: 0,label,sentence
0,pos,একজন বাংলাদেশী হিসাবে আমি গর্বিত । আরও গর্বিত ...
1,neg,"কি বিচিত্র এই দেশ, আর একজন ক্বারি ওবায়দুল্ল..."
2,pos,আলহামদুলিল্লাহ একজন বাঙ্গালী হিসাবে গর্ব বোধ ক...
3,pos,"অভিনন্দন তোমা‌কে মুস্তা‌ফিজ, তু‌মি এর উপযুক্ত..."
4,pos,আলহামদুলিল্লাহ। অভিনন্দন সাতক্ষীরা বাসির অহংকা...


# Data cleaning

In [11]:
def clean_sentence(sent):
    
    sent = re.sub('[?.`*^():|।;!,&%\'@#$><A-Za-z0+-9=./''""_০-৯]', '', sent)
    sent = re.sub(r'(\W)(?=\1)', '', sent)
    sent = re.sub(r'https?:\/\/.*[\r\n]*', '', sent, flags=re.MULTILINE)
    sent = re.sub(r'\<a href', ' ', sent)
    sent = re.sub(r'&amp;', '', sent) 
    sent = re.sub(r'<br />', ' ', sent)
    sent = re.sub(r'\'', ' ', sent)
    sent = sent.strip()
    return sent

In [12]:
df.loc[0,'sentence']

'একজন বাংলাদেশী হিসাবে আমি গর্বিত । আরও গর্বিত যে আমার দেশের একজন ক্রিকেটার এই বিরল সম্মান অর্জন করেছে । এগিয়ে যাও মুস্তা, বিশ্ব দরবারে বাংলাদেশকে পরিচিত কর, জানিয়ে দাও তোমার আগমনী বার্তা ।\n'

In [13]:
for i, sent  in enumerate(df['sentence'].tolist()):
    df.loc[i,'sentence'] = clean_sentence(sent)

In [14]:
test = df.loc[0,'sentence']
test

'একজন বাংলাদেশী হিসাবে আমি গর্বিত আরও গর্বিত যে আমার দেশের একজন ক্রিকেটার এই বিরল সম্মান অর্জন করেছে এগিয়ে যাও মুস্তা বিশ্ব দরবারে বাংলাদেশকে পরিচিত কর জানিয়ে দাও তোমার আগমনী বার্তা'

### Tokenized Sentence

In [15]:
def tokenized_data(sent):
    tokenized_text = sent.split()
    return tokenized_text

### Remove stopwords

In [21]:
stop_words = {'এ', 'হয়', 'কি', 'কী', 'এর', 'কে', 'যে', 'এই', 'বা', 'সব', 'টি', 'তা',
       'সে', 'তাই', 'সেই', 'তার', 'আগে', 'যদি', 'আছে', 'আমি', 'এবং', 'করে', 'কার', 'এটি', 'হতে', 'যায়',
       'আরও', 'যাক', 'খুব', 'উপর', 'পরে', 'হবে', 'কেন', 'নেই', 'কখন', 'সকল', 'হয়', 'ঠিক', 'একই', 'কোন',
       'ছিল', 'খুবই', 'কোনো', 'অধীন', 'যারা', 'তারা', 'গুলি', 'তাকে', 'সেটা', 'সময়', 'আমার', 'আমরা', 'সবার',
       'উভয়', 'একটা', 'আপনি', 'নিয়ে', 'একটি', 'বন্ধ', 'জন্য', 'শুধু', 'যেটা', 'উচিত', 'মাঝে', 'থেকে', 'করবে',
       'আবার', 'উপরে', 'সেটি', 'কিছু', 'কারণ', 'যেমন', 'তিনি', 'মধ্যে', 'আমাকে', 'করছেন', 'তুলনা', 'তারপর',
       'নিজেই', 'থাকার', 'নিজের', 'পারেন', 'একবার', 'সঙ্গে', 'ইচ্ছা', 'নীচের', 'এগুলো', 'আপনার', 'অধীনে', 'কিংবা',
       'এখানে', 'তাহলে', 'কয়েক', 'জন্যে', 'হচ্ছে', 'তাদের', 'কোথায়', 'কিন্তু', 'নিজেকে', 'যতক্ষণ', 'আমাদের',
       'দ্বারা', 'হয়েছে', ' সঙ্গে', 'সেখানে', 'কিভাবে', 'মাধ্যমে', 'নিজেদের', 'তুলনায়', 'প্রতিটি',
       'তাদেরকে', 'ইত্যাদি', 'সম্পর্কে', 'সর্বাধিক', 'বিরুদ্ধে', 'অন্যান্য'}

def remove_stop_words(text):
    text = [w for w in text if not w in stop_words]
    text = ' '.join(text)
    return text

In [24]:
t_data = tokenized_data(test)
r_word = remove_stop_words(t_data)
print('befor :', test)
print('after :', r_word)

befor : একজন বাংলাদেশী হিসাবে আমি গর্বিত আরও গর্বিত যে আমার দেশের একজন ক্রিকেটার এই বিরল সম্মান অর্জন করেছে এগিয়ে যাও মুস্তা বিশ্ব দরবারে বাংলাদেশকে পরিচিত কর জানিয়ে দাও তোমার আগমনী বার্তা
after : একজন বাংলাদেশী হিসাবে গর্বিত গর্বিত দেশের একজন ক্রিকেটার বিরল সম্মান অর্জন করেছে এগিয়ে যাও মুস্তা বিশ্ব দরবারে বাংলাদেশকে পরিচিত কর জানিয়ে দাও তোমার আগমনী বার্তা
