# Task 2: Sample Bengali dataset and do preprocessing

In [1]:
# Imports
import re
import string
import json
from datetime import datetime
from collections import defaultdict, Counter

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from tqdm import tqdm

import torch
import torch.nn as nn
from torch.nn import Module
import torch.optim as optim
import torch.nn.functional as F
from torch.utils.data import Dataset, DataLoader
from torch.nn.utils.rnn import pad_sequence, pack_padded_sequence, pad_packed_sequence

from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score

from nltk.corpus import stopwords

device = 'cpu'

import random

random.seed(26)
np.random.seed(62)
torch.manual_seed(2021)
torch.cuda.manual_seed(123)

In [2]:
embedding_size = 300

# get vocab_size
with open('../../Task_1/save/word_to_int_dict.json') as f:
    hindi_word_to_int = json.load(f)
hindi_vocab_size = len(hindi_word_to_int)

# define classifier
class HindiClassifier(Module):
    def __init__(self):
        super(HindiClassifier, self).__init__()

        self.embed = nn.Embedding(hindi_vocab_size, embedding_size)
#         self.embed.load_state_dict(torch.load(embedding_path, map_location=torch.device(device)))
#         self.embed.requires_grad = False
        
        self.attention = nn.MultiheadAttention(embed_dim=embedding_size,
                                               num_heads=10,
                                               dropout=0.5,) # need to add mask for padding positions

        self.fc = nn.Linear(embedding_size, 1)

    def forward(self, inp, seq_lens):
        out = self.embed(inp)
        pad_mask = mask_seq(seq_lens)
        att_out, _ = self.attention(out, out, out, key_padding_mask=pad_mask)
        out = F.layer_norm(out + att_out, (out.size(2), ))
        out = self.fc(out).squeeze(2)
        pred = torch.zeros((out.size(1), 1))
        for i, seq_len in enumerate(seq_lens):
            pred[i, 0] = out[:seq_len, i].mean()
        return pred

hindi_clf = HindiClassifier()
hindi_model_weight_path = '../hindi_hindi/save/hindi_clf.pt'

hindi_clf.load_state_dict(torch.load(hindi_model_weight_path, map_location=torch.device(device)))
hindi_clf.eval()

bengali_vocab_size = 15000
bengali_embed = nn.Embedding(bengali_vocab_size, embedding_size)
bengali_clf = nn.Sequential(*([bengali_embed] + list(hindi_clf.children())[1:]))

bengali_clf.eval()

# Sample Bengali dataset

In [2]:
# get the size and number of HOF, NOT sentences in hindi-dataset
print('Hindi - training data')
hindi_train_df = pd.read_csv('../data/hindi_hatespeech.tsv', sep='\t')
display(hindi_train_df['task_1'].value_counts())

print()

print('Hindi - test data')
hindi_test_df = pd.read_csv('../data/hasoc2019_hi_test_gold_2919.tsv', sep='\t')
display(hindi_test_df['task_1'].value_counts())

Hindi - training data


HOF    2469
NOT    2196
Name: task_1, dtype: int64


Hindi - test data


NOT    713
HOF    605
Name: task_1, dtype: int64

In [3]:
# sample data from the Bengali dataset so that it has the same size and distribution as in Hindi dataset
bengali_df = pd.read_csv('../data/bengali_hatespeech.csv')

bengali_hate_sample_df = bengali_df[bengali_df['hate']==1].sample(2469+605, random_state=1, replace=False)
bengali_hate_train, bengali_hate_test = train_test_split(bengali_hate_sample_df, train_size=2469, random_state=2)

bengali_not_sample_df = bengali_df[bengali_df['hate']==0].sample(2196+713, random_state=1, replace=False)
bengali_not_train, bengali_not_test = train_test_split(bengali_not_sample_df, train_size=2196, random_state=2)

bengali_train_df = pd.concat([bengali_not_train, bengali_hate_train]).sample(frac=1)
bengali_test_df = pd.concat([bengali_not_test, bengali_hate_test]).sample(frac=1)

In [4]:
# show stats of sample Bengali datasets
print('Bengali - sample training data')
display(bengali_train_df['hate'].value_counts())

print()

print('Bengali - sample test data')
display(bengali_test_df['hate'].value_counts())

Bengali - sample training data


1    2469
0    2196
Name: hate, dtype: int64


Bengali - sample test data


0    713
1    605
Name: hate, dtype: int64

In [5]:
# save sample Bengali datasets
bengali_train_df.to_csv('../data/bengali_hatespeech_sample_train.csv', index=False)
bengali_test_df.to_csv('../data/bengali_hatespeech_sample_test.csv', index=False)

# Preprocessing

In [6]:
train_sentences = bengali_train_df['sentence']
test_sentences = bengali_test_df['sentence']

In [7]:
def preprocess_texts(sentences):
    # remove user taggings
    user_tag_pattern = re.compile(r'\@\w*')
    sentences = [re.sub(user_tag_pattern, ' ', sentence) for sentence in sentences]
    # lower case
    sentences = [sentence.lower() for sentence in sentences]
    # remove punctuations
    punctuation = string.punctuation[:2] + string.punctuation[3:]
    translator = str.maketrans(punctuation, ' '*len(punctuation))
    def remove_punc(s):
        s = s.translate(translator)
        return s

    sentences = [remove_punc(sentence) for sentence in sentences]
    
    # remove stopwords BENGALI
    # source: https://www.ranks.nl/stopwords/bengali
    stopwords = ['অবশ্য', 'অনেক', 'অনেকে', 'অনেকেই', 'অন্তত', 'অথবা', 'অথচ', 'অর্থাত', 'অন্য', 'আজ', 'আছে', 'আপনার', 
                 'আপনি', 'আবার', 'আমরা', 'আমাকে', 'আমাদের', 'আমার', 'আমি', 'আরও', 'আর', 'আগে', 'আগেই', 'আই', 
                 'অতএব', 'আগামী', 'অবধি', 'অনুযায়ী', 'আদ্যভাগে', 'এই', 'একই', 'একে', 'একটি', 'এখন', 'এখনও', 'এখানে', 
                 'এখানেই', 'এটি', 'এটা', 'এটাই', 'এতটাই', 'এবং', 'একবার', 'এবার', 'এদের', 'এঁদের', 'এমন', 'এমনকী', 'এল', 
                 'এর', 'এরা', 'এঁরা', 'এস', 'এত', 'এতে', 'এসে', 'একে', 'এ', 'ঐ', ' ই', 'ইহা', 'ইত্যাদি', 'উনি', 'উপর', 
                 'উপরে', 'উচিত', 'ও', 'ওই', 'ওর', 'ওরা', 'ওঁর', 'ওঁরা', 'ওকে', 'ওদের', 'ওঁদের', 'ওখানে', 'কত', 'কবে', 
                 'করতে', 'কয়েক', 'কয়েকটি', 'করবে', 'করলেন', 'করার', 'কারও', 'করা', 'করি', 'করিয়ে', 'করার', 'করাই', 
                 'করলে', 'করলেন', 'করিতে', 'করিয়া', 'করেছিলেন', 'করছে', 'করছেন', 'করেছেন', 'করেছে', 'করেন', 'করবেন', 
                 'করায়', 'করে', 'করেই', 'কাছ', 'কাছে', 'কাজে', 'কারণ', 'কিছু', 'কিছুই', 'কিন্তু', 'কিংবা', 'কি', 'কী', 'কেউ', 
                 'কেউই', 'কাউকে', 'কেন', 'কে', 'কোনও', 'কোনো', 'কোন', 'কখনও', 'ক্ষেত্রে', 'খুব	গুলি', 'গিয়ে', 'গিয়েছে', 
                 'গেছে', 'গেল', 'গেলে', 'গোটা', 'চলে', 'ছাড়া', 'ছাড়াও', 'ছিলেন', 'ছিল', 'জন্য', 'জানা', 'ঠিক', 'তিনি', 
                 'তিনঐ', 'তিনিও', 'তখন', 'তবে', 'তবু', 'তাঁদের', 'তাঁাহারা', 'তাঁরা', 'তাঁর', 'তাঁকে', 'তাই', 'তেমন', 'তাকে', 
                 'তাহা', 'তাহাতে', 'তাহার', 'তাদের', 'তারপর', 'তারা', 'তারৈ', 'তার', 'তাহলে', 'তিনি', 'তা', 'তাও', 'তাতে', 
                 'তো', 'তত', 'তুমি', 'তোমার', 'তথা', 'থাকে', 'থাকা', 'থাকায়', 'থেকে', 'থেকেও', 'থাকবে', 'থাকেন', 'থাকবেন', 
                 'থেকেই', 'দিকে', 'দিতে', 'দিয়ে', 'দিয়েছে', 'দিয়েছেন', 'দিলেন', 'দু', 'দুটি', 'দুটো', 'দেয়', 'দেওয়া', 'দেওয়ার', 
                 'দেখা', 'দেখে', 'দেখতে', 'দ্বারা', 'ধরে', 'ধরা', 'নয়', 'নানা', 'না', 'নাকি', 'নাগাদ', 'নিতে', 'নিজে', 'নিজেই', 
                 'নিজের', 'নিজেদের', 'নিয়ে', 'নেওয়া', 'নেওয়ার', 'নেই', 'নাই', 'পক্ষে', 'পর্যন্ত', 'পাওয়া', 'পারেন', 'পারি', 'পারে', 
                 'পরে', 'পরেই', 'পরেও', 'পর', 'পেয়ে', 'প্রতি', 'প্রভৃতি', 'প্রায়', 'ফের', 'ফলে', 'ফিরে', 'ব্যবহার', 'বলতে', 
                 'বললেন', 'বলেছেন', 'বলল', 'বলা', 'বলেন', 'বলে', 'বহু', 'বসে', 'বার', 'বা', 'বিনা', 'বরং', 'বদলে', 'বাদে', 
                 'বার', 'বিশেষ', 'বিভিন্ন	বিষয়টি', 'ব্যবহার', 'ব্যাপারে', 'ভাবে', 'ভাবেই', 'মধ্যে', 'মধ্যেই', 'মধ্যেও', 'মধ্যভাগে', 
                 'মাধ্যমে', 'মাত্র', 'মতো', 'মতোই', 'মোটেই', 'যখন', 'যদি', 'যদিও', 'যাবে', 'যায়', 'যাকে', 'যাওয়া', 'যাওয়ার', 
                 'যত', 'যতটা', 'যা', 'যার', 'যারা', 'যাঁর', 'যাঁরা', 'যাদের', 'যান', 'যাচ্ছে', 'যেতে', 'যাতে', 'যেন', 'যেমন', 
                 'যেখানে', 'যিনি', 'যে', 'রেখে', 'রাখা', 'রয়েছে', 'রকম', 'শুধু', 'সঙ্গে', 'সঙ্গেও', 'সমস্ত', 'সব', 'সবার', 'সহ', 
                 'সুতরাং', 'সহিত', 'সেই', 'সেটা', 'সেটি', 'সেটাই', 'সেটাও', 'সম্প্রতি', 'সেখান', 'সেখানে', 'সে', 'স্পষ্ট', 'স্বয়ং', 
                 'হইতে', 'হইবে', 'হৈলে', 'হইয়া', 'হচ্ছে', 'হত', 'হতে', 'হতেই', 'হবে', 'হবেন', 'হয়েছিল', 'হয়েছে', 'হয়েছেন', 'হয়ে', 
                 'হয়নি', 'হয়', 'হয়েই', 'হয়তো', 'হল', 'হলে', 'হলেই', 'হলেও', 'হলো', 'হিসাবে', 'হওয়া', 'হওয়ার', 'হওয়ায়', 'হন', 
                 'হোক', 'জন', 'জনকে', 'জনের', 'জানতে', 'জানায়', 'জানিয়ে', 'জানানো', 'জানিয়েছে', 'জন্য', 'জন্যওজে', 'জে', 
                 'বেশ', 'দেন', 'তুলে', 'ছিলেন', 'চান', 'চায়', 'চেয়ে', 'মোট', 'যথেষ্ট', 'টি']

    sentences = [[word for word in sentence.split() if word not in stopwords] for sentence in sentences]
    
    return sentences

train_sentences = preprocess_texts(train_sentences)
train_texts = [' '.join(l) for l in train_sentences]
bengali_train_df['sentence'] = train_texts

test_sentences = preprocess_texts(test_sentences)
test_texts = [' '.join(l) for l in test_sentences]
bengali_test_df['sentence'] = test_texts

In [8]:
display(bengali_train_df.head())
display(bengali_test_df.head())

Unnamed: 0,sentence,hate,category
20264,ভায়েরা আপনাদের ধন্যোবাদ এগিয়ে জাও পাসে আছি ভাই,0,religion
29036,নাউজুবিল্লাহ নাউজুবিল্লাহ,0,"Meme, TikTok and others"
18435,দুইজন অপরাধ সরকারি চাকরি হিসেবে দুইজনকে বাংলাদ...,0,crime
12232,উড়িয়ে ই মারলো পেরেরা,0,sports
14640,পুরুষ এক জাত অনেকসময় বোঝেনা সময় বুঝতে চায়না...,0,entertainment


Unnamed: 0,sentence,hate,category
25861,লেখাটি ফুটবল বুঝেই লেখা।,0,celebrity
11360,ভাই কথা শুনে কান্না আসলো।,0,sports
1691,খানকি নাইকা,1,entertainment
7442,মাগি তোরে ঠিইক সতন বাগুন দিলে ভালও হইত তোর ভালওনা,1,politics
2569,কয়টা বিচারকদের চোদার দরকার 😠😠😠😠😈😈😈😡,1,entertainment


In [9]:
bengali_train_df.to_csv('../data/bengali_hatespeech_sample_train_preprocessed.csv', index=False)
bengali_test_df.to_csv('../data/bengali_hatespeech_sample_test_preprocessed.csv', index=False)