In [1]:
import pandas as pd
import numpy as np
import re
import unicodedata
import nltk
import matplotlib.pyplot as plt
import string
from nltk.corpus import stopwords
from gensim.models import Word2Vec
df=pd.read_csv("Bengali_hate_speech.csv")

In [2]:
df.head()

Unnamed: 0,sentence,hate,category
0,যত্তসব পাপন শালার ফাজলামী!!!!!,1,sports
1,পাপন শালা রে রিমান্ডে নেওয়া দরকার,1,sports
2,জিল্লুর রহমান স্যারের ছেলে এতো বড় জারজ হবে এটা...,1,sports
3,শালা লুচ্চা দেখতে পাঠার মত দেখা যায়,1,sports
4,তুই তো শালা গাজা খাইছচ।তুর মার হেডায় খেলবে সাকিব,1,sports


## Cleaning the texts

In [3]:
def basic_clean(text):
    punctuationNoPeriod = "[" + re.sub("\.","",string.punctuation) + "]"
    text = re.sub(punctuationNoPeriod, "", text)   
    words = text.split()
    return words

In [4]:

def replace_strings(texts, replace):
    new_texts=[]
    
    emoji_pattern = re.compile("["
                           u"\U0001F600-\U0001F64F"  # emoticons
                           u"\U0001F300-\U0001F5FF"  # symbols & pictographs
                           u"\U0001F680-\U0001F6FF"  # transport & map symbols
                           u"\U0001F1E0-\U0001F1FF"  # flags (iOS)
                           u"\U00002702-\U000027B0"
                           u"\U000024C2-\U0001F251"
                           "]+", flags=re.UNICODE)
    english_pattern=re.compile('[a-zA-Z0-9]+', flags=re.I)
    
    for text in texts:
        for r in replace:
            text=text.replace(r[0], r[1])
        text=emoji_pattern.sub(r'', text)
        text=english_pattern.sub(r'', text)
        text=re.sub(r'\s+', ' ', text).strip()
        new_texts.append(text)

    return new_texts

In [5]:
replace=[('\u200c', ' '),
         ('\u200d', ' '),
        ('\xa0', ' '),
        ('\n', ' '),
        ('\r', ' ')]

In [6]:
words = basic_clean(''.join(str(df['sentence'].tolist())))

In [8]:
words1 = basic_clean(''.join(str(df['sentence'][df.hate==1].tolist())))

## N-Gram Analysis in Hate Class

In [9]:
Unigrams_series1 = (pd.Series(nltk.ngrams(words1, 1)).value_counts())[:20]
Bigrams_series1 = (pd.Series(nltk.ngrams(words1, 2)).value_counts())[:20]
Trigrams_series1 = (pd.Series(nltk.ngrams(words1, 3)).value_counts())[:20]

### Top-20 Unigrams

In [10]:
Unigrams_series1

(এই,)         1815
(না,)         1549
(কি,)         1205
(আর,)         1148
(করে,)        1104
(তুই,)        1000
(কে,)          912
(বাচ্চা,)      903
(একটা,)        885
(তোর,)         857
(মাগি,)        635
(সব,)          626
(কুত্তার,)     607
(খানকির,)      581
(তো,)          568
(মাগির,)       539
(শালা,)        528
(কথা,)         513
(যে,)          483
(জুতা,)        481
dtype: int64

### Top-20 Bigrams

In [11]:
Bigrams_series1

(কুত্তার, বাচ্চা)    257
(খানকির, পোলা)       203
(মাগির, মাগির)       127
(মনে, হয়)            124
(মাদার, চোদ)         102
(তুই, একটা)           79
(খানকি, মাগি)         77
(এই, সব)              76
(জুতা, দিয়ে)          60
(এই, কুত্তার)         59
(কথা, বলে)            58
(এই, খানকির)          58
(মারে, চুদি)          57
(লুচ্চা, লুচ্চা)      56
(হা, হা)              54
(জুতা, পিটা)          53
(জুতা, মার)           53
(কে, জুতা)            49
(পারে, না)            49
(মাসুদ, রানা)         49
dtype: int64

### Top-20 Trigrams

In [12]:
Trigrams_series1

(মাগির, মাগির, মাগির)       126
(লুচ্চা, লুচ্চা, লুচ্চা)     52
(হা, হা, হা)                 24
(চোর, চোর, চোর)              20
(জুতা, পিটা, করা)            19
(জুতা, মারা, দরকার)          18
(জুতা, পেটা, করা)            18
(ছি, ছি, ছি)                 17
(এই, খানকির, পোলা)           16
(থেকে, বের, করে)             16
(এই, কুত্তার, বাচ্চা)        15
(কুত্তার, বাচ্চা, তুই)       15
(আমার, মনে, হয়)              15
(তোর, মারে, চুদি)            13
(করতে, পারে, না)             13
(পাপন, খানকির, পোলা)         13
(ছিঃ, ছিঃ, ছিঃ)              13
(কুত্তার, বাচ্চা, কে)        12
(মাগি, মাগি, মাগি)           12
(খানকির, পোলা, তোর)          12
dtype: int64

In [13]:
words0 = basic_clean(''.join(str(df['sentence'][df.hate==0].tolist())))

## N-Gram Analysis in Non-Hate Class

In [14]:
Unigrams_series0 = (pd.Series(nltk.ngrams(words0, 1)).value_counts())[:20]
Bigrams_series0 = (pd.Series(nltk.ngrams(words0, 2)).value_counts())[:20]
Trigrams_series0 = (pd.Series(nltk.ngrams(words0, 3)).value_counts())[:20]

### Top-20 Unigrams

In [15]:
Unigrams_series0

(না,)       4199
(করে,)      2915
(এই,)       2869
(আর,)       2696
(কি,)       2597
(কে,)       1876
(আমি,)      1616
(আমার,)     1603
(আপনার,)    1514
(কথা,)      1504
(ভাই,)      1423
(ও,)        1378
(জন্য,)     1347
(যে,)       1344
(একটা,)     1327
(ভালো,)     1280
(আপনি,)     1278
(অনেক,)     1232
(তার,)      1219
(থেকে,)     1166
dtype: int64

### Top-20 Bigrams

In [16]:
Bigrams_series0

(মনে, হয়)        233
(হা, হা)         167
(অনেক, ভালো)     126
(করার, জন্য)     125
(খুব, ভালো)      119
(জাফর, ইকবাল)    117
(কথা, বলে)       115
(হবে, না)        113
(এই, সব)         112
(না, করে)        112
(আমার, মনে)      104
(ভালো, লাগে)     100
(না, কেন)         94
(হয়, না)          93
(এই, রকম)         91
(হতে, পারে)       85
(না, হলে)         84
(কি, করে)         82
(করা, হোক)        82
(মনে, হচ্ছে)      80
dtype: int64

### Top-20 Trigrams

In [17]:
Trigrams_series0

(হা, হা, হা)                76
(আমার, মনে, হয়)             61
(না, না, না)                52
(আমি, মনে, করি)             49
(করে, বমি, করে)             29
(জাফর, ইকবাল, স্যার)        28
(অনেক, অনেক, ধন্যবাদ)       27
(বি, এন, পি)                25
(সাকিব, আল, হাসান)          24
(খুব, ভালো, লাগলো)          24
(মিজানুর, রহমান, আজহারী)    22
(থেকে, বের, করে)            20
(হড়হড়, করে, বমি)            20
(অনেক, দিন, পর)             18
(ছি, ছি, ছি)                18
(তা, না, হলে)               18
(যদি, পারেন, তাহলে)         17
(হড়, হড়, করে)               17
(অনেক, ভালো, লাগলো)         17
(এই, ভিডিও, টা)             16
dtype: int64

## N-Gram Analysis in Whole Dataset

In [18]:
Unigrams_series = (pd.Series(nltk.ngrams(words, 1)).value_counts())[:20]
Bigrams_series = (pd.Series(nltk.ngrams(words, 2)).value_counts())[:20]
Trigrams_series = (pd.Series(nltk.ngrams(words, 3)).value_counts())[:20]

### Top-20 Unigrams

In [19]:
Unigrams_series

(না,)       5748
(এই,)       4684
(করে,)      4019
(আর,)       3844
(কি,)       3802
(কে,)       2788
(একটা,)     2212
(আমি,)      2061
(কথা,)      2017
(আমার,)     1999
(ও,)        1849
(যে,)       1827
(জন্য,)     1729
(তো,)       1713
(ভাই,)      1688
(সব,)       1684
(আপনার,)    1642
(এর,)       1580
(ভালো,)     1573
(তার,)      1562
dtype: int64

### Top-20 Bigrams

In [20]:
Bigrams_series

(মনে, হয়)            357
(কুত্তার, বাচ্চা)    265
(হা, হা)             221
(খানকির, পোলা)       206
(এই, সব)             188
(কথা, বলে)           173
(করার, জন্য)         161
(জাফর, ইকবাল)        158
(না, করে)            151
(হবে, না)            148
(অনেক, ভালো)         140
(আমার, মনে)          132
(খুব, ভালো)          132
(না, কেন)            132
(করা, হোক)           129
(এই, রকম)            127
(মাগির, মাগির)       127
(কি, করে)            126
(না, হলে)            122
(ছি, ছি)             118
dtype: int64

### Top-20 Trigrams

In [21]:
Trigrams_series

(মাগির, মাগির, মাগির)       126
(হা, হা, হা)                100
(আমার, মনে, হয়)              76
(আমি, মনে, করি)              60
(না, না, না)                 52
(লুচ্চা, লুচ্চা, লুচ্চা)     52
(থেকে, বের, করে)             36
(ছি, ছি, ছি)                 35
(করে, বমি, করে)              33
(বি, এন, পি)                 32
(জাফর, ইকবাল, স্যার)         31
(অনেক, অনেক, ধন্যবাদ)        31
(জুতা, পিটা, করা)            31
(জুতা, পেটা, করা)            30
(ছিঃ, ছিঃ, ছিঃ)              29
(তা, না, হলে)                29
(জুতা, মারা, দরকার)          29
(সাকিব, আল, হাসান)           28
(করতে, পারে, না)             25
(খুব, ভালো, লাগলো)           25
dtype: int64

In [22]:
len(words)

438630

### Creating Word2Vec model with vector size of 300

In [23]:
model = Word2Vec([words], size=300, window=50, min_count=1)

In [24]:
df['sentence'][:12]

0                        যত্তসব পাপন শালার ফাজলামী!!!!!
1                     পাপন শালা রে রিমান্ডে নেওয়া দরকার
2     জিল্লুর রহমান স্যারের ছেলে এতো বড় জারজ হবে এটা...
3                   শালা লুচ্চা দেখতে পাঠার মত দেখা যায়
4      তুই তো শালা গাজা খাইছচ।তুর মার হেডায় খেলবে সাকিব
5     এটা কুন দরনের কেলা ফাইজলামি তাস্কিন রে চর মারা...
6                      পাপন ভর মাদা চোদ পাপনে পদতেক চাই
7                                 দুরো সালার পুদ চুপথাক
8                                    কুত্তার বাছচা পাপন
9                                     বাল ছাল তর সাউয়া😡
10                        তোর কপালে জুতা মারি শালার পুত
11                                     পাপনে পাগল হয়াছে
Name: sentence, dtype: object

In [25]:
print(words[:10])

['যত্তসব', 'পাপন', 'শালার', 'ফাজলামী', 'পাপন', 'শালা', 'রে', 'রিমান্ডে', 'নেওয়া', 'দরকার']


In [26]:
model.wv.most_similar('বাংগালী', topn=5)

[('কিছুর', 0.4087870419025421),
 ('কাপ', 0.4079126715660095),
 ('ইউটিউবার', 0.40174606442451477),
 ('নবীকে', 0.40031445026397705),
 ('কারণে', 0.39885151386260986)]

In [27]:
filename="embedding_word2vec.txt"
model.wv.save_word2vec_format(filename,binary=False)

In [28]:
df.head()

Unnamed: 0,sentence,hate,category
0,যত্তসব পাপন শালার ফাজলামী!!!!!,1,sports
1,পাপন শালা রে রিমান্ডে নেওয়া দরকার,1,sports
2,জিল্লুর রহমান স্যারের ছেলে এতো বড় জারজ হবে এটা...,1,sports
3,শালা লুচ্চা দেখতে পাঠার মত দেখা যায়,1,sports
4,তুই তো শালা গাজা খাইছচ।তুর মার হেডায় খেলবে সাকিব,1,sports


In [29]:
model.wv['পাপন']

array([-7.63137862e-02, -1.41983449e-01,  1.46264432e-03, -1.83959365e-01,
       -1.69953704e-02, -1.87491495e-02, -1.97759978e-02,  9.70379859e-02,
       -6.46867454e-02, -4.69931550e-02, -2.71046218e-02, -2.91423261e-01,
        5.63621754e-03,  2.72657692e-01,  2.25436792e-01, -3.12920772e-02,
        9.59689468e-02, -1.02639673e-02,  1.15689799e-01, -3.07544097e-02,
        6.43213987e-02,  7.57659376e-02, -2.50332803e-01, -1.21727422e-01,
        6.48555979e-02, -1.42652646e-01, -9.68732387e-02,  1.59352154e-01,
       -7.25110695e-02, -1.54783586e-02,  3.88745288e-03, -8.50437507e-02,
       -2.86644530e-02, -1.07964240e-01,  2.21488893e-01,  3.41851622e-01,
        5.34537900e-03, -1.41455308e-01,  8.24988820e-03,  7.60176852e-02,
       -8.42386708e-02,  2.81526726e-02,  1.66850984e-01,  9.96643901e-02,
        1.09456867e-01,  1.61893010e-01, -1.36011109e-01,  7.08211511e-02,
        1.24367848e-01, -6.55232221e-02, -2.29826927e-01,  3.38323154e-02,
       -1.00689441e-01, -

In [30]:
df['sentence']

0                           যত্তসব পাপন শালার ফাজলামী!!!!!
1                        পাপন শালা রে রিমান্ডে নেওয়া দরকার
2        জিল্লুর রহমান স্যারের ছেলে এতো বড় জারজ হবে এটা...
3                      শালা লুচ্চা দেখতে পাঠার মত দেখা যায়
4         তুই তো শালা গাজা খাইছচ।তুর মার হেডায় খেলবে সাকিব
                               ...                        
29995                        আমার মনে হচ্ছে মেনে নেয়া উচিত
29996                         আমি ধন্যবাদ জানাই আইনপসাসনকে
29997             কাসমির কাসমিরই নিজশ্যই সাদিন হওয়ার দরকার
29998                   কলমি পিলিজ আপু মনি অনেক কিওট লাগছে
29999                           আমি পাকিস্তান এর সাথে জড়িত
Name: sentence, Length: 30000, dtype: object

In [31]:
docs_vectors = pd.DataFrame()

for doc in df['sentence']:
    temp = pd.DataFrame()
    for word_a in doc.split():
        try:
            word_vec=model.wv[word_a]
            temp=temp.append(pd.Series(word_vec),ignore_index=True)  
        except:
            pass
    doc_vector = temp.mean()
    docs_vectors=docs_vectors.append(doc_vector,ignore_index=True)

In [32]:
docs_vectors.shape

(30000, 300)

In [33]:
docs_vectors['hate'] = df['hate']
docs_vectors = docs_vectors.dropna()

### Splitting the Dataset in Test & Train Sets

In [34]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

train_x, test_x, train_y, test_y = train_test_split(docs_vectors.drop('hate', axis = 1),
                                                   docs_vectors['hate'],
                                                   test_size = 0.2,
                                                   random_state = 1)
train_x.shape, train_y.shape, test_x.shape, test_y.shape

((23962, 300), (23962,), (5991, 300), (5991,))

### Using Logistic Regression To Classify the Embaddings

In [35]:
logisticRegr = LogisticRegression()
logisticRegr.fit(train_x, train_y)

LogisticRegression()

In [36]:
test_pred = logisticRegr.predict(test_x)
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn.metrics import roc_auc_score

accuracy=accuracy_score(test_y, test_pred)
print('Accuracy: %f' % accuracy)
# precision tp / (tp + fp)
precision = precision_score(test_y, test_pred)
print('Precision: %f' % precision)
# recall: tp / (tp + fn)
recall = recall_score(test_y, test_pred)
print('Recall: %f' % recall)
# f1: 2 tp / (2 tp + fp + fn)
f1 = f1_score(test_y, test_pred)
print('F1 score: %f' % f1)
# ROC AUC
auc = roc_auc_score(test_y, test_pred)
print('ROC AUC: %f' % auc)

Accuracy: 0.694041
Precision: 0.663430
Recall: 0.201474
F1 score: 0.309084
ROC AUC: 0.574448


### Using SVM to classify the Embeddings

In [37]:

from sklearn import svm
#Create a svm Classifier
clf = svm.SVC() # Linear Kernel
#Train the model using the training sets
clf.fit(train_x, train_y)

#Predict the response for test dataset
test_pred = clf.predict(test_x)
accuracy=accuracy_score(test_y, test_pred)
print('Accuracy: %f' % accuracy)
# precision tp / (tp + fp)
precision = precision_score(test_y, test_pred)
print('Precision: %f' % precision)
# recall: tp / (tp + fn)
recall = recall_score(test_y, test_pred)
print('Recall: %f' % recall)
# f1: 2 tp / (2 tp + fp + fn)
f1 = f1_score(test_y, test_pred)
print('F1 score: %f' % f1)
# ROC AUC
auc = roc_auc_score(test_y, test_pred)
print('ROC AUC: %f' % auc)

Accuracy: 0.701052
Precision: 0.659686
Recall: 0.247666
F1 score: 0.360129
ROC AUC: 0.590971


### Using LSTM Model To build the Classifier

In [38]:
from tensorflow.python.keras.preprocessing.text import Tokenizer
from tensorflow.python.keras.preprocessing.sequence import pad_sequences

In [39]:
from keras.models import Sequential
from keras.layers import Dense, Embedding, LSTM, GRU
from keras.layers.embeddings import Embedding


In [40]:
import os

embeddings_index={}
f=open(os.path.join('','embedding_word2vec.txt'), encoding='utf-8')
for line in f:
    value=line.split()
    word=value[0]
    coefs=np.asarray(value[1:])
    embeddings_index[word]=coefs
f.close()    

In [41]:
max_length = max([len(s.split()) for s in df['sentence']])
#max_length=537
tokenizer_obj=Tokenizer()
tokenizer_obj.fit_on_texts(df['sentence'])
sequences = tokenizer_obj.texts_to_sequences(df['sentence'])

word_index=tokenizer_obj.word_index
print('FOund %s unique tokens.'%len(word_index))

review_pad=pad_sequences(sequences,maxlen=max_length)
sentiment=df['hate'].values
print('shape of review tensor:',review_pad.shape)
print('shape of sentiment tensor:', sentiment.shape)

FOund 57362 unique tokens.
shape of review tensor: (30000, 537)
shape of sentiment tensor: (30000,)


In [42]:
max_length = max([len(s.split()) for s in df['sentence']])

In [43]:
max_length

537

In [44]:
len(list(model.wv.vocab))

59062

In [45]:
num_words=len(word_index)+1
embedding_matrix=np.zeros((num_words, 300))

for word, i in word_index.items():
    if i > num_words:
        continue
    embedding_vector = embeddings_index.get(word)
    if embedding_vector is not None:
        embedding_matrix[i]= embedding_vector

In [46]:
print(num_words)

57363


In [47]:
review_pad.shape

(30000, 537)

In [48]:
embedding_matrix.shape

(57363, 300)

In [49]:
from keras.initializers import Constant
modell=Sequential()
embedding_layer = Embedding(num_words, 300, embeddings_initializer=Constant(embedding_matrix),input_length=max_length,trainable=False)
modell.add(embedding_layer)
modell.add(LSTM(units=32,dropout=0.2,recurrent_dropout=0.2))
modell.add(Dense(1,activation='sigmoid'))

modell.compile(loss='binary_crossentropy', optimizer='adam',metrics=['accuracy'])

In [50]:
modell.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding (Embedding)        (None, 537, 300)          17208900  
_________________________________________________________________
lstm (LSTM)                  (None, 32)                42624     
_________________________________________________________________
dense (Dense)                (None, 1)                 33        
Total params: 17,251,557
Trainable params: 42,657
Non-trainable params: 17,208,900
_________________________________________________________________


In [51]:
VALIDATION_SPLIT=0.2
indices=np.arange(review_pad.shape[0])
np.random.shuffle(indices)
sentiment=sentiment[indices]
num_validation_samples=int(VALIDATION_SPLIT*review_pad.shape[0])

In [52]:
x_trainn_pad=review_pad[:-num_validation_samples]
y_trainn=sentiment[:-num_validation_samples]
x_testt_pad=review_pad[-num_validation_samples:]
y_testt=sentiment[-num_validation_samples:]

In [53]:
print(x_testt_pad.shape)
print(y_testt.shape)

(6000, 537)
(6000,)


In [54]:
modell.fit(x_trainn_pad,y_trainn,batch_size=128,epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<tensorflow.python.keras.callbacks.History at 0x7f7fd6d933d0>

In [55]:
test_pred = modell.predict(x_testt_pad)
# accuracy=accuracy_score(y_testt, test_pred)
# print('Accuracy: %f' % accuracy)
# # precision tp / (tp + fp)
# precision = precision_score(y_testt, test_pred)
# print('Precision: %f' % precision)
# # recall: tp / (tp + fn)
# recall = recall_score(y_testt, test_pred)
# print('Recall: %f' % recall)
# # f1: 2 tp / (2 tp + fp + fn)
# f1 = f1_score(y_testt, test_pred)
# print('F1 score: %f' % f1)
# # ROC AUC
# auc = roc_auc_score(y_testt, test_pred)
# print('ROC AUC: %f' % auc)

In [56]:
accuracy=accuracy_score(y_testt, test_pred.round())
print('Accuracy: %f' % accuracy)

Accuracy: 0.671500


In [57]:
from keras import backend as K

def recall_m(y_true, y_pred):
    true_positives = K.sum(K.round(K.clip(y_true * y_pred, 0, 1)))
    possible_positives = K.sum(K.round(K.clip(y_true, 0, 1)))
    recall = true_positives / (possible_positives + K.epsilon())
    return recall

def precision_m(y_true, y_pred):
    true_positives = K.sum(K.round(K.clip(y_true * y_pred, 0, 1)))
    predicted_positives = K.sum(K.round(K.clip(y_pred, 0, 1)))
    precision = true_positives / (predicted_positives + K.epsilon())
    return precision

def f1_m(y_true, y_pred):
    precision = precision_m(y_true, y_pred)
    recall = recall_m(y_true, y_pred)
    return 2*((precision*recall)/(precision+recall+K.epsilon()))

In [None]:
from sklearn.metrics import classification_report

#y_pred = model.predict(x_test, batch_size=64, verbose=1)
test_pred_bool = np.argmax(test_pred, axis=1)

print(classification_report(y_testt, test_pred_bool))

In [None]:
print(precision_score(y_testt, test_pred , average="macro"))

In [65]:
auc = roc_auc_score(y_testt, test_pred)
print('ROC AUC: %f' % auc)

ROC AUC: 0.509493
