# Bangla Spam Email/Message Detection 

In [1]:
# importing libraries
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import SGDClassifier
from sklearn.svm import SVC

In [2]:
# data reading from file
dataset = pd.read_csv(r"bangla_spam_dataset.csv")
dataset.head(5)

Unnamed: 0,messages,message_type
0,আপনি ১০০০০০ টাকা জিতেছেন। টাকা তুলতে প্রদত্ত ন...,স্প্যাম
1,ফ্রি কফি পেতে চাইলে চলে আসুন আমাদের আউটলেটে,স্প্যাম
2,আপনার পরীক্ষা আগামী ৫ তারিখ বনানী বিদ্যা নিকেত...,হ্যাম
3,আপনি বায়োমেত্রিক রেজিস্ট্রেশন না করে থাকলে আজই...,হ্যাম
4,মজার মজার জোকস শুনতে কল করুন ০১০০০০০০ নাম্বারে,স্প্যাম


In [3]:
dataset.describe(include = 'all')

Unnamed: 0,messages,message_type
count,250,249
unique,250,2
top,ফুচকা খেতে ইচ্ছে করছে।,হ্যাম
freq,1,180


In [4]:
dataset.groupby('message_type').describe()

Unnamed: 0_level_0,messages,messages,messages,messages
Unnamed: 0_level_1,count,unique,top,freq
message_type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
স্প্যাম,69,69,ছুটি উপভোগ করুন ফ্রী তেই। রেজিষ্ট্রেশন করতে মো...,1
হ্যাম,180,180,বিশ্বব্যাপী আন্তর্জাতিক মাতৃভাষা দিবস পালন করা...,1


In [5]:
x_msgData = dataset.messages
print(x_msgData.head())

0    আপনি ১০০০০০ টাকা জিতেছেন। টাকা তুলতে প্রদত্ত ন...
1         ফ্রি কফি পেতে চাইলে চলে আসুন আমাদের আউটলেটে 
2    আপনার পরীক্ষা আগামী ৫ তারিখ বনানী বিদ্যা নিকেত...
3    আপনি বায়োমেত্রিক রেজিস্ট্রেশন না করে থাকলে আজই...
4       মজার মজার জোকস শুনতে কল করুন ০১০০০০০০ নাম্বারে
Name: messages, dtype: object


In [6]:
#vectorize messages bangla text
vectorizer = TfidfVectorizer()
x_vetcorMsg = vectorizer.fit_transform(x_msgData)

# print(vectorizer.get_feature_names())
print("Vector SHape: ",x_vetcorMsg.shape)

Vector SHape:  (250, 431)


In [7]:
# split test and train dataset
x_msgTrain, x_msgTest, y_typeTrain, y_typeTest = train_test_split(x_vetcorMsg, dataset['message_type'].astype(str), test_size=0.3, random_state=20)

In [8]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix

Spam_model = LogisticRegression(solver='liblinear', penalty='l1')
Spam_model.fit(x_msgTrain, y_typeTrain)
pred = Spam_model.predict(x_msgTest)
print("accuracy_score: ", accuracy_score(y_typeTest,pred))
print("Confusion Matrix:\n", confusion_matrix(y_typeTest, pred))

accuracy_score:  0.7733333333333333
Confusion Matrix:
 [[ 0  0  1]
 [ 0  7 12]
 [ 0  4 51]]


In [9]:
# support vector machine
clf = SVC(gamma='auto')
clf.fit(x_msgTrain, y_typeTrain)
y_pred = clf.predict(x_msgTest)
print("accuracy_score: ", accuracy_score(y_typeTest, y_pred))

accuracy_score:  0.7333333333333333


In [14]:
# Stochastic Gradient Descent
# https://scikit-learn.org/stable/modules/sgd.html
accuracyScores = []
for epoch in range(100):
    clf = SGDClassifier(loss="hinge", penalty="l2", max_iter=5)
    clf.fit(x_msgTrain, y_typeTrain)
    y_pred = clf.predict(x_msgTest)
    accuracyScores.append(accuracy_score(y_typeTest, y_pred))
print("accuracy_score: ", sum(accuracyScores) / len(accuracyScores))

accuracy_score:  0.7979999999999996


In [11]:
# Gaussian Naive Bayes
clf = GaussianNB()
clf.fit(x_msgTrain.toarray(), y_typeTrain)
y_pred = clf.predict(x_msgTest.toarray())
print("accuracy_score: ", accuracy_score(y_typeTest, y_pred))

accuracy_score:  0.72
