# Building a Spam Filter with Naive Bayes

Trong dự án này, tôi sẽ xây dựng bộ lọc thư rác cho tin nhắn SMS với thuật toán Multinomial Naive Bayes. Mục tiêu là làm cho bộ lọc phân lớp chính xác hơn 80%.

Để train thuật toán này. Tôi sẽ sử dụng dataset với 5,572 tin nhắn SMS được con người phân loại. Và bạn có thể tải nó [ở đây](https://archive.ics.uci.edu/ml/datasets/sms+spam+collection)

# Explore the dataset

Bắt đầu đọc dataset

In [1]:
import pandas as pd

sms=pd.read_csv("data/SMSSpamCollection",sep="\t",header=None,names=["Label","SMS"])
print(sms.shape)
sms.head()

(5572, 2)


Unnamed: 0,Label,SMS
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."


Bây giờ, chúng ta sẽ thấy 87% là ham và 13% là spam. Dataset này có thể là đại diện bởi vì thực tế hầu hết tin nhắn của mọi người đều là ham.
* ham : không phải tin nhắn rác
* spam : tin nhắn rác

In [2]:
sms["Label"].value_counts(normalize=True)*100

ham     86.593683
spam    13.406317
Name: Label, dtype: float64

# Training and Test set

Để biết hiệu quả của thuật toán mà tôi chuẩn bị training thì tôi sẽ cắt dataset thành 2 tập dự liệu . Một tập dữ liệu để training và một tập dữ để test hiệu quả thuật toán. Và tôi chọn 80% cho training, 20% cho test và chọn ngẫu nhiên dữ liệu.

In [3]:
data_random=sms.sample(frac=1,random_state=1)

training_size=round(len(data_random)*0.8)

training_set=data_random[:training_size].reset_index(drop=True)
test_set=data_random[training_size:].reset_index(drop=True)

print(training_set.shape)
print(test_set.shape)

(4458, 2)
(1114, 2)


Bây giờ xem tỉ lệ của tin nhắn spam và ham trong training set và test set, liệu nó giống dataset đầy đủ hay không. 87% là Ham 13% là Spam.

In [4]:
training_set["Label"].value_counts(normalize=True)*100

ham     86.54105
spam    13.45895
Name: Label, dtype: float64

In [5]:
test_set["Label"].value_counts(normalize=True)*100

ham     86.804309
spam    13.195691
Name: Label, dtype: float64

Kết quả như mong đợi. Tiếp theo, tôi sẽ chuyển xuống bước làm sạch dữ liệu.

# Data Cleaning

Để tính toán xác xuất theo yêu cầu của thuật toán, tôi cần phải thực hiện một số làm sạch để mang dữ liệu thành 1 định dạng có thể dễ dàng trích xuất thông tin mà tôi cần.

Tôi muốn mang dữ liệu thành định dạng bên dưới:

![image.png](attachment:image.png)

Đầu tiên là loại bỏ kí tự đặc biệt và chuyển về chữ thường.

In [6]:
training_set.head()

Unnamed: 0,Label,SMS
0,ham,"Yep, by the pretty sculpture"
1,ham,"Yes, princess. Are you going to make me moan?"
2,ham,Welp apparently he retired
3,ham,Havent.
4,ham,I forgot 2 ask ü all smth.. There's a card on ...


In [7]:
training_set["SMS"]=training_set["SMS"].str.replace("\W"," ",regex=True).str.lower()
training_set.head()

Unnamed: 0,Label,SMS
0,ham,yep by the pretty sculpture
1,ham,yes princess are you going to make me moan
2,ham,welp apparently he retired
3,ham,havent
4,ham,i forgot 2 ask ü all smth there s a card on ...


# Create Vocabulary 

Tiếp theo, tôi sẽ tách từng từ trong nội dung của SMS sao cho mỗi từ được xuất hiện 1 lần và bỏ vào trong danh sách ```vocabulary```. Để lấy được 1 lần của 1 từ xuất hiện, tôi đã chuyển nó từ ```list``` sang ```set```, sau đó chuyển nó về lại ```list``` bởi vì tôi muốn ```vocabulary``` là ```list```.

In [8]:
training_set["SMS"]=training_set["SMS"].str.split()
vocabulary=[]
for sms in training_set["SMS"]:
    for word in sms:
        vocabulary.append(word)

vocabulary=list(set(vocabulary))

len(vocabulary)

7783

Tôi sẽ sử dụng ```vocabulary``` để chuyển đổi dữ liệu thành định dạng như ở trên đã đề cập:

In [9]:
word_count_per_sms={unique_word:[0]*len(training_set) for unique_word in vocabulary}

for index,sms in enumerate(training_set["SMS"]):
    for word in sms:
        word_count_per_sms[word][index] +=1
word_counts=pd.DataFrame(word_count_per_sms)
word_counts

Unnamed: 0,car,150ppermesssubscription,camry,prospects,goto,68866,abusers,talents,tscs087147403231winawk,rcd,...,ansr,andre,her,mustprovide,mayb,straight,spook,prefer,gold,87021
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4453,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4454,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4455,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4456,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [10]:
training_set_clean=pd.concat([training_set,word_counts],axis=1)
training_set_clean.head()

Unnamed: 0,Label,SMS,car,150ppermesssubscription,camry,prospects,goto,68866,abusers,talents,...,ansr,andre,her,mustprovide,mayb,straight,spook,prefer,gold,87021
0,ham,"[yep, by, the, pretty, sculpture]",0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,ham,"[yes, princess, are, you, going, to, make, me,...",0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,ham,"[welp, apparently, he, retired]",0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,ham,[havent],0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,ham,"[i, forgot, 2, ask, ü, all, smth, there, s, a,...",0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


# Caculating Constants First

Tôi đã làm sạch dữ liệu trong ```training``` set và bắt đầu tạo bộ lọc tin nhắn spam. Thuật toán Naive Bayes sẽ tạo ra 2 xác xuất để có thể phân lớp nó thuộc loại ```spam``` hoặc là ```ham```.

\begin{equation}
P(Spam | w_1,w_2, ..., w_n) \propto P(Spam) \cdot \prod_{i=1}^{n}P(w_i|Spam)
\end{equation}
\begin{equation}
P(Ham | w_1,w_2, ..., w_n) \propto P(Ham) \cdot \prod_{i=1}^{n}P(w_i|Ham)
\end{equation}

Để tính toán P(wi|Ham) và P(wi|Spam) ở trên, tôi cần sử dụng phương trình sau:

\begin{equation}
P(w_i|Spam) = \frac{N_{w_i|Spam} + \alpha}{N_{Spam} + \alpha \cdot N_{Vocabulary}}
\end{equation}
\begin{equation}
P(w_i|Ham) = \frac{N_{w_i|Ham} + \alpha}{N_{Ham} + \alpha \cdot N_{Vocabulary}}
\end{equation}

Các phương trình ở trên có 4 tham số cố định và được sử dụng cho tất cả các tin nhắn. Để tránh việc giá trị được tính toán lại nhiều lần khi tin nhắn đến. Bên dưới, tôi sẽ sử dụng training set để tính toán:
\begin{equation} * P(Spam), P(Ham) \end{equation}
\begin{equation} * N_{Spam}, N_{Ham}, N_{Vocaburaly} \end{equation}
\begin{equation} * \alpha=1 \end{equation}

In [11]:
spam_message=training_set_clean[training_set_clean["Label"]=="spam"]
ham_message=training_set_clean[training_set_clean["Label"]=="ham"]

p_spam=len(spam_message)/len(training_set_clean)
p_ham=len(ham_message)/len(training_set_clean)

n_word_per_spam_message=spam_message["SMS"].apply(len)
n_spam=n_word_per_spam_message.sum()

n_word_per_ham_message=ham_message["SMS"].apply(len)
n_ham=n_word_per_ham_message.sum()

n_vocabulary=len(vocabulary)
alpha=1

# Caculating Parameters

Tôi đã có các hằng số bên trên, tiếp theo tôi sẽ tính toán tham số ```P(w_i|Spam)``` và ```P(w_i|Ham)```. Mỗi tham số sẽ là 1 xác xuất có điều kiện của mỗi từ trong ```vocabulary```.

\begin{equation}
P(w_i|Spam) = \frac{N_{w_i|Spam} + \alpha}{N_{Spam} + \alpha \cdot N_{Vocabulary}}
\end{equation}
\begin{equation}
P(w_i|Ham) = \frac{N_{w_i|Ham} + \alpha}{N_{Ham} + \alpha \cdot N_{Vocabulary}}
\end{equation}

In [13]:
spam_parameters={unique_word:0 for unique_word in vocabulary}
ham_parameters={unique_word:0 for unique_word in vocabulary}

for word in vocabulary:
    n_word_given_spam=spam_message[word].sum()
    spam_parameters[word] = (n_word_given_spam+alpha)/(n_spam+alpha*n_vocabulary)
    
    n_word_given_ham=ham_message[word].sum()
    ham_parameters[word] = (n_word_given_ham+alpha)/(n_ham+alpha*n_vocabulary)

Tiếp theo, tôi sẽ tính toán tất cả các tham số ở trên để tạo ra bộ lọc tin nhắn spam. Tôi sẽ sạo một function gồm các bước:
* Nhận 1 đầu vào là một tin nhắn mới
* Tính toán P(Spam|w1,w2,w3,...) và P(Ham|w1,w2,w3,...)
* So sánh 2 giá trị P(Spam|w1,w2,w3,...) và P(Ham|w1,w2,w3,...):
    * if P(Spam|w1,w2,w3,...) > P(Ham|w1,w2,w3,...) thì output sẽ là "spam"
    * if P(Spam|w1,w2,w3,...) < P(Ham|w1,w2,w3,...) thì output sẽ là "ham"
    * if P(Spam|w1,w2,w3,...) = P(Ham|w1,w2,w3,...) thì output sẽ là "needs human classification"

In [14]:
def classify_message(message):
    message=message.replace("\W"," ").lower()
    message=message.split()
    p_spam_given_message=p_spam
    p_ham_given_message=p_ham
    for word in message:
        if word in spam_parameters:
            p_spam_given_message *= spam_parameters[word]
            p_ham_given_message *= ham_parameters[word]
    if p_spam_given_message > p_ham_given_message:
        return "spam"
    elif p_spam_given_message < p_ham_given_message:
        return "ham"
    else:
        return "needs human classification"

Bây giờ , tôi sẽ dùng function này để dự đoán ra nhãn, tôi có thể sử dụng test set tạo một cột mới ```predict```

In [15]:
test_set["predict"]=test_set["SMS"].apply(classify_message)
test_set.head()

Unnamed: 0,Label,SMS,predict
0,ham,Later i guess. I needa do mcat study too.,ham
1,ham,But i haf enuff space got like 4 mb...,ham
2,spam,Had your mobile 10 mths? Update to latest Oran...,spam
3,ham,All sounds good. Fingers . Makes it difficult ...,ham
4,ham,"All done, all handed in. Don't know if mega sh...",ham


Cuối cùng tôi sẽ đo độ chính xác của bộ lọc để tìm hiểu xem bộ lọc hoạt động tốt như thế nào.

In [18]:
correct=0
total=len(test_set)

for row in test_set.iterrows():
    row=row[1]
    if row["Label"] == row["predict"]:
        correct += 1

print("Correct: ",correct)
print("Incorrect: ",total-correct)
print("Accuracy: ",correct/total)

Correct:  1095
Incorrect:  19
Accuracy:  0.9829443447037702


Độ chính xác hơn 98%, bộ lọc hoạt động tốt hơn mong đợi ban đầu của tôi ( mong đợi là 80%).

# Conclusion

Trong dự án này, tôi đã quản lý và xây dựng được một bộ lọc tin nhắn rác bằng thuật toán Multinomial Navie Bayes. Bộ lọc có độ chính xác 98.29% trên test set, đây là một kết quả tốt. Mục tiêu ban đầu là độ chính xác 80% và tôi đã làm tốt hơn thế.