# SMS Spam Classification: Detecting Unwanted Messages 
Phân loại tin nhắn rác SMS: Phát hiện tin nhắn không mong muốn - Bằng cách sử dụng model Bayes Ngây thơ

## 1. Giới thiệu
Naïve Bayes là gì?. 
- Nói một cách đơn giản, Naïve Bayes là một thuật toán Phân loại (Classification).
- Nhiệm vụ của nó là dự đoán một đối tượng thuộc về "lớp" (category) nào, dựa trên các "đặc trưng" (features) của nó.
- Ví dụ:
    + Dựa trên nội dung (các từ) của một email, nó thuộc lớp "Spam" hay "Không phải Spam"?
    + Dựa trên các triệu chứng (sốt, ho, đau đầu), bệnh nhân thuộc lớp "Cảm cúm" hay "Dị ứng"?
- Thuật toán này hoạt động dựa trên một định lý toán học nổi tiếng gọi là Định lý Bayes (Bayes' Theorem).

### 1.1 Định lý Bayes
Định lý Bayes giúp chúng ta "lật ngược" một câu hỏi về xác suất.
Giả sử có 2 sự kiện A và B. Chúng ta thường dễ dàng tính được $P(B|A)$ (Xác suất xảy ra B nếu biết A đã xảy ra). Nhưng thứ chúng ta thực sự muốn biết thường là $P(A|B)$ (Xác suất xảy ra A nếu biết B đã xảy ra).
- Định lý Bayes cho chúng ta công thức: $$P(A|B) = \frac{P(B|A) \times P(A)}{P(B)}$$
- Trong phân tích dữ liệu, chúng ta áp dụng công thức này như sau: $$P(\text{Lớp} | \text{Đặc trưng}) = \frac{P(\text{Đặc trưng} | \text{Lớp}) \times P(\text{Lớp})}{P(\text{Đặc trưng})}$$
    + $P(\text{Lớp} | \text{Đặc trưng})$: Xác suất hậu nghiệm (Posterior). Đây là thứ ta muốn tìm. Ví dụ: "Xác suất email này là 'Spam', biết rằng nó chứa từ 'offer' và 'free'?"
    + $P(\text{Đặc trưng} | \text{Lớp})$: Khả năng (Likelihood). Đây là thứ ta học từ dữ liệu. Ví dụ: "Trong các email 'Spam', xác suất chứa từ 'offer' là bao nhiêu?"
    + $P(\text{Lớp})$: Xác suất tiên nghiệm (Prior). Đây cũng là thứ ta học từ dữ liệu. Ví dụ: "Trong tổng số email, xác suất một email bất kỳ là 'Spam' là bao nhiêu?" (ví dụ: 30%).
    + $P(\text{Đặc trưng})$: Bằng chứng (Evidence). Xác suất để các đặc trưng này xuất hiện. (Phần này sẽ được đơn giản hóa, ta sẽ nói ở dưới).

### 1.2 Tại sao lại gọi là "Naïve" (Ngây thơ)?
Thực tế, một đối tượng có rất nhiều đặc trưng (ví dụ: một email có 100 từ). Nếu tính toán $P(\text{Đặc trưng} | \text{Lớp})$ (ví dụ: $P(\text{"offer", "free", "report"} | \text{Spam})$), chúng ta sẽ phải tính mối liên hệ phức tạp giữa các từ này.
- Naïve Bayes đưa ra một giả định "ngây thơ": Các đặc trưng là ĐỘC LẬP với nhau, khi biết Lớp.
- Điều này có nghĩa là: 
    + Thuật toán giả sử việc từ "offer" xuất hiện không ảnh hưởng gì đến việc từ "free" xuất hiện, miễn là chúng ta đang xét trong nhóm email "Spam".
    + Trong thực tế, điều này rõ ràng là sai (hai từ này thường đi với nhau). Nhưng sự "ngây thơ" này lại giúp đơn giản hóa toán học một cách đáng kinh ngạc.
- Vì giả định "ngây thơ" đó, công thức $P(\text{Đặc trưng} | \text{Lớp})$ được đơn giản hóa thành:
    + $P(\text{Đặc trưng 1, Đặc trưng 2, ...} | \text{Lớp})$
$\approx$
$P(\text{Đặc trưng 1} | \text{Lớp}) \times P(\text{Đặc trưng 2} | \text{Lớp}) \times ...$
    + Việc tính toán $P(\text{từ "offer"} | \text{Spam})$ và $P(\text{từ "free"} | \text{Spam})$ riêng lẻ thì vô cùng dễ dàng, chỉ cần đếm tần suất.


### 1.3 Các loại mô hình Naïve Bayes phổ biến
Trong thư viện scikit-learn (thư viện học máy phổ biến nhất), chúng ta có 3 loại Naïve Bayes chính. Việc dùng loại nào hoàn toàn phụ thuộc vào dạng dữ liệu (features):
- Gaussian Naïve Bayes (GaussianNB):
    + Dùng khi nào? Khi các đặc trưng (features) là dữ liệu liên tục (continuous) và chắc rằng chúng tuân theo phân phối Chuẩn (Gaussian), tức là hình chuông.
    + Ví dụ: Dự đoán một người là "Nam" hay "Nữ" dựa trên chiều cao, cân nặng, cỡ giày. Đây đều là các con số thực liên tục.
- Multinomial Naïve Bayes (MultinomialNB):
    + Dùng khi nào? Khi các đặc trưng của là dữ liệu đếm (counts), hay nói rộng hơn là tần suất (frequencies). Dữ liệu này thường là số nguyên, không âm.
    + Ví dụ: Chính là bài toán của chúng ta! Chúng ta đếm số lần một từ xuất hiện trong văn bản (ví dụ: từ "free" xuất hiện 2 lần, "win" xuất hiện 1 lần). Đây chính là "Multinomial data".
- Bernoulli Naïve Bayes (BernoulliNB):
    + Dùng khi nào? Khi các đặc trưng của là dữ liệu nhị phân (binary), tức là chỉ có 2 giá trị "Có" hoặc "Không" (1 hoặc 0).
    + Ví dụ: Cũng là bài toán văn bản, nhưng ta không quan tâm số lần từ "free" xuất hiện. Ta chỉ quan tâm nó "Có xuất hiện" (1) hay "Không xuất hiện" (0) trong tin nhắn.
> Trong bài test này chúng ta sẽ sử dụng mô hình thứ hai để tìm hiểu về Naive Bayes.

## 2. Tập dữ liệu SMS Spam Collection Dataset
là một tập hợp các tin nhắn SMS được gắn thẻ đã được thu thập cho mục đích nghiên cứu SMS Spam. Bộ sưu tập này bao gồm một tập hợp 5.574 tin nhắn SMS bằng tiếng Anh, được gắn thẻ theo mức độ tin nhắn rác (ham) hoặc tin nhắn rác (spam).
> **Nội dung:** 
- Mỗi tệp chứa một tin nhắn trên một dòng. Mỗi dòng gồm hai cột: **v1** chứa nhãn (thư rác hoặc tin nhắn rác) và **v2** chứa văn bản thô.
- Kho dữ liệu này được thu thập từ các nguồn miễn phí hoặc miễn phí để nghiên cứu trên Internet:
    + Một bộ sưu tập gồm 425 tin nhắn SMS rác đã được trích xuất thủ công từ trang web Grumbletext. Đây là một diễn đàn tại Anh, nơi người dùng điện thoại di động công khai khiếu nại về tin nhắn SMS rác, hầu hết đều không báo cáo chính xác tin nhắn rác nhận được. Việc xác định nội dung tin nhắn rác trong các khiếu nại là một nhiệm vụ rất khó khăn và tốn thời gian, đòi hỏi phải quét kỹ lưỡng hàng trăm trang web.
    + Một tập hợp con gồm 3.375 tin nhắn SMS được chọn ngẫu nhiên từ Kho dữ liệu tin nhắn SMS NUS (NSC), một tập dữ liệu gồm khoảng 10.000 tin nhắn hợp lệ được thu thập cho mục đích nghiên cứu tại Khoa Khoa học Máy tính, Đại học Quốc gia Singapore. Các tin nhắn này chủ yếu đến từ người dân Singapore và phần lớn là sinh viên đang theo học tại trường. Những tin nhắn này được thu thập từ các tình nguyện viên, những người đã được thông báo rằng những đóng góp của họ sẽ được công khai. 
    + Danh sách 450 tin nhắn SMS ham được thu thập từ Luận án Tiến sĩ của Caroline 
    + Cuối cùng, chúng tôi đã tích hợp SMS Spam Corpus v.0.1 Big. Kho dữ liệu này chứa 1.002 tin nhắn SMS ham và 322 tin nhắn rác.

### 2.1. Problem Statement
Mục tiêu chính là phát triển một mô hình dự đoán có khả năng phân loại chính xác tin nhắn SMS đến là tin nhắn rác hay tin nhắn ham. Chúng tôi sẽ sử dụng bộ dữ liệu SMS Spam Collection, bao gồm 5.574 tin nhắn SMS được gắn nhãn tương ứng.

## 3. Chuẩn bị dữ liệu

### 3.1 Import thư viện cần thiết

In [None]:
# Nhóm Thư viện Phân tích Dữ liệu Cốt lõi
import numpy as np        # Dùng cho các phép toán số học
import pandas as pd       # Dùng để xử lý dữ liệu dạng bảng
import matplotlib.pyplot as plt  # Dùng để trực quan hóa dữu liệu
%matplotlib inline

# Nhóm Thư viện Xử lý Văn bản
from wordcloud import WordCloud
# Đây là một thư viện thú vị dùng để tạo ra Đám mây từ (Word Cloud). Nó sẽ vẽ một hình ảnh, trong đó các từ xuất hiện nhiều nhất trong văn bản sẽ được hiển thị to nhất. 
# Đây là cách trực quan hóa nhanh để biết chủ đề chính của một đoạn văn bản.


# Importing NLTK for natural language processing
import nltk # NLTK (Natural Language Toolkit) là một trong những thư viện lâu đời và toàn diện nhất cho NLP. 
# Nó cung cấp vô số công cụ để "dạy" máy tính hiểu ngôn ngữ của con người.
from nltk.corpus import stopwords   
# Stopwords (Từ dừng) là những từ phổ biến nhưng không mang nhiều ý nghĩa (ví dụ: "và", "là", "của", "thì", "a", "the", "is"...). 
# Trong phân tích văn bản, chúng ta thường sẽ loại bỏ chúng đi để tập trung vào các từ khóa quan trọng.

# Tải về Tài nguyên NLTK
nltk.download('stopwords')
# Lệnh này tải về danh sách các từ dừng (stopwords) cho nhiều ngôn ngữ (bao gồm cả tiếng Anh) từ máy chủ của NLTK. 
# Nếu không có danh sách này, NLTK sẽ không biết từ nào là từ dừng để mà loại bỏ.
nltk.download('punkt')       
# Lệnh này tải về một mô hình gọi là "Punkt Tokenizer".
# Tokenization (Tách từ) là quá trình cơ bản nhất trong NLP: chia một câu hoặc một đoạn văn thành các từ (token) riêng lẻ.
# Ví dụ: "Em chào thầy." $\rightarrow$ ['Em', 'chào', 'thầy', '.']. "Punkt" là một mô hình đã được huấn luyện để làm việc này một cách thông minh, xử lý tốt các dấu câu phức tạp.

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\kn260\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\kn260\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

In [8]:
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

### 3.2 Tải tập dữ liệu

In [3]:
df = pd.read_csv('../dataset/spam.csv', encoding='latin1')

In [4]:
#display the first 5 rows
df.head()

Unnamed: 0,v1,v2,Unnamed: 2,Unnamed: 3,Unnamed: 4
0,ham,"Go until jurong point, crazy.. Available only ...",,,
1,ham,Ok lar... Joking wif u oni...,,,
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...,,,
3,ham,U dun say so early hor... U c already then say...,,,
4,ham,"Nah I don't think he goes to usf, he lives aro...",,,


Với tập dataset. Ta có:
- v1: Biến phân loại **ham** và **spam**
- v2: Nội dung email
- Unnamed: 2, Unnamed: 3, Unnamed: 4: Là những giá trị NaN. Cần loại bỏ trước khi đưa vào mô hình học máy

### 3.3 Xử lý dữ liệu trước khi xây dựng mô hình từ dữ liệu

Sau khi có dữ liệu sạch, chúng ta sẽ bắt đầu bước Phân tích Khám phá (EDA) và Tiền xử lý văn bản

3 cột Unnamed: 2, Unnamed: 3, và Unnamed: 4 hầu như chỉ chứa giá trị NaN (rỗng). Chúng ta không cần chúng.

In [5]:
# Drop the columns with NaN values
data = df.drop(columns=['Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4'], axis=1)

Tên cột v1 (nhãn) và v2 (tin nhắn) rất khó hiểu. Chúng ta nên đổi tên chúng để code dễ đọc hơn.

In [None]:
# Rename columns for clarity:
data.columns = ['label', 'text']

Dữ liệu sau khi đã chuẩn hóa

In [10]:
data.head()

Unnamed: 0,label,text
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."


## 4. Huấn luyện mô hình

### 4.1 Phân phối tập dữ liệu

- Sau khi làm sạch dữ liệu. Chia dữ liệu thành 2 tập, tập huấn luyện và tập kiểm tra.

In [None]:
# Separate features (X) and target labels (y)
X = data.drop('label', axis=1)
y = data['label']

In [9]:
# Split the data into training and testing sets (80% training, 20% testing)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,
random_state=42)

### 4.2 Xây dựng vector hóa nội dung HAM | SPAM của tập train và tập test

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
# Nó hoạt động y như tên gọi: chỉ đơn giản là đếm số lần mỗi từ xuất hiện trong mỗi câu.

# Fit and transform the training data (X_train)
X_train_vectorized = vectorizer.fit_transform(X_train['text'])
# Gồm 2 hành động:
#   fit (Học): "Học" toàn bộ từ vựng (tạo ra các cột call, free, money...) chỉ từ dữ liệu huấn luyện (X_train).
#   transform (Biến đổi): Biến đổi X_train thành ma trận số dựa trên từ vựng vừa học.

# Transform the test data (X_test)
X_test_vectorized = vectorizer.transform(X_test['text'])
# Gồm 1 hành động:
#   transform (Biến đổi): Biến đổi X_test thành ma trận số dựa trên từ vựng đã học từ X_train.

> Tại sao không fit nữa? Đây là mấu chốt: X_test là "đề thi". Em không được phép "học" bất cứ thông tin gì từ "đề thi" (kể cả từ vựng của nó). Nếu một từ trong X_test mà chưa từng có trong X_train, nó sẽ bị bỏ qua. Điều này mô phỏng chính xác cách mô hình hoạt động trong thực tế.

### 4.3 Xây dựng mô hình Naïve Bayes

Chúng ta sẽ dùng MultinomialNB (Naïve Bayes Đa thức), loại này rất phù hợp cho bài toán đếm từ và TF-IDF.

In [12]:
from sklearn.naive_bayes import MultinomialNB
classifier = MultinomialNB()
classifier.fit(X_train_vectorized, y_train)

- naive_bayes thuật toán Bayes lấy từ sklearn 
- Tại sao là MultinomialNB? "Multinomial" có nghĩa là "đa thức"
- Đây là phiên bản Naïve Bayes được thiết kế đặc biệt để làm việc với dữ liệu dạng đếm (counts).
    + Khi dùng CountVectorizer ở bước trước, chúng đã tạo ra một ma trận đếm số lần mỗi từ xuất hiện (ví dụ: từ "free" xuất hiện 2 lần, từ "call" xuất hiện 1 lần).
    + MultinomialNB là mô hình để học từ loại dữ liệu "đếm" này. (Có một loại khác là GaussianNB dùng cho dữ liệu liên tục như chiều cao, cân nặng, và BernoulliNB dùng cho dữ liệu nhị phân có/không).
- **classifier = MultinomialNB():**
    + Đây là lệnh khởi tạo (instantiation) một đối tượng.
    + classifier bây giờ là một "bộ não" Naïve Bayes. Nó đã có sẵn mọi công thức toán học bên trong, nhưng nó chưa biết bất cứ điều gì về "spam" hay "ham". Nó là một mô hình "chưa được huấn luyện" (untrained model).
- **classifier.fit(X_train_vectorized, y_train):** Đây là lệnh huấn luyện (training), hay còn gọi là "fit" mô hình. Đây là bước quan trọng nhất.
    + X_train_vectorized: Đây là dữ liệu đầu vào (features). Nó là cái ma trận số khổng lồ (từ CountVectorizer) cho biết từ nào xuất hiện bao nhiêu lần trong mỗi tin nhắn của tập huấn luyện.
    + y_train: Đây là nhãn (labels) hay đáp án. Nó là danh sách các số 0 (ham) và 1 (spam) tương ứng với từng tin nhắn trong X_train_vectorized.
- Khi chạy lệnh fit, mô hình classifier sẽ làm 2 việc chính:
    + Học Xác suất Tiên nghiệm $P(\text{Lớp})$: Nó đếm xem trong y_train có bao nhiêu % là "spam" và bao nhiêu % là "ham". Ví dụ, nếu có 100 tin nhắn mà 20 tin là spam, nó sẽ học được $P(\text{spam}) = 0.2$ và $P(\text{ham}) = 0.8$.
    + Học Xác suất Khả năng (Likelihood) $P(\text{Từ} | \text{Lớp})$: Đây là phần chính. Nó sẽ xem xét tất cả các từ trong từ vựng và tính:
        - $P(\text{"free"} | \text{spam})$: Trong số các tin nhắn "spam", xác suất gặp từ "free" là bao nhiêu? (Chắc chắn sẽ cao).
        - $P(\text{"free"} | \text{ham})$: Trong số các tin nhắn "ham", xác suất gặp từ "free" là bao nhiêu? (Chắc chắn sẽ thấp).
        - ...tương tự cho mọi từ khác
> Nó đã trở thành một mô hình đã được huấn luyện (trained model). Nó đã học và lưu trữ tất cả các xác suất $P(\text{spam})$ và $P(\text{Từ} | \text{Lớp})$ này.

## 5 Đánh giá hiệu quả của mô hình

### 5.1 Ý tưởng của việc Đánh giá
- Dữ liệu để học (Tập Train - 80%): huấn luyện mô hình X_train ("sách giáo khoa") và y_train ("đáp án" trong sách) để nó học. Mô hình đã "thuộc lòng" bộ dữ liệu này.
- Dữ liệu để thi (Tập Test - 20%): giữ lại X_test ("đề thi") và y_test ("đáp án" của đề thi). Đây là dữ liệu mà mô hình chưa bao giờ thấy.
- Làm bài thi: yêu cầu mô hình (classifier) đưa ra dự đoán (.predict()) cho X_test. Kết quả này ta gọi là y_pred ("bài làm" của mô hình).
- Chấm bài: Bước cuối cùng là lấy "bài làm" (y_pred) ra, so sánh từng câu với "đáp án" (y_test) để xem nó đúng hay sai, và sai ở đâu.

### 5.2 Code thực thi

In [None]:
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report 
# Thư viện accuracy_score, confusion_matrix và classification_report từ sklearn.metrics cung cấp các công cụ để đánh giá hiệu suất của mô hình học máy.

# Bắt đầu lấy dữ liệu test để dự đoán
y_pred = classifier.predict(X_test_vectorized)
# Kết quả y_pred sẽ là một danh sách các số 0 (Ham) và 1 (Spam) mà mô hình dự đoán cho từng tin nhắn trong X_test.

# Đánh giá độ chính xác của mô hình
accuracy = accuracy_score(y_test, y_pred)
# Tính toán độ chính xác bằng cách so sánh nhãn thực tế (y_test) với nhãn dự đoán (y_pred).

# Đánh giá chi tiết hơn
conf_matrix = confusion_matrix(y_test, y_pred)
# Tạo ma trận nhầm lẫn (confusion matrix) để xem mô hình đã phân loại đúng và sai như thế nào.
# Ma trận này sẽ cho biết số lượng tin nhắn Ham và Spam được dự đoán

# Đây là một "bảng điểm tổng hợp" tự động tính toán từ cái confusion_matrix ở trên.
classification_rep = classification_report(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")
print("Confusion Matrix:")
print(conf_matrix)
print("Classification Report:")
print(classification_rep)

Accuracy: 0.98
Confusion Matrix:
[[963   2]
 [ 16 134]]
Classification Report:
              precision    recall  f1-score   support

         ham       0.98      1.00      0.99       965
        spam       0.99      0.89      0.94       150

    accuracy                           0.98      1115
   macro avg       0.98      0.95      0.96      1115
weighted avg       0.98      0.98      0.98      1115



- **Phân tích output:**
- **Accuracy:** Mô hình đã dự đoán đúng 98% tin nhắn
- **Confusion Matrix:**
$$  \begin{bmatrix}
    \text{TN} & \text{FP} \\
    \text{FN} & \text{TP}
  \end{bmatrix}$$
  + Trong bài toán Spam (0=Ham, 1=Spam):
    - TN (True Negative - trên trái): Số tin Ham (0) được dự đoán đúng là Ham (0). $\rightarrow$ Tốt!
    - TP (True Positive - dưới phải): Số tin Spam (1) được dự đoán đúng là Spam (1). $\rightarrow$ Tốt!
    - FP (False Positive - trên phải): Số tin Ham (0) bị dự đoán nhầm là Spam (1). $\rightarrow$ Rất tệ! Đây là lỗi Loại I, email quan trọng của bị vứt vào thùng rác.
    - FN (False Negative - dưới trái): Số tin Spam (1) bị dự đoán nhầm là Ham (0). $\rightarrow$ Tệ vừa! Đây là lỗi Loại II, bị lọt thư rác.
- **Classification Report:**
  + Precision (Độ chuẩn xác):
    - $Precision = TP / (TP + FP)$
    - Ý nghĩa (cho lớp Spam): Trong tất cả các tin nhắn mà mô hình gán nhãn là "Spam", có bao nhiêu % thực sự là "Spam"?
    - Mục tiêu: Ta muốn Precision cao. Precision cao nghĩa là mô hình ít mắc lỗi FP (ít ném nhầm thư thật vào thùng rác).
  + Recall (Độ phủ / Độ nhạy):
    - $Recall = TP / (TP + FN)$
    - Ý nghĩa (cho lớp Spam): Trong tất cả các tin nhắn thực sự là "Spam", mô hình phát hiện (bắt) được bao nhiêu %?
    - Mục tiêu: Ta muốn Recall cao. Recall cao nghĩa là mô hình ít mắc lỗi FN (ít bỏ lọt thư rác).
  + F1-Score:
    - Là trung bình điều hòa của Precision và Recall. Nó là một chỉ số cân bằng, giúp đánh giá tổng thể khi Precision và Recall trái ngược nhau.
  + Support là số lượng mẫu (samples) thực tế thuộc về lớp đó trong tập dữ liệu test.
    - Nó giúp phát hiện ra Dữ liệu Mất cân bằng (Imbalanced Data). Chúng ta thấy ngay tỉ lệ Ham (966) nhiều hơn Spam (149) gấp ~6.5 lần. Khi dữ liệu mất cân bằng, chỉ số Accuracy (98%) có thể gây hiểu nhầm, và đó là lý do chúng ta phải xem xét kỹ Precision và Recall.

# Kết thúc