# Bài tập trên lớp về Spam Filtering
Trong bài tập này, chúng ta sẽ sử dụng các công cụ mạnh mẽ có sẵn như pandas/sklearn để thực hiện công việc phân biệt giữa mail spam và mail thường qua thông tin của chính email đó.

## Download dữ liệu
Dữ liệu được tải về bằng gdown vào cùng folder với file hiện tại. Sau khi tải, chúng ta unzip dữ liệu nhận được.

In [None]:
!gdown https://drive.google.com/uc?id=1bTJKchSInd3IgLs41b1_-Gd-T36a_pal -O spam_data.zip

Downloading...
From: https://drive.google.com/uc?id=1bTJKchSInd3IgLs41b1_-Gd-T36a_pal
To: /home/khoai23/neural_network/jupyter/experimental/spam_data.zip
100%|██████████████████████████████████████| 1.95M/1.95M [00:00<00:00, 15.0MB/s]


In [None]:
!unzip -f spam_data.zip

Archive:  spam_data.zip


## Sử dụng pandas để lưu trữ
Pandas là thư viện thường được sử dụng để cất giữ dữ liệu được sử dụng trong quá trình thực hiện các phương pháp học máy, với các chức năng phù hợp với dữ liệu lớn và hiệu năng cao. Chúng ta đọc dữ liệu của file đã được unzip vào một DataFrame.

In [None]:
import pandas as pd
data_loc = "spam_ham_dataset.csv"

spam_data = pd.read_csv(data_loc, header=0)
spam_data.head()

Unnamed: 0.1,Unnamed: 0,label,text,label_num
0,605,ham,Subject: enron methanol ; meter # : 988291\r\n...,0
1,2349,ham,"Subject: hpl nom for january 9 , 2001\r\n( see...",0
2,3624,ham,"Subject: neon retreat\r\nho ho ho , we ' re ar...",0
3,4685,spam,"Subject: photoshop , windows , office . cheap ...",1
4,2030,ham,Subject: re : indian springs\r\nthis deal is t...,0


**Học viên in ra 5 mail spam và 5 mail ham đầu tiên xuất hiện trong dữ liệu ở block bên dưới:** 

In [None]:
# CODE HERE

## Data preprocessing
Như chúng ta có thể thấy, dữ liệu hiện tại đang chứa ký tự xuống dòng \r\n của Window và có thể dẫn đến ảnh hưởng xấu trong quá trình xây dựng chương trình. Để đơn giản hóa, chúng ta thay nó bằng dấu cách. Các bạn có thể ứng dụng phương án của pandas để thực hiện thêm các ý tưởng bản thân (v.d xóa chữ Subject: từ đầu, nhặt ra dòng đầu tiên, etc.)

**Học viên sử dụng hàm `.apply` của pandas để format lại trường text, sử dụng hàm lambda tên `format_fn`:**

In [None]:
format_fn = lambda x: # YOUR CODE HERE
spam_data["text"] = spam_data["text"].apply(format_fn)

## Building Model
Đầu tiên, chúng ta thực hiện Vector hóa dữ liệu đầu vào qua CountVectorizer với mục tiêu là vector hóa dữ liệu từ. CountVectorizer có nhiệm vụ tạo một vocab các từ xuất hiện trong dữ liệu, và tạo một vector tương ứng cho mỗi sample là lần xuất hiện của các từ trong sample đó.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
count = CountVectorizer(min_df=3, max_df=0.95)
count_data = count.fit_transform(spam_data["text"])
count_data.shape

Tiếp đó, chúng ta áp dụng thuật toán TF-IDF lên vector đã tìm được. Dữ liệu được trả ra vẫn sẽ là một ma trận sparse, nhưng đã được adapt cho độ hiếm của mỗi từ.

In [None]:
from sklearn.feature_extraction.text import TfidfTransformer
transformer = TfidfTransformer()
trans_data = transformer.fit_transform(count_data)
trans_data.shape

Chúng ta có thể tạo dữ liệu dạng ngram qua argument `ngram_range` cho CountVectorizer, điều này cho phép chương trình lưu xuống các cụm n-từ thường thấy trong dữ liệu.
Ngoài ra, CountVectorizer và TfidfTransformer có một wrapper tổng hợp cả 2 quá trình vào 1 và nhận chung các argument của chúng: TfidfVectorizer.

**Học viên đọc về class này và thực hiện count, TF-IDF và ứng dụng n-gram, đưa kết quả vào biến `matrix_data`**

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer


print(matrix_data.shape)

Sau khi hoàn thành các bước vector hóa, chúng ta tiếp tục phân hóa dữ liệu thành tập train và tập test để đánh giá chất lượng mô hình.

In [None]:
from sklearn.model_selection import train_test_split
X_data = matrix_data; y_data = spam_data["label_num"].values
X_train, X_test, y_train, y_test = train_test_split(X_data, y_data, test_size=0.1, random_state=0)

Sau khi chúng ta đã có dữ liệu đã vector hóa, chúng ta sử dụng một mô hình Bayes để tính kết quả. Yêu cầu trong tiết này là sử dụng mô hình dạng Naive Bayes (thuộc module `sklearn.naive_bayes`). Chúng ta có thể sử dụng nhiều mô hình học máy khác vào đây (e.g LogisticRegression, SVM).

*Lưu ý: todense() được sử dụng để chuyển một ma trận sparse sang dense, có thể dẫn đến MemoryError với các dữ liệu lớn. Cân nhắc sử dụng các mô hình chấp nhận train qua ma trận sparse hoặc implement phương án của bản thân ở đây.*

**Học viên import một mô hình trong module trên và thực hiện train bằng hàm `.fit`:**

In [None]:
# import your model here
model = # YOUR MODEL
model.fit(X_train.todense(), y_train)

GaussianNB(priors=None, var_smoothing=1e-09)

In [None]:
y_pred = model.predict(X_test.todense())

## Metrics and Visualization
Để đánh giá chất lượng mô hình, chúng ta có thể tính số điểm F1 hoặc accuracy. Trong trường hợp này F1 biểu diễn được chất lượng mô hình chính xác hơn, do độ phủ của class trong dữ liệu không giống nhau (25% là spam). Chúng ta cũng có thể in đường cong ROC-AUC để biểu thị các vị trí cutoff khác nhau cho mô hình

In [None]:
from sklearn.metrics import f1_score, accuracy_score
print("F1 Score: {:.4f}; Accuracy Score: {:.4f}".format(f1_score(y_pred, y_test), accuracy_score(y_pred, y_test)))

In [None]:
from sklearn.metrics import roc_curve, auc
y_pred_proba = model.predict_proba(X_test.todense())
fpr_spam, tpr_spam, thresholds = roc_curve(y_test, y_pred_proba[:, 1], pos_label=1)
roc_auc_spam = auc(fpr_spam, tpr_spam)
fpr_ham, tpr_ham, thresholds = roc_curve(y_test, y_pred_proba[:, 0], pos_label=0)
roc_auc_ham = auc(fpr_spam, tpr_ham)

import matplotlib.pyplot as plt
plt.figure()
lw = 2
plt.plot(fpr_spam, tpr_spam, color='darkorange',
         lw=lw, label='ROC curve (spam, area = %0.2f)' % roc_auc_spam)
plt.plot(fpr_ham, tpr_ham, color='red',
         lw=lw, label='ROC curve (ham, area = %0.2f)' % roc_auc_ham)
plt.plot([0, 1], [0, 1], color='navy', lw=lw, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver operating characteristic example')
plt.legend(loc="lower right")
plt.show()

## Alternative: HashingVectorizer
Với các bộ dữ liệu lớn dẫn đến vocab cao, việc sử dụng CountVectorizer thông thường để lưu trữ dữ liệu vector hóa trở nên tốn tài nguyên; Một phương pháp chúng ta có thể cân nhắc là sử dụng HashingVectorizer. Thay vì CountVectorizer biến mỗi từ/ngram thành 1 id tương ứng, nhiều từ của HashingVectorizer sẽ có thể cho nhiều từ vào 1 id xác định bằng mảng băm.

Lựa chọn giữa 2 phương pháp là tradeoff giữa tài nguyên lưu trữ như RAM và chất lượng mô hình. Thay đổi giá trị n_features và cân nhắc tradeoff ở bao nhiêu là phù hợp để mô hình không bị kém đi quá nhiều.

**Học viên tìm và thử nghiệm giá trị `hash_size`, sao cho mô hình không chênh lệch quá lớn với kết quả gốc:**

In [None]:
from sklearn.feature_extraction.text import TfidfTransformer, HashingVectorizer

hash_size = # YOUR VALUE HERE
hashed_data = HashingVectorizer(n_features=hash_size, ngram_range=(1, 3), stop_words='english').fit_transform(spam_data["text"])
hashed_matrix_data = TfidfTransformer().fit_transform(hashed_data)

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import f1_score

X_htrain, X_htest, y_htrain, y_htest = train_test_split(hashed_matrix_data, y_data, test_size=0.1, random_state=0)
model = GaussianNB()
model.fit(X_htrain.todense(), y_htrain)
y_hpred = model.predict(X_htest.todense())
print("[HashedVectorizer] F1 Score: {:.4f}; Accuracy Score: {:.4f}".format(f1_score(y_hpred, y_htest), accuracy_score(y_hpred, y_htest)))