# NBC cho spam-filtering
Trong ví dụ này, chúng ta sử dụng Multinomial Naive Bayes để phân loại email là spam hay không spam. Dữ liệu được lấy từ Andrew Ng, Machine Learning course. Dữ liệu đã được xử lý qua các quy tắc:
* Loại bỏ stop-words (a, an, the, and...)
* Loại bỏ non-words, bao gồm chữ số, dấu câu, các kí tự đặc biệt (., ?, !, %, ...)
* Lemmatization (chuyển các từ về dạng nguyên thể): running -> run, dogs -> dog, ...

In [2]:
from __future__ import print_function
import numpy as np
from scipy.sparse import coo_matrix # for sparse matrix 
from sklearn.naive_bayes import MultinomialNB, BernoulliNB
from sklearn.metrics import accuracy_score # for evaluating results

# data path and file name
path = 'data/'
train_data_fn = 'train-features.txt'
test_data_fn = 'test-features.txt'
train_label_fn = 'train-labels.txt'
test_label_fn = 'test-labels.txt'

Ta cần viết hàm số đọc dữ liệu từ file `data_fn` với label tương ứng được lưu trong `label_fn`. Số lượng trong từ điển là 2500.

Dữ liệu sẽ được lưu trong 1 ma trận mà mỗi hàng là 1 vector đặc trưng của email. Ma trận này là 1 ma trận sparse.

In [3]:
nwords = 2500

def read_data(data_fn, label_fn):
    # read label_fn
    with open(path + label_fn) as f:
        content = f.readlines()
    label = [int(x.strip()) for x in content]

    # read data_fn
    with open(path + data_fn) as f:
        content = f.readlines()
    content = [x.strip() for x in content] # remove '\n' at end of each line

    dat = np.zeros((len(content), 3), dtype = int)

    for i, line in enumerate(content):
        a = line.split(' ')
        dat[i, :] = np.array([int(a[0]), int(a[1]), int(a[2])])

    # remember to -1 at coordinate since we're in Python
    data = coo_matrix((dat[:, 2], (dat[:, 0] - 1, dat[:, 1] - 1)), shape=(len(label), nwords))
    return (data, label)

Lấy dữ liệu huấn luyện và kiểm thử, sau đó tiến hành phân lớp sử dụng `MultinomialNB` và `BernoulliNB`. Trong bài này, ta thấy `MultinomialNB` cho kết quả tốt hơn.

In [4]:
train_data_fn = 'train-features-100.txt'
train_label_fn = 'train-labels-100.txt'
test_data_fn = 'test-features.txt'
test_label_fn = 'test-labels.txt'

(train_data, train_label) = read_data(train_data_fn, train_label_fn)
(test_data, test_label) = read_data(test_data_fn, test_label_fn)

clf = MultinomialNB()
clf.fit(train_data, train_label)
y_pred = clf.predict(test_data)
print('Training size = %d, accuracy = %.2f%%' % (train_data.shape[0], accuracy_score(test_label, y_pred) * 100))

Training size = 100, accuracy = 97.69%


In [5]:
train_data_fn = 'train-features-50.txt'
train_label_fn = 'train-labels-50.txt'
test_data_fn = 'test-features.txt'
test_label_fn = 'test-labels.txt'

(train_data, train_label) = read_data(train_data_fn, train_label_fn)
(test_data, test_label) = read_data(test_data_fn, test_label_fn)

clf = MultinomialNB()
clf.fit(train_data, train_label)
y_pred = clf.predict(test_data)
print('Training size = %d, accuracy = %.2f%%' % (train_data.shape[0], accuracy_score(test_label, y_pred) * 100))

Training size = 50, accuracy = 97.31%


In [6]:
clf = BernoulliNB(binarize = .5)
clf.fit(train_data, train_label)
y_pred = clf.predict(test_data)
print('Training size = %d, accuracy = %.2f%%' % (train_data.shape[0], accuracy_score(test_label, y_pred) * 100))

Training size = 50, accuracy = 69.62%
