In [10]:
from __future__ import print_function, division, unicode_literals 
import numpy as np 
from scipy.sparse import coo_matrix            # for sparse matrix 
from sklearn.naive_bayes import MultinomialNB, BernoulliNB 
from sklearn.metrics import accuracy_score     # for evaluating results 

In [18]:
# data path and file name 
path = 'ex6DataPrepared_unzip/'
train_data_fn = 'train-features.txt'
test_data_fn = 'test-features.txt'
train_label_fn = 'train-labels.txt'
test_label_fn = 'test-labels.txt'

Số lượng từ trong từ điểm là 2500.

Dữ liệu sẽ được lưu trong một ma trận mà mỗi hàng thể hiện một email.\
Ma trận này là một ma trận sparse nên chúng ta sẽ sử dụng hàm **scipy.sparse.coo_matrix**.

Mỗi file *labels*.txt chứa nhiều dòng, mỗi dòng là một ký tự 0 hoặc 1 thể hiện email là non-spam hoặc spam.

Mỗi file *features*.txt chứa nhiều dòng, mỗi dòng có 3 số, Mỗi file *features*.txt chứa nhiều dòng, mỗi dòng có 3 số, trong đó số đầu tiên là chỉ số của email, bắt đầu từ 1; số thứ hai là thứ tự của từ trong từ điển (tổng cộng 2500 từ); số thứ ba là số lượng của từ đó trong email đang xét

In [19]:
nwords = 2500 

def read_data(data_fn, label_fn):
    """Hàm số đọc dữ liệu từ file data_fn với labels tương ứng là label_fn.
    """
    
    # read label_fn 
    with open(path + label_fn) as f: 
        content = f.readlines()   # return all lines in the file as a list, each line is an item in the list
    label = [int(x.strip()) for x in content]   # strip(): # remove '\n' (and spaces) at the end of each line  
                                                # loop through each line in content 
    # read data_fn 
    with open(path + data_fn) as f: 
        content = f.readlines() 
    content = [x.strip() for x in content]      # remove '\n' at the end of each line 
    
    dat = np.zeros((len(content), 3), dtype = int)
    
    for i, line in enumerate(content): 
        a = line.split(' ')
        dat[i, :] = np.array([int(a[0]), int(a[1]), int(a[2])])
        
    # remember to -1 at coordinate since we're in Python
    # check this: https://docs.scipy.org/doc/scipy/reference/generated/scipy.sparse.coo_matrix.html
    # for more information about coo_matrix function 
    data = coo_matrix((dat[:, 2], (dat[:, 0] - 1, dat[:, 1] - 1)), shape = (len(label), nwords))
    
    return (data, label)

In [13]:
s = 'hello \n'
s.strip()

'hello'

In [14]:
s = 'hello   \n     '
s.strip()

'hello'

In [15]:
s = '   hello   \n     '
s.strip()

'hello'

In [16]:
s = ' hello    world   \n   \n'
s.strip()

'hello    world'

The strip() method removes any leading (spaces at the beginning) and trailing (spaces at the end) characters (space is the default leading character to remove)

Đọc training data và test data, sử dụng class MultinomialNB trong sklearn để xây dựng mô hình và dự đoán đầu ra cho test data.

In [20]:
(train_data, train_label) = read_data(train_data_fn, train_label_fn)
(test_data, test_label) = read_data(test_data_fn, test_label_fn)

clf = MultinomialNB()
clf.fit(train_data, train_label)

y_pred = clf.predict(test_data)

print('Training size = %d, accuracy = %.2f%%' % (train_data.shape[0], accuracy_score(test_label, y_pred) * 100))

Training size = 700, accuracy = 98.08%


Vậy là có tới 98.08% các email được phân loại đúng. Chúng ta tiếp tục thử với các bộ dữ liệu training nhỏ hơn:

In [21]:
train_data_fn = 'train-features-100.txt'
train_label_fn = 'train-labels-100.txt'
test_data_fn = 'test-features.txt'
test_label_fn = 'test-labels.txt'

In [23]:
(train_data, train_label)  = read_data(train_data_fn, train_label_fn)
(test_data, test_label)  = read_data(test_data_fn, test_label_fn)

clf = MultinomialNB()

clf.fit(train_data, train_label)

y_pred = clf.predict(test_data)

print('Training size = %d, accuracy = %.2f%%' % (train_data.shape[0], accuracy_score(test_label, y_pred) * 100))

Training size = 100, accuracy = 97.69%


In [24]:
train_data_fn = 'train-features-50.txt'
train_label_fn = 'train-labels-50.txt'
test_data_fn = 'test-features.txt'
test_label_fn = 'test-labels.txt'

(train_data, train_label)  = read_data(train_data_fn, train_label_fn)
(test_data, test_label)  = read_data(test_data_fn, test_label_fn)

clf = MultinomialNB()

clf.fit(train_data, train_label)

y_pred = clf.predict(test_data)

print('Training size = %d, accuracy = %.2f%%' % (train_data.shape[0],accuracy_score(test_label, y_pred) * 100))

Training size = 50, accuracy = 97.31%


Ta thấy rằng thậm chí khi tập training là rất nhỏ, 50 emails tổng cộng, kết quả đạt được đã rất ấn tượng.