> Lưu ý. Tự triển khai mô hình sau đấy so sánh kết quả với mô hình chạy bằng scikit learn. Chú ý chỉnh sửa đường dẫn đến thư mục dữ liệu

In [20]:
!pip install scipy



In [21]:
import pandas as pd
import numpy as np

from sklearn.datasets import load_iris
from sklearn.naive_bayes import GaussianNB, MultinomialNB, BernoulliNB
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from scipy.sparse import coo_matrix # for sparse matrix

# Xác định ngôn ngữ 

In [22]:
# Load data
data = pd.read_csv('C:/HoangTu/Programing/Python/MachineLearningModelImplement/data/naivebayes/lang.csv')
X = data['Text']
y = data['language']

In [23]:
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(X)

x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=32)
model = MultinomialNB()
model.fit(x_train, y_train)
y_predict = model.predict(x_test)
accuracy_score(y_test, y_predict)

0.9575757575757575

# Iris data

Phân loại dữ liệu trên dự liệu hoa Iris:

In [24]:
# Load data from sklearn
data = load_iris()
X = data.data
Y = data.target

In [25]:
model = GaussianNB()
x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.3, random_state=32)
model.fit(x_train, y_train)
y_predict = model.predict(x_test)
accuracy_score(y_test, y_predict)

0.9777777777777777

# Xác định thư spam

* Dữ liệu là tập con của bộ dữ liệu có tại link: [dataset](https://metatext.io/datasets/ling-spam-dataset). Tập dữ liệu này bao gồm tổng cộng 960 emails tiếng Anh, được tách thành tập training và test theo tỉ lệ 700:260, 50% trong mỗi tập là các spam emails.
* Bộ dữ liệu đã được tiền xử lý theo các bước:

* Loại bỏ stop words: Những từ xuất hiện thường xuyên như ‘and’, ‘the’, ‘of’, ... được loại bỏ.
* Lemmatization: Những từ có cùng ‘gốc’ được đưa về cùng loại. Ví dụ, ‘include’, ‘includes’, ‘included’ đều được đưa chung về ‘include’. Tất cả các từ cũng đã được
đưa về dạng ký tự thường (không phải HOA).
* Loại bỏ non-words: Số, dấu câu, ký tự ‘tabs’, ký tự ‘xuống dòng’ đã được loại bỏ.

* Bộ dữ liệu sau xử lý có trong link sau:
[ex6DataPrepared.zip](http://openclassroom.stanford.edu/MainFolder/courses/MachineLearning/exercises/ex6materials/) - Tải file ex6DataPrepared.zip

* Các tệp sau khi giải nén:
    * test-features.txt
    * test-labels.txt
    * train-features-50.txt
    * train-features-100.txt
    * train-features-400.txt
    * train-features.txt
    * train-labels-50.txt
    * train-labels-100.txt
    * train-labels-400.txt
    * train-labels.txt

Tương ứng với các file chứa dữ liệu của tập training và tập test. File train-features-50.txt chứ dữ liệu của tập training thu gọn với chỉ có tổng cộng 50 training emails. Mỗi file *labels*.txt chứa nhiều dòng, mỗi dòng là một ký tự 0 hoặc 1 thể hiện email là non-spam hoặc spam. Mỗi file *features*.txt chứa nhiều dòng, mỗi dòng có 3 số, ví dụ:

```
1 564 1
1 19 2
```


Trong đó số đầu tiên là chỉ số của email, bắt đầu từ 1; số thứ hai là thứ tự của từ trong từ điển (tổng cộng 2500 từ); số thứ ba là số lượng của từ đó trong email đang xét. Dòng đầu tiên nói rằng trong email thứ nhất, từ thứ 564 trong từ điển xuất hiện 1 lần. Cách lưu dữ liệu như thế này giúp tiết kiệm bộ nhớ vì 1 email thường không chứa hết tất cả các từ trong từ điển mà chỉ chứa một lượng nhỏ, ta chỉ cần lưu các giá trị khác không. Nếu ta biểu diễn feature vector của mỗi email là một vector hàng có độ dài bằng độ dài từ điển (2500) thì dòng thứ nhất nói rằng thành phần thứ 564 của vector này bằng 1. Tương tự, thành phần thứ 19 của vector này bằng 1. Nếu không xuất hiện, các thành phần khác được mặc định bằng 0.

> Tham khảo cách đọc dữ liệu từ file như sau: Lưu ý tự nghiên cứu cách chạy xử lý đến khi không tìm được cách mới xem cách đọc file

In [26]:
# data path and file name
path = 'C:/HoangTu/Programing/Python/MachineLearningModelImplement/data/naivebayes/email/'
train_data_fn = 'train-features.txt'
test_data_fn = 'test-features.txt'
train_label_fn = 'train-labels.txt'
test_label_fn = 'test-labels.txt'
n_words = 2500

def read_data(data_fn, label_fn):
    ## read label_fn
    with open(path + label_fn) as f:
        content = f.readlines()
    label = [int(x.strip()) for x in content]
    
    ## read data_fn
    with open(path + data_fn) as f:
        content = f.readlines()
    # remove '\n' at the end of each line
    content = [x.strip() for x in content]
    
    dat = np.zeros((len(content), 3), dtype = int)
    
    for i, line in enumerate(content):
        a = line.split(' ')
        dat[i, :] = np.array([int(a[0]), int(a[1]), int(a[2])])
    
    # remember to -1 at coordinate since we're in Python
    # check this: https://docs.scipy.org/doc/scipy/reference/generated/scipy.sparse.coo_matrix.html
    # for more information about coo_matrix function
    data = coo_matrix((dat[:, 2], (dat[:, 0] - 1, dat[:, 1] - 1)), shape=(len(label), n_words))
    return (data, label)

(train_data, train_label) = read_data(train_data_fn, train_label_fn)
(test_data, test_label) = read_data(test_data_fn, test_label_fn)