# Bắc hay Nam
Mỗi văn bản trong training set có thể thuộc vào một trong 2 lớp B (Bắc) hay N (Nam).

Bài toán này có thể được giải quyết bằng NBC sử dụng Multinomial Naive Bayes hoặc Bernoulli Naive Bayes. 

### Naive Bayes Classifier với thư viện `scikit-learn`
Dữ liệu huấn luyện và kiểm thử đã được đưa về dạng vector đặc trưng sử dụng BoW.

![image.png](attachment:image.png)

Tập các từ trong từ điển: 
$|V| = 9$

![image.png](attachment:image.png)

In [1]:
from __future__ import print_function
from sklearn.naive_bayes import MultinomialNB
import numpy as np
# train data
d1 = [2, 1, 1, 0, 0, 0, 0, 0, 0]
d2 = [1, 1, 0, 1, 1, 0, 0, 0, 0]
d3 = [0, 1, 0, 0, 1, 1, 0, 0, 0]
d4 = [0, 1, 0, 0, 0, 0, 1, 1, 1]
train_data = np.array([d1, d2, d3, d4])
label = np.array(['B', 'B', 'B', 'N'])

# test data
d5 = np.array([[2, 0, 0, 1, 0, 0, 0, 1, 0]])
d6 = np.array([[0, 1, 0, 0, 0, 0, 0, 1, 1]])

# call MultinomialNB
model = MultinomialNB()   
# training
model.fit(train_data, label)

# test
print('Predicting class of d5: ', str(model.predict(d5)[0]))
print('Probability of d6 in each class: ', model.predict_proba(d6))

Predicting class of d5:  B
Probability of d6 in each class:  [[0.29175335 0.70824665]]


### Bernoulli Naive Bayes với thay đổi về feature vector
Các giá trị khác 0 đều được đưa về 1, vì ta chỉ quan tâm từ đó có xuất hiện trong văn bản hay không.

In [2]:
from __future__ import print_function
from sklearn.naive_bayes import BernoulliNB
import numpy as np

# train data
d1 = [1, 1, 1, 0, 0, 0, 0, 0, 0]
d2 = [1, 1, 0, 1, 1, 0, 0, 0, 0]
d3 = [0, 1, 0, 0, 1, 1, 0, 0, 0]
d4 = [0, 1, 0, 0, 0, 0, 1, 1, 1]
train_data = np.array([d1, d2, d3, d4])
label = np.array(['B', 'B', 'B', 'N'])      # 0 - B, 1 - N

# test data
d5 = np.array([[1, 0, 0, 1, 0, 0, 0, 1, 0]])
d6 = np.array([[0, 1, 0, 0, 0, 0, 0, 1, 1]])

# call BernoulliNB
model = BernoulliNB()
# training
model.fit(train_data, label)

# test
print('Predicting class of d5: ', str(model.predict(d5)[0]))
print('Probability of d6 in each class: ', model.predict_proba(d6))

Predicting class of d5:  B
Probability of d6 in each class:  [[0.16948581 0.83051419]]
