### Simple Classification

In [2]:
import numpy as np
from sklearn.naive_bayes import BernoulliNB

# Data: Studied (1 for Yes, 0 for No) and Result (1 for Pass, 0 for Fail)
X = np.array([[0], [0], [1], [1], [1], [0]])
y = np.array([0, 1, 0, 1, 1, 0])

# create and train the model
model = BernoulliNB()
model.fit(X,y)

#Predict the result for a student who stuided
new_data = np.array([[1]])
prediction = model.predict(new_data)
prediction_proba = model.predict_proba(new_data)

In [3]:
prediction

array([1])

In [4]:
prediction_proba

array([[0.4, 0.6]])

In [7]:
np.exp(model.class_log_prior_)

array([0.5, 0.5])

In [8]:
# Empirical log probability of features given a class, P(x_i|y)
# [[P(x_i=1|C=0), P(x_i=0|C=0)],
#  [P(x_i=1|C=1), P(x_i=0|C=1)]]

np.exp(model.feature_log_prob_)

array([[0.4],
       [0.6]])

Sự chênh lệch giữa kết quả tính toán thủ công của bạn và kết quả từ **np.exp(model.feature_log_prob_)** có thể do cách scikit-learn xử lý dữ liệu. Cụ thể, scikit-learn có thể áp dụng một số kỹ thuật như làm trơn Laplace (Laplace smoothing) để tránh việc xác suất bằng 0, điều này giúp mô hình tổng quát hóa tốt hơn trên dữ liệu mới.

Làm trơn Laplace (Laplace Smoothing)
Làm trơn Laplace bổ sung thêm một giá trị nhỏ (thường là 1) vào mỗi tần suất đếm để đảm bảo rằng không có xác suất nào bằng 0. Công thức cho làm trơn Laplace là:

$P(x_i \mid c) = \frac{N_{x_i|c} + 1}{N_c + k}$

Trong đó:

 - $N_{x_i|c}$ là số lượng mẫu có giá trị $x_i$ trong lớp $c$
 - $N_c$ là tổng số mẫu trong lớp $c$\
 - $k$ là số lượng các giá trị có thể có của $x_i$ (trong trường hợp nhị phân, $k = 2$)


$\textbf{Không có làm trơn (Manual Calculation)}$ (Tính tay) :

- $P(x_i = 1 \mid c = 0) = \frac{1}{3} = 0.333$
- $P(x_i = 1 \mid c = 1) = \frac{2}{3} = 0.666$


$\textbf{Với làm trơn Laplace}$ (kết quả sài thư viện sklearn) :
 
 - $P(x_i = 1 \mid c = 0) = \frac{1+1}{3+2} = \frac{2}{5} = 0.4$
 - $P(x_i = 1 \mid c = 1) = \frac{2+1}{3+2} = \frac{3}{5} = 0.6$

​

### Gaussian Naive Bayes

In [54]:
import pandas as pd
iris = pd.read_csv('./data/iris_1D.csv')
iris

Unnamed: 0,Petal_Length,Label
0,1.4,0.0
1,1.0,0.0
2,1.3,0.0
3,1.9,0.0
4,2.0,0.0
5,3.8,1.0
6,4.1,1.0
7,3.9,1.0
8,4.2,1.0
9,3.4,1.0


#### Use Library

In [53]:
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
from sklearn.model_selection import train_test_split

X_train = iris.loc[:,'Petal_Length'].values.reshape(-1,1)
Y_Train = iris.loc[:,'Label'].values
print(X_train)

[[1.4]
 [1. ]
 [1.3]
 [1.9]
 [2. ]
 [3.8]
 [4.1]
 [3.9]
 [4.2]
 [3.4]]


In [41]:
from sklearn.naive_bayes import GaussianNB
import numpy as np


classifier = GaussianNB()
clf = classifier.fit(X_train, Y_Train)

# predict
x_test = np.array([[3.0]])

prediction = clf.predict(x_test)
prediction_proba = clf.predict_proba(x_test)

In [42]:
prediction

array([1.])

In [43]:
prediction_proba

array([[0.0454125, 0.9545875]])

In [44]:
clf.class_count_

array([5., 5.])

In [45]:
clf.class_prior_

array([0.5, 0.5])

In [46]:
# các label để phân loại
clf.classes_

array([0., 1.])

In [47]:
# # giá trị phương sai của đặc trưng so với label = 0 là 0.1416 , đặc trưng so với label = 1 là 0.0776
clf.var_

array([[0.1416],
       [0.0776]])

In [48]:
# giá trị mean của đặc trưng so với label = 0 là 1.52 , đặc trưng so với label = 1 là 3,88
clf.theta_

array([[1.52],
       [3.88]])

#### Compute mannualy

In [67]:
X_train = iris.loc[:, 'Petal_Length'].values
Y_train = iris.loc[:, 'Label'].values
print(X_train)
print(Y_Train)

[1.4 1.  1.3 1.9 2.  3.8 4.1 3.9 4.2 3.4]
[0. 0. 0. 0. 0. 1. 1. 1. 1. 1.]


In [77]:
C0l = []
C1l = []
count_c0 = 0
count_c1 = 0
for x,y in zip(X_train, Y_train):
    if y == 0:
        C0l.append(x)
        count_c0 += 1 
    elif y == 1:
        C1l.append(x)
        count_c1 += 1

C0l = np.array(C0l)
C1l = np.array(C1l)

# Tiên nghiệm
P_C0 = count_c0 / (count_c0 + count_c1)
P_C1 = count_c1 / (count_c0 + count_c1)
print(C0l, C1l)
print(P_C0, P_C1)

[1.4 1.  1.3 1.9 2. ] [3.8 4.1 3.9 4.2 3.4]
0.5 0.5


In [78]:
mean_C0l = C0l.mean()
var_C0l = C0l.var()

mean_C1l = C1l.mean()
var_C1l = C1l.var()

print(mean_C0l, var_C0l)
print(mean_C1l, var_C1l)

1.52 0.1416
3.88 0.07760000000000002


In [96]:
import math
def gausian_func(x, mean ,var):
    return (1 / math.sqrt(var) * math.sqrt(2*math.pi)) * np.exp(-((x - mean)**2) / (2*var))

In [97]:
x_test = np.array([[3.0]])

#Compute PDF
pdf_x_c0 = gausian_func(x_test, mean_C0l, var_C0l)
pdf_x_c1 = gausian_func(x_test, mean_C1l, var_C1l)

total = pdf_x_c0 * P_C0 + pdf_x_c1 * P_C1

pdf_c0_x = pdf_x_c0 * P_C0 / total
pdf_c1_x = pdf_x_c1 * P_C1 / total
print(pdf_c0_x)
print(pdf_c1_x)

[[0.0454125]]
[[0.9545875]]
