## 1. Giới thiệu

Naive Bayes là thuật toán học giám sát, cụ thể ở đây là classification. Đây là thuật toán dựa trên định lý Bayes về lý thuyết xác suất để đưa ra các dự đoán cũng như phân loại dữ liệu đã được quan sát. <br/>
Naive Bayes thường được sử dụng nhiều trong các bài toán phân loại text

## 2. Xác suất có điều kiện

Gọi A, B là 2 biến cố của biễn ngẫu nhiên X <br />
Nếu A, B là 2 sự kiện độc lập, ta có xác suất để A và B xảy ra đồng thời là: <br />
<center>$P(AB)=P(A)P(B)$</center><br /> 
$P(A)$ là xác suất A xảy ra <br />
$P(B)$ là xác suất B xảy ra

Nếu A, B là 2 biến cố liên quan với nhau, với $P(B) > 0$, ta có xác suất của A khi biết B xảy ra được xác định như sau: <br />
<center>$P(A|B)=\frac{P(AB)}{P(B)}$</center>

Khi đó $P(AB)=P(A|B)P(B)$

Khi A và B độc lập lập có $P(A|B)=P(A)$

## 3. Định lý Bayes

Từ công thức trên ta có: $P(AB)=P(A|B)P(B)=P(B|A)P(A)$ <br />
Vậy: <center>$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$</center>

## 4. Thuật toán Naive Bayes

Giả sử dữ liệu bài toán classification có 3 class 1, 2, 3. Giả sử có 1 observation x. Xác định điểm x này thuộc class nào. Để xác định x thuộc class nào. Ta tính xác suất x là class 1, 2, 3 khi biết đầu vào là x. Ta có các xác suất sau: $P(y=1|x), P(y=2|x), P(y=3|x)$. x sẽ thuộc vào class có xác suất lớn nhất

Vì so sánh $P(y=1|x), P(y=2|x), P(y=3|x)$. Mà các xác suất trên đều có mẫu số là $P(x)$ nên ta loại bỏ $P(x)$

<h3><b>Tính $P(y=1)$</b></h3>

Gọi n là số lượng phần tử có y = 1. N là tổng số lượng phần tử trong dữ liệu. Khi đó $P(y = 1)=\frac{n}{N}$

Tính $P(x|y=1)$

x là observation có dạng: $x = (x_1, x_2..., x_n)$

Giả sử các thành phần $(x_1, x_2...,x_n)$ là độc lập với nhau. Trong thực tế giả sử trên không tồn tại. Vì dữ liệu không hoàn toàn là độc
lập. Tuy nhiên giả thuyết này vẫn mang lại kết quả tốt trong nhiều trường hợp. Vì vậy nó vẫn được chấp nhận. Naive(ngầy thơ) 
xuất hiện từ giả thuyết này

<h3><b>Tính $\prod_{i=1}^{n}P(x_i|y=1)$</b></h3>

<h4>Gaussian</h4>

Mô hình này được sử dụng chủ yếu trong dữ liệu mà các thành phần là liên tục

Công thức:

$P(x_i|y=1)=\frac{1}{\sqrt{2\pi\sigma_{1i}^2}}exp(-\frac{(x_i-\mu_{1i})^2}{2\sigma_{1i}^2})$

Với: $\sigma_{1i}^2$ là phương sai của feature thứ i của class 1 <br />
$\mu_{1i}$ là kỳ vọng của feature thứ i của class 1


<h4>Multinomial</h4>

Mô hình này chủ yếu được sử dụng trong các bài toán phân loại văn bản mà các feature là các số tự nhiên thể hiện số lần từ đó xuất hiện trong văn bản

$P(x_i, y=1)=\frac{N_{y=1 i}}{N_{c}}$

Với $N_{ci}$ là tổng số lần từ thứ $x_i$ xuất hiện trong văn bản <br />
$N_{c=1}$ là tổng số từ trong văn bản của class c

Với công thức trên có 1 hạn chế là từ $x_{ci}$ không xuất hiện trong văn bản, ta có $N_{ci}$=0. Điều này làm cho $P(x_i|y)$ = 0 

Vì vậy xác suất có điều kiện sẽ bằng 0

Để khắc phục vấn đề này. Người ta sử dụng một kĩ thuật gọi là Laplace Smoothing bằng cách công thêm cả tử và mẫu để giá trị luôn khác 0

$P(x_i, y=1)=\frac{N_{ci} + \alpha}{N_{c=1} + d\alpha}$

Với $\alpha$ là số dương bằng 1

$d\alpha$ được cộng vào mẫu để đảm bảo tổng xác suất bằng 1

### Code

#### Import packages

In [2]:
import numpy as np
import pandas as pd
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.model_selection import train_test_split
import operator

#### Đọc dữ liệu

In [3]:
df = pd.read_csv("Iris.csv")
print(df.head(5))
X = df.iloc[:, 1:-1].values
y = df.iloc[:, -1].values

   Id  SepalLengthCm  SepalWidthCm  PetalLengthCm  PetalWidthCm      Species
0   1            5.1           3.5            1.4           0.2  Iris-setosa
1   2            4.9           3.0            1.4           0.2  Iris-setosa
2   3            4.7           3.2            1.3           0.2  Iris-setosa
3   4            4.6           3.1            1.5           0.2  Iris-setosa
4   5            5.0           3.6            1.4           0.2  Iris-setosa


#### Mã hóa label

In [76]:
encoder = LabelEncoder()
y = encoder.fit_transform(y)

#### Chia dữ liệu train/test


In [77]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.1)

#### Naive bayes

#### Tính p(y=c). Với c = 0, 1, 2

In [78]:
def seperate_classes(X, y):
    unique_classes = np.unique(y)
    seperated_classes = {unique_class:[] for unique_class in unique_classes}
    for unique_class in unique_classes:
        seperated_classes[unique_class].append(X[np.where(y==unique_class)[0]])
    return seperated_classes

def calculate_label_probs(seperated_classes):
    n_samples = sum(len(value[0]) for value in seperated_classes.values())
    label_probs = {seperated_class: len(seperated_classes[seperated_class][0])/float(n_samples) for seperated_class in seperated_classes}
    return label_probs

#### Tính $P(x_i|y=c)$. Với c = 0, 1, 2

##### Gaussian

In [79]:
# Tính cho feature thứ i
def gaussian(xi, mean_i, std_i):
    return np.exp(-np.power(xi - mean_i, 2.) / (2 * np.power(std_i, 2.)))

#### Học

In [80]:
global std, std, label_probs
def fit(X_train, y_train):
    global std
    std = {}
    global mean
    mean = {}
    global label_probs
    label_probs = {}
    seperated_classes = seperate_classes(X_train, y_train)
    label_probs = calculate_label_probs(seperated_classes)
    for seperated_class in seperated_classes:
        std[seperated_class] = np.std(seperated_classes[seperated_class], axis=1).flatten()
        mean[seperated_class] = np.mean(seperated_classes[seperated_class], axis=1).flatten()

##### Dự đoán

Giả sử tính $P(y=1|x)$. Áp dụng định lý Bayes ta có: $P(y=1|x)=\frac{P(x|y=1)p(y=1)}{P(x)}$

Khi đó $P(x|y=1)=P(x_1|y=1)P(x_2|y=1)...P(x_n|y=1)=\prod_{i=1}^{n}P(x_i|y=1)$

In [81]:
def predict(X_test):
    global std
    global mean
    global label_probs
    assert std or mean or label_probs, "Fit before predicting"
    result = []
    for x_row in X_test:
        conditional_probs = []
        for label in label_probs:
            mul = 1
            for index, feature in enumerate(x_row):
                gauss = gaussian(feature, mean[label][index], std[label][index])
                mul = mul * gauss
            conditional_prob = label_probs[label]*mul
            conditional_probs.append(conditional_prob)
        result.append(np.argmax(conditional_probs))
    return result

predict(X_test)

[1, 2, 2, 2, 1, 2, 0, 0, 1, 0, 0, 1, 2, 1, 2]

##### Test

In [87]:
from sklearn.metrics import accuracy_score

fit(X_train, y_train)
prediction = predict(X_test)
print("Accuracy score:", accuracy_score(y_test, prediction))



from sklearn.naive_bayes import BernoulliNB
clf = MultinomialNB()
clf.fit(X_train, y_train)
prediction = clf.predict(X_test)
print("Accuracy score:", accuracy_score(y_test, prediction))

Accuracy score: 1.0
Accuracy score: 0.9333333333333333


In [91]:
from category_encoders import CountEncoder

dataset = np.array(["DN", "QT", "H", "QN", "DN", "DN"])
encoder = CountEncoder()
encoder.fit_transform(dataset)

# label-encoder
# one-hot
# count

Unnamed: 0,0
0,3
1,1
2,1
3,1
4,3
5,3


In [93]:
df = pd.read_csv(r"D:\Working\Tài liệu Giảng dạy\Tài Liệu Bài Giảng\Buổi 7. Bayes\adult.csv")

X_train, X_test = train_test_split(df, test_size=0.3, random_state=42, shuffle=True)

X_train.to_csv("train.csv", index=False)
X_test.to_csv("test.csv", index=False)