#  Naive Bayes classifier

Trên một tập dữ liệu có $d$ chiều đã được đánh nhãn. Có một điểm dữ liệu mới là $\mathbf{x}$ có $d$ chiều, ta cần quyết định xem điểm $\mathbf{x}$ thuộc vào class $c$ nào?

Một trong những cách là xét xác suất để $\mathbf{x}$ thuộc vào từng class là bao nhiêu, và sẽ chọn ra class có xác suất thuộc là lớn nhất!

Tư duy một cách thông thường, ta sẽ quan sát các đặt trưng của $\mathbf{x}$ và quyết định xem class nào phù hợp với đặc trưng đó, nhưng vậy các xác suất cần tính sẽ là:
$$
P(y=c|\mathbf{x}) = P(c|\mathbf{x})
$$

Để tính xác suất trên, ta quan sát bộ dữ liệu, chọn ra tập $\mathbf{X}$ có đặc trưng $\mathbf{x}$, tập này có lực lượng (số phần tử) là $|\mathbf{X}|$, trong tập $\mathbf{X}$ đếm được $N_{\mathbf{x}c}$ phần tử có label là $c$. Khi đó: 
$$
P(c|\mathbf{x}) = \frac{N_{\mathbf{x}c}}{|\mathbf{X}|}
$$

Một vấn đề thách thức đó chính là tập dữ liệu của chúng ta khi thu thập không đủ lớn, có khi chúng còn không xuất hiện trong dữ liệu chúng ta thu thâp được, vì vậy chúng ta đi tính gián tiếp thông qua công thức Bayes:
$$
P(c|\mathbf{x}) = \frac{P(\mathbf{x}c)}{P(\mathbf{x})} = \frac{P(\mathbf{x}|c)P(c)}{P(\mathbf{x})} 
$$

Trong các xác suất trên, ta sẽ chọn ra class $c$ có xác suất cao nhất
$$
c = \argmax _{c \in \{1,...,k\}}{P(c|\mathbf{x})} 
= \argmax _{c \in \{1,...,k\}}{\frac{P(\mathbf{x}|c)P(c)}{P(\mathbf{x})}} 
= \argmax _{c \in \{1,...,k\}}{P(\mathbf{x}|c)P(c)} \space (*)
$$

Giá trị $P(c)$ được xác định như sau:
$$
P(c) = \frac{N_c}{N}
$$
Trong đó:
- $N_c$ số dữ liệu thuộc vào class $c$  
- $N$ số điểm dữ liệu

Giá trị $P(\mathbf{x}|c)$ được xác định như sau:
$$
P(\mathbf{x}|c) = P(x_1, ..., x_d | c)
$$

Và xác suất này cũng rất khó tính (do thực tế không thể thu thập đủ dữ liệu), giả sử rằng các biến $x_i$ độc lập với nhau, khi đó:
$$
P(\mathbf{x}|c) = P(x_1, ..., x_d | c) = P(x_1|c)\cdot P(x_2|c)\cdot...\cdot P(x_d|c) = \prod_{i = 1}^d{P(x_i|c)}
$$

Xác suất $P(x_i|c)$ được xác định như sau:
$$
P(x_i|c) = \frac{N_{cx_i}}{N_c} 
$$
Trong đó:
- $N_{cx_i}$ là số lượng phần tử có nhãn $c$ và tại vị trí $i$ có giá trị là $x_i$
- $N_c$ là số lượng phần tử có nhãn $c$ trong tập dữ liệu

Thực tế, giá trị $P(x_i|c)$ theo công thức trên có thể bằng 0, điều này sẽ dẫn đến không thể tìm được nghiệm của phương trình $(*)$, một kỹ thuật được áp dụng được gọi là ***Laplace Smoothing***, khi đó $P(x_i|c)$ được xác định:
$$
P(x_i|c) = \frac{N_{cx_i} + \alpha}{N_c + d\alpha} 

$$

Vậy phương trình cần phải giải:
$$
c 
= \argmax_{c \in {1, \ldots, k}}{P(\mathbf{x}|c)P(c)} \\
= \argmax_{c \in {1, \ldots, k}}{P(c)\prod_{i = 1}^d{P(x_i|c)}} \\
= \argmax_{c \in \{1, \ldots, k\}} \left[ \ln P(c) + \sum_{i = 1}^d \ln P(x_i \mid c) \right]
$$

## Bernoulli Naive Bayes

Đối với bài toán bên trên, khi mã hóa dữ liệu thành một vector, ta quan tâm đến giá trị xuất hiện bao nhiêu lần trong dữ liệu đó. Đây là bài toán đơn giản hơn, khi ta quan tâm xem giá trị có xuất hiện trong bản ghi hay không?

Khi đó có một công thức tổng quát đơn giản để tính $P(x_i|c)$:
$$
P(x_i|c) = \lambda x_i + (1- \lambda)(1 - x_i)
$$
Trong đó:
- $\lambda = P(x_i = 1 | c) $ tức là vị trí $i$ trong vector mã hóa có sự xuất hiện của giá trị
