# Naive Bayes

## Naive Bayes简介

&emsp; 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。

## 基本方法

&emsp; 朴素贝叶斯法通过训练数据集学习联合分布$P(X, Y)$。通过学习先验概率分布以及条件概率分布得出。

&emsp; 先验概率分布：

$P(y=c_k),k=1,2, \cdots,K$

&emsp; 条件概率分布：

$P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)},\cdots, X^{(n)}=x^{(n)}|y=c_k), k=1,2,\cdots,K$

&emsp; 朴素贝叶斯法对条件概率分布作了条件独立性的假设，这一假设使朴素贝叶斯法变得简单，但有时会牺牲一定的分类准确率：

$P(X=x|Y=c_k)=P(X^{(1)}=x^{(1)},\cdots, X^{(n)}=x^{(n)}|y=c_k)=\prod_{j=1}^{n}P(X^{(j)}=x^{(j)}|Y=c_k)$

&emsp; 使用朴素贝叶斯法分类时，对给定的输入x，通过学习到的模型计算后验概率分布$P(Y=c_k|X=x)$，将后验概率最大的类作为x的类输出。于是朴素贝叶斯分类器可表示为：

$y=f(x)=arg\,\max_{c_k}\frac{P(Y=c_k)\prod_jP(X^{(j)}=x^{(j)}|Y=c_k)}{\sum_iP(Y=c_i)\prod_jP(X^{(j)}=x^{(j)}|Y=c_i)}$

&emsp; 去掉相同的分母进行简化：

$y=f(x)=arg\,\max_{c_k}P(Y=c_k)\prod_jP(X^{(j)}=x^{(j)}|Y=c_k)$

## 极大似然参数估计

&emsp; 首先计算先验概率及条件概率：

$P(y=c_k)=\frac{\sum_{i=1}^{N}I(y_i=c_k)}{N},k=1,2, \cdots,K$


$P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^{N}I(x_i^{(j)}=a_{jl},\,y_i=c_k)}{\sum_{i=1}^{N}I(y_i=c_k)}$

&emsp; 确定实例x的分类：

$y=arg\,\max_{c_k}P(Y=c_k)\prod_jP(X^{(j)}=x^{(j)}|Y=c_k)$

## 贝叶斯估计

&emsp; 上述极大似然估计可能会产生所要估计的概率值为0的情况，这会影响到后验概率的计算结果，使分类产生偏差。解决这一问题的方法是采用贝叶斯估计。

&emsp; 先验概率及条件概率的贝叶斯估计：

$P(y=c_k)=\frac{\sum_{i=1}^{N}I(y_i=c_k)+\lambda}{N+k\lambda},k=1,2, \cdots,K$


$P(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^{N}I(x_i^{(j)}=a_{jl},\,y_i=c_k)+\lambda}{\sum_{i=1}^{N}I(y_i=c_k)+S_j\lambda},l=1,2, \cdots,S_j$

&emsp; 常取$\lambda=1$，这时称为拉普拉斯平滑。

In [1]:
import numpy as np
from sklearn.datasets import load_digits
from sklearn.naive_bayes import MultinomialNB

In [2]:
X, y = load_digits(return_X_y=True)
print(X.shape, y.shape)

(1797, 64) (1797,)


In [3]:
class NaiveBayes():
    def __init__(self, lambd):
        self.prior_prob = None
        self.cond_prob = []
        self.lambd = lambd
    
    def fit(self, X, y):
        N, D = X.shape
        stat_y = np.bincount(y)
        self.num_of_class = stat_y.shape[0]
        self.prior_prob = (stat_y + self.lambd) / (N + self.num_of_class * self.lambd)
        
        for i in range(D):
            x = X[:, i]
            x_value = np.unique(x)
            s = x_value.shape[0]
            prob = np.zeros((s, self.num_of_class))
            self.cond_prob.append(prob)
            for j in range(s):
                y_set = y[x==x_value[j]]
                stat_xy = np.zeros((self.num_of_class, ))
                for k in range(self.num_of_class):
                    stat_xy[k] = np.sum(y_set == k)
                prob[j] = (stat_xy + self.lambd) / (stat_y + s * self.lambd)
    
    def predict(self, X):
        if self.prior_prob is None:
            print("no training")
            return
        
        N, D = X.shape
        prob = np.ones((N, self.num_of_class))
        for i in range(D):
            x = X[:, i]
            prob *= self.cond_prob[i][x]
        prob *= self.prior_prob
        return np.argmax(prob, axis=1)
            
    
    def score(self, X, y):
        y_hat = self.predict(X)
        return np.sum(y_hat == y) / y.shape[0]

In [4]:
X = X.astype(int)
X_train, y_train = X[:1697], y[:1697]
X_test, y_test = X[1697:], y[1697:]

clf = MultinomialNB()
model = NaiveBayes(1)

clf.fit(X_train, y_train)
model.fit(X_train, y_train)

print(clf.score(X_test, y_test), model.score(X_test, y_test))

0.88 0.91
