## 朴素贝叶斯 (Naive Bayes)
朴素贝叶斯是一个简单且常用的分类算法，其基于两个条件：
1. 贝叶斯定理
2. 特征条件独立假设

### 1.模型定义
设输入数据$x \in R^n$，输出类别$y=\{c_1,c_2,...,c_K\}$，X是输入空间中的随机向量，Y是输出空间中的随机变量，则有    
联合概率分布：$P(X,Y)$    
先验概率分布：$P(Y=c_k),\quad k=1,2,...,K$    
条件概率分布：$P(X=x\mid Y=c_k)=P(X^1=x^1,...,X^n=x^n\mid Y=c_k),\quad k=1,2,...,K$    
朴素贝叶斯就是通过**条件概率分布**和**先验分布**来学习**联合概率分布**。  
  
之所以称为**朴素**贝叶斯，是因为对条件概率分布作了条件独立假设，即：$$P(X=x\mid Y=c_k)=P(X^1=x^1,...,X^n=x^n\mid Y=c_k)=\prod_{j=1}^nP(X^j=x^j\mid Y=c_k)$$  
**条件独立假设**是指用于分类的特征在类别确定的条件下都是独立的，这一假设使得朴素贝叶斯算法更加简单，但有时会牺牲分类的准确率。  
  
朴素贝叶斯模型对输入x计算后验概率$P(Y=c_k\mid X=x)$，将后验概率最大的类作为x的分类结果。后验概率根据贝叶斯定理计算：$$P(Y=c_k\mid X=x)=\frac{P(X=x\mid Y=c_k)P(Y=c_k)}{\sum_{k}P(X=x\mid Y=c_k)P(Y=c_k)}$$  
由条件独立，可得：$$P(Y=c_k\mid X=x)=\frac{P(Y=c_k)\prod_{j}P(X^j=x^j\mid Y=c_k)}{\sum_{k}P(Y=c_k)\prod_{j}P(X^j=x^j\mid Y=c_k)}$$  
因此，朴素贝叶斯模型可以表示为：$$y=argmax_{C_k}\frac{P(Y=c_k)\prod_{j}P(X^j=x^j\mid Y=c_k)}{\sum_{k}P(Y=c_k)\prod_{j}P(X^j=x^j\mid Y=c_k)}$$  
又由于上式中分母是不变的，所以可以简化为：$$y=argmax_{C_k}P(Y=c_k)\prod_{j}P(X^j=x^j\mid Y=c_k)$$

### 2.极大似然估计
在朴素贝叶斯算法中，通常用极大似然估计来计算先验概率$P(Y=c_k)$和条件概率$P(X^j=x^j\mid Y=c_k)$。 
  
先验概率$P(Y=c_k)$的极大似然估计：$$P(Y=c_k)=\frac{\sum_{i=1}^{N}I(y_i=c_k)}{N}$$ 
  
设第j个特征$x^j\in\{a_{j1},a_{j2},...,a_{jS_{j}}\}$，条件概率$P(X^j=a_{jl}\mid Y=c_k)$的极大似然估计：$$P(X^j=a_{jl}\mid Y=c_k)=\frac{\sum_{i=1}^{N}I(x_i^j=a_{jl},y_i=c_k)}{\sum_{i=1}^{N}I(y_i=c_k)}$$ 

### 3.算法流程
假设训练集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$，特征维度为$n$，$x_i^j\in\{a_{j1},a_{j2},...,a_{jS_{j}}\}$表示第$j$个特征可取的值，$a_{jl}$表示第$j$个特征取的第$l$个值，$j=1,2,...,n;\quad l=1,2,...,S_j;\quad y_i\in\{c_1,c_2,...,c_k\}$，则朴素贝叶斯算法流程如下：  
1. 计算先验概率和条件概率：$$P(Y=c_k)=\frac{\sum_{i=1}^{N}I(y_i=c_k)}{N}$$ 
$$P(X^j=a_{jl}\mid Y=c_k)=\frac{\sum_{i=1}^{N}I(x_i^j=a_{jl},y_i=c_k)}{\sum_{i=1}^{N}I(y_i=c_k)}$$
2. 对于测试样本$x=(x^1,x^2,...,x^n)^T$，计算：$$P(Y=c_k)\prod_{j=1}^{n}P(X^j=x^j\mid Y=c_k)$$  
3. 确定测试样本$x$的类别：$$y=argmax_{C_k}P(Y=c_k)\prod_{j=1}^{n}P(X^j=x^j\mid Y=c_k)$$

### 4.拉普拉斯平滑
极大似然估计有个弊端，当有一个新样本$x$，如果它的第$j$个特征值是在训练集中未见过时，会导致$P(X^j=x^j\mid Y=c_k)$等于0，这会使得后验概率的结果始终为0，从而无法将这个样本分类。 
  
解决这一问题的方法是采用**拉普拉斯平滑**，其思想就是让分子和分母分别加上一个常数，使得结果不能为0。  
对于条件概率，分子加1，分母加上当前特征在训练集中可取值的数量，即：$$P(X^j=a_{jl}\mid Y=c_k)=\frac{\sum_{i=1}^{N}I(x_i^j=a_{jl},y_i=c_k)+1}{\sum_{i=1}^{N}I(y_i=c_k)+S_{j}}$$  
对于先验概率，分子加1，分母加上类别数量，即：$$P(Y=c_k)=\frac{\sum_{i=1}^{N}I(y_i=c_k)+1}{N+K}$$

### 5.Code
code time :-）这里使用《统计学习方法》书上的例子

#### 5.1 numpy版

In [67]:
import numpy as np

train_datas = np.array([
    [1,'S',-1], [1,'M',-1], [1,'M',1], [1,'S',1], [1,'S',-1], 
    [2,'S',-1], [2,'M',-1], [2,'M',1], [2,'L',1], [2,'L',1],
    [3,'L',1], [3,'M',1], [3,'M',1], [3,'L',1], [3,'L',-1]
])
X = train_datas[:, :2]
Y = train_datas[:, -1]

In [36]:
class NaiveBayes():
    def __init__(self, X, Y):
        self.X = X
        self.Y = Y
        self.N = X.shape[0]  # 训练集大小
        self.n = X.shape[1]  # 特征个数
        self.classes = np.unique(Y)  # 类别可取值
        self.K = self.classes.size  # 类别总数
        self.prior_prob = None
        self.cond_prob = None
        self.poster_prob = None
        
    def get_prior_prob(self):
        """
        计算每个类别的先验概率
        """
        prior_prob = {}
        for c in self.classes:
            _sum = np.sum(np.where(self.Y==c, 1, 0))
            key = 'Y={}'.format(c)
            prior_prob[key] = (_sum + 1) / (self.N + self.K)  # Laplace smoothing
        return prior_prob
    
    def get_conditional_prob(self):
        """
        计算每个特征值在特定类别下的条件概率
        """
        cond_prob = {}
        # 遍历每一类
        for c in self.classes:
            inds = np.where(self.Y==c)[0]
            datas = X[inds]  # 类别为c的所有样本
            # 遍历每个特征
            for j in range(self.n):
                a = X[:, j]
                values = np.unique(a)  # 特征a的可取值
                Sj = values.size  # 特征a的可取值数量
                for v in values:
                    _sum = np.sum(np.where(datas[:, j]==v, 1, 0))
                    key = 'X{}={}|Y={}'.format(j+1, v, c)
                    cond_prob[key] = (_sum + 1) / (len(datas) + Sj)  # Laplace smoothing
        return cond_prob
                    
    def fit(self):
        self.prior_prob = self.get_prior_prob()
        self.cond_prob = self.get_conditional_prob()
    
    def predict(self, x):
        poster_prob = {}
        for c in self.classes:
            prob = 1.0
            prior_key = 'Y={}'.format(c)
            prob *= self.prior_prob[prior_key]
            for j in range(self.n):
                cond_key = 'X{}={}|Y={}'.format(j+1, x[j], c)
                if cond_key in self.cond_prob.keys():
                    cond_prob = self.cond_prob[cond_key]
                else:
                    cond_prob = 1 / (np.sum(np.where(self.Y==c, 1, 0)) + np.unique(self.X[:, j]).size)
                prob *= cond_prob
            poster_prob[c] = prob
        self.poster_prob = poster_prob
        cls = sorted(poster_prob.items(), key=lambda x: x[1], reverse=True)[0][0]
        return cls

In [37]:
# 训练
model = NaiveBayes(X, Y)
model.fit()

In [38]:
# 先验概率
model.prior_prob

{'Y=-1': 0.4117647058823529, 'Y=1': 0.5882352941176471}

In [39]:
# 条件概率
model.cond_prob

{'X1=1|Y=-1': 0.4444444444444444,
 'X1=1|Y=1': 0.25,
 'X1=2|Y=-1': 0.3333333333333333,
 'X1=2|Y=1': 0.3333333333333333,
 'X1=3|Y=-1': 0.2222222222222222,
 'X1=3|Y=1': 0.4166666666666667,
 'X2=L|Y=-1': 0.2222222222222222,
 'X2=L|Y=1': 0.4166666666666667,
 'X2=M|Y=-1': 0.3333333333333333,
 'X2=M|Y=1': 0.4166666666666667,
 'X2=S|Y=-1': 0.4444444444444444,
 'X2=S|Y=1': 0.16666666666666666}

In [72]:
# 预测
x = np.array([2, 'S'])
y = model.predict(x)
print('后验概率:', model.poster_prob)
print('预测结果:', y)

后验概率: {'-1': 0.06100217864923746, '1': 0.0326797385620915}
预测结果: -1


#### 5.2 sklearn版

In [42]:
from sklearn.naive_bayes import GaussianNB
from sklearn.preprocessing import LabelEncoder

In [68]:
# 数据预处理，将类别型转换为数值型
le = LabelEncoder()
A2 = le.fit_transform(X[:,1])
X_train = np.c_[X[:, 0].astype(np.int32), A2]
Y_train = Y.astype(np.int32)

In [70]:
# 训练
clf = GaussianNB()
clf.fit(X_train, Y_train)

GaussianNB(priors=None)

In [84]:
# 预测
x = np.array([[2, 'S']])
x = np.c_[x[:, 0].astype(np.int32), le.transform(x[:, 1])]
clf.predict(x)

array([-1])

TypeError: predict_proba() missing 1 required positional argument: 'X'