# 朴素贝叶斯算法（Naive Bayes）

## 1.极大似然估计
先验概率为:
$ \quad  P(Y=c_k)=\frac{\Sigma^N_{i=1}I(y_i=c_k)}{N},k=1,2,...,K $

设第$j$个特征$x^{(j)}$可能的取值集合是${a_{j1},a_{j2},...,a_{jS_j}}$,

条件概率$P(X^{(j)}=a_{jl} \mid Y=c_k)$的极大似然估计为：
$\quad P(X^{(j)}=a_{jl} \mid Y=c_k)=\dfrac{\Sigma^N_{i=1}I(x^{(j)}_i=a_{jl},y_i=c_k)}{\Sigma^N_{i=1}I(y_i=c_k)}$
$j=1,2,...,n; l=1,2,...,S_j, k=1,2,...,K$

式中，$x^{(j)}_i$是第$i$个样本的第$j$个特征；$a_{jl}$是第$j$个特征可能取的第$l$个值；$I$为指示函数

## 2.学习与分类算法
输入：训练数据$T={(x_1,y_1),(x_2,y_2),...,(x_N,y_N)}$，其中$x_i=(x^{(1)}_i,x^{(2)}_i,...,x^{(N)}_i)^T$ $x^{(j)}_i$是第$i$个样本的第$j$个特征，$x^{(j)}_i \in {a_{j1},a_{j2},...,a_{jS_j}}$,$a_{jl}$是第$j$个特征可能取的第$l$个值，$y_i \in {c_1,c_2,...,c_K}$；实例$x$.

输出：实例$x$的分类.

(1)计算先验概率及条件概率
先验概率为:

$ \quad  P(Y=c_k)=\frac{\Sigma^N_{i=1}I(y_i=c_k)}{N},k=1,2,...,K $

条件概率$P(X^{(j)}=a_{jl} \mid Y=c_k)$的极大似然估计为：
$\quad P(X^{(j)}=a_{jl} \mid Y=c_k)=\dfrac{\Sigma^N_{i=1}I(x^{(j)}_i=a_{jl},y_i=c_k)}{\Sigma^N_{i=1}I(y_i=c_k)},j=1,2,...,n; l=1,2,...,S_j, k=1,2,...,K$

(2)对于给定的实例$x=(x^{(1)},x^{(2)},...,x^{(n)})^T$,计算

$\quad P(Y=c_k) \Pi P(X^{(j)}=x^{(j)} \mid Y=c_k),k=1,2,...,K$

(3)确定实例$x$的分类

$\quad y=arg max P(Y=c_k) \Pi P(X^{(j)}=x^{(j)} \mid Y=c_k)$

$\quad {\bf 例1}\quad$由表中训练数据学习一个朴素贝叶斯分类器并确定$x=(2,S)^T$的类标记，表中$X^{(1)},X^{(2)}$为特征，取值的集合分别为$A_1={1,2,3},A_2={S,M,L}$,$Y \in C={1,-1}$

|          | 1| 2|3|4|5|6|7|8|9|10|11|12|13|14|15|
|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|
|$X^{(1)}$| 1| 1|1|1|1|2|2|2|2|2|3|3|3|3|3|
|$X^{(2)}$| S| M|M|S|S|S|M|M|L|L|L|M|M|L|L|
|$   Y  $|-1|-1|1|1|-1|-1|-1|1|1|1|1|1|1|1|-1|
${\quad \bf 解} \quad$根据上述算法，容易计算下列概率：

先验概率：

$P(Y=1)=\frac{9}{15}$, $P(Y=-1)=\frac{6}{15}$

条件概率：

$P(X^{(1)}=1 \mid Y=1)=\frac{2}{9}$,$P(X^{(1)}=2 \mid Y=1)=\frac{3}{9}$,$P(X^{(1)}=3 \mid Y=1)=\frac{4}{9}$

$P(X^{(2)}=S \mid Y=1)=\frac{1}{9}$,$P(X^{(2)}=M \mid Y=1)=\frac{4}{9}$,$P(X^{(1)}=L \mid Y=1)=\frac{4}{9}$

$P(X^{(1)}=1 \mid Y=-1)=\frac{3}{6}$,$P(X^{(1)}=2 \mid Y=-1)=\frac{2}{6}$,$P(X^{(1)}=3 \mid Y=-1)=\frac{1}{6}$

$P(X^{(2)}=S \mid Y=-1)=\frac{3}{6}$,$P(X^{(2)}=M \mid Y=-1)=\frac{2}{6}$,$P(X^{(1)}=L \mid Y=-1)=\frac{1}{6}$

对于给定的$x=(2,S)^T$，

$\quad P(Y=1)P(X^{(1)}=2 \mid Y=1)P(X^{(2)}=S \mid Y=1)=\frac{9}{15} * \frac{3}{9} * \frac{1}{9}=\frac{1}{45}$

$\quad P(Y=-1)P(X^{(1)}=2 \mid Y=-1)P(X^{(2)}=S \mid Y=-1)=\frac{6}{15} * \frac{2}{6} * \frac{3}{6}=\frac{1}{15}$

因此，由最大后验概率确定实例$x$的类别$y=-1$.

## 3.贝叶斯估计
$\quad$用极大似然估计可能会出现所要估计的概率值为0的情况。这会影响到后验概率的计算结果，使分类产生误差。解决这一问题的方法是采用贝叶斯估计。具体来说，条件概率的贝叶斯估计为：

$\quad P_{\lambda}(X^{(j)}=a_{jl} \mid Y=c_k)=\dfrac{\Sigma^N_{i=1}I(x^{(j)}_i=a_{jl},y_i=c_k)+{\lambda}}{\Sigma^N_{i=1}I(y_i=c_k)+S_j{\lambda}}$,${\lambda} \geq 0$.等价于在随机变量各个取值的频数上赋予一个正数${\lambda} > 0$,当${\lambda} = 0$时，就是极大似然估计.常取${\lambda} = 1$,称为拉普拉斯平滑(Laplace smoothing).显然对于任何$l=1,2,...,S_j,k=1,2,...,K$,有

$\quad P_{\lambda}(X^{(j)}=a_{jl} \mid Y=c_k)>0$

$\quad \Sigma^{S_j}_{l=1}P(X^{(j)} \mid Y=c_k) = 1$

同样，先验概率的贝叶斯估计是

$ \quad  P(Y=c_k)=\frac{\Sigma^N_{i=1}I(y_i=c_k)+{\lambda}}{N+K{\lambda}}$

${\quad\bf 例2}\quad$问题同例1,按照拉普拉斯平滑估计概率，取${\lambda=1}$.

${\quad \bf解 \quad}$先验概率：

$P(Y=1)=\frac{10}{17}$, $P(Y=-1)=\frac{7}{17}$

条件概率：

$P(X^{(1)}=1 \mid Y=1)=\frac{3}{12}$,$P(X^{(1)}=2 \mid Y=1)=\frac{4}{12}$,$P(X^{(1)}=3 \mid Y=1)=\frac{5}{12}$

$P(X^{(2)}=S \mid Y=1)=\frac{2}{12}$,$P(X^{(2)}=M \mid Y=1)=\frac{5}{12}$,$P(X^{(1)}=L \mid Y=1)=\frac{5}{12}$

$P(X^{(1)}=1 \mid Y=-1)=\frac{4}{9}$,$P(X^{(1)}=2 \mid Y=-1)=\frac{3}{9}$,$P(X^{(1)}=3 \mid Y=-1)=\frac{2}{9}$

$P(X^{(2)}=S \mid Y=-1)=\frac{4}{9}$,$P(X^{(2)}=M \mid Y=-1)=\frac{3}{9}$,$P(X^{(1)}=L \mid Y=-1)=\frac{2}{9}$

对于给定的$x=(2,S)^T$，

$\quad P(Y=1)P(X^{(1)}=2 \mid Y=1)P(X^{(2)}=S \mid Y=1)=\frac{10}{17} * \frac{4}{12} * \frac{2}{12}=\frac{5}{153}$

$\quad P(Y=-1)P(X^{(1)}=2 \mid Y=-1)P(X^{(2)}=S \mid Y=-1)=\frac{7}{17} * \frac{3}{9} * \frac{4}{9}=\frac{28}{459}$

因此，由最大后验概率确定实例$x$的类别$y=-1$.

# 高斯朴素贝叶斯 (GaussianNB)

上述估计都是对离散属性来说的，对于连续的数值来说，很多情况下样本中的每个属性满足正态分布，因此我们就可以利用训练样本集来求正态分布的均值$\mu$和方差$\sigma^2$,然后代入正态分布的表达式中，得到高斯密度函数。

特征的可能性被假设为高斯概率密度函数：

$\quad P(x_i \mid y_k)=\dfrac{1}{\sqrt{2\pi\sigma^2_{yk}}}exp(-\dfrac{(x_i-\mu_{yk})^2}{2\sigma^2_{yk}})$

数学期望(mean): $\mu$,$\quad$方差:$\sigma^2=\dfrac{\Sigma(X-\mu)^2}{N}$ 

In [16]:
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
import sklearn
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

import math
from collections import Counter
%matplotlib inline

In [17]:
#load datasets
iris = load_iris()
data = iris.data
label = iris.target
X_train,X_test,y_train,y_test = train_test_split(data,label,test_size=0.3)

In [23]:
for i in zip(*data[:10]):
    print(i)
for i in zip(data[:10]):
    print(i)

(5.1, 4.9, 4.7, 4.6, 5.0, 5.4, 4.6, 5.0, 4.4, 4.9)
(3.5, 3.0, 3.2, 3.1, 3.6, 3.9, 3.4, 3.4, 2.9, 3.1)
(1.4, 1.4, 1.3, 1.5, 1.4, 1.7, 1.4, 1.5, 1.4, 1.5)
(0.2, 0.2, 0.2, 0.2, 0.2, 0.4, 0.3, 0.2, 0.2, 0.1)
(array([5.1, 3.5, 1.4, 0.2]),)
(array([4.9, 3. , 1.4, 0.2]),)
(array([4.7, 3.2, 1.3, 0.2]),)
(array([4.6, 3.1, 1.5, 0.2]),)
(array([5. , 3.6, 1.4, 0.2]),)
(array([5.4, 3.9, 1.7, 0.4]),)
(array([4.6, 3.4, 1.4, 0.3]),)
(array([5. , 3.4, 1.5, 0.2]),)
(array([4.4, 2.9, 1.4, 0.2]),)
(array([4.9, 3.1, 1.5, 0.1]),)


In [52]:
#高斯朴素贝叶斯分类器
class CgaussianNB:
    def __init__(self):
        self.model = None
    @staticmethod
    def mean(X):
        return sum(X)/float(len(X))
    def stddev(self,X):
        average = self.mean(X)
        return math.sqrt(sum([math.pow(x-average,2) for x in X]) / float(len(X)))
    #概率密度函数
    def gaussian_prob(self,x,mean,stddev):
        exponent = math.exp(-(math.pow(x-mean,2)/(2*math.pow(stddev,2))))
        return (1/(math.sqrt(2*math.pi)*stddev))*exponent
    #处理训练数据
    def summarize(self,data):
        summa = [(self.mean(i),self.stddev(i)) for i in zip(*data)]
        #print(np.shape(summa)) #(4,2)
        return summa
    def fit(self,X,y):
        data = {label:[] for label in set(y)}
        for f,label in zip(X,y):
            data[label].append(f)
        self.model = {label: self.summarize(value) for label,value in data.items()}
        return "training has done!"
    def calculate_prob(self,input_data):
        prob = {}
        for label,value in self.model.items():
            prob[label] = 1
            for i in range(len(value)):
                mean,stddev = value[i]
                prob[label] *= self.gaussian_prob(input_data[i],mean,stddev)
        return prob
    def predict(self,X_test):
        y = sorted(self.calculate_prob(X_test).items(),key=lambda x:x[-1])[-1][0]
        return y
    def score(self,X_test,y_test):
        right = 0
        for X,y in zip(X_test,y_test):
            label = self.predict(X)
            if label==y:
                right+=1
        return right/float(len(y_test))
    
        

In [55]:
model = CgaussianNB()
model.fit(X_train,y_train)
print(model.predict(X_test[1]))
print("the accuracy is ",model.score(X_test,y_test))

(4, 2)
(4, 2)
(4, 2)
2
the accuracy is  0.9333333333333333


## sklearn包中的高斯朴素贝叶斯实现

In [37]:
from sklearn.naive_bayes import GaussianNB
clf = GaussianNB()
clf.fit(X_train,y_train)

GaussianNB(priors=None)

In [44]:
print(clf.score(X_test,y_test))
clf.predict(X_test)

0.9333333333333333


array([0, 2, 0, 2, 2, 0, 0, 1, 1, 2, 0, 2, 1, 2, 1, 1, 0, 1, 0, 2, 1, 2,
       1, 2, 1, 2, 1, 1, 1, 2, 1, 2, 0, 0, 0, 1, 2, 1, 1, 1, 2, 1, 2, 1,
       1])