# 手写朴素贝叶斯算法

#### 参考
   - [统计学习方法的代码实现](http://localhost:8888/tree/%E3%80%8A%E7%BB%9F%E8%AE%A1%E5%AD%A6%E4%B9%A0%E6%96%B9%E6%B3%95%E3%80%8B%E7%9A%84%E4%BB%A3%E7%A0%81%E5%AE%9E%E7%8E%B0/%E7%AC%AC04%E7%AB%A0%20%E6%9C%B4%E7%B4%A0%E8%B4%9D%E5%8F%B6%E6%96%AF)
   - [How To Implement Naive Bayes From Scratch in Python](https://machinelearningmastery.com/naive-bayes-classifier-scratch-python/)
   - [朴素贝叶斯的三个常用模型：高斯、多项式、伯努利](https://blog.csdn.net/qq_27009517/article/details/80044431)
   

#### 算法描述
   - 生成模型、概率模型
   - 后验概率最大化（判别条件）
   - 条件独立性假设
   - 概率估计方法（极大似然估计、贝叶斯估计）
   
#### 编程难点
   - 连续值的贝叶斯不好实现
   
   
<br>

#### 算法原理
  1．朴素贝叶斯法是典型的生成学习方法。生成方法由训练数据学习联合概率分布
$P(X,Y)$，然后求得后验概率分布$P(Y|X)$。具体来说，利用训练数据学习$P(X|Y)$和$P(Y)$的估计，得到联合概率分布：

$$P(X,Y)＝P(Y)P(X|Y)$$

概率估计方法可以是极大似然估计或贝叶斯估计。

2．朴素贝叶斯法的基本假设是条件独立性，

$$\begin{aligned} P(X&=x | Y=c_{k} )=P\left(X^{(1)}=x^{(1)}, \cdots, X^{(n)}=x^{(n)} | Y=c_{k}\right) \\ &=\prod_{j=1}^{n} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right) \end{aligned}$$


这是一个较强的假设。由于这一假设，模型包含的条件概率的数量大为减少，朴素贝叶斯法的学习与预测大为简化。因而朴素贝叶斯法高效，且易于实现。其缺点是分类的性能不一定很高。

3．朴素贝叶斯法利用贝叶斯定理与学到的联合概率模型进行分类预测。

$$P(Y | X)=\frac{P(X, Y)}{P(X)}=\frac{P(Y) P(X | Y)}{\sum_{Y} P(Y) P(X | Y)}$$
 
将输入$x$分到后验概率最大的类$y$。

$$y=\arg \max _{c_{k}} P\left(Y=c_{k}\right) \prod_{j=1}^{n} P\left(X_{j}=x^{(j)} | Y=c_{k}\right)$$

后验概率最大等价于0-1损失函数时的期望风险最小化。

<br> <br>
   
#### 实现步骤

   - MLE计算$P(X_{k}|Y)$，$P(Y)$.(for each x、y in X,Y)
      - 统计Y的类数，每类的个数
      - 统计X的每个维度的类以及每个维度某一类在某一种Y下出现的次数
   - 计算公式$y=\arg \max _{c_{k}} P\left(Y=c_{k}\right) \prod_{j=1}^{n} P\left(X_{j}=x^{(j)} | Y=c_{k}\right)$
   
#### 高斯朴素贝叶斯
    为实现连续值的朴素贝叶斯算法，使用高斯朴素贝叶斯，
    高斯特征假设这个特征的观测值符合高斯分布
    在使用MLE时不再使用计数这种连续值上Work的方法，而是使用高斯分布的模型进行概率估计，
    具体的公式为：

$$P(x_i | y_k)=\frac{1}{\sqrt{2\pi\sigma^2_{yk}}}exp(-\frac{(x_i-\mu_{yk})^2}{2\sigma^2_{yk}})$$

数学期望(mean)：$\mu$

方差：$\sigma^2=\frac{\sum(X-\mu)^2}{N}$



#### 贝叶斯估计与拉普拉斯平滑

    维度增高时，训练样本在输入空间上变得稀疏，某一类的某个属性在训练集中可能缺少一种值，而在实际此类样本中出现了这种值，就需要使用贝叶斯估计。$k=1$时的贝叶斯估计也就是拉普拉斯平滑（也就是分子+1、分母加此属性在训练集的unipue的长度）。


#### 其他类型NB
   
   1.多项式NB：用于文本分类
   
   2.伯努利NB
   
<br>
<br>


#### 朴素贝叶斯的变体（贝叶斯分类器家族）
   
   1. 半朴素贝叶斯
   2. 贝叶斯网

In [36]:
import numpy as np
import collections
import pandas as pd
from functools import reduce
import math


# 数据集导入

# sklearn数据分割

# 编写NB类
class NaiveBayes:
    def NaiveBayes(self):
        train_x = None
        train_y = None
        c_y = None
        std_x = None
        mean_x = None
        
        p_y = None
        num = None
        pass
    def train(self,x,y):
        # 保存数据
        self.train_x = np.array(x)
        self.train_y = y
        self.num = len(y)
        # p_y
        self.c_y = collections.Counter(y)
        # mean_x(y:[])
        # 高斯NB 计算每个y下x的均值
        def mean_x_fun(i):
            flag = np.where(y==i,1,0)
            flag = flag[:,np.newaxis]
            sumx = np.sum(flag*x,0)
            return sumx/self.c_y[i]
        meanx = map(lambda i:  mean_x_fun(i) , self.c_y.keys())
        self.mean_x = dict(zip(self.c_y.keys(),meanx))
        
        # std_x
        def std_x_fun(i):
            flag = np.where(y==i)
            
            stdx = np.std(x[flag],0) 
            return stdx
        
        stdx = map(lambda i:  std_x_fun(i) , self.c_y.keys())
        self.std_x = dict(zip(self.c_y.keys(),stdx))
        
    
    def get_norm_pdf(self,x,y):
        '''
        P(x|y)
        返回概率值
        '''
        P = []
        
        for i,x_i in enumerate(x):
            p = (1/np.sqrt(2*math.pi*(self.std_x[y][i]**2)))*np.exp(-((x_i-self.mean_x[y][i])**2)/(2*(self.std_x[y][i]**2)))
            P.append(p)
        return P
    
    def predict_one(self,x):
        '''
        argmax
        '''
        P = {}
        for y_i in self.c_y.keys():
            p = self.c_y[y_i]/self.num
            p = p * reduce(lambda i,j : i*j,self.get_norm_pdf(x,y_i))
            P[y_i] = p
#         print(P)
        return max(P,key = P.get)
    def predict(self,x):        
        n = x.shape[0]
        
        ans = []
        for i in range(n):
            ans.append(self.predict_one(x[i,:]))
        return ans

In [37]:
import urllib.request
from sklearn.model_selection import train_test_split
url = 'http://archive.ics.uci.edu//ml//machine-learning-databases//wine/wine.data'
raw_data = urllib.request.urlopen(url)
data = np.loadtxt(raw_data, delimiter=",")

y = data[:,0]
x = data[:,1:]



X_train,X_test,Y_train,Y_test = train_test_split(x,y,test_size=0.3)


print('开始 训练')
model = NaiveBayes()
model.train(X_train,Y_train)

print('开始预测')
y_predict = model.predict(X_test)



t = (y_predict[i] == Y_test[i] for i in range(len(y_predict)))

acc = sum(list(t))/len(y_predict)
# acc


print('The accuracy is %f %%' % (100*acc))

开始 训练
开始预测
The accuracy is 96.296296 %
