### 前言

我们以sklearn自带的鸢尾花数据作为实验数据,以下实现的朴素贝叶斯分类器只能处理连续类型数据。


sklearn的鸢尾花数据详细信息可以查看:[sklearn.load_iris](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_iris.html)

### 朴素贝叶斯分类器从零实现

In [1]:
import numpy as np
from collections import Counter

In [2]:
#实现高斯朴素贝叶斯分类器
#参考:https://blog.csdn.net/zhenghaitian/article/details/83830801
class GaussianNB():
    def __init__(self,lamb=1):
        self.lamb=lamb #修正参数，若使用拉普拉斯修正则为1
        self.prior=dict() #存储各类的先验概率
        self.conditional=dict() #存储条件概率
    
    def calcGaussian(self,x,label):
        '''
        计算高斯分布的概率密度
        :param x:读取的数据1*n
        :param label:类别
        :return G:高斯概率密度
        '''
        exponent = np.exp(-(pow(x-self.conditional[label][0],2)/(2*self.conditional[label][1])))
        return (1.0 / np.sqrt(2*np.pi*self.conditional[label][1])) * exponent

    def fit(self,data,target):
        '''
        :param data:训练集m*n,m为样本数，n为特征数,np.array类型
        :param target:标签集1*m,np.array类型
        :return:不返回任何值
        '''
        labels=Counter(target)  #统计各类别的样本个数
        m,n=data.shape
        target=target.reshape((-1,1))
        k=len(labels.keys())  #类别数
        for label,amount in labels.items():  #计算各类的先验概率
            self.prior[label]=(amount+self.lamb)/(m+k*self.lamb)  #进行修正
        self.conditional=dict()
        for label in labels:#遍历每一类
            feature_data=data[target[:,0]==label,:] #获取该类所有数据
            feature_mean=np.mean(feature_data,axis=0) #计算该类所有特征各自的均值,即计算每一列均值
            feature_var=np.var(feature_data,axis=0) #计算该类所有特征各自的方差,即计算每一列方差
            self.conditional[label]=np.vstack((feature_mean,feature_var)) #通过字典存储均值和方差
            
                    
    def predict(self,data):
        '''
        计算概率时把连乘换成取对数相加，防止下溢（即太多小于1的数相乘，结果会变成0）
        :param data:测试集m*n,np.array类型
        :return y_pred:返回的预测结果m*1,np.array类型
        '''
        y_pred=[]
        m,n=data.shape
        for y in data: #遍历所有样本
            best_poster,best_label=-np.inf,-1
            for label in self.prior: #计算逐个类别的概率
                poster=np.log(self.prior[label]) #类先验概率
                prob=self.calcGaussian(y,label)
                poster+=np.sum(np.log(prob))
                if poster > best_poster: #获取后验概率最大的类别
                    best_poster=poster
                    best_label=label
            y_pred.append(best_label)
        
        return np.array(y_pred)
                    

In [3]:
#读取数据集
from sklearn import datasets
iris=datasets.load_iris()
#划分训练集和测试集
from sklearn.model_selection import train_test_split
X_train,X_test,Y_train,Y_test=train_test_split(iris.data,iris.target,test_size=0.2,random_state=0)
print(iris.data[0,:5])
print(iris.target_names)

[5.1 3.5 1.4 0.2]
['setosa' 'versicolor' 'virginica']


In [4]:
#训练模型
model=GaussianNB()
model.fit(X_train,Y_train)

In [5]:
#预测
y_pred=model.predict(X_test)

In [6]:
#计算正确率
accuracy=np.sum((y_pred==Y_test).astype(int))/Y_test.shape[0]
print(accuracy)

0.9666666666666667
