In [1]:
import os
os.sys.path.append(os.path.dirname(os.path.abspath('.')))

## 数据准备

In [2]:
import numpy as np
from datasets.dataset import load_iris
from model_selection.train_test_split import train_test_split

In [3]:
data = load_iris()
X = data.data
Y = data.target

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2)

## 数据总览
对于朴素贝叶斯，预测概率可以写成：
$$
P(y=c_{i}|x)=\frac{P(x|y=c_{i})P(y=c_{i})}{P(x)}
$$
可以证明对同一数据集，$P(x)$是一个常量(详见博客)，$P(y=c_{i})$也好算，关键在于$P(x|y=c_{i})$的计算。在iid条件下，$P(x|y=c_{i})$可以写成：
$$
P(x|y=c_{i})=P(x_{0}^{D}=x_{0}|y=c_{i})...P(x_{m}^{D}=x_{m}|y=c_{i})
$$
转变成了计算某类别下某特征的取值分布。对于离散型特征与连续性特征都可以设置对应的预定概率分布。

In [4]:
# # 首先计算类别class的先验分布
# def cls_prob(Y):
#     uni_val, cnt = np.unique(Y, return_counts=True)
#     return np.array([cnt[idx]/np.sum(cnt) for idx in range(len(uni_val))])

然后需要计算每个类别下每个特征的分布概率。对于连续特征，我们假定其服从高斯分布，那么就需要先计算各类别下各特征的均值与标准差。假设用矩阵来存储训练数据的统计值，把同一类的数值存储到一行，则该矩阵的维度为$(n\_class,n\_feature)$。

In [5]:
# def mean_std(X_train, Y_train):
#     uni_cls = np.unique(Y_train)
#     m_feature = X_train.shape[1]

#     mean_mat = np.array(
#         [X_train[np.where(Y_train == cls)].mean(axis=0) for cls in uni_cls])
#     std_mat = np.array(
#         [X_train[np.where(Y_train == cls)].std(axis=0) for cls in uni_cls])

#     return mean_mat, std_mat

有了mean-std数据之后，就可以很方便地计算$P(x|y=c_{i})$了。一个样本对应到每个类别都有一个概率，所以维度为$(n\_sample,n\_class)$。示例数据为连续型特征，假设$P(x_{i}|y=c_{k})=\frac{1}{\sqrt{2\pi}\sigma_{c_{k},i}}exp(-\frac{(x_{i}-\mu_{c_{k},i})^{2}}{2\sigma_{c_{k},i}^{2}})$。在实现时考虑到小数连乘容易下溢，还有就是如果某一子概率为零就会导致连乘结果为零，故转成对数相加。下面函数为计算单个样本的后验概率，返回结果的维度为$(1,n\_class)$。

In [6]:
# # 计算x的后验条件概率，考虑到小数累乘容易下溢出，转为对数运算
# def post_prob(x_test, mean, std):
#     return np.log2(1/(np.sqrt(2*np.pi)*std)*np.exp(-np.square(x_test-mean)/(2*np.square(std)))).sum(axis=1)

需要计算的概率都有了之后，就可以进行预测了。

In [7]:
# def predict(X_test,mean,std,Y_prob):
#     # 之前计算x的后验概率时用了对数转换，这里在加上类概率时也转成对数相加
#     Y_pred=[np.argmax(post_prob(item,mean,std)+np.log2(Y_prob)) for item in X_test]
#     return np.array(Y_pred)

## 封装
模型的功能都实现好之后，进行sklearn-like的封装。

In [8]:
class GaussianNB:
    def __init__(self):
        self.Y_prob = None
        self.mean = None
        self.std = None

    # 计算类分布概率
    def __cls_prob(self, Y_train):
        uni_val, cnt = np.unique(Y, return_counts=True)
        self.Y_prob = np.array([cnt[idx]/np.sum(cnt)
                                for idx in range(len(uni_val))])

    # 计算各特征在各类别下的统计值
    def __mean_std(self, X_train, Y_train):
        uni_cls = np.unique(Y_train)
        m_feature = X_train.shape[1]

        self.mean = np.array(
            [X_train[np.where(Y_train == cls)].mean(axis=0) for cls in uni_cls])
        self.std = np.array(
            [X_train[np.where(Y_train == cls)].std(axis=0) for cls in uni_cls])

    # 训练函数，实质就是计算训练数据中的一些统计量
    def fit(self, X_train, Y_train):
        self.__cls_prob(Y_train)
        self.__mean_std(X_train, Y_train)

    def __post_prob(self, x_test):
        return np.log2(1/(np.sqrt(2*np.pi)*self.std)*np.exp(-np.square(x_test-self.mean)/(2*np.square(self.std)))).sum(axis=1)

    def predict(self, X_test):
        return np.array([np.argmax(self.__post_prob(item)+np.log2(self.Y_prob)) for item in X_test])


gnb = GaussianNB()
gnb.fit(X_train, Y_train)
Y_pred = gnb.predict(X_test)
print('acc:{}'.format(np.sum(Y_pred == Y_test)/len(Y_test)))

acc:0.9333333333333333
