[TOC]

原文代码作者：https://github.com/wzyonggege/statistical-learning-method,  [K最临近](https://www.cnblogs.com/21207-iHome/p/6084670.html)

中文注释制作：机器学习初学者(微信公众号：ID:ai-start-com)

配置环境：python 3.6

代码全部测试通过。


# 第4章 朴素贝叶斯

基于贝叶斯定理与特征条件独立假设的分类方法。

模型：

- 高斯模型
- 多项式模型
- 伯努利模型

参考：https://machinelearningmastery.com/naive-bayes-classifier-scratch-python/

## GaussianNB 高斯朴素贝叶斯

特征的可能性被假设为高斯

概率密度函数：
$$P(x_i | y_k)=\frac{1}{\sqrt{2\pi\sigma^2_{yk}}}exp(-\frac{(x_i-\mu_{yk})^2}{2\sigma^2_{yk}})$$

数学期望(mean)：$\mu$，方差：$\sigma^2=\frac{\sum(X-\mu)^2}{N}$

算法的思路：
1. 由于在朴素贝叶斯的假设中，每个特征都是独立分布且符合高斯分布的，因而$p(y^i|x)=arg\,\max_{c_k}(p(y^i=c_k)\prod_{i=j}^{p} p(x_j|y^i=c_k))$,所以求出每个特征分布的参数即可
2. 因为特征独立分布且符合高斯分布，因此可根据特征的均值求出$\mu$,根据方差求出$\sigma^{2}$,所谓的训练过程也就是求这两个数的过程
3. 在训练得到每个特征概率密度后，也就容易得到$p(y^i|x)$，然后就得到该样本的类别

## 编程中遇到的知识点

### 首先是算法的实现问题
高斯分布的一个重要思想是利用贝叶斯公式进行分类预测，本质上是一个生成模型。

另外还有两大假设：
* 样本和特征之间都互相独立
* 特征分布为高斯分布

### 还有就是Python的一些重要语法
* lamada表达式```f(x) for x in X```用于方便生成
for example:
```
X = [1,2,3]
y = list(2*x for x in X)
print(y)
```
* zip()函数的使用
zip() 函数用于将可迭代的对象作为参数，将对象中对应的元素打包成一个个元组，然后返回由这些元组组成的列表。
如果各个迭代器的元素个数不一致，则返回列表长度与最短的对象相同，利用 * 号操作符，可以将元组解压为列表。
```
>>>a = [1,2,3]
>>> b = [4,5,6]
>>> c = [4,5,6,7,8]
>>> zipped = zip(a,b)     # 打包为元组的列表
[(1,4),(2,5),(3,6)]
>>> zip(a,c)              # 元素个数与最短的列表一致
[(1,4),(2,5),(3,6)]
>>> zip(*zipped)          # 与 zip 相反，*zipped 可理解为解压，返回二维矩阵式
[(1,2,3),(4,5,6)]
```
注意这一句`summaries = [(self.mean(i), self.stdev(i)) for i in zip(*train_data)]`
* sorted()函数的使用sorted(imput,key,reverse)
```
print(sorted([[2,3,1,5,3,7,2],[2,3,1,5,3,7,1],[2,3,1,5,3,7,3]],key=lambda x: x[-1],reverse=True))#
```
key参数默认为none，表示直接对数进行比较，在这里为`key=lambda x: x[-1]`表示依据元素的最后一个数进行排序。假如为`key=1/x`，那么按照x的倒数进行排序

reverse为True是从高到低
* 从其他数据类型生成列表
```
list(set(y))
list(range(number))
```
* 字典的使用
学会字典的建立、添加、检索等常规操作，更要懂得什么时候使用这些方法。[链接](https://www.runoob.com/python/python-dictionary.html)

例如本程序中的：
```
data = {label:[] for label in labels}
for f, label in zip(X, y):
    data[label].append(f)#给字典添加元素
    
self.model = {label: self.summarize(value) for label, value in data.items()}#字典的索引
```
* 会使用math函数库
for example：
```
math.aqrt()
math.sum()
```
* sklearn模型划分模块`from sklearn.model_selection import train_test_split`的使用
* 迭代器的使用
* 长难句分析
```
label = sorted(self.calculate_probabilities(X_test).items(), key=lambda x: x[-1])[-1][0]
```

In [37]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

from sklearn import datasets
from sklearn.datasets import fetch_openml

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder

from sklearn.naive_bayes import GaussianNB#高斯朴素贝叶斯算法
from sklearn.decomposition import PCA#主成分分析

from collections import Counter
import math

In [38]:
class NaiveBayes:
    def __init__(self):
        self.model = None

    # 数学期望
    @staticmethod
    def mean(X):
        return sum(X) / float(len(X))

    # 标准差（方差）
    def stdev(self, X):
        avg = self.mean(X)
        return math.sqrt(sum([pow(x-avg, 2) for x in X]) / float(len(X)))

    # 概率密度函数
    def gaussian_probability(self, x, mean, stdev):
        exponent = math.exp(-(math.pow(x-mean,2)/(2*math.pow(stdev,2))))
        return (1 / (math.sqrt(2*math.pi) * stdev)) * exponent

    # 处理X_train
    def summarize(self, train_data):
        summaries = [(self.mean(i), self.stdev(i)) for i in zip(*train_data)]#https://www.runoob.com/python/python-func-zip.html有一个转置的作用
        ##zip(*train_data)为p*N
        
        return summaries#summaries为p*2的一个矩阵

    # 分类别求出数学期望和标准差
    def fit(self, X, y):
        labels = list(set(y))#标签的列表
        data = {label:[] for label in labels}#{0.0: [], 1.0: []}
        for f, label in zip(X, y):
            data[label].append(f)#print(data)#形成一个字典，根据标签将训练样本进行分类
        
        self.model = {label: self.summarize(value) for label, value in data.items()}#每个特征的平均值和标准差，知道这两个，所有模型也就确定了
        print(self.model)
        return 'gaussianNB train done!'

    # 计算概率
    def calculate_probabilities(self, input_data):
        # summaries:{0.0: [(5.0, 0.37),(3.42, 0.40)], 1.0: [(5.8, 0.449),(2.7, 0.27)]}
        # input_data:[1.1, 2.2]
        probabilities = {}
        for label, value in self.model.items():
            probabilities[label] = 1#先验概率，由于假定每个出现的结果都一样，所以在这里均设为1
            for i in range(len(value)):#特征个数
                mean, stdev = value[i]
                probabilities[label] *= self.gaussian_probability(input_data[i], mean, stdev)#这句是计算核心，计算分别为每个标签的可能性
        return probabilities#输出各个结果的可能性，生成一个字典

    # 类别
    def predict(self, X_test):
        # {0.0: 2.9680340789325763e-27, 1.0: 3.5749783019849535e-26}
        label = sorted(self.calculate_probabilities(X_test).items(), key=lambda x: x[-1])[-1][0]#sorted是一个排序函数,key参数表示通过对x的最后一个数进行比较排序
        return label

    def score(self, X_test, y_test):
        right = 0
        for X, y in zip(X_test, y_test):
            label = self.predict(X)
            if label == y:
                right += 1

        return right / float(len(X_test))

In [39]:
# data
def create_data():
    iris = load_iris()
    df = pd.DataFrame(iris.data, columns=iris.feature_names)
    df['label'] = iris.target
    df.columns = ['sepal length', 'sepal width', 'petal length', 'petal width', 'label']
    data = np.array(df.iloc[:100, :])
    # print(data)
    return data[:,:-1], data[:,-1]

X, y = create_data()
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

model = NaiveBayes()
model.fit(X_train, y_train)
model.score(X_test, y_test)

(70, 4) (30, 4) (70,) (30,)


1.0

scikit-learn实例

# sklearn.naive_bayes

In [40]:
from sklearn.naive_bayes import GaussianNB,BernoulliNB, MultinomialNB # 伯努利模型和多项式模型

clf = GaussianNB()
clf.fit(X_train, y_train)

clf.score(X_test, y_test)

clf.predict([[4.4,  3.2,  1.3,  0.2]])

array([0.])

## 多变量高斯分布的贝叶斯分类器  

概率密度：
$$p(x)=N(x|\mu,\Sigma)=\frac1{(2\pi)^\frac{p}2}\frac1{|\Sigma|^\frac1{2}}e^{-\frac1{2}(x-\mu)^T\Sigma^{-1}(x-\mu)}$$

其中$\mu=\frac1{N}\sum_{i=1}^{N}x_i$

$ \Sigma=\frac1N\sum_{i=1}^{N}(x_i-\mu)(x_i-\mu)^T$

整体上的思路与朴素贝叶斯无异，不同之处在于高斯分布的朴素贝叶斯决策是假设各特征之间是互相独立的，而多变量高斯分布没有这样的假设，因此在同样的数据集下多变量高斯分布的贝叶斯分类器效果要好于服从高斯分布的朴素贝叶斯，两者在算法上的差异就在于求$p(x|y)$上，前者求出每个特征的分布，后者求出总体的分布。

算法思路：


In [41]:
class MVGaussion:
    def __init__(self):
        self.model = None

    @staticmethod
    # mathematical expectation
    def mu(X):
        return sum(X) / float(len(X))#生成一个p*1的特征均值矩阵

    # sigma natrix(p*p)
    def sigma(self, train_data,train_mu):
        train_data_shape = np.shape(train_data)
        sigma = np.zeros((train_data_shape[1],train_data_shape[1]))
        for sample in zip(train_data):
            dot = sample-train_mu
            sigma += np.dot(dot.T,dot)
        return sigma/train_data_shape[0]

    # 处理X_train
    def summarize(self, train_data):#train_data为一个N*p的矩阵
        mu = [self.mu(i) for i in zip(*train_data)]#1*P
        #muT = np.array(mu).reshape(np.size(mu),1)
        sigma = self.sigma(train_data,np.array(mu))
        summaries = {'mu':mu,'sigma':sigma}#
        return summaries#summaries得到的模型参数应该为一个p*1的mu矩阵和一个p*p的大sigma矩阵

    # 分类别求出数学期望和标准差
    def train(self, X, y):
        labels = list(set(y))
        data = {label:[] for label in labels}#
        for f, label in zip(X, y):
            data[label].append(f)
        self.model = {label: self.summarize(value) for label, value in data.items()}
#         print(self.model)
#         for label, value in self.model.items():
#             mu,sigma = value['mu'],value['sigma']
#             print(mu)
#             print(sigma)
        return self.model

    # 计算概率
    def calculate_probabilities(self, input_data):
        probabilities = {}
        p = np.size(input_data)
        for label, value in self.model.items():#value是一个字典
            mu,sigma = value['mu'],value['sigma']
            sign = input_data-mu
            exponent = math.exp((-0.5*np.dot(sign,np.dot(np.linalg.inv(sigma),sign.T))))
            probabilities[label] = exponent/(((2*math.pi)**(p/2))*(np.linalg.det(sigma)**0.5))
        
        return probabilities
    
    # 类别
    def predict(self, X_test):
        label = list(range(X_test.shape[0]))
        for i in range(X_test.shape[0]):
            label[i] = sorted(self.calculate_probabilities(X_test[i,:]).items(), key=lambda x: x[-1])[-1][0]
        
        return label

    def score(self, X_test, y_test):
        right = 0
        for X, y in zip(X_test, y_test):
            label = self.predict(X)
            if label == y:
                right += 1

        return right / float(len(X_test))

### 1.使用多变量高斯分布贝叶斯决策解决IRIS分类问题

In [42]:
iris = datasets.load_iris()
X=iris.data
y=iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=1)


model = MVGaussion()
model.train(X_train, y_train)
y_pred = model.predict(X_test)

print("IRIS:Number of mislabeled points out of a total %d points : %d, Acc: %f%%"
      % (X_test.shape[0], (y_test != y_pred).sum(),100*(y_test == y_pred).sum()/X_test.shape[0]))


IRIS:Number of mislabeled points out of a total 75 points : 0, Acc: 100.000000%


### 2 使用多变量高斯分布贝叶斯决策解决手写数字分类问题

In [43]:
digits=fetch_openml(name='USPS',version=2,data_home='E:/scikit_learn_data')
X_d=digits.data
y_d=digits.target
y_u=np.unique(y_d)
enc = LabelEncoder()
enc.fit(y_d)
name=enc.classes_

y1=enc.transform(y_d)
X_reduced = PCA(n_components=30).fit_transform(X_d)#特征提取

X_train_d, X_test_d, y_train_d, y_test_d = train_test_split(X_reduced, y1, test_size=0.5, random_state=1)

model_d = MVGaussion()
model_d.train(X_train_d, y_train_d)
y_pred_d = model_d.predict(X_test_d)

print("USPS:Number of mislabeled points out of a total %d points : %d, Acc: %f%%"
      %(X_test_d.shape[0], (y_test_d != y_pred_d).sum(),100*(y_test_d == y_pred_d).sum()/X_test_d.shape[0]))

USPS:Number of mislabeled points out of a total 4649 points : 185, Acc: 96.020650%
