一、 朴素贝叶斯

朴素贝叶斯算法是一个直观的方法，使用每个属性归属于某个类的概率来做预测。你可以使用这种监督性学习方法，对一个预测性建模问题进行概率建模。
给定一个类，朴素贝叶斯假设每个属性归属于此类的概率独立于其余所有属性，从而简化了概率的计算。这种强假定产生了一个快速、有效的方法。
给定一个属性值，其属于某个类的概率叫做条件概率。对于一个给定的类值，将每个属性的条件概率相乘，便得到一个数据样本属于某个类的概率。
我们可以通过计算样本归属于每个类的概率，然后选择具有最高概率的类来做预测。
通常，我们使用分类数据来描述朴素贝叶斯，因为这样容易通过比率来描述、计算。一个符合我们目的、比较有用的算法需要支持数值属性，同时假设每一个数值属性服从正态分布（分布在一个钟形曲线上），这又是一个强假设，但是依然能够给出一个健壮的结果。



二、 数据集
本文中的数据集使用的是“皮马印第安人糖尿病数据集”。该数据集由美国国立糖尿病、消化和肾脏疾病研究所（United States National Institute of Diabetes and Digestive and Kidney Diseases，简称NIDDK）提供。这里的“皮马”指的是位于美国亚利桑那州南部的一个县。
令人吃惊的是，有超过30%的皮马人患有糖尿病。与此形成对照的是，美国糖尿病的患病率为8.3%，中国为4.2%。

该数据集可从 https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv 下载，具体方法是打开此链接后，会看到数据展现在网页中，右击save as，保存类型选为“Microsoft Excel Comman Separated Values File“，即CSV格式，文件名按默认为pima-indians-diabetes.data.csv。

当然，也可以通过百度搜索，从csdn或新浪微盘下载。

数据里包行了768行 X 9列数据。每一行表示一个超过21岁的皮马女性糖尿病患者的信息。
前8列表示属性特征，
第9列表示分类结果，这个类指明以测量时间为止，患者是否是在5年之内感染的糖尿病。如果是，则为1，否则为0。

以数据集中的第一行数据为例，
6，148，72，35，0，33.6，0.627，50，1
这些数据所代表的患者怀孕过6次，服糖2小时后的血糖为148，舒张期血压为72，三头肌皮脂厚度为35，服糖2小时后的血清胰岛素为0，身体质量指数为33.6，糖尿病家族遗传作用值为0.627，50岁。她的糖尿病是在测量时的5年内患的。


算法的实现过程分为如下几步：
（一）处理数据：从CSV文件中载入数据，然后划分为训练集和测试集。
（二）提取数据特征：提取训练数据集的属性特征，以便我们计算概率并做出预测。
（三）单一预测：使用数据集的特征生成单个预测。
（四）多重预测：基于给定测试数据集和一个已提取特征的训练数据集生成预测。
（五）评估精度：评估对于测试数据集的预测精度作为预测正确率。
（六）合并代码：使用所有代码呈现一个完整的、独立的朴素贝叶斯算法的实现。

（一） 处理数据
先加载数据文件

In [4]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all" 

In [15]:
import csv
def loadCsv(filename):
    lines = csv.reader(open(filename, "r"))
    dataset = list(lines)
    for i in range(len(dataset)):
        dataset[i] = [float(x) for x in dataset[i]] #为何要把每个数都转为浮点数
    return dataset

#测试
filename = 'pima-indians-diabetes.data.csv'
dataset = loadCsv(filename)
dataset
print('Loaded data file {0} with {1} rows'.format(filename, len(dataset)))

[[6.0, 148.0, 72.0, 35.0, 0.0, 33.6, 0.627, 50.0, 1.0],
 [1.0, 85.0, 66.0, 29.0, 0.0, 26.6, 0.351, 31.0, 0.0],
 [8.0, 183.0, 64.0, 0.0, 0.0, 23.3, 0.672, 32.0, 1.0],
 [1.0, 89.0, 66.0, 23.0, 94.0, 28.1, 0.167, 21.0, 0.0],
 [0.0, 137.0, 40.0, 35.0, 168.0, 43.1, 2.288, 33.0, 1.0],
 [5.0, 116.0, 74.0, 0.0, 0.0, 25.6, 0.201, 30.0, 0.0],
 [3.0, 78.0, 50.0, 32.0, 88.0, 31.0, 0.248, 26.0, 1.0],
 [10.0, 115.0, 0.0, 0.0, 0.0, 35.3, 0.134, 29.0, 0.0],
 [2.0, 197.0, 70.0, 45.0, 543.0, 30.5, 0.158, 53.0, 1.0],
 [8.0, 125.0, 96.0, 0.0, 0.0, 0.0, 0.232, 54.0, 1.0],
 [4.0, 110.0, 92.0, 0.0, 0.0, 37.6, 0.191, 30.0, 0.0],
 [10.0, 168.0, 74.0, 0.0, 0.0, 38.0, 0.537, 34.0, 1.0],
 [10.0, 139.0, 80.0, 0.0, 0.0, 27.1, 1.441, 57.0, 0.0],
 [1.0, 189.0, 60.0, 23.0, 846.0, 30.1, 0.398, 59.0, 1.0],
 [5.0, 166.0, 72.0, 19.0, 175.0, 25.8, 0.587, 51.0, 1.0],
 [7.0, 100.0, 0.0, 0.0, 0.0, 30.0, 0.484, 32.0, 1.0],
 [0.0, 118.0, 84.0, 47.0, 230.0, 45.8, 0.551, 31.0, 1.0],
 [7.0, 107.0, 74.0, 0.0, 0.0, 29.6, 0.254, 31.0

Loaded data file pima-indians-diabetes.data.csv with 768 rows


下一步，我们将数据分为用于朴素贝叶斯预测的训练数据集，以及用来评估模型精度的测试数据集。我们需要将数据集随机分为包含67%的训练集合和包含33%的测试集（这是在此数据集上测试算法的通常比率）。

下面是splitDataset()函数，它以给定的划分比例将数据集进行划分。

In [2]:
import random
def splitDataset(dataset, splitRatio):
    trainSize = int(len(dataset) * splitRatio)
    trainSet = []
    copy = list(dataset)
    while len(trainSet) < trainSize:
        index = random.randrange(len(copy))
        trainSet.append(copy.pop(index))
    return [trainSet, copy]

#测试
dataset = [[1], [2], [3], [4], [5], [6], [7], [8], [9], [10], [11], [12], [13], [14], [15]]
splitRatio = 0.67
train, test = splitDataset(dataset, splitRatio)
print('Split {0} rows into train with {1} and test with {2}'.format(len(dataset), train, test))

Split 15 rows into train with [[14], [15], [12], [13], [1], [2], [4], [7], [9], [8]] and test with [[3], [5], [6], [10], [11]]


（二） 提取数据特征

朴素贝叶斯模型包含训练数据集中数据的特征，然后使用这个数据特征来做预测。
所收集的训练数据的特征，包含相对于每个类的每个属性的均值和标准差。举例来说，如果如果有2个类和7个数值属性，然后我们需要每一个属性（7）和类（2）的组合的均值和标准差，也就是14个属性特征。
在对特定的属性归属于每个类的概率做计算、预测时，将用到这些特征。

我们将数据特征的获取划分为以下的子任务：
1 按类别划分数据
2 计算均值和标准差
3 提取数据集特征
4 按类别提取属性特征

1 按类别划分数据
首先将训练数据集中的样本按照类别进行划分，然后计算出每个类的统计数据。我们可以创建一个类别到属于此类别的样本列表的的映射，并将整个数据集中的样本分类到相应的列表。
下面的SeparateByClass()函数可以完成这个任务：


In [3]:
def separateByClass(dataset):
    separated = {}
    for i in range(len(dataset)):
        vector = dataset[i] #假设最后一个值为类别值
        if (vector[-1] not in separated):
            separated[vector[-1]] = []
        separated[vector[-1]].append(vector)
    return separated

#测试
dataset = [[1,20,1], [2,21,0], [3,22,1]]
separated = separateByClass(dataset)
print('Separated instances: {0}'.format(separated))

Separated instances: {1: [[1, 20, 1], [3, 22, 1]], 0: [[2, 21, 0]]}


2 计算均值和标准差
我们需要计算在每个类中每个属性的均值。均值是数据的中点或者集中趋势，在计算概率时，我们用它作为高斯分布的中值。
我们也需要计算每个类中每个属性的标准差。标准差描述了数据散布的偏差，在计算概率时，我们用它来刻画高斯分布中，每个属性所期望的散布。
标准差是方差的平方根。方差是每个属性值与均值的离差平方的平均数。注意分母我们使用N-1（样本标准差的无偏估计的分母为N-1），也就是在在计算方差时，属性值的个数减1。

In [4]:
import math
def mean(numbers):
    return sum(numbers)/float(len(numbers))
 
def stdev(numbers):
    avg = mean(numbers)
    variance = sum([pow(x-avg,2) for x in numbers])/float(len(numbers)-1)
    return math.sqrt(variance)

#测试
numbers = [1,2,3,4,5]
print('Summary of {0}: mean={1}, stdev={2}'.format(numbers, mean(numbers), stdev(numbers)))

Summary of [1, 2, 3, 4, 5]: mean=3.0, stdev=1.5811388300841898


3 提取数据集的特征
现在我们可以提取数据集特征。对于一个给定的样本列表（对应于某个类），我们可以计算每个属性的均值和标准差。
zip函数将数据样本按照属性分组为一个个列表，然后可以对每个属性计算均值和标准差。


In [5]:
def summarize(dataset):
    summaries = [(mean(attribute), stdev(attribute)) for attribute in zip(*dataset)]
    del summaries[-1]
    return summaries

dataset = [[1,20,0], [2,21,1], [3,22,0]]
summary = summarize(dataset)
print('Attribute summaries: {0}'.format(summary))

Attribute summaries: [(2.0, 1.0), (21.0, 1.0)]


4 按类别提取属性特征
合并代码，我们首先将训练数据集按照类别进行划分，然后计算每个属性的摘要。

In [6]:
def summarizeByClass(dataset):
    separated = separateByClass(dataset)
    summaries = {}
    for classValue, instances in separated.items():
        summaries[classValue] = summarize(instances)
    return summaries

dataset = [[1,20,1], [2,21,0], [3,22,1], [4,22,0]]
summary = summarizeByClass(dataset)
print('Summary by class value: {0}'.format(summary))

Summary by class value: {1: [(2.0, 1.4142135623730951), (21.0, 1.4142135623730951)], 0: [(3.0, 1.4142135623730951), (21.5, 0.7071067811865476)]}


（三） 预测
我们现在可以使用从训练数据中得到的摘要来做预测。做预测涉及到对于给定的数据样本，计算其归属于每个类的概率，然后选择具有最大概率的类作为预测结果。

我们可以将这部分划分成以下任务：
1 计算高斯分布的概率密度函数
2 计算对应类的概率
3 单一预测
4 多重预测

1 计算高斯分布（正态分布）的概率密度函数
给定来自训练数据中已知属性的均值和标准差，我们可以使用高斯函数来评估一个给定的属性值的概率。

已知每个属性和类值的属性特征，在给定类值的条件下，可以得到给定属性值的条件概率。
关于高斯概率密度函数，可以查看参考文献。总之，我们要把已知的细节融入到高斯函数（属性值，均值，标准差），并得到属性值归属于某个类的似然（译者注：即可能性）。
在calculateProbability()函数中，我们首先计算指数部分，然后计算等式的主干。这样可以将其很好地组织成2行。


In [7]:
import math
def calculateProbability(x, mean, stdev):
    exponent = math.exp(-(math.pow(x-mean,2)/(2*math.pow(stdev,2))))
    return (1 / (math.sqrt(2*math.pi) * stdev)) * exponent

#测试
x = 71.5
mean = 73
stdev = 6.2
probability = calculateProbability(x, mean, stdev)
print('Probability of belonging to this class: {0}'.format(probability))

Probability of belonging to this class: 0.06248965759370005


2 计算所属类的概率
既然我们可以计算一个属性属于某个类的概率，那么合并一个数据样本中所有属性的概率，最后便得到整个数据样本属于某个类的概率。
使用乘法合并概率,在下面的calculClassProbilities()函数中，给定一个数据样本，它所属每个类别的概率，可以通过将其属性概率相乘得到。结果是一个类值到概率的映射。

In [8]:
def calculateClassProbabilities(summaries, inputVector):
    probabilities = {}
    for classValue, classSummaries in summaries.items():
        probabilities[classValue] = 1
        for i in range(len(classSummaries)):
            mean, stdev = classSummaries[i]
            x = inputVector[i]
            probabilities[classValue] *= calculateProbability(x, mean, stdev)
    return probabilities

#测试
summaries = {0:[(1, 0.5)], 1:[(20, 5.0)]}
inputVector = [1.1, '?']
probabilities = calculateClassProbabilities(summaries, inputVector)
print('Probabilities for each class: {0}'.format(probabilities))

Probabilities for each class: {0: 0.7820853879509118, 1: 6.298736258150442e-05}


3 单一预测
既然可以计算一个数据样本属于每个类的概率，那么我们可以找到最大的概率值，并返回关联的类。
下面的predict()函数可以完成以上任务。

In [9]:
def predict(summaries, inputVector):
    probabilities = calculateClassProbabilities(summaries, inputVector)
    bestLabel, bestProb = None, -1
    for classValue, probability in probabilities.items():
        if bestLabel is None or probability > bestProb:
            bestProb = probability
            bestLabel = classValue
    return bestLabel

#测试
summaries = {'A':[(1, 0.5)], 'B':[(20, 5.0)]}
inputVector = [1.1, '?']
result = predict(summaries, inputVector)
print('Prediction: {0}'.format(result))

Prediction: A


4 多重预测
测试数据集中多个数据样本的预测

In [10]:
def getPredictions(summaries, testSet):
    predictions = []
    for i in range(len(testSet)):
        result = predict(summaries, testSet[i])
        predictions.append(result)
    return predictions

#测试
summaries = {'A':[(1, 0.5)], 'B':[(20, 5.0)]}
testSet = [[1.1, '?'], [19.1, '?']]
predictions = getPredictions(summaries, testSet)
print('Predictions: {0}'.format(predictions))

Predictions: ['A', 'B']


（四） 评估精度
预测值和测试数据集中的类别值进行比较，可以计算得到一个介于0%~100%精确率作为分类的精确度。getAccuracy()函数可以计算出这个精确率。

In [11]:
def getAccuracy(testSet, predictions):
    correct = 0
    for x in range(len(testSet)):
        if testSet[x][-1] == predictions[x]:
            correct += 1
    return (correct/float(len(testSet))) * 100.0

#测试
testSet = [[1,1,1,'a'], [2,2,2,'a'], [3,3,3,'b']]
predictions = ['a', 'a', 'a']
accuracy = getAccuracy(testSet, predictions)
print('Accuracy: {0}'.format(accuracy))

Accuracy: 66.66666666666666


全部代码

In [12]:
import csv
import random
import math
 
def loadCsv(filename):
    lines = csv.reader(open(filename, "r"))
    dataset = list(lines)
    for i in range(len(dataset)):
        dataset[i] = [float(x) for x in dataset[i]]
    return dataset
 
def splitDataset(dataset, splitRatio):
    trainSize = int(len(dataset) * splitRatio)
    trainSet = []
    copy = list(dataset)
    while len(trainSet) < trainSize:
        index = random.randrange(len(copy))
        trainSet.append(copy.pop(index))
    return [trainSet, copy]
 
def separateByClass(dataset):
    separated = {}
    for i in range(len(dataset)):
        vector = dataset[i]
        if (vector[-1] not in separated):
            separated[vector[-1]] = []
        separated[vector[-1]].append(vector)
    return separated
 
def mean(numbers):
    return sum(numbers)/float(len(numbers))
 
def stdev(numbers):
    avg = mean(numbers)
    variance = sum([pow(x-avg,2) for x in numbers])/float(len(numbers)-1)
    return math.sqrt(variance)
 
def summarize(dataset):
    summaries = [(mean(attribute), stdev(attribute)) for attribute in zip(*dataset)]
    del summaries[-1]
    return summaries
 
def summarizeByClass(dataset):
    separated = separateByClass(dataset)
    summaries = {}
    for classValue, instances in separated.items():
        summaries[classValue] = summarize(instances)
    return summaries
 
def calculateProbability(x, mean, stdev):
    exponent = math.exp(-(math.pow(x-mean,2)/(2*math.pow(stdev,2))))
    return (1 / (math.sqrt(2*math.pi) * stdev)) * exponent
 
def calculateClassProbabilities(summaries, inputVector):
    probabilities = {}
    for classValue, classSummaries in summaries.items():
        probabilities[classValue] = 1
        for i in range(len(classSummaries)):
            mean, stdev = classSummaries[i]
            x = inputVector[i]
            probabilities[classValue] *= calculateProbability(x, mean, stdev)
    return probabilities
 
def predict(summaries, inputVector):
    probabilities = calculateClassProbabilities(summaries, inputVector)
    bestLabel, bestProb = None, -1
    for classValue, probability in probabilities.items():
        if bestLabel is None or probability > bestProb:
            bestProb = probability
            bestLabel = classValue
    return bestLabel
 
def getPredictions(summaries, testSet):
    predictions = []
    for i in range(len(testSet)):
        result = predict(summaries, testSet[i])
        predictions.append(result)
    return predictions
 
def getAccuracy(testSet, predictions):
    correct = 0
    for i in range(len(testSet)):
        if testSet[i][-1] == predictions[i]:
            correct += 1
    return (correct/float(len(testSet))) * 100.0
 
def main():
    filename = 'pima-indians-diabetes.data.csv'
    splitRatio = 0.67
    dataset = loadCsv(filename)
    trainingSet, testSet = splitDataset(dataset, splitRatio)
    print('Split {0} rows into train={1} and test={2} rows'.format(len(dataset), len(trainingSet), len(testSet)))
    # prepare model
    summaries = summarizeByClass(trainingSet)
    # test model
    predictions = getPredictions(summaries, testSet)
    accuracy = getAccuracy(testSet, predictions)
    print('Accuracy: {0}%'.format(accuracy))

if __name__ == "__main__":
    main()

Split 768 rows into train=514 and test=254 rows
Accuracy: 74.01574803149606%


In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

In [11]:
filename = 'pima-indians-diabetes.data.csv'
dataset_mine = pd.read_csv(filename,header=None)
dataset_mine

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1
...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,0.171,63,0
764,2,122,70,27,0,36.8,0.340,27,0
765,5,121,72,23,112,26.2,0.245,30,0
766,1,126,60,0,0,30.1,0.349,47,1


In [15]:
X = dataset_mine.iloc[:,0:8]
y = dataset_mine.iloc[:,8]

In [17]:
train_X,test_X,train_y,test_y = train_test_split(X,y,test_size=0.3)

In [18]:
train_X
test_X
train_y
test_y

Unnamed: 0,0,1,2,3,4,5,6,7
188,8,109,76,39,114,27.9,0.640,31
345,8,126,88,36,108,38.5,0.349,49
641,4,128,70,0,0,34.3,0.303,24
278,5,114,74,0,0,24.9,0.744,57
304,3,150,76,0,0,21.0,0.207,37
...,...,...,...,...,...,...,...,...
616,6,117,96,0,0,28.7,0.157,30
747,1,81,74,41,57,46.3,1.096,32
608,0,152,82,39,272,41.5,0.270,27
691,13,158,114,0,0,42.3,0.257,44


Unnamed: 0,0,1,2,3,4,5,6,7
257,2,114,68,22,0,28.7,0.092,25
108,3,83,58,31,18,34.3,0.336,25
327,10,179,70,0,0,35.1,0.200,37
479,4,132,86,31,0,28.0,0.419,63
418,1,83,68,0,0,18.2,0.624,27
...,...,...,...,...,...,...,...,...
459,9,134,74,33,60,25.9,0.460,81
715,7,187,50,33,392,33.9,0.826,34
413,1,143,74,22,61,26.2,0.256,21
582,12,121,78,17,0,26.5,0.259,62


188    1
345    0
641    0
278    0
304    0
      ..
616    0
747    0
608    0
691    1
150    0
Name: 8, Length: 537, dtype: int64

257    0
108    0
327    0
479    0
418    0
      ..
459    0
715    1
413    0
582    0
706    1
Name: 8, Length: 231, dtype: int64