In [3]:
import numpy as np
import math
from collections import Counter

In [4]:
data = np.array([['青绿', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', '0.697', '0.46', '是'],
 ['乌黑', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', '0.774', '0.376', '是'],
 ['乌黑', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', '0.634', '0.264', '是'],
 ['青绿', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', '0.608', '0.318', '是'],
 ['浅白', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', '0.556', '0.215', '是'],
 ['青绿', '稍蜷', '浊响', '清晰', '稍凹', '软粘', '0.403', '0.237', '是'],
 ['乌黑', '稍蜷', '浊响', '稍糊', '稍凹', '软粘', '0.481', '0.149', '是'],
 ['乌黑', '稍蜷', '浊响', '清晰', '稍凹', '硬滑', '0.437', '0.211', '是'],
 ['乌黑', '稍蜷', '沉闷', '稍糊', '稍凹', '硬滑', '0.666', '0.091', '否'],
 ['青绿', '硬挺', '清脆', '清晰', '平坦', '软粘', '0.243', '0.267', '否'],
 ['浅白', '硬挺', '清脆', '模糊', '平坦', '硬滑', '0.245', '0.057', '否'],
 ['浅白', '蜷缩', '浊响', '模糊', '平坦', '软粘', '0.343', '0.099', '否'],
 ['青绿', '稍蜷', '浊响', '稍糊', '凹陷', '硬滑', '0.639', '0.161', '否'],
 ['浅白', '稍蜷', '沉闷', '稍糊', '凹陷', '硬滑', '0.657', '0.198', '否'],
 ['乌黑', '稍蜷', '浊响', '清晰', '稍凹', '软粘', '0.36', '0.37', '否'],
 ['浅白', '蜷缩', '浊响', '模糊', '平坦', '硬滑', '0.593', '0.042', '否'],
 ['青绿', '蜷缩', '沉闷', '稍糊', '稍凹', '硬滑', '0.719', '0.103', '否']])

In [5]:
# Naive Bayes
class NB_classifier():
    
    def __init__(self, data, idx_successive=[]):
        # record the index of those successive attributes
        self.suc_idx = idx_successive
        # record the types of classes
        self.cla = list(set(data[:,-1]))
        # record the classes' distribution
        self.cla_idx = {}
        # find classes index respectively
        for c in self.cla:
            self.cla_idx[c] = np.where(data[:,-1]==c)[0]
        # initiate laplacian values(Nc) of each label
        self.label_la = [len(set(data[:,i])) for i in range(len(data[0])-1)]
        self.data = data
             
    def fit(self, row):
        cla_score = Counter(self.cla)
        for k, v in cla_score.items():
            cla_score[k] = (len(self.cla_idx[k])+1) / (len(self.data)+len(self.cla))
        
        # calculate likelihood
        for i, elem in enumerate(row):
            for c in self.cla:
                # successive attr
                if i in self.suc_idx:
                    col_vals = np.array(list(map(float, data[self.cla_idx[c]][:,i].tolist())))
                    mean, std = col_vals.mean(), col_vals.std()
                    p = math.exp(-pow(float(elem)-mean, 2) / (2*pow(std,2))) / (math.sqrt(2*np.pi)*std)

                # discrete attr
                else:
                    selected = data[self.cla_idx[c]]
                    p = (len(np.where(selected[:,i]==elem)[0])+1) / (len(selected)+self.label_la[i])
                
                cla_score[c] *= p
#                 print(f"对应属性{elem},类别为{c}的概率此时为：{p}")
#             print("当前score: ", cla_score)
        return max(cla_score, key=cla_score.get)

In [7]:
nb = NB_classifier(data,idx_successive=[6,7])
test = ['青绿', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', '0.697', '0.460']
nb.fit(test)

对应属性青绿,类别为否的概率此时为：0.3333333333333333
对应属性青绿,类别为是的概率此时为：0.36363636363636365
当前score:  Counter({'否': 0.17543859649122806, '是': 0.17224880382775118})
对应属性蜷缩,类别为否的概率此时为：0.3333333333333333
对应属性蜷缩,类别为是的概率此时为：0.5454545454545454
当前score:  Counter({'是': 0.09395389299695518, '否': 0.05847953216374269})
对应属性浊响,类别为否的概率此时为：0.4166666666666667
对应属性浊响,类别为是的概率此时为：0.6363636363636364
当前score:  Counter({'是': 0.059788840998062386, '否': 0.024366471734892786})
对应属性清晰,类别为否的概率此时为：0.25
对应属性清晰,类别为是的概率此时为：0.7272727272727273
当前score:  Counter({'是': 0.043482793453136284, '否': 0.0060916179337231965})
对应属性凹陷,类别为否的概率此时为：0.25
对应属性凹陷,类别为是的概率此时为：0.5454545454545454
当前score:  Counter({'是': 0.023717887338074336, '否': 0.0015229044834307991})
对应属性硬滑,类别为否的概率此时为：0.6363636363636364
对应属性硬滑,类别为是的概率此时为：0.7
当前score:  Counter({'是': 0.016602521136652035, '否': 0.0009691210349105085})
对应属性0.697,类别为否的概率此时为：1.1941549741038926
对应属性0.697,类别为是的概率此时为：1.9624922010858168
当前score:  Counter({'是': 0.03258231824904205, '否': 0.001157280704347096})
对应

'是'

In [132]:
math.sqrt(0.014608437)

0.12086536724802519