In [191]:
%config ZMQInteractiveShell.ast_node_interactivity = "all"
%pprint

Pretty printing has been turned OFF


In [280]:
import numpy as np
import pandas as pd

class NaiveBayes(object):
    """
    功能：实现多项式朴素贝叶斯（用于处理离散数据）
    属性 classes：标记的分类
    属性 classes_count：标记中各分类的数量
    属性 classes_prob：标记中各分类的概率
    属性 fea_clf：各特征的分类
    属性 fea_clf_count：在各标记中各特征每个分类的数量
    属性 fea_clf_prob：在各标记中各特征每个分类的概率
    """
    def __init__(self):
        self.classes = np.array([])
        self.classes_count = {}
        self.classes_prob = {}
        self.fea_clf = []
        self.fea_clf_count = {}
        self.fea_clf_prob = {}
        self.prob_array = np.array([])
        
    def fit(self, feature, label, smooth = 1):
        """
        功能：实现多项式朴素贝叶斯的拟合
        参数 feature：训练数据的特征数据
        参数 label：训练数据的标记数据
        参数 smooth:平滑项,默认取值为1(拉普拉斯平滑)
        """
        # 各特征的去重
        self.fea_clf = list(map(lambda x: list(np.unique(x)), feature.T))
        # 标记的去重和计数
        label_count = np.unique(label, return_counts = True)
        # clf为标记类别,clf_count为对应的类别数
        for clf, clf_count in zip(label_count[0], label_count[1]):
            # 标记的类别/数量/概率(加平滑)
            self.classes = np.append(self.classes, clf)
            self.classes_count[clf] = clf_count
            self.classes_prob[clf] = (clf_count + smooth) / \
                                    (label.shape[0] + len(label_count[0]) * smooth)
            
            # 每一个类别对应的样本
            sample_clf = feature[label == clf] 
            # 每一类别下各特征(fea1, fea2, ...)的可能取值和频数
            # 元素形式为(fea1_value_list, fea1_count_list)
            sample_feature = map(lambda x: np.unique(x, return_counts = True), \
                                sample_clf.T)
            # 将所有特征的可能取值汇总保存到列表,每一个元素的形式为(fea_value, fea_count)
            sample_fea_list = []
            for sample_fea, sample_fea_count in sample_feature:
                sample_fea_list.extend(list(zip(sample_fea, sample_fea_count)))
            
            # 将特征可能取值和数量保存成字典
            self.fea_clf_count[clf] = dict(sample_fea_list)
            self.fea_clf_prob[clf] = self.fea_clf_count[clf].copy()
            
            # 修正特征的数量/概率字典
            # features为特征
            for features in self.fea_clf:
                # feature_clf为每一特征的可能取值
                for feature_clf in features:
                    # 填补在每一类别中未出现的特征
                    self.fea_clf_count[clf].setdefault(feature_clf, 0);
                    self.fea_clf_prob[clf].setdefault(feature_clf, 0);
                    # 特征概率字典修正+平滑条件
                    self.fea_clf_prob[clf][feature_clf] = (self.fea_clf_count[clf][feature_clf] \
                                                           + smooth)/(sample_clf.shape[0] + \
                                                                      len(features) * smooth)
                    
        return "fit NavieByes"
    
    def predict(self, fea_array):
        """
        功能:多项式贝叶斯分类器的预测
        参数 feature:接收的是一个或多个特征向量(array_like),形式为[[fea1],...]
                    只有一个特征向量时,传入形式为[[fea]]
        """
        prob_clf_list = []
        
        for clf in self.classes:
            prob = 1
            prob_list = []
            for feature in fea_array:
                for fea_value in feature:
                    prob *= self.fea_clf_prob[clf][fea_value]
                prob *= self.classes_prob[clf]
                prob_list.append(prob)
            prob_clf_list.append(prob_list)
        
        self.prob_array = np.array(prob_clf_list)
        
        return self.classes[self.prob_array.argmax(axis = 0)]
    

    def get_classes(self):
        """
        功能:获取类别及其数量概率
        字典结果 元素1：类别的数量
        字典结果 元素2：类别的概率
        """
        classes_dict = {}
        
        for clf in self.classes:
            classes_dict[clf] = (self.classes_count[clf], self.classes_prob[clf])
            
        return classes_dict
    
    def get_prob(self):
        """
        功能：获取各类的概率
        """
        prob_dict = {}
        prob_zip = zip(self.classes, self.prob_array)
        
        for clf, prob in prob_zip:
            prob_dict[clf] = prob
            
        return prob_dict
    
    def score(self, x_test, y_test):
        """
        功能:计算分类器的分类精度
        参数 x_test:测试样本
        参数 y_test:测试样本对应的标记
        """
        # 分类器的预测结果
        label = self.predict(x_test) 
        # 分类正确的数量
        right_count = (label == y_test).sum()
        # 分类器的精度
        acc = right_count/len(y_test)
        
        return acc

In [276]:
import pandas as pd
import numpy as np

data = pd.DataFrame({
    "x1":[1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3],
    "x2":['S', 'M', 'M', 'S', 'S', 'S', 'M', 'M', 'L', 'L', 'L', 'M', 'M', 'L', 'L'],
    "Y":[-1, -1, 1, 1, -1, -1, -1, 1, 1, 1, 1, 1, 1, 1, -1]
})

data

Unnamed: 0,x1,x2,Y
0,1,S,-1
1,1,M,-1
2,1,M,1
3,1,S,1
4,1,S,-1
5,2,S,-1
6,2,M,-1
7,2,M,1
8,2,L,1
9,2,L,1


In [285]:
# 分类器的生成
clf = NaiveBayes()

# 训练集的特征和标记数据
x = np.array(data.iloc[:, :2])
y = np.array(data.iloc[:, -1])

# 分类器的拟合(平滑项默认为1)
clf.fit(x, y)
# 分类器的预测
clf.predict([[2, 'S'], [3, 'M']])
clf.score([[2, 'S']], [-1])

# 获取标记数据的类别和对应的数量/概率
clf.get_classes()
# 获取实例属于各类器的相对大小
prob = clf.get_prob()
prob_zip = zip(prob[-1.0], prob[1.0])
count = 0
for a, b in prob_zip:
    count += 1
    print("实例%d属于类别-1为:%e,属于类别1为:%e" %(count, a, b))
    

'fit NavieByes'

array([-1.,  1.])

1.0

{-1.0: (6, 0.4117647058823529), 1.0: (9, 0.5882352941176471)}

实例1属于类别-1为:6.100218e-02,属于类别1为:3.267974e-02
