## 自编程实现朴素贝叶斯算法
> 问题描述：取λ=0.2. 由下表训练数据， 利用先验概率的贝叶斯估计确定X=(2, S)的类标记y。 表中x^(1), x^(2)为特征， 取值的集合分别为A1={1,2,3}
A2={S,M,L} Y为类标签 属于{1,-1}
>>| 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 |
:-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: 
x^(1) | 1 | 1 | 1 | 1 | 1 | 2 | 2 | 2 | 2 | 2 | 2 | 3 | 3 | 3 | 3 | 3 |
x^(2) | S | L | M | M | S | L | S | S | L | L | M | M | L | S | M | M |
Y | -1 | 1 | 1 | -1 | -1 | 1 | 1 | -1 | 1 | -1 | 1 | 1 | 1 | 1 | -1 | 1 |

>下面自编程实现朴素贝叶斯算法， 伪代码如下：
>> 1. 构造训练集<br> 
2. 构造测试集 <br>
3. 创建朴素贝叶斯模型并训练 <br> 
    (1) 计算条件概率和Y的先验概率<br>
    (2) 计算联合概率，根据最大化联合概率返回结果
4. 测试模型，得到分类标签
> 
PS： 当贝叶斯估计λ=0时， 就是极大似然估计
>
> 再次回顾一下贝叶斯背后的原理

In [50]:
# 导入数据集
import numpy as np
import pandas as pd

from collections import Counter
from sklearn.naive_bayes import GaussianNB, BernoulliNB, MultinomialNB
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

In [48]:
# 创建贝叶斯模型
class NaiveBayes:
    # 初始化成员变量
    def __init__(self, lamda=0):
        self.lamda = lamda      # 防止分子为0
        self.y_types = None
        self.y_types_count = None
        self.y_types_proba = None
        self.x_types_proba = dict()
    
    # 定义训练函数
    def fit(self, X_train, Y_train):
        X_new_train = pd.DataFrame(X_train)
        Y_new_train = pd.DataFrame(Y_train)
        
         # y的类型数量统计   pandas 的value_counts()函数可以对Series里面的每个值进行计数并且排序。
        self.y_types = np.unique(Y_train)
        self.y_types_count = Y_new_train[0].value_counts()
        # y的先验概率的估计
        self.y_types_proba = (self.y_types_count+self.lamda) / (Y_new_train.shape[0]+len(self.y_types)*self.lamda)
        
        # 计算条件概率 （xi 的编号,xi的取值，y的类型）：概率的计算
        for idx in X_new_train.columns:
            for j in self.y_types:
                p_x_y = X_new_train[(Y_new_train==j).values][idx].value_counts()
                for i in p_x_y.index:
                    self.x_types_proba[(idx, i, j)] = (p_x_y[i]+self.lamda) / (self.y_types_count[j]+p_x_y.shape[0]*self.lamda)
  
        #print(self.x_types_proba)
    # 计算联合概率并且做出预测
    def predict(self, X_test):
        res = []
        for y in self.y_types:
            p_y = self.y_types_count[y]
            p_xy = 1
            for idx, x in enumerate(X_test):
                p_xy *= self.x_types_proba[(idx, x, y)]
            res.append(p_y*p_xy)
        for i in range(len(self.y_types)):
            print("[{}]对应概率：{:.2%}".format(self.y_types[i],res[i]))
        
        return self.y_types[np.argmax(res)]
        

In [49]:
# 构建训练集
X_train = np.array([[1, 'S'],
                   [1, 'L'],
                   [1, 'M'],
                   [1, 'M'],
                   [1, 'S'],
                   [2, 'L'],
                   [2, 'S'],
                   [2, 'S'],
                   [2, 'L'],
                   [2, 'L'],
                   [2, 'M'],
                   [3, 'M'],
                   [3, 'L'],
                   [3, 'S'],
                   [3, 'M'],
                   [3, 'M']
                   ]
                  )

Y_train = np.array([-1, 1, 1, -1, -1, 1, 1, -1, 1, -1, 1, 1, 1, 1, -1, 1])
X_test = np.array([2, 'S'])

model = NaiveBayes()
model.fit(X_train, Y_train)
y_predict = model.predict(X_test)
print("{} 被分类为 {}".format(X_test, y_predict))

[-1]对应概率：100.00%
[1]对应概率：80.00%
['2' 'S'] 被分类为 -1


In [65]:
# 调用sklearn包试试， 首先要把原来的数据集转为One-hot向量

data = np.vstack((X_train, X_test))
#print(data)

data_new = data.copy()
le = LabelEncoder()
data_new[:, 1] = le.fit_transform(data_new[:, 1])
enc = OneHotEncoder()
data_new = enc.fit_transform(data_new).toarray()

# 提取训练集合测试集
X_train_new = data_new[:X_train.shape[0],:]
X_test_new = data_new[X_train.shape[0]:, :]

#print(X_test_new)

# 构造贝叶斯分类器
clf = GaussianNB()         # 分类概率:[[0.74872296 0.25127704]]  -1
#clf = BernoulliNB()         # 分类概率:[[0.5604818 0.4395182]]   -1
# clf = MultinomialNB(alpha=0.00001)    #  -1   分类概率:[[0.55555477 0.44444523]]
clf.fit(X_train_new, Y_train)
y_predict = clf.predict(X_test_new)
print("{} 被分类为 {}".format(X_test, y_predict))
print("分类概率:{}".format(clf.predict_proba(X_test_new)))

['2' 'S'] 被分类为 [-1]
分类概率:[[0.74872296 0.25127704]]


In case you used a LabelEncoder before this OneHotEncoder to convert the categories to integers, then you can now use the OneHotEncoder directly.


In [68]:
# 看看用pandas处理数据转换成onehot向量试试

pddata = pd.DataFrame(data)
new_data = pd.get_dummies(pddata)
new_data = new_data.values

# 提取训练集合测试集
X_train_new = new_data[:X_train.shape[0],:]
X_test_new = new_data[X_train.shape[0]:, :]

#print(X_test_new)

# 构造贝叶斯分类器
clf = GaussianNB()         # 分类概率:[[0.74872296 0.25127704]]  -1
#clf = BernoulliNB()         # 分类概率:[[0.5604818 0.4395182]]   -1
# clf = MultinomialNB(alpha=0.00001)    #  -1   分类概率:[[0.55555477 0.44444523]]
clf.fit(X_train_new, Y_train)
y_predict = clf.predict(X_test_new)
print("{} 被分类为 {}".format(X_test, y_predict))
print("分类概率:{}".format(clf.predict_proba(X_test_new)))

['2' 'S'] 被分类为 [-1]
分类概率:[[0.74872296 0.25127704]]


###  小总一下：
> * 把原数据转换成one-hot表示，有两种方式： 
>> * 一种是借助sklearn.preprocessing中的LabelEncoder和OneHotEncoder函数进行转换
>> * 一种是先把数据转换成DataFrame结构，然后用pd.getdummies进行转换，再用pd.DataFrame.values获取到值，得到X_train, X_test