## 基于sklearn包调用贝叶斯算法
> 问题描述：取λ=0.2. 由下表训练数据， 利用先验概率的贝叶斯估计确定X=(2, S)的类标记y。 表中x^(1), x^(2)为特征， 取值的集合分别为A1={1,2,3}
A2={S,M,L} Y为类标签 属于{1,-1}
>>| 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 
:-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: 
x^(1) | 1 | 1 | 1 | 1 | 1 | 2 | 2 | 2 | 2 | 2 | 3 | 3 | 3 | 3 | 3 |
x^(2) | S | M | M | S | S | S | M | M | L | L | L | M | M | L | L |
Y | -1 | -1 | 1 | 1 | -1 | -1 | -1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | -1 |
>
>
> 从sklearn.naive_bayes包里面调入了GaussianNB,BernoulliNB,MultinomialNB， 去估计测试集的列标签
>>* GaussianNB  &emsp;高斯分布   &emsp;应用于连续变量（如人的身高）<br>
* MultinomialNB &emsp; 多项分布 &emsp; 离散变量（如男女）<br>
* BernoulliNB &emsp; 伯努利分布 &emsp; Xi只能取（0，1）
>
> 重点： 这里根据问题，适合用MultinomialNB， 所以参数和方法要知道，并且学一些数据预处理的技巧（one-hot）

## 1. 导入包

In [1]:
import numpy as np
from sklearn.naive_bayes import GaussianNB, BernoulliNB, MultinomialNB
from sklearn import preprocessing # 预处理

## 2. 主函数
> 步骤：
>> a. 构造数据集并进行数据预处理，转为one-hot向量<br>
b. 构造贝叶斯模型进行训练<br>
c. 在测试集上进行测试<br>

In [70]:
def main():
    
    # 构造数据集集并进行数据预处理(one-hot)
    data = np.array([
                      [1,"S"],
                      [1,"M"],
                      [1,"M"],
                      [1,"S"],
                      [1,"S"],
                      [2,"S"],
                      [2,"M"],
                      [2,"M"],
                      [2,"L"],
                      [2,"L"],
                      [3,"L"],
                      [3,"M"],
                      [3,"M"],
                      [3,"L"],
                      [3,"L"],
                      [2,"S"]
                    ])
    new_data = data.copy()           # 生成一份拷贝
    le = preprocessing.LabelEncoder()      # 对new_data进行以下标签转换，上面的字符串类型的数据要转换成整数后面才能用OneHot
    le.fit(new_data[:,1])
    new_data[:, 1] = le.transform(new_data[:,1])   
    enc = preprocessing.OneHotEncoder()    # 这里进行one-hot编码
    enc.fit(new_data)
    new_data = enc.transform(new_data).toarray()
    #print(data)
    X_train = new_data[:-1, :]    # 取前15行，作为训练集 最后一行是测试集
    #print(X_train)
    #print(X_train.shape)     # (15, 6)
    X_test = new_data[-1, :].reshape((1,-1))  
    Y_train = np.array([-1,-1,1,1,-1,-1,-1,1,1,1,1,1,1,1,-1])

    # 构造贝叶斯模型并进行训练
    clf=MultinomialNB(alpha=0.0000001)
    clf.fit(X_train,y_train)
    
    # 对测试集进行测试输出结果
    y_predict=clf.predict(X_test)
    print("{}被分类为:{}".format(data[-1,:],y_predict))
    print(clf.predict_proba(X_test))

In [71]:
if __name__ == "__main__":
    main()

['2' 'S']被分类为:[-1]
[[ 0.74999998  0.25000002]]


## 3. 总结回顾
> 通过本次编程，学习了一些知识如下：
* MultinomialNB的方法介绍:
    + fit &emsp; 对数据集进行训练
    + predict&emsp; 对测试点进行分类
    + predict_proba&emsp; 对测试点属于不同分类的概率
    + score&emsp; 输入测试集，评价训练效果
    + partial_fit&emsp; 数据分块学习  
* MultinomialNB的参数介绍：
    * alpha:&ensp;先验平滑因子，默认等于1，当等于1时表示拉普拉斯平滑。<br>
    * fit_prior:&ensp;是否去学习类的先验概率，默认是True
    * class_prior:&ensp;各个类别的先验概率，如果没有指定，则模型会根据数据自动学习， 每个类别的先验概率相同，等于类标记总个数N分之一。
PS: 其他贝叶斯方法的介绍： 
http://note.youdao.com/noteshare?id=36f3152f01b7bac957f9b7f6e88b15f9&sub=AD910F7C52BE48A7817E95474159FCB7
>
>关于独热编码和标签编码，这个很重要，但是内容太多了，见我笔记吧
http://note.youdao.com/noteshare?id=d3019873d18e24180df73d4ca88853d1&sub=FDD39DE3412145F4A3FB4272872404E3