## 自编程实现朴素贝叶斯算法
> 问题描述：取λ=0.2. 由下表训练数据， 利用先验概率的贝叶斯估计确定X=(2, S)的类标记y。 表中x^(1), x^(2)为特征， 取值的集合分别为A1={1,2,3}
A2={S,M,L} Y为类标签 属于{1,-1}
>>| 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 
:-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: | :-: 
x^(1) | 1 | 1 | 1 | 1 | 1 | 2 | 2 | 2 | 2 | 2 | 3 | 3 | 3 | 3 | 3 |
x^(2) | S | M | M | S | S | S | M | M | L | L | L | M | M | L | L |
Y | -1 | -1 | 1 | 1 | -1 | -1 | -1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | -1 |

>下面自编程实现朴素贝叶斯算法， 伪代码如下：
>> 1. 构造训练集<br> 
2. 构造测试集 <br>
3. 创建朴素贝叶斯模型并训练 <br> 
    (1) 计算条件概率和Y的先验概率<br>
    (2) 计算联合概率，根据最大化联合概率返回结果
4. 测试模型，得到分类标签
> 
PS： 当贝叶斯估计λ=0时， 就是极大似然估计
>
> 学习Python： pandas的DataFrame结构， Python的函数 .unique

##  1. 导入包

In [3]:
import numpy as np
import pandas as pd

from collections import Counter

##  2. 定义朴素贝叶斯模型
> 梳理一下思路：
>> 1. 初始化成员变量<br>
2. 定义fit函数计算先验概率和条件概率<br>
3. 定义predict函数计算联合概率，并根据联合概率最大化返回分类标签

In [11]:
class NaiveBayes:
    
    # 初始化成员变量
    def __init__(self, lamda=0):
        self.lamda = lamda      # 贝叶斯系数， 取0时，为极大似然估计
        self.y_types = None    #  y的类型
        self.y_types_count = None   # y的类型数量
        self.y_types_proba = None   # y的类型概率
        self.x_types_proba = dict()  #  这是一个字典，求条件概率的时候用，给定y的类型， 第几个特征取什么值，格式： （xi的编号，xi的取值，y的类型）
        
    # 定义训练函数
    def fit(self, X_train, Y_train):
        X_new_train = pd.DataFrame(X_train)     # 转换成pandas DataFrame数据格式
        Y_new_train = pd.DataFrame(Y_train)
        print("*************************************")            # 为了debug方便，可以注释
        print("转换完结构：")
        print("X_new_train=")
        print(X_new_train)
        print("Y_new_train=")
        print(Y_new_train)
        print("*************************************")
        
        # y的类型数量统计   pandas 的value_counts()函数可以对Series里面的每个值进行计数并且排序。
        self.y_types = np.unique(Y_train)   # y的所有取值类型
        self.y_types_count = Y_new_train[0].value_counts()         # value_counts()返回的结果是一个Series数组
        # 这里还要注意一下，这个value_counts是针对于某一列，不能用整个DateFrame

        # y的类型概率统计
        self.y_types_proba = (self.y_types_count+self.lamda) / (Y_new_train.shape[0]+len(self.y_types)*self.lamda) 
        
        # 计算条件概率  （xi 的编号,xi的取值，y的类型）：概率的计算
        for idx in X_new_train.columns:     # 变量X_new_train的所有列（即特征x^(1), x^(2)...x^(n)）
            for j in self.y_types:         # 选取每一个y的类型
                p_x_y = X_new_train[(Y_new_train==j).values][idx].value_counts() #选择所有y==j为真的数据点的第idx个特征的值，并对这些值进行（类型：数量）统计
                for i in p_x_y.index: #计算（xi 的编号,xi的取值，y的类型）：概率
                    self.x_types_proba[(idx,i,j)]=(p_x_y[i]+self.lamda)/(self.y_types_count[j]+p_x_y.shape[0]*self.lamda)
        
        print("*************************************")
        print("计算先验概率时的一些数据测试")
        print("y_types_count=\n{}\n".format(self.y_types_count))
        print("y_types_proba=\n{}\n".format(self.y_types_proba))
        print("选择X_new_train中，对应的Y_new_train=-1的行组成新表格，然后数量统计0列\n", X_new_train[(Y_new_train==-1).values][0].value_counts())
        print("看看那个字典的最后表示：\nx_types_proba=")
        print(self.x_types_proba)
        print("*************************************") 
        
    # 计算联合概率，并预测
    def predict(self,X_new):
        res=[]         # 存放结果
        for y in self.y_types: #遍历y的可能取值
            p_y=self.y_types_proba[y]  #计算y的先验概率P(Y=ck)
            p_xy=1
            for idx,x in enumerate(X_new):
                p_xy*=self.x_types_proba[(idx,x,y)] #计算P(X=(x1,x2...xd)/Y=ck)
            res.append(p_y*p_xy)
        for i in range(len(self.y_types)):
            print("[{}]对应概率：{:.2%}".format(self.y_types[i],res[i]))
        #返回最大后验概率对应的y值
        return self.y_types[np.argmax(res)]
        

##  3. 主函数
> 1. 构造训练集<br>
2. 构造测试集 <br>
3. 创建朴素贝叶斯模型并训练 <br>
4. 测试模型，返回分类标签

In [5]:
def main():
    
    # 构造训练集
    X_train = np.array([
                        [1, "S"], 
                        [1, "M"],
                        [1, "M"],
                        [1, "S"],
                        [1, "S"],
                        [2, "S"],
                        [2, "M"],
                        [2, "M"],
                        [2, "L"], 
                        [2, "L"],
                        [3, "L"], 
                        [3, "M"],
                        [3, "M"],
                        [3, "L"],
                        [3, "L"]
                        ])
    Y_train = np.array([-1, -1, 1, 1, -1, -1, -1, 1, 1, 1, 1, 1, 1, 1, -1])
    #print("X_train.shape={},   Y_train.shape={}".format(X_train.shape, Y_train.shape))   # X_train(15, 2), Y_train(15,)
    
    # 构造测试集
    X_test = np.array([2, "S"])
    #print("X_test.shape={}".format(X_test.shape))    #  X_test(2,)
    
    # 创建贝叶斯模型并训练
    clf = NaiveBayes(lamda=0)
    clf.fit(X_train, Y_train)
    
    # 测试模型
    y_predict = clf.predict(X_test)
    print("*************************************")
    print("最终结果：")
    print("{}被分类为： {}".format(X_test, y_predict))
    print("*************************************")

In [12]:
if __name__ == "__main__":
    main()

*************************************
转换完结构：
X_new_train=
    0  1
0   1  S
1   1  M
2   1  M
3   1  S
4   1  S
5   2  S
6   2  M
7   2  M
8   2  L
9   2  L
10  3  L
11  3  M
12  3  M
13  3  L
14  3  L
Y_new_train=
    0
0  -1
1  -1
2   1
3   1
4  -1
5  -1
6  -1
7   1
8   1
9   1
10  1
11  1
12  1
13  1
14 -1
*************************************
*************************************
计算先验概率时的一些数据测试
y_types_count=
 1    9
-1    6
Name: 0, dtype: int64

y_types_proba=
 1    0.6
-1    0.4
Name: 0, dtype: float64

选择X_new_train中，对应的Y_new_train=-1的行组成新表格，然后数量统计0列
 1    3
2    2
3    1
Name: 0, dtype: int64
看看那个字典的最后表示：
x_types_proba=
{(0, '1', -1): 0.5, (0, '2', -1): 0.33333333333333331, (0, '3', -1): 0.16666666666666666, (0, '3', 1): 0.44444444444444442, (0, '2', 1): 0.33333333333333331, (0, '1', 1): 0.22222222222222221, (1, 'S', -1): 0.5, (1, 'M', -1): 0.33333333333333331, (1, 'L', -1): 0.16666666666666666, (1, 'L', 1): 0.44444444444444442, (1, 'M', 1): 0.44444444444444442, (1, 'S', 1): 0

##  4. 回顾总结
> 朴素贝叶斯分类的思想一定要清楚， 假设分类标签Y事先服从一定的概率分布，也就是先验分布，然后根据训练集，求出在给定Y的条件下X的概率，这样，根据贝叶斯公式，就可以求出，给定X的条件下Y的概率分布，最大化这一个就是结果。
> 思想比较简单，但是Python真正的实现起来，还是挺复杂，涉及到一些不太懂的存储和操作，比如pandas，之前只是粗略的学习过，不会用， np.unique还有有关pandas的一些操作， 在这里要重新回顾整理一下重要的：
>> 1. pandas 的一些操作和定义<br>
2. numpy的一些函数操作

### 4.1 pandas 数据类型的定义和一些操作
>pandas是在numpy的基础上建立的新的程序库， 和numpy最大的不同是用来处理表格型或者异质性数据， 而Numpy主要处理同质性的数值类数组数据。
>
> 两大常用的数据结构： Series和DataFrame
>> Series可以理解为带索引的一维数组对象，包含了一个值序列和一个索引序列<br>
DataFrame类似于Numpy中的二维数组， 但是有行列标签， 并且方法更加灵活

#### 4.1.1 Series
> 创建的三种方式：
>>1. 创建可以通过一维数组创建 <br>
2. 字典的方式创建  <br>
3. DataFram的某一行或者某一列创建<br》
>
> 对象的两个属性： 
>>1. index(索引）<br> 
2. values(值）

In [40]:
# Series创建和使用 
a = [1, 2, 3, 4]    #  这是一个列表  
print(a)       # [1, 2, 3, 4]
b = np.array([1, 2, 3, 4])        # 这是一个一维数组  
print(b)        # [1 2 3 4]

## 通过列表或者数组创建序列
obj = pd.Series(b)   # 其实列表和一维数组都可以放到这里的
print(obj.values)    # 这是一个一维数组  [1 2 3 4]
print(obj.index)    # RangeIndex(start=0, stop=4, step=1)

# 为上面的obj创建索引，通过索引标签来引用值
obj.index = ['a', 'b', 'c', 'd']       # 直接加
print(obj.index)       # Index(['a', 'b', 'c', 'd'], dtype='object')
print(obj['b'])          # 有了索引之后，可以通过索引来引用值了
#print(obj)
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'c', 'b', 'a'])     # 在创建对象的时候，可以直接指明索引
print(obj2>2)       # 可以直接用bool值过滤，或者标量相乘
print(obj2 * 2)

## 通过字典创建序列
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(sdata)
print(obj3)      #  产生的Series的索引将是排好序的字典键
# 你可以将字典键按照你所要的顺序传递给构造函数
stats = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=stats)
print(obj4)   #  这时候按照你给的字典键的顺序输出，不过由于没有Cailfornia，所以输出NaN  表示缺失数据
print(obj4.isnull(), pd.isnull(obj4))
# Series对象自身和索引都有name属性  
obj4.name = 'Population'
obj4.index.name = 'state'
#obj4.values.name = 'area'    #  值没有name属性
print(obj4)

## 自动对齐  类似于数据库中的join
print("\n自动对齐:")
s1 = pd.Series(np.array([10, 15, 20, 30, 55, 80]), index=['a', 'b', 'c', 'd', 'e', 'f'])
s2 = pd.Series(np.array([12, 11, 13, 16, 14, 16]), index=['a', 'c', 'g', 'b', 'd', 'f'])
print('s1序列：\n ',  s1)
print('s2序列：\n ', s2)
print(s1+s2)   #s1中不存在g索引，s2中不存在e索引，所以数据运算会产生缺失值NaN。 这里的算术运算自动实现了对齐，对于数据的对齐，不仅是行索引的自动对齐，同时也会对列索引自动对齐，数据框相当于二维数组的推广

[1, 2, 3, 4]
[1 2 3 4]
[1 2 3 4]
RangeIndex(start=0, stop=4, step=1)
Index(['a', 'b', 'c', 'd'], dtype='object')
2
d     True
c     True
b    False
a     True
dtype: bool
d     8
c    14
b   -10
a     6
dtype: int64
Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64
California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool
state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: Population, dtype: float64

自动对齐:
s1序列：
  a    10
b    15
c    20
d    30
e    55
f    80
dtype: int32
s2序列：
  a    12
c    11
g    13
b    16
d    14
f    16
dtype: int32
a    22.0
b    31.0
c    31.0
d    44.0
e     NaN
f    96.0
g     NaN
dtype: float64


#### 4.1.2 DataFrame数据
> 创建的三种方式：
>> 1. 通过二维数组创建<br>
2. 通过字典的方式创建<br>
3. 通过数据框创建

> 两种索引：
>> 1. columns(列索引）<br>
2. index(行索引）
>
> 属性值： values

In [60]:
## 最常用的创建方式利用包含等长度的列表或Numpy数组的字典形式
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'], 
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]
       }
frame = pd.DataFrame(data)
print(frame.head())     # head方法只会显示前5行   默认这个列的顺序是字典序 pop state year
# 还可以自己指定列的顺序
frame1 = pd.DataFrame(data, columns=['year', 'state', 'pop']) 
print(frame1)
#  如果传的列不包含在字典中，就用NaN表示
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'], index=['one', 'two', 'three', 'four', 'five', 'six'])
print(frame2)
# DataFrame中的一列，可以按字典标记或属性那样检索为Series
print(frame2['state'])
# 行也可以通过位置或者特殊属性进行选取
print(frame2.loc['three'])
# 列的引用是可以修改的
frame2['debt'] = np.arange(6.)    # arange类似于Python中的range， 但是range只能生成int型，而arange可以float型
print(frame2)
# 在frame2中增加一列
frame2['eastern'] = frame2.state == 'Ohio'   # frame2.state与frame2['state'] 的区别： 后者对于任意列名都有效，前者只在列名是有效的Python变量名时有效
print(frame2)
print(frame2.columns)   # Index(['year', 'state', 'pop', 'debt', 'eastern'], dtype='object')
# 删除一列 del
del frame2['eastern']
print(frame.columns)  # Index(['pop', 'state', 'year'], dtype='object')  注意，从DataFrame选取的列行等都是视图不是拷贝，修改直接等于修改原表
print(frame2)

## 另一种常用的数据形式是包含字典的嵌套字典
pop = {'Nevada': {2001: 2.4, 2002: 2.9}, 'Ohio':{2000:1.5, 2001: 1.7, 2002: 3.6}}
frame3 = pd.DataFrame(pop)    # 当然也可以自己指定索引  pd.DataFrame(pop, index=[2001, 2002, 2003])  这时候2003这块会有缺省值
print(frame3)
# 使用Numpy语法进行转置
print(frame3.T)
# 这里的索引和列都会有name属性
frame3.index.name = 'year'
frame3.columns.name = 'state'
print(frame3)
# DataFrame的values属性会以ndarry数组的形式返回
print(frame3.values)

   pop   state  year
0  1.5    Ohio  2000
1  1.7    Ohio  2001
2  3.6    Ohio  2002
3  2.4  Nevada  2001
4  2.9  Nevada  2002
   year   state  pop
0  2000    Ohio  1.5
1  2001    Ohio  1.7
2  2002    Ohio  3.6
3  2001  Nevada  2.4
4  2002  Nevada  2.9
5  2003  Nevada  3.2
       year   state  pop debt
one    2000    Ohio  1.5  NaN
two    2001    Ohio  1.7  NaN
three  2002    Ohio  3.6  NaN
four   2001  Nevada  2.4  NaN
five   2002  Nevada  2.9  NaN
six    2003  Nevada  3.2  NaN
one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object
year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object
       year   state  pop  debt
one    2000    Ohio  1.5   0.0
two    2001    Ohio  1.7   1.0
three  2002    Ohio  3.6   2.0
four   2001  Nevada  2.4   3.0
five   2002  Nevada  2.9   4.0
six    2003  Nevada  3.2   5.0
       year   state  pop  debt  eastern
one    2000    Ohio  1.5   0.0     True
two    2001   

### 关于pandas的对象和创建先说到这， 因为pandas的知识体系太过于庞大， 后面还有具体的操作和功能，像数据的增删改查， 统计分析，缺失值处理等， 具体的见我的笔记。

http://note.youdao.com/noteshare?id=28264a6b8536e4448e0bf3de701cd230&sub=25080C078C444E6E8B0C809C88BD0C76