# **数据挖掘课程设计一：Titanic船员生存预测**
> written by ***Maoxu Wang*** from SCU, majored in **Computational Biology**

### **数据格式**：

|Attribute |Type |Range        |
|----------|:---:|------------:|
|Class     |real |[-1.87,0.965]|     
|Age       |real |[-0.228,4.38]|    
|Sex       |real |[-1.92,0.521]|    
|Survived  |int  |{-1.0,1.0}   |          


 ### **输入**：

* #### inputs Class, Age, Sex 

### **输出**：

* #### outputs Survived

#### **目标**：
1.	对各个属性的值进行离散化，离散化成两个区间（即把各个属性的取值变成布尔类型）。要求以信息增益作为标准，对每个属性选择信息增益最大的区间划分点（也叫做阈值点）；
2.	对给定的数据集随机划分，70%作为训练数据，30%作为测试数据；
3.	实现Naïve Bayes算法，给出测试数据集中每个测试样例的预测类标，同时输出每个测试样例属于每个类别的后验概率值。
4.	统计算法在测试集上类别预测的准确率（预测类别正确的测试样例的个数/测试样例的个数）。


## 一、 **数据清洗** 

## 0. 加载相关的包

In [5]:
from csv import reader
import numpy as np
import pandas as pd
import random
import math

## 1. 根据信息增益分隔区间，离散化

### **1.1** 连续属性离散化技术：采用二分法处理
> 给定样本集D和连续属性a，假定a在D上出现了n个不同的取值，将这些值从小到大进行排序，记为${a^1.a^2,\dots ,a^n}$,基于划分点t将D分为子集$D^-_t$和$D^+_t$，其中$D^-_t$包含属性a上取值不大于t的样本，而$D^+_t$则包含在属性a上取值大于t的样本，考察包含n-1个元素的候选划分点集合
$$
T_a=\left[
        \frac{a^i\,+\,a^{i+1}}{2}\,|\,1\leq i \leq {n-1} 
    \right]
$$
即把区间的中位点$\frac{a^i\,+\,a^{i+1}}{2}$作为候选划分点


### **1.2** 信息熵是度量样本集合纯度最常用的一种指标，假定当前样本集合D中第k类样本所占比例为$p_k (k = 1,2,...|\Upsilon|)$,则D的信息熵定义为

$$
Ent(D) = -\sum_{k=1}^{|\Upsilon|} p_klog_2p_k .
$$ 
> #### 假定离散属性值a有V个可能的取值${a^1,a^2,...,a^V}$,若使用a对样本集D进行划分，则会产生V个分支节点，其中第v个分支节点包含了D中所有在属性a上取值为$a^v$的样本，记位$D^v$. 可根据上式计算$D_v$的信息熵，考虑道不同的分支节点所包含的样本数不同，给分支结点赋予权重$\frac {|D^v|}{|D|}$,即样本数越多的分支结点影响越大，于是可计算出用属性a对样本集D进行划分所获得的信息增益：

$$
Gain(D, a) = Ent(D)-\sum_{v=1}^V\frac{|D^v|}{|D|}Ent(D^v)
$$
> #### 一般而言，信息增益越大，则意味者使用属性a来进化划分所获得的"纯度提升"越大，即选择属性$a_* = arg\,max\,Gain(D,a)\,,a\in A$来进行划分


In [6]:
def information_entropy(dataset):
    """
    计算给定数据集下，按照两类分的情况的信息熵
    :param dataset:数据集
    :return:信息熵
    """
    if(len(dataset) == 0):
        return 0
    positive = 0
    negative = 0
    for row in dataset:
        if(row[-1] == 1):
            positive += 1
        else:
            negative += 1
    Pr_P = positive / len(dataset)
    Pr_N = negative / len(dataset)
    Ent_ = -(Pr_P*math.log2(Pr_P) + Pr_N*math.log2(Pr_N))
    return Ent_
    
def information_gain(dataset, index_attribute, value):
    """
    计算给定属性、按照给定值做划分的信息增益
    :param dataset:数据集
    :param index_attribute:属性序列
    :param value:当前属性下的给定取值
    :return ：信息增益
    """
    Ent_D = information_entropy(dataset)
    new_dataset_P = []
    new_dataset_N = []
    for row in dataset:
        if(row[index_attribute] > value):
            new_dataset_P.append(row)
        else:
            new_dataset_N.append(row)
    new_dataset_P = np.array(new_dataset_P)
    new_dataset_N = np.array(new_dataset_N)
    Ent_val_P = information_entropy(new_dataset_P)        
    Ent_val_N = information_entropy(new_dataset_N)
    Ent_new = (len(new_dataset_P)*Ent_val_P + len(new_dataset_N)*Ent_val_N) / len(dataset)
    return (Ent_D-Ent_new)
    
def middle_point(num):
    """
    求一个数组的从小到大排列后的中间值
    :param num:任意一个长度为n的数组
    :return (n-1)长度的数族
    """
    ls = []
    num.sort()
    for i in range(len(num)-1):
        ls.append((num[i]+num[i+1])/2)
    return ls
def split_attribute(dataset):
    """
    按照最大信息增益划分区间，从小到大排列连续值的中间点为候选划分点
    ：param dataset：数据集
    ：return:每个属性划分为两个区间的数据集
    """
    for i in range(3):
        matrix_gain = dict()
        value_set = list(set(dataset[:,i]))
        # 中位点为候选划分点
        value_set = middle_point(value_set)
        for value in value_set:
            matrix_gain[value] = information_gain(dataset, i, value)
        info_gain = list(matrix_gain.items())
        info_gain.sort(key=lambda x:x[1], reverse=True)
        split_val,gain = info_gain[0]
        for j in range(len(dataset[:,i])):
            if(dataset[j,i] > split_val):
                dataset[j,i] = 1
            else:
                dataset[j,i] = 0
    return dataset

## 2. 加载数据，随机划分数据集

In [7]:
def load_dataset(path, train_percentage):
    """
    加载数据集，划分训练集和测试集
    ：param path:文件路径
    ：param train_percentage:训练集所占的比例，默认剩余数据为测试集
    :return:划分好的训练集和验证集
    """
    dataset = []
    i = 0
    with open(path,'r') as file:
        dat = reader(file, delimiter=',')
        for row in dat:
            # 读取dat文件，并忽略前8行注释
            if(i>7):
                # 将字符串类型转化为浮点型
                row[0:4] = list(map(float, row[0:4]))
                dataset.append(row)
            i += 1
    # 将类别标签转化为整形
    for row in dataset:
        row[3] = int(row[3])
    dataset = np.array(dataset)
    dataset = split_attribute(dataset) 
    # 打乱数据集 
    random.shuffle(dataset)
    # 划分训练集和验证集
    n_train_data = round(len(dataset)*train_percentage)
    train_data = dataset[0:n_train_data]
    val_data = dataset[n_train_data:]
    return train_data, val_data

# 二、 朴素贝叶斯模型

## 1. 先验概率

#### **若有充足的独立同分布样本，则可以容易地估计出类先验分布概率**
$D_c$表示训练集D中第c类样本组成的集合，
$$
P(c) = \frac {|D_c|}{|D|}
$$

In [8]:
def Prior(train):
    """
    计算类别的先验概率
    :param:训练集
    :return:正例、负例的先验概率
    """
    Posi_num = 0
    neg_num = 0
    for row in train:
        if(row[-1] == 1):
            Posi_num += 1
        else:
            neg_num += 1
    return [Posi_num/len(train), neg_num/len(train)]

## 2. 后验概率

令$D_{c,x_i}$表示$D_c$在第i个属性熵取值为$x_i$的样本组成的集合，则条件概率$P(x_i | c)$可估计为

$$
P(x_i | c) = \frac{|D_{c,x_i}|}{|D_c|}
$$

基于属性条件独立性假设，后验概率可重写为
$$
P(c|x) = \frac {P(c)P(x|c)}{P(x)} = \frac {P(c)}{P(x)}\prod_{i=1}^d P(x_i | c)
$$

#### **考虑是否需要在估计概率值时进行平滑(smoothing)**
##### 拉普拉斯修正（Laplacian correction),令N表示训练集D中可能的类别数，$N_i$表示第i个属性可能的取值数，则先验概率修正为：
$$
\hat P(c) = \frac {|D_c|+1}{|D+N|}
$$
条件概率修正为：

$$
\hat P(x_i | c) = \frac {|D_{c,x_i}|+1}{|D_c|+N_i}
$$

> ##### **实验发现此数据集的属性值分布较为均匀，平滑系数的引入与否对提高正确率没有影响，故不引入**

In [9]:
def conditional_pr(dataset, label, attribute_index, value):
    """
    给定label下，计算观测到所给特征值的条件概率
    :param: dataset：训练集
    :label:所属类别
    :attribute_index:观测值所在特征列的列号
    :value：观测值
    :return：条件概率
    """
    this_dataset = []
    this_dataset_value = []
    for row in dataset:
        if(row[-1] == label):
            this_dataset.append(row)
    for row in this_dataset:
        if(row[attribute_index] == value):
            this_dataset_value.append(row)
    return (len(this_dataset_value) / (len(this_dataset)))


def Posteir(data, label):
    """
    根据观测值，计算样本属于某一类别的后验概率
    :param:data：样本数据
    :label:假设样本属于的某一类别
    :return:后验概率
    """
    Pr_P,Pr_N = Prior(train)
    # 当前类别下的概率
    Pr_x_c = 1
    # 另外一类的概率
    Pr_x_d = 1
    for i in range(len(data)):
        Pr_x_c = Pr_x_c*conditional_pr(train, label, i, data[i])
    for i in range(len(data)):
        Pr_x_d = Pr_x_d*conditional_pr(train, -label, i, data[i])    
    if(label == 1):
        Pr_x_c = Pr_x_c * Pr_P
        Pr_x_d = Pr_x_d * Pr_N
    else:
        Pr_x_c = Pr_x_c * Pr_N
        Pr_x_d = Pr_x_d * Pr_P
    return (Pr_x_c/(Pr_x_c+Pr_x_d)) 

## 3. 贝叶斯分类器

In [10]:
def Bayes_classifier(data):
    """
    根据训练得到的贝叶斯分类器，对所给样本所属类别进行预测
    :param:data:样本
    :return: 预测类标，预测类标为1的后验概率，预测类别为-1的后验概率
    """
    result = []
    for label in [-1,1]:
        result.append(Posteir(data,label))
    if(result.index(max(result)) == 0):
        return -1,Posteir(data,1),Posteir(data,-1)
    else:
        return 1,Posteir(data,1),Posteir(data,-1)
    

# 三、模型验证

In [11]:
def validation(val_data):
    """测试模型在验证集上的效果
    :param val_data: 验证集
    :return: 模型在验证集上的准确率
    """
    # 获取预测类标
    predicted_label = []
    Pr_N = []
    Pr_P = []
    for row in val_data:
        result = Bayes_classifier(row[0:3])
        prediction = result[0]
        Pr_P.append(result[1])
        Pr_N.append(result[2])
        predicted_label.append(prediction)
    # 获取真实类标
    actual_label = [row[-1] for row in val_data]
    # 计算准确率
    accuracy = accuracy_calculation(actual_label, predicted_label)
    return round(accuracy,2),predicted_label,Pr_P,Pr_N

def accuracy_calculation(actual_label, predicted_label):
    """计算准确率
    :param actual_label: 真实类标
    :param predicted_label: 模型预测的类标
    :return: 准确率（百分制）
    """
    correct_count = 0
    for i in range(len(actual_label)):
        if actual_label[i] == predicted_label[i]:
            correct_count += 1
    return correct_count / float(len(actual_label)) * 100.0

In [27]:
if __name__ == "__main__":
    file_path = './titanic.dat'

    # 参数设置
    train_percentage = 0.3
    file_save_name = 'Bayes_Titanic_result.txt' # 结果保存路径：默认当前文件路径下
    # 训练模型
    train, val = load_dataset(file_path, train_percentage)
    result, predicted_label,Pr_P,Pr_N = validation(val)
    print(f"accuracy is: {result}%")
    #储存结果: 将每个样例所属每个类别的后验概率值输入到新的文件
    val = pd.DataFrame(val)
    val['predicted_survived'] = predicted_label
    val['Predicted_label_1'] = Pr_P
    val['Predicted_label_-1'] = Pr_N
    val.rename(columns={0:'Class', 1:'Age', 2:'Sex',3:'Survived'}, inplace = True)
    val.to_csv(file_save_name,sep='\t')

KeyboardInterrupt: 

In [29]:
result = np.array([])
for i in range(10):
    train, val = load_dataset(file_path, train_percentage)
    result = np.append(result,validation(val)[0])
print(f"accuracy is: {np.mean(result)}%")

accuracy is: 78.281%


In [30]:
np.median(result)

78.46

In [32]:
max(result)

79.56

In [31]:
min(result)

76.96

In [18]:
s = np.array([1,2,3])
np.append(s,4)

array([1, 2, 3, 4])

In [19]:
s

array([1, 2, 3])

### 番外:**引入拉普拉斯修正**

#### **考虑是否需要在估计概率值时进行平滑(smoothing)**
##### 拉普拉斯修正（Laplacian correction),令N表示训练集D中可能的类别数，$N_i$表示第i个属性可能的取值数，则先验概率修正为：
$$
\hat P(c) = \frac {|D_c|+1}{|D+N|}
$$
条件概率修正为：

$$
\hat P(x_i | c) = \frac {|D_{c,x_i}|+1}{|D_c|+N_i}
$$

In [26]:
# 引入平滑系数
def Prior(train):
    """
    计算类别的先验概率
    :param:训练集
    :return:正例、负例的先验概率
    """
    Posi_num = 0
    neg_num = 0
    for row in train:
        if(row[-1] == 1):
            Posi_num += 1
        else:
            neg_num += 1
    return [(1+Posi_num)/(len(train)+2), (1+neg_num)/(2+len(train))]
def conditional_pr(dataset, label, attribute_index, value):
    """
    给定label下，计算观测到所给特征值的条件概率
    :param: dataset：训练集
    :label:所属类别
    :attribute_index:观测值所在特征列的列号
    :value：观测值
    :return：条件概率
    """
    this_dataset = []
    this_dataset_value = []
    
    for row in dataset:
        if(row[-1] == label):
            this_dataset.append(row)
    for row in this_dataset:
        if(row[attribute_index] == value):
            this_dataset_value.append(row)
    return ((1+len(this_dataset_value)) / (len(this_dataset)+len(set(train[:,attribute_index]))))


def Posteir(data, label):
    """
    根据观测值，计算样本属于某一类别的后验概率
    :param:data：样本数据
    :label:假设样本属于的某一类别
    :return:后验概率
    """
    Pr_P,Pr_N = Prior(train)
    # 当前类别下的概率
    Pr_x_c = 1
    # 另外一类的概率
    Pr_x_d = 1
    for i in range(len(data)):
        Pr_x_c = Pr_x_c*conditional_pr(train, label, i, data[i])
    for i in range(len(data)):
        Pr_x_d = Pr_x_d*conditional_pr(train, -label, i, data[i])    
    if(label == 1):
        Pr_x_c = Pr_x_c * Pr_P
        Pr_x_d = Pr_x_d * Pr_N
    else:
        Pr_x_c = Pr_x_c * Pr_N
        Pr_x_d = Pr_x_d * Pr_P
    return (Pr_x_c/(Pr_x_c+Pr_x_d)) 

# References

1. **机器学习，周志华，清华大学出版社**
2. **Data Mining: Concepts and Techniques, Jiawei Han, Micheline kamber, Jian pei**


```python
def func():
    return
```


###  信息熵是度量样本集合纯度最常用的一种指标，假定当前样本集合D中第k类样本所占比例为$p_k (k = 1,2,...|\Upsilon|)$,则D的信息熵定义为

$$
Ent(D) = -\sum_{k=1}^{|\Upsilon|} p_klog_2p_k .
$$ 
> #### 假定离散属性值a有V个可能的取值${a^1,a^2,...,a^V}$,若使用a对样本集D进行划分，则会产生V个分支节点，其中第v个分支节点包含了D中所有在属性a上取值为$a^v$的样本，记位$D^v$. 可根据上式计算$D_v$的信息熵，考虑道不同的分支节点所包含的样本数不同，给分支结点赋予权重$\frac {|D^v|}{|D|}$,即样本数越多的分支结点影响越大，于是可计算出用属性a对样本集D进行划分所获得的信息增益：

$$
Gain(D, a) = Ent(D)-\sum_{v=1}^V\frac{|D^v|}{|D|}Ent(D^v)
$$
> #### 一般而言，信息增益越大，则意味者使用属性a来进化划分所获得的"纯度提升"越大，即选择属性$a_* = arg\,max\,Gain(D,a)\,,a\in A$来进行划分
