## 决策树

## 1、 决策树算法

决策树通过递归的方式来构建，每次根据当前节点的属性值来选择类别，根据这个属性值来将数据集分为两个子集，然后继续递归的构建子树，直到所有的叶子节点都是 pure node。
举个例子，你想知道一部影片是否属于限制级的，那么首先可以判断这部影片是否是国产，如果是国产，那么一定不是限制级。如果不是国产，那么进一步判断，参演人员中是否包含限制级演员，如果不包含，那么一定不是限制级（这里先叠个甲），如果包含，则对剧情做进一步的划分。
以上过程中，每一次判断都是对某个属性的测试，判断结果要么导出结论，要么导出进一步判断的问题。如果是后一种，那么当前子集的考虑范围是在上次决策结果的限定范围内。
一个节点被判断为叶节点【分类结果】有三种情况：

    1. 所有数据属于同一类，此时无需再划分
    
    2. 所有属性已经用完【或者所有样本的剩余属性值均相同】，此时即便数据没有被完全区分，也会选择样本占比最多的那一类作为分类结果【属于后验分布】【例如上面说的非国产，不包含限制级演员影片】
    
    3. 当前节点包含的样本集合为空，不能划分，此时类别设为父节点中包含样本最多的类别【属于先验分布】

```python

    输入训练集 $D = {(x_1,y_1}$

```
### 1.1、划分选择
从上面的伪代码可以看出，决策树学习的关键是确定最优划分属性，而判断标准就是划分属性是否能够提升子节点的“纯度”。

#### 1.1.1、信息增益 
我们通常使用信息熵来刻画集合的“纯度”，假定当前集合D中第$k$类样本所占比例为$p_k (k=1,2,...,\gamma)$，则集合D的信息熵可定义为
$Ent(D) = -\sum_{k=1}^{\gamma} p_klog_2p_k$
，可以看出，信息熵越大，说明集合D“纯度”越低。

每次选择划分属性时，计算剩余属性中信息熵最小的进行划分
## 2、 决策树算法的实现


In [13]:
import pandas as pd
from sklearn.model_selection import train_test_split

train_data = pd.read_csv("./data/titanic/train.csv")

# 查看数据描述信息
print(train_data.info())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None


筛选上面的信息，可以判断一些信息与乘客是否存活无关，例如 ID、名字。另外一些特征信息不完整，例如 年龄、Cabin。还有一些信息需要转换为数字表示，例如 性别

In [15]:
# 1、丢弃无用数据
train_data.drop(["PassengerId","Name","Ticket","Cabin"],axis=1,inplace=True)

# 2、信息数字化  男1 女0
train_data["Sex"] = (train_data["Sex"]=="male").astype(int)

# 3、填充缺失数据  对空值统一补0
train_data = train_data.fillna(0)

# 4、确定输入输出信息
y = train_data["Survived"]
x = train_data.drop("Survived",axis=1).values

# 5、划分训练测试集
X_train,X_test,Y_train,Y_test = train_test_split(x,y,test_size=0.3)
print("X_train shape",X_train.shape,"X_test shape",X_test.shape)

KeyError: "['PassengerId' 'Name' 'Ticket' 'Cabin'] not found in axis"

In [18]:
from collections import Counter
from math import log2

class TreeNode:
    def __init__(self):
        self.is_leaf = False #是否为叶节点
        self.label = None #如果是叶节点，存储类别标签
        self.split_feature = None #存储分割特征索引
        self.split_value = None #分割特征阈值
        self.left = None #左子树
        self.right = None #右子树

    # 计算信息熵
    def calculate_entropy(self,X,Y):
        label_counts = Count(Y)
        total_samples = len(X)
        entropy = 0.0
        for count in label_counts.values():
            probability = count/total_samples
            entropy -= probability * log2(probability)
        return entropy

    # 计算信息增益
    def 

[[3 0 0.0 0 2 22.3583 'C']
 [3 0 0.0 0 2 15.2458 'C']
 [2 0 24.0 0 0 13.0 'S']
 [3 1 33.0 0 0 7.8958 'S']
 [3 1 22.0 0 0 7.5208 'S']]


## 3、 决策树算法的优缺点

参考：
1、西瓜书
2、
3、https://blog.csdn.net/Mr_Robert/article/details/88924175
