# 信息论基础（熵，联合熵，条件熵，信息增益，基尼不纯度）

## 信息

$I(X=X_i)=-logP(X_i)$,信息量与事件x发生的概率成负相关。信息量是用来衡量事件的不确定性。事件发生的概率越大，不确定性越小，则它所携带的信息量就越小

$I(X=X_i)$表示随机变量X取$X_i$时的信息量，$P(X_i)$表示$X_i$发生的概率

## 信息熵

随机变量Y,取值有n个，分别是$Y_1,Y_2,...,Y_n$,对应的的概率为$P(Y_1),P(Y_2),...,P(Y_n)$,

此时熵的定义$H(Y)=\sum^{n}_{i=1}P(Y_i)I(Y_i)=-\sum^{n}_{i=1}P(Y_i)logP(Y_i)$

信息熵用于衡量随机变量的不确定性；很明显熵计算的是期望。系统越复杂，出现不同情况的种类越多，携带的信息就越多，熵就越大

信息增益是针对某一特征变量X，有X没有X之间信息量的差值。

$H(Y)$：包含所有特征的信息量，$H(Y\mid X)$:不包含特征X的信息量

确定一件事：log底数随意，通常是2

## 联合熵

联合熵度量联合分布的不确定性

$H(X,Y)=-\sum_{x\in X}\sum_{y\in Y}P(x,y)logP(x,y)$

$=-\sum_{x\in X}\sum_{y\in Y}P(x,y)log[P(x)P(y\mid x)]$

$=-\sum_{x\in X}P(x)logP(x)-\sum_{x\in X}\sum_{y\in Y}P(x,y)logP(y\mid x)$

$=H(X)+H(Y\mid X)$

$=H(Y)+H(X\mid Y)$

当X,Y相互独立，$H(X,Y)=H(X)+H(Y)$

## 条件熵

问题1：为什么$H(Y\mid X)$是不包含特征X的信息量？

我们把特征X固定，作为已知条件，X不再变化，等价于不包含特征X

问题2：怎么把特征X固定？

特征X取值${X_1,X_2,...,X_m}$,概率${P(X_1),P(X_2),...,P(X_m)}$，每个$X_i$对应的条件熵都计算，最后以概率为权重求和。

 $H(Y\mid X)=P(X_1)H(Y\mid X_1)+P(X_2)H(Y\mid X_2)+...+P(X_m)H(Y\mid X_m)$

$=\sum^m_{k=1}P(X_k)H(Y\mid X_k)$

$=-\sum^m_{k=1}P(X_k)\sum^{n}_{i=1}P(Y_i\mid X_k)logP(Y_i\mid X_k)$

$=-\sum_{x\in X,y\in Y}P(x,y)logP(y\mid x)$

$H(Y\mid X)=H(X,Y)-H(X)$

$H(Y\mid X)$表示特征X所有值固定后的条件熵，$H(Y\mid X_k)$表示特征$X=X_k$时的条件熵,m表示特征X的取值数量，n表示类别Y的数量


## 信息增益(Information Gain)

信息增益=信息熵-条件熵 

$IG(X)=H(Y)-H(Y\mid X)$

计算出的条件熵相比原先信息熵更小，也就是说，引入新变量后事件的不确定性减小。减小的部分即信息增益。

在分类问题中，已知特征x后类别y的信息熵减小，即更容易确定类别y。因此信息增益大的特征分类能力更强

信息增益比=信息增益/信息熵(对应特征)

小结：

$H(Y)=-\sum^{n}_{i=1}P(Y_i)logP(Y_i)$

$H(Y\mid X)=-\sum^m_{k=1}P(X_k)\sum^{n}_{i=1}P(Y_i\mid X_k)logP(Y_i\mid X_k)$

$IG(X)=H(Y)-H(Y\mid X)$说明：m表示特征X的取值数量，n表示类别Y的数量

## 基尼不纯度

数据集D有个类别变量Y,取值有n个，分别是$Y_1,Y_2,...,Y_n$,对应的的概率为$P_1,P_2,...,P_n$,

$Gini(D)=1-\sum^n_{i=1}P(i)$，$Gini(D)$表示数据集D的基尼不纯度

$Gini(D,A)=\frac{D_1}{D}Gini(D_1)+\frac{D_2}{D}Gini(D_2)$，$Gini(D，A)$表示基于特征A将数据集D分成$D_1,D_2$后的基尼不纯度

## 相对熵

相对熵(KL散度)：衡量两个分布之间的距离。

$D_{KL}(p||q)=\sum p(x)log\frac{p(x)}{q(x)}$

$=\sum p(x)logp(x)-\sum p(x)logp(x)$

$=-H(p)+H_p(q)$，

真实为P,假设为q,$0log\frac{0}{0}=0,0log\frac{0}{q}=0,plog\frac{p}{0}=\infty$,

$p=q$时，$D_{KL}(p||q)=0$,$H_p(q)$表示在p分布下，使用q进行编码需要的bit数;$H(p)$表示对真实分布p所需要的最小编码bit数,KL散度即多出来的编码数

逻辑回归中使用的交叉熵与KL散度之间的关系：$H_p(q)=H(p)+D_{KL}(p||q)$

## 互信息

互信息定义为X，Y的联合分布和各自独立分布乘积的相对熵

$I(X,Y)=\sum_{x,y}p(x,y)log\frac{p(x,y)}{p(x)p(y)}$

$H(Y)-I(X,Y)$

$=-\sum_y \sum_x p(x,y)logp(y)-\sum_{x,y}p(x,y)log\frac{p(x,y)}{p(x)p(y)}$

$=-\sum_{x,y}p(x,y)logp(y)-\sum_{x,y}p(x,y)log\frac{p(x,y)}{p(x)p(y)}$

$=-\sum_{x,y}p(x,y)log\frac{p(x,y)}{p(x)}=H(Y|X)$

互信息好像和信息增益是一个东西？

# 决策树的不同分类算法的原理及应用场景（ID3,C4.5,CART分类树）

## 决策树概述

决策树是一个树结构。每个非叶节点表示某个特征属性，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。

使用决策树进行决策就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。

决策树的本质就是从训练集中归纳出一组分类规则。换句话说，类似于if,else语句 里面判断条件就是对特征属性的测试。return的就是决策结果。

决策树的通用步骤是特征选择、决策树的生成、决策树的修剪。

目的：让各个分裂子集尽可能地“纯”，即让一个分裂子集中待分类项属于同一类别。

分类属性可能的情况

1.属性离散且不要求生成二叉树。此时属性的每个划分作为一个分支。

2.属性离散且要求生成二叉树。此时按照“属于此子集”和“不属于此子集”分成两个分支。

3.属性连续。此时确定一个值作为分裂点split_point，按照>split_point和<=split_point生成两个分支。

## ID3

生成树的基准：信息增益。哪个特征的信息增益大，选择哪个特征生成二叉树

具体过程：

1.根节点开始，计算所有特征的信息增益，选择增益最大的特征作节点

2.根据特征的不同取值建立子节点，再回到1，递归直到没有特征或者结果增益很小

$H(Y)=-\sum^{n}_{i=1}P(Y_i)logP(Y_i)$

$H(Y\mid X)=-\sum^m_{k=1}P(X_k)\sum^{n}_{i=1}P(Y_i\mid X_k)logP(Y_i\mid X_k)$

$IG(X)=H(Y)-H(Y\mid X)$说明：m表示特征X的取值数量，n表示类别Y的数量

分类属性连续：将该属性排序，选择分类点，求分类后的两个集合的期望信息。

期望信息越小，结果越确定。最终选择最小的分裂点，按照>split_point和<=split_point生成两个分支。

适用场合：二分类

## C4.5

ID3算法存在的问题：分裂属性倾向于多值属性，如身份证信息，结果很纯，但是毫无意义

C4.5生成树的基准：信息增益比

信息增益比=信息增益/信息熵(对应特征)

克服ID3算法存在的分裂属性倾向问题,其他过程和ID3算法完全一致。

tips:理想情况下一个分裂子集中待分类项属于同一类别。实际过程中，决策结果如下$(0,0,0,0,1,1)$,以投票原则，该节点输出类别为0.

C4.5适用场合：非离散数据，数据不完整


## CART

CART生成树的基准：Gini 指数

CART全称是分类与回归树，CART不需要对数运算更高效，生成的树必须是二叉树

适用场合：分类问题和回归问题，连续数据


# 回归树原理

https://blog.csdn.net/weixin_40604987/article/details/79296427

算法：

1.选择最优的切分变量J和切分点S,求解

$min_{j,s}[min_{C_1}\sum_{x_i\in R_1(j,s)}(y_i-c_1)^2+min_{C_2}\sum_{x_i\in R_2(j,s)}(y_i-c_2)^2]$

2 用选定的划分区域计算输出值：当$x^{(j)}\le s$为$R_1$,否则为$R_2$,计算域内平均值$\widehat{c}_m$，回到1，直至不再可分

3.输入空间划分为M个区域$R_1,R_2,...,R_M$,生成决策树

$f(x)=\sum^M_{m=1}\widehat{c}_mI(x_i\in R_m)$



选择切分变量J,这里指用于分类的不同特征，假设有m种特征可以拿来分类，如{性别，体重}，现在如果选好了切分变量为体重，所有人的体重必然在一个区间$[w_min,w_max]$。现在选择切分点T。切分点T将区域化为2块，这两块区域分别计算loss,求和。不同T对应不同的loss,找到最小loss对应的切分点。此时区域被划分。但是可能存在新的切分点，能继续分割区域，直至不再可分。上面只是计算了切分变量体重对应的损失，再计算性别的损失，最终谁的loss小，选择对应的切分变量和切分点。

回归树结果：像是分段函数，阶梯型

发展：回归树到提升树（Boosting Decision Tree），再到梯度提升树（Gradient Boosting Decision Tree，GBDT），再进一步可以升级到XGBoost。

# 决策树防止过拟合的手段

过拟合通常表现为决策树深度太深，子节点众多

决策树的损失函数：$C_\alpha(T)=\sum^{|T|}_{t=1}N_tH_t(T)+\alpha|T|$

$|T|$表示叶子节点数量，$N_t$表示第t个叶子节点对应的样本数量，$H_t(T)$表示第t个叶子节点的熵

$\alpha$越大，惩罚越大，树越简单

## 剪枝

按剪枝顺序分为两类

1.在构造过程中，当某个节点满足剪枝条件，则直接停止构造此分支。

2.构造完整的决策树，再通过某些条件遍历树进行剪枝。

这里的某些条件就是剪枝前后泛化能力是否提高，提高就剪了

# 模型评估

决策树适用分类指标：P,R,F1,ROC曲线,使用交叉验证

回归树适合回归指标：MAE，MSE，RMSE，R平方，Adjusted R平方，MAPE，RMSPE

# sklearn参数详解，python绘制决策树

## class sklearn.tree.DecisionTreeClassifier

class sklearn.tree.DecisionTreeClassifier（criterion ='gini'，splitter ='best'，max_depth = None，min_samples_split = 2，min_samples_leaf = 1，min_weight_fraction_leaf = 0.0，max_features = None，random_state = None，max_leaf_nodes = None，min_impurity_decrease = 0.0，min_impurity_split = None，class_weight = None，presort = False ）

criterion：特征选择标准，可选参数，默认是gini

splitter：best是根据算法选择最佳的切分特征。random找局部最优的划分点。

max_depth:树的最大深度。None表示划分到所有叶子结点都是纯的或小于最小样本量

min_samples_split ：节点可以划分的最小样本量 

min_samples_leaf：叶子节点所需的最小样本数。

min_weight_fraction_leaf ：计算权重，默认大家权重一样

max_features ：寻找最佳分割时考虑的特征数量

random_state：随机数种子

max_leaf_node: 最大的叶节点数量

min_impurity_decrease：节点划分最小不纯度，小于该值不再分裂

min_impurity_split：节点的不纯度高于该值，才进行分裂

class_weight：类别权重

presort ：数据是否预排序，默认False,数据量小可以改成True

## apply(X, check_input=True)

输入：X为形如[样本数，特征数]的输入样本，chech_input表示允许绕过多个输入检查。

输出：形如[样本数]，预测样本所在叶子节点的索引值

## decision_path（X，check_input = True ）

输入：X为形如[样本数，特征数]的输入样本，chech_input表示允许绕过多个输入检查。

输出：形如[样本数，节点数]，预测样本所在叶子节点 

## feature_importances_：返回每个特征的重要性

## fit(X, y, sample_weight=None, check_input=True, X_idx_sorted=None)

训练模型

X为形如[样本数，特征数]的输入样本，y形如[样本数]或[样本数，输出]，sample_weight 为样本权重

chech_input表示允许绕过多个输入检查。X_idx_sorted：默认对训练输入样本的索引排序

返回：self : object

## get_param(deep=True)

获取当前模型及子项目的参数

deep布尔值：True,返回参数

返回值：参数名到对应值的映射字符串

## predict(X,check_input=True)

X:形如[样本数，特征数]的数据，chech_input表示允许绕过多个输入检查。
    
返回预测类别或预测值

## predict_log_proba(X)

预测概率值取log

X:形如[样本数，特征数]的数据

返回值T:根据标签排序，返回所有类别预测概率值的log值,形如[样本数，类别数]

## predict_proba(X)

预测概率值

X:形如[样本数，特征数]的数据

返回值T:根据标签排序，返回所有类别预测概率值,形如[样本数，类别数]

## score(X, y, sample_weight=None)

对于多标签分类问题，子集准确率使用哈希尺度，要求每个样本的各个类别都能正确预测

X:形如[样本数，特征数]的测试数据
    
y:形如[样本数，标签数]的数据的真实值
    
样本权重：每个样本有独立的权重

返回平均准确率

## set_params(** params)

设置参数

返回实例

## python绘制决策树

from sklearn.datasets import load_iris 

from sklearn import tree 

iris = load_iris()#加载数据

clf = tree.DecisionTreeClassifier()#初始化模型

clf = clf.fit(iris.data, iris.target)#训练模型

with open("iris.dot", 'w') as f:
    f = tree.export_graphviz(clf, out_file=f)#存储决策树
    
#第一种方法

import os 
os.unlink('iris.dot')

dot_data = tree.export_graphviz(clf, out_file=None)

#第二种方法

import pydotplus

graph = pydotplus.graph_from_dot_data(dot_data)

graph.write_pdf("iris.pdf")

#画图

from IPython.display import Image  

dot_data = tree.export_graphviz(clf, out_file=None, feature_names=iris.feature_names, class_names=iris.target_names,  filled=True,rounded=True,  special_characters=True) 

graph = pydotplus.graph_from_dot_data(dot_data)  

Image(graph.create_png())  

clf.predict(iris.data[:1, :])
#array([0])

clf.predict_proba(iris.data[:1, :])
#array([[ 1.,  0.,  0.]])

#参考链接：https://blog.csdn.net/Yeoman92/article/details/73436632