# 决策树分类
## 熵
> 熵最早来原于物理学. 德国物理学家鲁道夫·克劳修斯首次提出熵的概念，用来表示任何一种能量在空间中分布的均匀程度，能量分布得越均匀，熵就越大

>从微观看，熵就表现了这个系统所处状态的不确定性程度。香农，描述一个信息系统的时候就借用了熵的概念，这里熵表示的是这个信息系统的平均信息量(平均不确定程度)
### 数学定义

一个随机变量取值是离散的，取第i种情况的概率是$P_i$,比如扔硬币，正面朝上的概率是p，方面朝上概率是1-p

定义这个分布的熵是：$H(p)=-\displaystyle\sum_ip_i\ln p_i$

回到硬币的栗子

$H(p)=-p\ln p-(1-p)\ln (1-p)$

$\frac{dH(p)}{dp}=\ln \frac{1-p}{p}=0\Rightarrow p=\frac{1}{2}$

## 联合概率(Joint distribution)
### 定义

对于$(X,Y)二维随机变量，全部可能可以取得的值是有限对或则是无限对,则称$(X,Y)$是离散型随机变量.

设二维离散型随机变量$(X,Y)$所有可能取到的值为$(x_i,y_j),i,j=1,2...,$记$P(X=x_i,Y=y_i)=p_{i,j},i,j=1,2...,$则有概率的定义有

$P_{i,j} \geq 0; \displaystyle \sum_{i=1}^{\infty}\sum_{j=1}^{\infty}p_{i,j}=1$

我们称$(x_i,y_j),i,j=1,2...,$记$P(X=x_i,Y=y_i)=p_{i,j},i,j=1,2...,$是二维离散随机变量$(X,Y)$的分布律，或称随机变量X和Y的联合分布律

计算方法：

$P\{X=i,Y=j\}=P\{Y=j|X=i\}P\{X=i\},i=1,2,3...,j \leq i$

## 边缘概率(marginal distribution)
### 定义

- 提取出任意一个单一随机变量的分布，也就是所谓的边缘分布(marginal distribution)。

对于离散型随机变量，可得X的边缘分布函数：

$F_x(x)=F(x,\infty)=\displaystyle \sum_{x_{x_i} \leq x}\displaystyle \sum_{j= x}^{\infty} p_{i,j}$

由此，我们得出X的分布律为：

$P\{X=x_i\}=\displaystyle \sum_{j=1}^{\infty} p_{i,j},i=1,2,...$

记：$p_i=\displaystyle \sum_{j=1}^{\infty}p_{ij}=P\{X=x_i\},i=1,2,...$

则称$p_i$为$(X,Y)$关于X的边缘分布律

## 条件概率(propotal distribution)

### 定义

设A，B是两个事件，且 $P\left( A \right)>0$, 称

$P(B|A)=\frac{P(AB)}{P(A)}$

为在事件A发生的条件下事件B发生的条件概率。

## 推导条件熵定义公式
![avatar](https://raw.githubusercontent.com/xmj-datawhale/lihongyi-ML/master/img/task6_joint_entropy1.png)
## 联合熵
### 定义

代表X,Y同时发生的不确定性；公式为：$H(X,Y)=-\displaystyle \sum_{x \in X,y \in Y}^{x,y}p(x,y)\ln p(x,y)$这里的X,Y是随机变量的取值集合，从上图理解就是两个大圆的面积

## 条件熵
### 定义

代表在已知一个变量发生的条件下，另一个变量发生所新增的不确定性；公式为：

$H(X|Y)=H(X,Y)-H(X)=-\displaystyle \sum_{x \in X,y \in Y}^{x,y}p(x,y)\ln p(x|y)$这里的X,Y是随机变量的取值集合，
从上图中理解就是两个大圆去掉其中一个大圆所剩下的面积。

最后定义互信息，其中的一个定义就是在已知X发生的条件下，Y不确定性减少的程度，这个定义在ID3算法中也叫信息增益，计算公式可以理解为：

$I(X,Y)=H(Y)-H(Y|X)=H(Y)+H(X)-H(X,Y)$

$=\displaystyle \sum_{x \in X,y \in Y} p(x,y)\ln \frac{p(x,y)}{p(x)p(y)}$这里的X,Y是随机变量的取值集合，从上图理解就是两个大圆相交的面积，所以互信息是对偶的。

## 相对熵 互信息
$I(X,Y)=D(p(x,y)||p(x)p(x))$

KL散度$D(p(x,y)||p(x)p(x))$也叫做相对熵和交叉熵，交叉熵是互信息的第二定义

交叉熵：代表两个概率分布（函数的相似度）

计算公式:$P(p(x)||q(x))=\displaystyle \sum_{x \in X}p(x)\ln \frac{p(x)}{q(x)}=E_{p(x)}\ln \frac{p(x)}{q(x)}$
>最后要解释的是最大熵的思想，最大熵原理指出，需要对一个随机事件的概率分布进行预测是，我们的预测应当满足全部已知的条件，未知的部分概率应该是均匀的，这样预测的风险最小，因为这时的信息熵最大，所以称这种模型为最大熵模型。举一个例子，如果没有任何已知条件下问你投一个骰子，出现5点的概率多大，这时假定所有的点数出现的概率是相等的一定是一种最保险的方法，这就是最大熵模型。

最大熵的目标函数/模型函数：$P_{w}(y|x)=\frac{1}{Z_w(x)}e^{\displaystyle \sum_{i=1}^nw_i f_i(x,y)}$,其中

$Z_w(x)=\displaystyle \sum_{y} e^{\displaystyle \sum_{i=1}^nw_i f_i(x,y)}$


## 互信息
## 交叉熵 loss function

## 最大熵公式推导

参考：https://www.cnblogs.com/arachis/p/entropy.html



In [None]:
import numpy as np
import pandas as pd
from collections import Counter

def calc_ShannonEnt(watermelon_3a):
    watermelon_3a_labels = watermelon_3a[watermelon_3a.columns.values[-1]]
    labels_number = Counter(watermelon_3a_labels)
    watermelon_3a_shannonEnt = 0.0
    watermelon_3a_len = len(watermelon_3a)
    for label in labels_number:
        temp = labelCounts[label] / watermelon_3a_len
        watermelon_3a_shannonEnt -= temp * np.log2(temp)
    return watermelon_3a_shannonEnt

watermelon_3a = pd.read_csv("watermelon_3a.csv")
value = calc_ShannonEnt(watermelon_3a)
print("该数据集的ShannonEnt为:", value)

## 决策树
## CART树
