# 信息论

## 熵与联合熵

In [1]:
# 熵用于对概率分布的随机性程度进行度量, 反映了一组数据所包含的信息量大小

### 信息量与熵

In [2]:
# 概率越低, 信息量越大
# 熵: 计算随机变量在各个值时, 信息量的数学期望
# 随机变量越接近于均匀分布, 他的随机性越大, 熵越大

In [3]:
# 对于连续性随机变量的熵: 微分熵

### 熵的性质

In [4]:
# 熵的取值范围: 0<=H(p)<=Inn
# 正态分布的方差只有方差有关, 与均值无关

### 应用: 决策树

In [6]:
# 如果一个样本集的熵越大, 则说明他里面的样本越纯
# 信息增益(Gain)指标

### 联合熵

In [7]:
# 联合熵是熵对多维概率分布的推广
# 同样只与方差有关, 与均值无关
# 随机变量X和Y相互独立, 则他们的联合熵等于各自边缘分布的熵之和. H(X, Y) = H(X) + H(Y)
# H(X, Y): 多维的概率分布

## 交叉熵

In [2]:
# 描述两个概率分布之间的差异程度, 机器学习有时候就是训练目标使得模型拟合出的概率分布尽量接近于目标概率分布.

### 交叉熵的定义

In [4]:
# 衡量了两个概率分布之间的差异, 其值越大, 两个分布的差异越大
# 两个概率分布相同时, 交叉熵具有最小值, 并且退化成熵

### 交叉熵的性质

In [5]:
# 交叉熵不具有对称性

### 应用: softmax回归

In [None]:
# 交叉熵通常用于构造机器学习的目标函数
# softmax回归是逻辑回归的扩展, 是多分类问题
# softmax变换: 使得输出的k维向量元素之和为1

In [1]:
# 在机器学习中通常已知一个概率分布p, 算法要拟合一个概率分布q, 可以通过最小化二者的交叉熵实现

## KL散度

In [2]:
# 也是度量两个概率分布之间的差异, 通常用于构造目标函数以及对算法进行分析

### KL散度的定义

In [3]:
# KL散度也称为相对熵, 值越大, 说明差异越大; 当两个概率分布完全相等时, KL散度值为0.

In [4]:
# 对交叉熵的改进, 在两个概率分布相同时, KL散度为0

In [5]:
# 伯努利分布, 二维正态分布, 多维正态分布的KL散度

### KL散度的性质

In [6]:
# KL散度的值大于等于0, Gibbs不等式
# 两个概率分布相同是, KL散度有极小值0
# 任意概率分布p的熵不大于p与其他概率分布q的交叉熵

In [7]:
# KL散度具有数学期望的形式, 因此可以使用采样算法来近似计算

### 与交叉熵的关系

In [9]:
# Dkl(p||q) = H(p,q) - H(p)
# KL散度就是交叉熵和熵的差

In [10]:
# 机器学习中的p(x)分布通常是已知的, 需要拟合出一个概率分布q(x)去近似他
## 此时H(p)是不变的, 可以直接使用交叉熵H(p,q)来作为优化目标

### 应用: 流形降维

In [11]:
# 流形
## 举例: 三维空间中的球面是一个二维流形, 给定半径之后其方程可以用两个参数表示.

In [12]:
# 随机近邻嵌入
## 在高维空间中距离很近的点投影到地位空间之后, 仍然保持某种近邻关系

### 应用: 变分推断

In [13]:
# 变分贝叶斯
## 他不依赖于随机数的推断方法

## Jensen-Shannon散度

In [15]:
# JS散度是定义于两个概率分布之上, 根据KL散度构造, 也是描述两个概率分布之间的差异
# 他具有对称性

### JS散度的定义

In [None]:
# JS散度是KL散度的均值
# 当两个概率分布相同时, 他们的JS散度为0

### JS散度的性质

### 应用: 生成对抗网络

In [16]:
# 使用逆变换采样算法, 可以通过简单概率分布随机数进行变换得到目标概率分布的随机数
# 但是在比较复杂随机数据的生成问题中, 这种方法存在问题:
##要生成的概率分布未知; 假设已知,但是x维度很高且服从的概率分布非常复杂

In [None]:
# 可以使用机器学习方法解决数据生成问题, 分布变换函数g通过训练决定

In [17]:
# 使用生成对抗网络可以学习出想要映射函数.

In [18]:
# 主流的深度生成模型: 变分自动编码器, 生成对抗网络

In [19]:
# 生成对抗网络: 生成模型, 判别模型
# 生成模型: 学习真实样本数据的概率分布, 并生成符合这种分布的数据
# 判别模型: 判断一个输入样本数据是真实样本还是由生成模型生成的

In [20]:
# 生成模型是为了最小化判别模型的准确率
# 判别模型是为了最大化判别模型的准确率

In [21]:
# GAN训练时的目标是最小化生成样本的概率分布与真实样本的概率分布的JS散度

## 互信息

In [24]:
# 反映两个随机变量之间的依赖程度, 即相关性程度
# 可用于机器学习中的特征选择以及目标函数的构造

### 互信息的定义

In [25]:
# 互信息反映了联合概率p(x,y)与边缘概率之积p(x)p(y)的差异程度
# 如果互信息的值越小, 那么他们的依赖程度就越小, 趋向于独立

### 互信息的性质

In [26]:
# 如果两个随机变量相互独立, 他们的互信息为0
# 互信息是非负的

In [27]:
# 两个随机变量之间的依赖程度越高, 则互信息值越大, 反之则越小

### 与熵的关系

In [30]:
# H(X, Y) = H(X) + H(Y) - I(X, Y)
# 两个随机变量的联合熵等于他们各自的熵的和减去互信息

In [32]:
# I(X, Y) <= H(X)
# 两个随机变量之间的互信息不大于其中任意一个随机变量的熵

### 应用: 特征选择

In [33]:
# 如果把Y看做样本的类别标签值, X看作样本的特征值, 互信息可以描绘他们之间的相关程度

## 条件熵

### 条件熵定义

In [34]:
# 定义于两个随机变量之间, 用于衡量在已知一个随机变量的取值的条件下, 另外一个随机变量的信息量

In [35]:
# 条件熵: 在给定X的条件下Y的条件概率p的熵H对X的数学期望

### 条件熵的性质

In [37]:
# 当且仅当Y完全由X确定时, H(Y|X)=0. 此时p(y|x)=1
# 如果两个随机变量相互独立时, 那么有H(Y|X) = H(Y), 此时p(y|x) = p(y)

### 与熵以及互信息的关系

In [38]:
# H(Y|X) = H(X, Y) - H(X)
# X对Y的条件熵是他们的联合熵与熵的差值

In [39]:
# I(X,Y) = H(X) - H(X|Y)

## 总结

In [1]:
# 熵和联合熵是最基本的量

In [2]:
# 互信息是联合熵以及各边缘分布的熵决定
# 条件熵是联合熵－边缘分布的熵
# KL散度是交叉熵－熵