逻辑斯蒂回归是必知必会的经典分类方法，最大熵则是概率模型学习的准则之一，推广到分类问题就是最大熵模型。两个模型都是对数线性模型。

* [6.1 逻辑斯蒂回归模型](#6.1-逻辑斯蒂回归模型)
  * [6.1.1 逻辑斯蒂分布](#6.1.1-逻辑斯蒂分布)
  * [6.1.2 二项逻辑斯蒂回归模型](#6.1.2-二项逻辑斯蒂回归模型)
  * [6.1.3 模型参数估计](#6.1.3-模型参数估计)
  * [6.1.4 多项式逻辑斯蒂回归](#6.1.4-多项式逻辑斯蒂回归)
* [6.2 最大熵模型](#6.2-最大熵模型)
  * [6.2.1 最大熵原理](#6.2.1-最大熵原理)
  * [6.2.2 最大熵模型的定义](#6.2.2-最大熵模型的定义)
  * [6.2.3 最大熵模型的学习](#6.2.3-最大熵模型的学习)
  * [6.2.4 极大似然估计](#6.2.4-极大似然估计)
* [6.3 模型学习的最优化方法](#6.3-模型学习的最优化方法)
  * [6.3.1 改进的迭代尺度法](#6.3.1-改进的迭代尺度法)
  * [6.3.2 拟牛顿法](#6.3.2-拟牛顿法)
* [算法实现](#算法实现)
* [习题](#习题)



# 6.1 逻辑斯蒂回归模型

## 6.1.1 逻辑斯蒂分布

逻辑斯蒂分布（logistic distribution）有如下分布函数和密度函数：
$$
\begin{array}{l}{F(x)=P(X \leqslant x)=\frac{1}{1+\mathrm{e}^{-(x-\mu) / \gamma}}} \\ {f(x)=F^{\prime}(x)=\frac{\mathrm{e}^{-(x-\mu) / \gamma}}{\gamma\left(1+\mathrm{e}^{-(x-\mu) / \gamma}\right)^{2}}}\end{array}
$$
$\mu$ 是位置参数，$\gamma$ 是形状参数

分布函数 $F(x)$ 是 S 形曲线（sigmoid curve），并以点 $(\mu, \frac{1}{2})$ 为中心对称，即
$$
F(x+\mu)-\frac{1}{2}= -F(-x+\mu)+\frac{1}{2}
$$
形状参数 $\gamma$ 越小，中心附近增长越快

![](https://raw.githubusercontent.com/LibertyDream/diy_img_host/master/img/2019-09-22_logistics_distribution.png)

## 6.1.2 二项逻辑斯蒂回归模型

二项逻辑斯蒂回归模型（binomial logistic regression model）可以写成如下条件概率分布：
$$
\begin{array}{l}{P(Y=1 | x)=\frac{\exp (w \cdot x)}{1+\exp (w \cdot x)}} \\ {P(Y=0 | x)=\frac{1}{1+\exp (w \cdot x)}}\end{array}
$$
$Y$ 是输出，$w = (w^{(1)},w^{(2)},\ldots,w^{(n)},b)^{T}$，$x = (x^{(1)},x^{(2)},\ldots,x^{(n)},1)^{T}$，$b$ 是偏置

一个事件的几率（odds）是指事件发生概率与不发生概率的比值 $\frac{p}{1-p}$，事件对数几率（log odds）或 logit 函数为
$$
\operatorname{logit}(p)=\log \frac{p}{1-p}
$$
带入逻辑斯蒂概率公式可得
$$
\log \frac{P(Y=1 | x)}{1-P(Y=1 | x)}=w \cdot x
$$
可见逻辑斯蒂回归模型输出 $Y=1$ 的对数几率是输入 $x$ 的线性函数，这也是其称为对数线性模型的原因

另一方面，逻辑斯蒂回归模型可以理解为将 $x$ 的线性函数转换成了概率，函数值越大，概率越接近1，反之，函数值越小，概率越接近 0。

## 6.1.3 模型参数估计

逻辑斯蒂回归模型学习时使用极大似然法进行参数估计。令
$$
P(Y=1|x) = \pi(x),\quad P(Y=0|x)=1 - \pi(x)
$$
可得似然函数
$$
\prod_{i=1}^{N}\left[\pi\left(x_{i}\right)\right]^{y_{i}}\left[1-\pi\left(x_{i}\right)\right]^{1-y_{i}}
$$
进而可得对数似然函数
$$
\begin{aligned} L(w) &=\sum_{i=1}^{N}\left[y_{i} \log \pi\left(x_{i}\right)+\left(1-y_{i}\right) \log \left(1-\pi\left(x_{i}\right)\right)\right] \\ &=\sum_{i=1}^{N}\left[y_{i} \log \frac{\pi\left(x_{i}\right)}{1-\pi\left(x_{i}\right)}+\log \left(1-\pi\left(x_{i}\right)\right)\right] \\ &=\sum_{i=1}^{N}\left[y_{i}\left(w \cdot x_{i}\right)-\log \left(1+\exp \left(w \cdot x_{i}\right)\right]\right.\end{aligned}
$$
转换成为关于求解 $L(w)$ 最大值的最优化问题，通过梯度下降或者牛顿法得到参数估计值 $\hat{w}$

### 梯度求解

$$
\begin{aligned} p^{\prime}=f^{\prime}(\boldsymbol{w}) &=\left(\frac{1}{1+e^{-w^{T} \boldsymbol{x}}}\right)^{\prime} \\ &=-\frac{1}{\left(1+e^{-w^{T} \boldsymbol{x}}\right)^{2}} \cdot\left(1+e^{-\boldsymbol{w}^{T} \boldsymbol{x}}\right)^{\prime} \\ &=-\frac{1}{\left(1+e^{-\boldsymbol{w}^{T} \boldsymbol{x}}\right)^{2}} \cdot e^{-\boldsymbol{w}^{T} \boldsymbol{x}} \cdot\left(-\boldsymbol{w}^{T} \boldsymbol{x}\right)^{\prime} \\ &=-\frac{1}{\left(1+e^{-w^{T} \boldsymbol{x}}\right)^{2}} \cdot e^{-\boldsymbol{w}^{T} \boldsymbol{x}} \cdot(-\boldsymbol{x}) \\ 
&=\frac{1}{1+e^{-w^{T} \boldsymbol{x}}} \cdot \frac{e^{-\boldsymbol{w}^{T} \boldsymbol{x}}}{1+e^{-w^{T} \boldsymbol{x}}} \cdot \boldsymbol{x} 
\\&=\frac{1}{1+e^{-w^{T} \boldsymbol{x}}} \cdot\left(1- \frac{1}{1+e^{-w^{T} \boldsymbol{x}}}\right) \cdot \boldsymbol{x} 
\\ &=p(1-p) \boldsymbol{x} 
\end{aligned}
$$

由此可知，$(1-p)^{\prime} = -p(1-p)\boldsymbol{x} $
$$
\begin{aligned} \nabla F(\boldsymbol{w}) &=\nabla\left(\sum_{n=1}^{N}\left(y_{n} l n(p)+\left(1-y_{n}\right) \ln (1-p)\right)\right) \\ &=\sum_{n=1}^{N}\left(y_{n} \ln ^{\prime}(p)+\left(1-y_{n}\right) \ln ^{\prime}(1-p)\right) \\ &=\sum_{n=1}^{N}\left(\left(y_{n} \frac{1}{p} p^{\prime}\right)+\left(1-y_{n}\right) \frac{1}{1-p}(1-p)^{\prime}\right) \\ &=\sum_{n=1}^{N}\left(y_{n}(1-p) \boldsymbol{x}_{n}-\left(1-y_{n}\right) p \boldsymbol{x}_{n}\right) \\ &=\sum_{n=1}^{N}\left(y_{n}-p\right) \boldsymbol{x}_{n} \end{aligned}
$$

## 6.1.4 多项式逻辑斯蒂回归

多项式逻辑斯蒂回归（multi-nominal logistic regression method）用于多分类任务。参数估计方法和二项逻辑斯蒂回归相同。
$$
P(Y=k | x)=\frac{\exp \left(w_{k} \cdot x\right)}{1+\sum_{k=1}^{K-1} \exp \left(w_{k} \cdot x\right)}\\
P(Y=K | x)=\frac{1}{1+\sum_{k=1}^{K-1} \exp \left(w_{k} \cdot x\right)}
$$

# 6.2 最大熵模型

## 6.2.1 最大熵原理

最大熵模型（maximum entropy model）是由最大熵原理推导得到的。最大熵原理是概率模型的学习准则之一，认为在给定约束条件下的所有可能模型中，熵最大的模型是最好的模型。

随机变量 $X$ 的熵表示为 $H(P)=-\sum_{x} P(x) \log P(x)$。熵都满足不等式：
$$
0 \leqslant H(P) \leqslant \log |X|
$$
$|X|$ 表示 $X$ 的取值个数，当且仅当 $X$ 服从均匀分布，各个取值机会均等的时候，右边等号成立，熵最大。

另一个角度看，概率模型都要满足既有事实，也就是约束条件。在没有更多信息补充时，默认那些不确定的部分是等可能的是比较稳妥的选择。最大熵原理通过熵的最大化表示等可能性。

## 6.2.2 最大熵模型的定义

最大熵原理是统计学习的一般原理，应用到分类任务上就得到了最大熵模型。

首先思考一下模型的约束条件。给定数据集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}$，我们可以得到经验分布 
$$
\begin{array}{l}{\tilde{P}(X=x, Y=y)=\frac{\nu(X=x, Y=y)}{N}} \\ {\tilde{P}(X=x)=\frac{\nu(X=x)}{N}}\end{array}
$$
$v(x)$ 表示样本中 $x$ 出现的频次。我们要的是模型预测的结果和事实相符，也就是对于样本数据模型预测的期望值 $E_{\tilde{P}}(f)$ 和我们直观观测到的期望值 $E_{P}(f)$ 应该相同。
$$
E_{\tilde{P}}(f)=\sum_{x, y} \tilde{P}(x, y) f(x, y) \\
E_{P}(f)=\sum_{x, y} \tilde{P}(x) P(y | x) f(x, y)
$$
其中 $f(x,y)$ 是特征函数（feature function）
$$
f(x, y)=\left\{\begin{array}{ll}{1,} & x 与 y满足某一事实 \\ {0,} & 否则\end{array}\right.
$$
所以两个期望相同就是约束条件。最大熵模型就可以表示成，在满足所有约束条件的模型集合 $\mathcal{C}$ 里
$$
\mathcal{C} \equiv\left\{P \in \mathcal{P} | E_{P}\left(f_{i}\right)=E_{\tilde{P}}\left(f_{i}\right), \quad i=1,2, \cdots, n\right\}
$$
选择条件熵 $H(P)$ 最大的模型
$$
H(P)=-\sum_{x, y} \tilde{P}(x) P(y | x) \log P(y | x)
$$
其中对数为自然对数

## 6.2.3 最大熵模型的学习

最大熵模型的学习等价于约束最优化问题：
$$
\begin{array}{ll}{\max _{P \in \mathbb{C}}} & {H(P)=-\sum_{x, y} \tilde{P}(x) P(y | x) \log P(y | x)} \\ {\text { s.t. }} & {E_{P}\left(f_{i}\right)=E_{\tilde{P}}\left(f_{i}\right), \quad i=1,2, \cdots, n} \\ {} & {\sum_{y} P(y | x)=1}\end{array}
$$
改成就最小值的形式：
$$
\begin{array}{ll}{\min _{P \in \mathbb{C}}} & {-H(P)=\sum_{x, y} \tilde{P}(x) P(y | x) \log P(y | x)} \\ {\text { s.t. }} & {E_{P}\left(f_{i}\right)-E_{\tilde{P}}\left(f_{i}\right)=0, \quad i=1,2, \cdots, n} \\ {} & {\sum_{y} P(y | x)=1}\end{array}
$$
等式约束下的最优化问题使用拉格朗日乘数法，引入拉格朗日乘子 $w_{0},w_{1},\ldots,w_{n}$，得到拉格朗日函数 $L(P,w)$
$$
\begin{aligned} L(P, w) \equiv &-H(P)+w_{0}\left(1-\sum_{y} P(y | x)\right)+\sum_{i=1}^{n} w_{i}\left(E_{\tilde{P}}\left(f_{i}\right)-E_{P}\left(f_{i}\right)\right) \\=& \sum_{x, y} \tilde{P}(x) P(y | x) \log P(y | x)+w_{0}\left(1-\sum_{y} P(y | x)\right)+\\ & \sum_{i=1}^{n} w_{i}\left(\sum_{x, y} \tilde{P}(x, y) f_{i}(x, y)-\sum_{x, y} \tilde{P}(x) P(y | x) f_{i}(x, y)\right) \end{aligned}
$$
原始最优化问题 $\min _{P \in \mathbf{C}} \max _{w} L(P, w)$ 的对偶问题是 $\max _{\boldsymbol{w}} \min _{P \in \mathbf{C}} L(P, w)$。因为函数 $L(P,w)$ 是 $P(y|x)$ 的凸函数，所以原始问题和对偶问题的解是等价的。

先求内部最小化问题，令 $\Psi(w)=\min _{P \in \mathbf{C}} L(P, w)=L\left(P_{w}, w\right)$ ，$\Psi(w)$ 称为对偶函数。 $L(P,w)$ 对 $P(y|x)$ 求偏导得
$$
\frac{\partial L(P, w)}{\partial P(y | x)} =\sum_{x, y} \tilde{P}(x)(\log P(y | x)+1)-\sum_{y} w_{0}-\sum_{x, y}\left(\tilde{P}(x) \sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)
$$
因为$\sum_{x} \tilde{P}(x) = 1$ ，所以
$$
\begin{aligned} \frac{\partial L(P, w)}{\partial P(y | x)} &=\sum_{x, y} \tilde{P}(x)(\log P(y | x)+1)-\sum_{x} \tilde{P}(x) \sum_{y} w_{0}-\sum_{x, y}\left(\tilde{P}(x) \sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)\\
&=\sum_{x, y} \tilde{P}(x)\left(\log P(y | x)+1-w_{0}-\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right) 
\end{aligned}
$$
令偏导数等于 0，当 $\tilde{P}(x)>0$，解得
$$
P(y | x)=\exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)+w_{0}-1\right)=\frac{\exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)}{\exp \left(1-w_{0}\right)}
$$
又因为 $\sum_{y} P(y | x)=1$，所以
$$
\sum_{y} P(y | x)=\sum_{y}\frac{\exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)}{\exp \left(1-w_{0}\right)} = 1 \\
\frac{\sum_{y}\exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)}{\exp \left(1-w_{0}\right)} = 1
$$
得到 $\exp(1-w_{0}) =\sum_{y}\exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)$ 带入 $P(y|x)$ 的解中，得到最优解
$$
P_{w}=\arg \min _{P \in \mathbf{C}} L(P, w)=P_{w}(y | x)= \frac{\exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)}{\sum_{y}\exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)}
$$
其中 $w_{i}$ 是权重，$f_{i}(x,y)$ 是特征函数，$ Z_{w}(x) = \sum_{y}\exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)$ 叫做规范化因子。

随后求解外部的最大化问题 $\max _{w} \Psi(w)$，$w$ 是参数向量。解得  $w^{*}=\arg \max _{w} \Psi(w)$。所以此时，最大熵模型的学习变成了对偶函数 $\Psi(w)$ 的极大化问题。

## 6.2.4 极大似然估计

证明：对偶函数的极大化等价于最大熵模型的极大似然估计

在经验概率分布$\tilde{P}(X,Y)$ 上，条件概率分布 $P(Y|X)$ 的极大似然函数 $L_{1}$ 为
$$
L_{1}=\prod_{i=1}^{n} P\left(y_{i} | x_{i}\right)=P\left(y_{1} | x_{1}\right) \cdots P\left(y_{n} | x_{n}\right)
$$
$n$ 个样例里难免会有相同样例$(x^{i},y^{j})$，于是 $L_{1}$ 可以写为
$$
{L_{1}=P\left(y^{1} | x^{1}\right)^{v\left(x^{1}, y^{1}\right)} \cdots P\left(y^{r} | x^{m}\right)^{v\left(x^{m}, y^{r}\right)}}=\prod_{y, x} P(y | x)^{v(x, y)}
$$
$v$ 表示共现数量，而此时 $L_1$ 的极大化等价于下式极大化
$$
L_{2}=\prod_{y, x} P(y | x)^{\frac{v(x, y)}{N}}=\prod_{y, x} P(y | x)^{\tilde{P}(x, y)}
$$
当条件概率分布为上面所求的最大熵模型 $P_{w}$ 时，带入 $L_2$ 并求对数，得到对数似然函数 $L_{\tilde{P}}(P_{w})$
$$
\begin{aligned} L_{\tilde{P}}\left(P_{w}\right)&=\log \prod_{x, y} P(y | x)^{\tilde{P}(x, y)}=\sum_{x, y} \tilde{P}(x, y) \log P(y | x)\\ &=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} w_{i} f_{i}(x, y)-\sum_{x, y} \tilde{P}(x, y) \log Z_{w}(x) \\ 
&=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} w_{i} f_{i}(x, y)-\sum_{x} \log Z_{w}(x)\sum_{y}\tilde{P}(x, y) \\
&=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} w_{i} f_{i}(x, y)-\sum_{x} \tilde{P}(x) \log Z_{w}(x) \end{aligned}
$$
再看对偶函数 $\Psi(w)=L\left(P_{w}, w\right)$
$$
\begin{aligned}\Psi(w)&=\sum_{x, y} \tilde{P}(x) P_{w}(y | x) \log P_{w}(y | x)+\sum_{i=1}^{n} w_{i}\left(\sum_{x, y} \tilde{P}(x, y) f_{i}(x, y)-\sum_{x, y} \tilde{P}(x) P_{w}(y | x) f_{i}(x, y)\right) \\ &=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} w_{i} f_{i}(x, y)+\sum_{x, y} \tilde{P}(x) P_{w}(y | x)\left(\log P_{w}(y | x)-\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right) \\ &=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} w_{i} f_{i}(x, y)-\sum_{x, y} \tilde{P}(x) P_{w}(y | x) \log Z_{w}(x)\\
&=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} w_{i} f_{i}(x, y)-\sum_{x} \tilde{P}(x) \log Z_{w}(x)\sum_{y}P_{w}(y | x) \\
&=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} w_{i} f_{i}(x, y)-\sum_{x} \tilde{P}(x) \log Z_{w}(x)
\end{aligned}
$$
可见 $\Psi(w)=L_{\tilde{P}}\left(P_{w}\right)$，于是最大熵模型学习中对偶函数的极大化等价于最大熵模型的极大似然估计

### 最大熵模型与逻辑斯蒂模型的关系

当分类任务为二分类 $Y=\{y_1,y_2\}$，且特征函数为
$$
f_{i}(\mathbf{x}, y)=\left\{\begin{array}{ll}{x_{i},} & {\text { if } y=y_{1}} \\ {0,} & 其他\end{array}\right.
$$
有
$$
P\left(y_{1} | \mathbf{x}\right)=\frac{e^{\sum_{i=1}^{n} w_{i} x_{i}}}{1+e^{\sum_{i=1}^{n} w_{i} x_{i}}}=\frac{e^{\mathbf{w}^{T} \mathbf{x}}}{1+e^{\mathbf{w}^{T} \mathbf{x}}} \\
P\left(y_{0} | \mathbf{x}\right)=\frac{1}{1+e^{\mathbf{w}^{T} \mathbf{x}}}
$$
此时最大熵模型退化成为逻辑斯蒂回归模型

# 6.3 模型学习的最优化方法

逻辑斯蒂回归和最大熵模型都可以归结为似然函数为目标函数的最优化问题，且目标函数还是凸函数。所以优化方法有很多，常用的有改良迭代尺度法，梯度下降法，牛顿法或拟牛顿法。后两者收敛更快些（二阶导）

## 6.3.1 改进的迭代尺度法

改进的迭代尺度法（improved iterative scaling, IIS）是一种求解最大熵模型的最优化算法。因为要极大化似然函数，该算法思想是，如果能找到一种更新参数向量 $w$ 的方法 $\tau : w \rightarrow w+\delta$，因为加了 $\delta$ 使得似然函数变大，那么不断重复这个过程就能找到似然函数的最大值。

对数似然函数变大可以表示为增量 $L(w+\delta)-L(w) > 0$，具体的
$$
\begin{aligned} L(w+\delta)-L(w) &=\sum_{x, y} \tilde{P}(x, y) \log P_{w+\delta}(y | x)-\sum_{x, y} \tilde{P}(x, y) \log P_{w}(y | x) \\ &=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} \delta_{i} f_{i}(x, y)-\sum_{x} \tilde{P}(x) \log \frac{Z_{w+\delta}(x)}{Z_{w}(x)} \end{aligned}
$$
其中$P_w(y|x)$是最大熵模型，$Z_{w}(x)$ 是规范化因子 
$$
P_{w}(y | x)=\frac{\exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)}{\sum_{y}\exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)}=\frac{\exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)}{Z_{w}(x)}
$$
利用不等式 $-\log \alpha \geqslant 1- \alpha,\alpha > 0$，可得
$$
\begin{aligned} L(w+\delta)-L(w) & \geqslant \sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} \delta_{i} f_{i}(x, y)+1-\sum_{x} \tilde{P}(x) \frac{Z_{w+\delta}(x)}{Z_{w}(x)} \\ &=\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} \delta_{i} f_{i}(x, y)+1-\sum_{x} \tilde{P}(x) \sum_{y} P_{w}(y | x) \exp \sum_{i=1}^{n} \delta_{i} f_{i}(x, y) \end{aligned}
$$
这样就得到了增量下界 $A(\delta|w)$，如果下界越大，似然函数也就越大，但不等式右边的 $\delta$ 是向量，变量太多。所以 IIS 试图只优化一个变量 $\delta_i$，其他变量不动，获取一个更低但好计算的下界

引入 $f^\#(x,y) = \sum_i f_i(x,y)$，表示所有特征为$(x,y)$的样本数。这样
$$
\begin{aligned} A(\delta | w)=& \sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} \delta_{i} f_{i}(x, y)+1-\sum_{x} \tilde{P}(x) \sum_{y} P_{w}(y | x) \exp \left(f^{\#}(x, y) \sum_{i=1}^{n} \frac{\delta_{i} f_{i}(x, y)}{f^{\#}(x, y)}\right) \end{aligned}
$$

### Jensen 不等式

过一个凸函数上任意两点所作割线一定在这两点间的函数图象的上方，即
$$
t f\left(x_{1}\right)+(1-t) f\left(x_{2}\right) \geqslant f\left(t x_{1}+(1-t) x_{2}\right), 0 \leqslant t \leqslant 1
$$
泛化形式为，对点集 $\{x_i\}$，如果 $\lambda_i \geqslant 0,\sum_i \lambda_i = 1$，则有 $f\left(\sum_{i=1}^{M} \lambda_{i} x_{i}\right) \leqslant \sum_{i=1}^{M} \lambda_{i} f\left(x_{i}\right)$

将 $\lambda$ 视作概率分布的话，那么就可以写做 $f(E[x]) \leqslant E[f(x)]$

而指数函数是凸函数，同时 $\frac{f_{i}(x, y)}{f^{\#}(x, y)} \geqslant 0$， $\sum_{i=1}^{n} \frac{f_{i}(x, y)}{f^{\#}(x, y)}=1$。所以
$$
A(\delta | w) \geqslant \sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} \delta_{i} f_{i}(x, y)+1-\sum_{x} \tilde{P}(x) \sum_{y} P_{w}(y | x) \sum_{i=1}^{n}\left(\frac{f_{i}(x, y)}{f^{\#}(x, y)}\right) \exp \left(\delta_{i} f^{\#}(x, y)\right) 
$$
这样就得到了新的下界，记不等式右端为 $B(\delta|w)$，对 $\delta_i$ 求偏导得
$$
\frac{\partial B(\delta | w)}{\partial \delta_{i}}=\sum_{x, y} \tilde{P}(x, y) f_{i}(x, y)-\sum_{x} \tilde{P}(x) \sum_{y} P_{w}(y | x) f_{i}(x, y) \exp \left(\delta_{i} f^{\#}(x, y)\right)
$$
令导数为 0 ，得到只关于 $\delta_i$ 的方程
$$
\sum_{x, y} \tilde{P}(x) P_{w}(y | x) f_{i}(x, y) \exp \left(\delta_{i} f^{\#}(x, y)\right)=E_{\tilde{P}}\left(f_{i}\right)\tag{1}
$$
这样我们就可以计算 $\delta$ ，更新 $w$ 了。到此，改进的迭代尺度算法（IIS）可以描述如下：

1. 初始化 $w_i = 0$，$i \in \{1,2,\ldots,n\}$
2. 通过（1）式计算 $\delta_i$，更新 $w_{i} \leftarrow w_{i}+\delta_{i}$
3. 如果不是所有的 $w_i$ 都收敛，重复第二步

当 $f^{\#}(x, y)=M$，$\delta_i$ 可表示为 $\delta_{i}=\frac{1}{M} \log \frac{E_{\tilde{P}}\left(f_{i}\right)}{E_{P}\left(f_{i}\right)}$

当 $f^{\#}(x, y)$ 不是常数，用$g(\delta_i)=0$ 表示公式（1），使用牛顿法迭代求解得到 $g(\delta^*)=0$，迭代公式为
$$
\delta_{i}^{(k+1)}=\delta_{i}^{(k)}-\frac{g\left(\delta_{i}^{(k)}\right)}{g^{\prime}\left(\delta_{i}^{(k)}\right)}
$$

## 6.3.2 拟牛顿法

牛顿法和拟牛顿法都是求解无约束最优化问题的方法，有收敛速度快的特点。牛顿法是迭代算法，每一步要求解目标函数的海森矩阵的逆矩阵，计算较为复杂，拟牛顿法通过正定矩阵近似海森矩阵（BFGS）或其逆矩阵（DFP)，简化了这一过程

具体的对于二阶连续可导的$f(x)$，迭代第 $k$ 次的值记为 $x^{(k)}$，在该点附近二阶泰勒展开
$$
f(x)=f\left(x^{(k)}\right)+g_{k}^{\mathrm{T}}\left(x-x^{(k)}\right)+\frac{1}{2}\left(x-x^{(k)}\right)^{\mathrm{T}} H\left(x^{(k)}\right)\left(x-x^{(k)}\right)
$$
这里 $g_{k}=g\left(x^{(k)}\right)=\nabla f\left(x^{(k)}\right)$ 是梯度向量，$H$为海森矩阵（Hessian matrix）
$$
H(x)=\left[\frac{\partial^{2} f}{\partial x_{i} \partial x_{j}}\right]_{n \times n}
$$

$$
\nabla f(x)=g_{k}+H_{k}\left(x-x^{(k)}\right)\tag{1}
$$

其中 $H_k=H(x^{(k)})$。极值存在的必要条件是极值点梯度为0，即 $\nabla f(x)=0$，假设 $x^{(k+1)}$ 满足  $\nabla f(x^{(k+1)})=0$,即
$$
g_{k}+H_{k}\left(x^{(k+1)}-x^{(k)}\right)=0
$$
可得
$$
x^{(k+1)}=x^{(k)}-H_{k}^{-1} g_{k}
$$
这就是牛顿法的更新公式。我们采用BFGS算法，尝试用正定矩阵 $B_k$ 逼近矩阵 $H$，我们在式(1)中取$x=x^{(k+1)}$，得
$$
g_{k+1}-g_{k}=H_{k}\left(x^{(k+1)}-x^{(k)}\right)
$$
记 $y_{k}=g_{k+1}-g_{k},\delta_{k}=x^{(k+1)}-x^{(k)}$，得到 $y_k=H_k\delta_k$，这称为拟牛顿条件，因为要用 $B_k$ 逼近 $H$，所以得到了BFGS算法下的拟牛顿条件
$$
B_{k+1} \delta_{k}=y_{k}
$$
这样每次迭代中就是更新矩阵 $B_{k+1} = B_k + \Delta B_{k}$，具体有多种实现，这里选用 Broyden 类拟牛顿法，该方法假设
$$
\begin{array}{c}{B_{k+1}=B_{k}+P_{k}+Q_{k}} \\ {B_{k+1} \delta_{k}=B_{k} \delta_{k}+P_{k} \delta_{k}+Q_{k} \delta_{k}}\end{array}
$$
$P_{k},Q_{k}$ 是待定矩阵。考虑要满足拟牛顿条件，可使
$$
\begin{array}{c}{P_{k} \delta_{k}=y_{k}} \\ {Q_{k} \delta_{k}=-B_{k} \delta_{k}}\end{array}
$$
这样就得到了BFGS算法的迭代公式
$$
B_{k+1}=B_{k}+\frac{y_{k} y_{k}^{\mathrm{T}}}{y_{k}^{\mathrm{T}} \delta_{k}}-\frac{B_{k} \delta_{k} \delta_{k}^{\mathrm{T}} B_{k}}{\delta_{k}^{\mathrm{T}} B_{k} \delta_{k}}
$$
其中为了确保右侧是方阵，先右乘 $y_k^T$，$(B_{k} \delta_{k})^T$，$B_k$是对称正定矩阵，转置保持不变

对于最大熵模型，目标函数为
$$
\min _{w \in \mathbb{R}^{n}} f(w)=\sum_{x} \tilde{P}(x) \log \sum_{y} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)-\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} w_{i} f_{i}(x, y)
$$
梯度
$$
g(w)=\left(\frac{\partial f(w)}{\partial w_{1}}, \frac{\partial f(w)}{\partial w_{2}}, \cdots, \frac{\partial f(w)}{\partial w_{n}}\right)^{\mathrm{T}}\\
\frac{\partial f(w)}{\partial w_{i}}=\sum_{x, y} \tilde{P}(x) P_{w}(y | x) f_{i}(x, y)-E_{\tilde{P}}\left(f_{i}\right), \quad i=1,2, \cdots, n
$$
BFGS算法描述如下：

1. 选定初始点 $w^{(0)}$，取正定对称矩阵 $B_0$，$k=0$
2. 计算 $g_k = g(w^{(k)})$，如果$\left\|g_{k}\right\|<\varepsilon$ ，停止计算，得到 $w^* = w^{(k)}$，否则转3
3. 由$B_{k} p_{k}=-g_{k}$，求得$p_k$
4. 一维搜索，找到 $\lambda_k$ 使得 $f\left(w^{(k)}+\lambda_{k} p_{k}\right)=\min _{\lambda \geqslant 0} f\left(w^{(k)}+\lambda p_{k}\right)$
5. 更新 $w^{(k+1)}=w^{(k)}+\lambda_{k} p_{k}$
6. 计算 $g_{k+1} = g(w^{(k+1)})$，如果 $\left\|g_{k+1}\right\|<\varepsilon$，停止计算，得 $w^* = w^{(k+1)}$，否则求解 $B_{k+1}$
7. 更新 $k = k + 1$，转3

# 算法实现

**导入相关库**

In [1]:
import math
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

**硬件与版本信息**

In [2]:
%load_ext watermark
%watermark -v -m -p ipywidgets,matplotlib,numpy,pandas,sklearn

CPython 3.7.3
IPython 7.6.1

ipywidgets 7.5.0
matplotlib 3.1.0
numpy 1.16.4
pandas 0.24.2
sklearn 0.21.2

compiler   : MSC v.1915 64 bit (AMD64)
system     : Windows
release    : 10
machine    : AMD64
processor  : Intel64 Family 6 Model 60 Stepping 3, GenuineIntel
CPU cores  : 4
interpreter: 64bit


**逻辑回归**

使用梯度下降法进行似然估计，转换成标准最优化形式就是求 $\min -L(\boldsymbol{w})$，求导并取负梯度为更新方向，即 $(\boldsymbol{y}-\boldsymbol{p})\cdot \boldsymbol{x}$

In [3]:
class LogisticRegression_():
        
    def __init__(self, learning_rate = 0.001):
        self.param = None
        self.learning_rate = learning_rate
        
    def __sigmoid(self, x):
        return 1 / (1 + np.exp(-x))
    
    def _init_param(self, X):
        num_features = np.shape(X)[1]
        limit = 1 / math.sqrt(num_features)
        self.param = np.random.uniform(-limit, limit, (num_features,))
        
    def fit(self, X_train, y_train, iterations = 200):
        self._init_param(X_train)
        for i in range(iterations):
            y_pred = self.__sigmoid(X_train.dot(self.param))
            self.param -= self.learning_rate * (y_train - y_pred).dot(X_train)
    
    def predict(self, X_test):
        y_pred = np.round(self.__sigmoid(X_test.dot(self.param))).astype(int)
        return y_pred

**最大熵模型**

这里采用通用迭代尺度法（Generalized Iterative Scaling，GIS）作为最优化方法，GIS 可以概括为这样几个步骤：

1. 假定第零次迭代的初始模型为等概率均匀分布
2. 用第N次迭代的模型估算每种特征在训练集中的分布。超过实际值调小模型参数，反之，调大
3. 重复步骤2直到收敛

具体的，更新公式为

$$
w_{i}^{(t+1)}=w_{i}^{(t)}+\frac{1}{C} \log \frac{E_{\hat{p}}\left(f_{i}\right)}{E_{p^{(n)}}\left(f_{i}\right)}, i \in\{1,2, \ldots, n\}
$$

其中$\frac{1}{C}$类似于学习率，$C=\max _{x, y} \sum_{i=1}^{n} f_{i}(x, y)$，代表包含特征最多的样本所含有的特征数

GIS 迭代时间长，且不稳定，64位计算机上都可能溢出，这里只用于理解最大熵模型的内在运行机制

In [4]:
from copy import deepcopy

class MaxEntropy(object):
    '''
        基于 GIS 的最大熵模型
    
    _samples:
        样本集
    _Y:
        标签种类集合
    _numXY:
        记录(x,y)出现次数的字典
    _N: 
        样本数
    _Ep_:
        经验估计的期望
    _xyID:
        记录(x,y)索引号的字典
    _n:
        不同(x,y)共现对的个数
    _C:
        样本中特征数最多的样本所含有的特征数
    _IDxy:
        与_xyID相反，通过索引找(x,y)
    _w:
        本轮训练的权重
    _epsilon:
        收敛条件
    _lastw:
        上一轮的权重
    '''
    
    def __init__(self, epsilon=0.01):
        self._samples = []
        self._Y = set()
        self._numXY = {}
        self._N = 0
        self._Ep_ = []
        self._xyID = {}
        self._n = 0
        self._C = 0
        self._IDxy = {}
        self._w = []
        self._epsilon = epsilon
        self._lastw = []
        
    def fit(self, dataset):
        self._samples = deepcopy(dataset)
        for items in self._samples:
            y = items[0]
            X = items[1:]
            self._Y.add(y) # np.unique(y)
            for x in X:
                if (x, y) in self._numXY:
                    self._numXY[(x, y)] += 1
                else:
                    self._numXY[(x, y)] = 1

        self._N = len(self._samples)
        self._n = len(self._numXY)
        self._C = max([len(sample) - 1 for sample in self._samples])
        self._w = [0] * self._n
        self._lastw = self._w[:]

        self._Ep_ = [0] * self._n
        for i, xy in enumerate(self._numXY):
            self._Ep_[i] = self._numXY[xy] / self._N
            self._xyID[xy] = i
            self._IDxy[i] = xy
    
    def _Zx(self, X): 
        '''计算规范化因子 Z(x)'''
        zx = 0
        for y in self._Y:
            ss = 0
            for x in X:
                if (x, y) in self._numXY:
                    ss += self._w[self._xyID[(x, y)]]
            zx += math.exp(ss)
        return zx
    
    def _model_pyx(self, y, X):
        '''计算条件概率 p(y|x)'''
        zx = self._Zx(X)
        ss = 0
        for x in X:
            if (x, y) in self._numXY:
                ss += self._w[self._xyID[(x, y)]]
        pyx = math.exp(ss) / zx
        return pyx
    
    def _model_ep(self, index):
        '''计算模型期望'''
        x, y = self._IDxy[index]
        ep = 0
        for sample in self._samples:
            if x not in sample:
                continue
            pyx = self._model_pyx(y, sample)
            ep += pyx / self._N
        return ep
    
    def _convergence(self): 
        '''判断是否全部收敛'''
        for last, now in zip(self._lastw, self._w):
            if abs(last - now) >= self._epsilon:
                return False
        return True
    
    def predict(self, X):
        Z = self._Zx(X)
        result = {}
        for y in self._Y:
            ss = 0
            for x in X:
                if (x, y) in self._numXY:
                    ss += self._w[self._xyID[(x, y)]]
            pyx = math.exp(ss) / Z
            result[y] = pyx
        return result
    
    def train(self, maxiter=400):
        for loop in range(maxiter):
            self._lastw = self._w[:]
            for i in range(self._n):
                ep = self._model_ep(i)
                self._w[i] += math.log(self._Ep_[i] / ep) / self._C
            if self._convergence():
                break
        print('Done')

**模型测试**

- 准备数据

In [5]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

In [6]:
def create_data():
    iris = load_iris();
    df = pd.DataFrame(iris.data, columns=iris.feature_names)
    df['label'] = iris.target
    df.columns = ['sepal length', 'sepal width', 'petal length', 'petal width', 'label']
    dataset = df.loc[(df['label'] == 0) | (df['label'] == 1),:]
    X = dataset.loc[:,'sepal length':'sepal width']
    y = dataset['label']
    return np.array(X), np.array(y)

In [7]:
X, y = create_data()
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3)

- 分类检验

逻辑回归

In [8]:
lr = LogisticRegression_()
lr.fit(X_train, y_train)

In [9]:
lr.predict(X_test)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0])

In [10]:
lr.param

array([-42.04810122, -19.53306557])

In [11]:
y_test

array([1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0,
       0, 1, 1, 1, 0, 0, 1, 0])

最大熵模型

In [12]:
dataset = [['no', 'sunny', 'hot', 'high', 'FALSE'],
           ['no', 'sunny', 'hot', 'high', 'TRUE'],
           ['yes', 'overcast', 'hot', 'high', 'FALSE'],
           ['yes', 'rainy', 'mild', 'high', 'FALSE'],
           ['yes', 'rainy', 'cool', 'normal', 'FALSE'],
           ['no', 'rainy', 'cool', 'normal', 'TRUE'],
           ['yes', 'overcast', 'cool', 'normal', 'TRUE'],
           ['no', 'sunny', 'mild', 'high', 'FALSE'],
           ['yes', 'sunny', 'cool', 'normal', 'FALSE'],
           ['yes', 'rainy', 'mild', 'normal', 'FALSE'],
           ['yes', 'sunny', 'mild', 'normal', 'TRUE'],
           ['yes', 'overcast', 'mild', 'high', 'TRUE'],
           ['yes', 'overcast', 'hot', 'normal', 'FALSE'],
           ['no', 'rainy', 'mild', 'high', 'TRUE']]

In [13]:
maxent = MaxEntropy()
x = ['overcast', 'mild', 'high', 'FALSE']

In [14]:
maxent.fit(dataset)
maxent.train()

Done


In [15]:
print('predict:', maxent.predict(x))

predict: {'no': 7.30330395915214e-05, 'yes': 0.9999269669604086}


**sckit-learn 实例**

sklearn 下有四种优化器，如果不指定默认选用 'lbfgs'，拟牛顿法的一种

In [16]:
from sklearn.linear_model import LogisticRegression

In [17]:
sk_lr = LogisticRegression(max_iter=200,solver='lbfgs')

In [18]:
sk_lr.fit(X_train, y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=200,
                   multi_class='warn', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

In [19]:
sk_lr.score(X_test, y_test)

1.0

In [20]:
print(sk_lr.coef_,sk_lr.intercept_)

[[ 2.73498352 -2.5991523 ]] [-6.76024028]


# 习题

**6.1 确认逻辑斯蒂分布属于指数分布族**

所谓指数分布族(exponential family)，是指如果一类分布属于指数分布族，那么它就可以写成如下形式:
$$
p(y ; \eta)=b(y) \exp \left(\eta^{T} T(y)-a(\eta)\right)
$$
$\eta $ 叫做自然参数（规范参数），$T(y)$ 叫做充分统计量（一般有 $T(y) = y$），$a(\eta)$ 是对数划分函数，起到正则化常数的作用，保证分布的积分或总和在 y 到 1 之间。

选定了 T, a, b 的时候，我们就得到了参数为 $\eta$ 的分布族，$\eta$ 取不同的值，可以得到该分布族下不同的分布。

可见分布族描述的是输入 $x$ 通过运算得到结果 $y$ ，$y$ 与 $\eta$ 有某种关系。基于逻辑斯蒂分布得到的基本运算模型是二分类逻辑斯蒂回归模型，$Y=\{0，1\}$
$$
\begin{array}{l}{P(Y=1 | x)=\frac{\exp (w \cdot x)}{1+\exp (w \cdot x)}} \\ {P(Y=0 | x)=\frac{1}{1+\exp (w \cdot x)}}\end{array}
$$
所以逻辑斯蒂回归模型为
$$
\begin{aligned}
P(y|x) &= P(y=1|x)^{y}P(y=0|x)^{1-y}\\
&= (\frac{\exp (w \cdot x)}{1+\exp (w \cdot x)})^y(\frac{1}{1+\exp (w \cdot x)})^{1-y}\\
&= \lambda^y(1-\lambda)^{1-y}\\
&= \exp(y\log \lambda +(1-y)\log(1-\lambda))\\
&=\exp(y\log \frac{\lambda}{1-\lambda}+\log(1-\lambda))
\end{aligned}
$$
令 $T(y)=y,b=1,\eta = \log\frac{\lambda}{1-\lambda},a=\log(1-\lambda)$，解得 $\lambda = \frac{e^\eta}{1+e^\eta},a=-\log(1+e^\eta)$，符合指数分布族形式，证明完毕

**6.2 写出逻辑斯蒂回归模型学习的梯度下降算法**

输入：目标函数 $f(w)$,梯度函数 $g(w) = \nabla f(w)$，计算精度 $\epsilon$
$$
f(w)=\sum_{x} \tilde{P}(x) \log \sum_{y} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)-\sum_{x, y} \tilde{P}(x, y) \sum_{i=1}^{n} w_{i} f_{i}(x, y)\\
g(w)=\left(\frac{\partial f(w)}{\partial w_{1}}, \frac{\partial f(w)}{\partial w_{2}}, \cdots, \frac{\partial f(w)}{\partial w_{n}}\right)^{\mathrm{T}}\\
\frac{\partial f(w)}{\partial w_{i}}=\sum_{x, y} \tilde{P}(x) P_{w}(y | x) f_{i}(x, y)-E_{\tilde{P}}\left(f_{i}\right), \quad i=1,2, \cdots, n
$$
输出：$f(w)$ 的极小点 $w*$

1. 取初始值 $w^{(0)} \in R^n,k=0$
2. 计算 $f(w^{(k)})$
3. 计算梯度 $g_k = g(x^{(k)})$，当$\left\|g_{k}\right\|<\varepsilon$ ，停止计算，得到 $w^* = w^{(k)}$，否则，令$p_k = -g(w^{(k)})$，求 $\lambda_k$，使

$$
f\left(w^{(k)}+\lambda_{k} p_{k}\right)=\min _{\lambda \geqslant 0} f\left(w^{(k)}+\lambda p_{k}\right)
$$

4. 置 $w^{(k+1)}=w^{(k)}+\lambda_{k} p_{k}$，计算 $f(x^{(k+1)})$，当 $\left\|f\left(w^{(k+1)}\right)-f\left(w^{(k)}\right)\right\|<\varepsilon$ 或 $\left\|x^{(k+1)}-x^{(k)}\right\|<\varepsilon$ 时，停止迭代，令  $w^*=w^{(k+1)}$
5. 否则，置 $k = k+1$,转3

**6.3 写出最大熵模型学习的 DFP 算法**

输入：目标函数 $f(w)$,梯度函数 $g(w) = \nabla f(w)$，计算精度 $\epsilon$

输出：$f(w)$ 的极小点 $w*$

1. 选定初始点 $w^{(0)}$，取正定对称矩阵 $G_0$，置 $k=0$
2. 计算 $g_k = g(w^{(k)})$，如果$\left\|g_{k}\right\|<\varepsilon$ ，停止计算，得到 $w^* = w^{(k)}$，否则转3
3. 置 $p_k = -G_kg_k$
4. 一维搜索，找到 $\lambda_k$ 使得 $f\left(w^{(k)}+\lambda_{k} p_{k}\right)=\min _{\lambda \geqslant 0} f\left(w^{(k)}+\lambda p_{k}\right)$
5. 置 $w^{(k+1)}=w^{(k)}+\lambda_{k} p_{k}$
6. $g_{k+1} = g(w^{(k+1)})$，如果 $\left\|g_{k+1}\right\|<\varepsilon$，停止计算，得 $w^* = w^{(k+1)}$，否则求解 $G_{k+1}$

$$
G_{k+1}=G_{k}+\frac{\delta_{k} \delta_{k}^{\mathrm{T}}}{\delta_{k}^{\mathrm{T}} y_{k}}-\frac{G_{k} y_{k} y_{k}^{\mathrm{T}} G_{k}}{y_{k}^{\mathrm{T}} G_{k} y_{k}}
$$

7. 更新 $k = k + 1$，转3

---

作者：Daniel Meng

GitHub: [LibertyDream](https://github.com/LibertyDream)

博客：[明月轩](https://libertydream.github.io/)