# logistic回归与最大熵模型

* logistic回归是统计学习中的经典分类方法
* 最大熵是概率模型学习的一个准则，将其推广到分类问题得到最大熵模型（maximum entropy model）
* logistic回归模型与最大熵模型都属于对数线性模型

## logistic回归模型

### logistic分布

* $X$是连续随机变量
* 分布函数：

  \begin{equation*}
  F(x)=P(X\le x)=\frac{1}{1+e^{-(x-\mu)/s}}
  \end{equation*}

* 密度函数：

  \begin{equation*}
  f(x)=F'(x)=\frac{e^{-(x-\mu)/s}}{s\bigl(1+e^{-(x-\mu)/s}\bigr)^2}
  \end{equation*}
  
* $\mu$为位置参数，$s>0$为形状参数

## logistic回归模型

* location parameter $\mu$; scale parameter $s$

pdf             |  cdf
:-------------------------:|:-------------------------:
![alt-text-1](img/Logisticpdfunction.svg "title-1")  |  ![alt-text-2](img/Logistic_cdf.svg "title-2")

### 二项logistic regression模型

* 参数化的logistic distribution
  \begin{align*}
  P(Y=1|x)&=\frac{\exp(w\cdot x +b)}{1+\exp(w\cdot x+b)}\\
  P(Y=0|x)&=\frac{1}{1+\exp(w\cdot x+b)}
  \end{align*}
  
* 将权值向量和输入向量加以扩充

  \begin{align*}
  w&=(w^{(1)},w^{(2)},\dotsc,w^{(n)},b)^T\\
  x&=(x^{(1)},x^{(2)},\dotsc,x^{(n)},1)^T
  \end{align*}
  
课堂提问：扩充带来的效果

### 二项logistic regression模型

* 一个事件的几率（odds）是指该事件发生的概率与该事件不发生的概率的比值
* 对数几率（log odds）或logit函数

  \begin{equation*}
  \mathrm{logit}(p)=\log\frac{p}{1-p}
  \end{equation*}
  

### 二项logistic regression模型

  
* 对logistic regression，有

  \begin{equation*}
  \log\frac{P(Y=1|x)}{1-P(Y=1|x)}=w\cdot x
  \end{equation*}
  
* 输出$Y=1$的对数几率是由输入$x$的线性函数表示的模型

课堂提问：$w\cdot x$

### 模型参数估计

* 应用极大似然估计法估计模型参数
* 似然函数为

  \begin{equation*}
  \prod_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}
  \end{equation*}

课堂提问：极大似然估计法

### 模型参数估计

* 对数似然函数为

  \begin{align*}
  L(w)&=\sum_{i=1}^N[y_i\log\pi(x_i)+(1-y_i)\log(1-\pi(x_i))]\\
  &=\sum_{i=1}^N\biggl[y_i\log\frac{\pi(x_i)}{1-\pi(x_i)}+\log(1-\pi(x_i))\biggr]\\
  &=\sum_{i=1}^N[y_i(w\cdot x_i)-\log(1+\exp(w\cdot x))]
  \end{align*}
  
* 对$L(w)$求极大值，得到$w$的估计值

课堂提问：为什么考虑对数似然函数

### 多项logistic regression

* $k=1,2,\dotsc,K-1$

  \begin{equation*}
  P(Y=k|x)=\frac{\exp(w_k\cdot x)}{1+\sum_{k=1}^{K-1}\exp(w_k\cdot x)}
  \end{equation*}

* $k=K$
  
  \begin{equation*}
  P(Y=K|x)=\frac{1}{1+\sum_{k=1}^{K-1}\exp(w_k\cdot x)}
  \end{equation*}
  
课堂提问：为什么只需要$K-1$个$w_k$'s

## 最大熵模型（maximum entropy model）

### 最大熵原理

* 最大熵原理认为，学习概率模型时，在所有可能的概率模型（分布）中，熵最大的模型是最好的模型
* 通常用约束条件来确定概率模型的集合，所以，最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型

### 最大熵原理

* 直观地，最大熵原理认为要选择的概率模型首先必须满足已有的事实，即约束条件
* 在没有更多信息的情况下，那些不确定的部分都是“等可能的”
* 最大熵原理通过熵的最大化来表示等可能性



## 拉格朗日对偶性

* 在约束最优化问题中，常常利用拉格朗日对偶性（Lagrange duality）将原始问题转换为对偶问题
* 通过解对偶问题而得到原始问题的解

### 原始问题

* 假设$f(x)$，$c_i(x)$，$h_j(x)$是定义在$\mathbf{R}^n$上的连续可微函数

* 考虑约束最优化问题

  \begin{align*}
  \min_{x\in \mathbf{R}^n}\quad &f(x)\\
  \mathrm{s.t.}\quad &c_i(x)\le 0,\quad i=1,2,\dotsc,k\\
  &h_j(x)=0,\quad j=1,2,\dotsc,l
  \end{align*}

* 原始问题

### 原始问题

* 广义拉格朗日函数（generalized Lagrange function）

  \begin{equation*}
  L(x,\alpha,\beta)=f(x)+\sum_{i=1}^k\alpha_i c_i(x)+\sum_{j=1}^l\beta_jh_j(x)
  \end{equation*}
 
* $\alpha_i$，$\beta_j$是拉格朗日乘子，$\alpha_i\ge 0$（**注意$\ge 0$**）

* 考虑$x$的函数：

  \begin{equation*}
  \theta_P(x)=\max_{\alpha_i,\beta:\alpha_i\ge 0}L(x,\alpha,\beta)
  \end{equation*}

### 原始问题

* 假设给定某个$x$
* 如果$x$违反原始问题的约束条件，那么就有

  \begin{equation*}
  \theta_P(x)=\infty
  \end{equation*}
  
课堂提问：为什么$\infty$

### 原始问题
  
* 约束$c_i(x)>0$，则可令$\alpha_i\to\infty$

  $h_j(x)\neq 0$，则可令$\beta_j$使$\beta_j h_j(x)\to\infty$

  将其余各$\alpha_i$，$\beta_j$均取为0

### 原始问题

* 相反地，如果$x$满足约束条件，可知

  \begin{equation*}
  \theta_P(x)=f(x)
  \end{equation*}
  
* 因此，

  \begin{equation*}
  \theta_P(x)=
  \begin{cases}
  f(x),\quad&\text{$x$满足原始问题约束}\\
  \infty,\quad&\text{其他}
  \end{cases}
  \end{equation*}
 


### 原始问题

* 考虑极小化问题

  \begin{equation*}
  \min_x \theta_P(x)=\min_x \max_{\alpha_i,\beta:\alpha_i\ge 0}L(x,\alpha,\beta)
  \end{equation*}
  
  * 是与原始最优化问题等价的，即它们有相同的解
  * 课堂提问：有相同的解（为什么）

### 原始问题

* 原始最优化问题表示为广义拉格朗日函数的极小极大问题
* 定义原始问题的最优值

  \begin{equation*}
  p^*=\min_x\theta_P(x)
  \end{equation*}

### 对偶问题

* 定义
  
  \begin{equation*}
  \theta_D(\alpha,\beta)=\min_x L(x,\alpha,\beta)
  \end{equation*}
  
* 考虑极大化

  \begin{equation*}
  \max_{\alpha_i,\beta:\alpha_i\ge 0}\theta_D(\alpha,\beta)=\max_{\alpha_i,\beta:\alpha_i\ge 0}\min_x L(x,\alpha,\beta)
  \end{equation*}
  
  * 称为广义拉格朗日函数的极大极小问题

### 对偶问题

* 可以将广义拉格朗日函数的极大极小问题表示为约束最优化问题

  \begin{align*}
  \max_{\alpha,\beta}\quad &\theta_D(\alpha,\beta)\\
  \mathrm{s.t.}\quad &\alpha_i\ge 0,\quad i=1,2,\dotsc,k
  \end{align*}
  
* 称为原始问题的对偶问题

* 定义对偶问题的最优值

  \begin{equation*}
  d^*=\max_{\alpha,\beta:\alpha_i\ge 0}\theta_D(\alpha,\beta)
  \end{equation*}

### 原始问题和对偶问题的关系

* 若原始问题和对偶问题都有最优值，则

  \begin{equation*}
  d^*=\max_{\alpha,\beta:\alpha_i\ge 0}\min_x L(x,\alpha,\beta)\le \min_x\max_{\alpha_i,\beta:\alpha_i\ge 0}L(x,\alpha,\beta)=p^* 
  \end{equation*}

* 证明
    * 对任意的$\alpha$（$\alpha_i\ge 0$，见广义拉格朗日函数的定义），$\beta$和$x$，有

      \begin{equation*}
      \begin{split}
      \theta_D(\alpha,\beta)=\min_x L(x,\alpha,\beta)&\le L(x,\alpha,\beta)\\
      &\le \max_{\alpha_i,\beta:\alpha_i\ge 0}L(x,\alpha,\beta)=\theta_P(x)
      \end{split}
      \end{equation*}
      
    * 由于原始问题和对偶问题均有最优值，所以，
    
      \begin{equation*}
      \max_{\alpha,\beta:\alpha_i\ge 0}\theta_D(\alpha,\beta)\le \min_x\theta_P(x)
      \end{equation*}

### 最大熵模型的学习

* 例6.1

  * 假设随机变量$X$有5个取值$\{A,B,C,D,E\}$
  * 要估计取各个值的概率$P(A),P(B),P(C),P(D),P(E)$
  * $P(A)+P(B)=\tfrac{3}{10}$

### 最大熵模型的学习

* 最大熵模型学习的最优化问题是

  \begin{align*}
  \min\quad &-H(P)=\sum_{i=1}^5 P(y_i)\log P(y_i)\\
  \mathrm{s.t.}\quad &P(y_1)+P(y_2)=\frac{3}{10}\\
  &\sum_{i=1}^5 P(y_i)=1
  \end{align*}
  
  分别以$y_1,y_2,y_3,y_4,y_5$表示$A$，$B$，$C$，$D$和$E$

### 最大熵模型的学习

* 引进拉格朗日乘子$w_0,w_1$，定义拉格朗日函数

  \begin{equation*}
  \begin{split}
  L(P,w)=\sum_{i=1}^5 P(y_i)\log P(y_i)&+w_1\biggl(P(y_1)+P(y_2)-\frac{3}{10}\biggr)\\
  &+w_0\biggl(\sum_{i=1}^5 P(y_i)-1\biggr)
  \end{split}
  \end{equation*}
  
* 根据拉格朗日对偶性，可以通过求解对偶最优化问题得到原始最优化问题的解，所以求解

  \begin{equation*}
  \max_w\min_P L(P,w)
  \end{equation*}

### 最大熵模型的学习

* 先求解$L(P,w)$关于$P$的极小化问题

  * 为此，固定$w_0,w_1$，求偏导数
  
    \begin{align*}
    \frac{\partial L(P,w)}{\partial P(y_1)}&=1+\log P(y_1)+w_1+w_0\\
    \frac{\partial L(P,w)}{\partial P(y_2)}&=1+\log P(y_2)+w_1+w_0\\
    \frac{\partial L(P,w)}{\partial P(y_3)}&=1+\log P(y_3)+w_0\\
    \frac{\partial L(P,w)}{\partial P(y_4)}&=1+\log P(y_4)+w_0\\
    \frac{\partial L(P,w)}{\partial P(y_5)}&=1+\log P(y_5)+w_0
    \end{align*}
    
  * 令各偏导数等于0，解得
  
    \begin{align*}
    &P(y_1)=P(y_2)=e^{-w_1-w_0-1}\\
    &P(y_3)=P(y_4)=P(y_5)=e^{-w_0-1}
    \end{align*}

### 最大熵模型的学习

* $L(P,w)$关于$P$的极小化问题

  \begin{equation*}
  \begin{split}
  \min_P L(P,w)&=L(P_w,w)\\&
  =-2e^{-w_1-w_0-1}-3e^{-w_0-1}-\frac{3}{10}w_1-w_0
  \end{split}
  \end{equation*}
  
* 再求解$L(P_w,w)$关于$w$的极大化问题$\max_w L(P_w,w)$

### 最大熵模型的学习

* 分别求$L(P_w,w)$对$w_0,w_1$的偏导数并令其为0，得到

  \begin{align*}
  e^{-w_1-w_0-1}&=\frac{3}{20}\\
  e^{-w_0-1}&=\frac{7}{30}
  \end{align*}
  
* 于是得到所要求的概率分布为

  \begin{align*}
  &P(y_1)=P(y_2)=\frac{3}{20}\\
  &P(y_3)=P(y_4)=P(y_5)=\frac{7}{20}
  \end{align*}

### 最大熵模型的学习

* 例6.1扩展：$P(A)+P(C)=\tfrac{1}{2}$
    
\begin{equation*}
\begin{split}
L(P,w)=\sum_{i=1}^5 P(y_i)\log P(y_i)&+w_2\biggl(P(y_1)+P(y_3)-\frac{1}{2}\biggr)\\
&+w_1\biggl(P(y_1)+P(y_2)-\frac{3}{10}\biggr)\\
&+w_0\biggl(\sum_{i=1}^5 P(y_i)-1\biggr)
\end{split}
\end{equation*}

### 最大熵模型的学习

* 例6.1扩展

\begin{align*}
\frac{\partial L(P,w)}{\partial P(y_1)}&=1+\log P(y_1)+w_2+w_1+w_0\\
\frac{\partial L(P,w)}{\partial P(y_2)}&=1+\log P(y_2)+w_1+w_0\\
\frac{\partial L(P,w)}{\partial P(y_3)}&=1+\log P(y_3)+w_2+w_0\\
\frac{\partial L(P,w)}{\partial P(y_4)}&=1+\log P(y_4)+w_0\\
\frac{\partial L(P,w)}{\partial P(y_5)}&=1+\log P(y_5)+w_0
\end{align*}

### 最大熵模型的学习

* 例6.1扩展

\begin{align*}
&P(y_1)=e^{-w_2-w_1-w_0-1}\\
&P(y_2)=e^{-w_1-w_0-1}\\
&P(y_3)=e^{-w_2-w_0-1}\\
&P(y_4)=P(y_5)=e^{-w_0-1}
\end{align*}

### 最大熵模型的学习

* 例6.1扩展

\begin{equation*}
\begin{split}
\min_P L(P,w)=&L(P_w,w)\\
=&-e^{-w_2-w_1-w_0-1}-e^{-w_1-w_0-1}\\
&-e^{-w_2-w_0-1}-3e^{-w_0-1}-\frac{1}{2}w_2-\frac{3}{10}w_1-w_0
\end{split}
\end{equation*}

### 最大熵模型的学习

* 例6.1扩展

\begin{align*}
e^{-w_2-w_1-w_0-1}+e^{-w_2-w_0-1}&=\frac{1}{2}\\
e^{-w_2-w_1-w_0-1}+e^{-w_1-w_0-1}&=\frac{3}{10}\\
e^{-w_2-w_1-w_0-1}+e^{-w_1-w_0-1}+e^{-w_2-w_0-1}+3e^{-w_0-1}&=1
\end{align*}

### 最大熵模型的学习

* 例6.1扩展

\begin{align*}
P(A)+P(C)&=\frac{1}{2}\\
P(A)+P(B)&=\frac{3}{10}\\
P(A)+P(B)+3P(C)&=1
\end{align*}

因此有：

\begin{align*}
P(C)&=\frac{7}{20}\\
P(A)&=\frac{3}{20}\\
P(B)&=\frac{3}{20}
\end{align*}