## 机器学习中的优化  

### 问题1
假设我们有训练数据$D=\{(\mathbf{x}_1,y_1),...,(\mathbf{x}_n,y_n)\}$, 其中$(\mathbf{x}_i,y_i)$为每一个样本，而且$\mathbf{x}_i$是样本的特征并且$\mathbf{x}_i\in \mathcal{R}^D$, $y_i$代表样本数据的标签（label）, 取值为$0$或者$1$. 在逻辑回归中，模型的参数为$(\mathbf{w},b)$。对于向量，我们一般用粗体来表达。 为了后续推导的方便，可以把b融入到参数w中。 这是参数$w$就变成 $w=(w_0, w_1, .., w_D)$，也就是前面多出了一个项$w_0$, 可以看作是b，这时候每一个$x_i$也需要稍作改变可以写成 $x_i = [1, x_i]$，前面加了一个1。稍做思考应该能看出为什么可以这么写。

请回答以下问题。请用Markdown自带的Latex来编写。







$ \mathbf{w} \cdot \mathbf{x} + b = y $
can be transformed into: 
initially, both $\mathbf{w}$ and $\mathbf{x}$ are n-d vector, no we add 

####  (a) ```编写逻辑回归的目标函数```
请写出目标函数（objective function）, 也就是我们需要"最小化"的目标（也称之为损失函数或者loss function)，不需要考虑正则。 把目标函数表示成最小化的形态，另外把$\prod_{}^{}$转换成$\log \sum_{}^{}$



$ L(w)=\sum_{i=1}^{n}-y_{i} \log \left(p\left(\mathbf{x_{i}} ; \mathbf{w}\right)\right)-\left(1-y_{i}\right) \log \left(1-p\left(\mathbf{x_{i}} ; \mathbf{w}\right)\right)$


where $ p(c) = \frac{1}{1+e^{-\mathbf{w}^{T}\mathbf{x} }}$

####  (b) ```求解对w的一阶导数```
为了做梯度下降法，我们需要对参数$w$求导，请把$L(w)$对$w$的梯度计算一下：

$$
\frac{d f}{d \mathbf{X}}=\left(\frac{\partial f}{\partial x_{1}}, \frac{\partial f}{\partial x_{2}}, \cdots, \frac{\partial f}{\partial x_{n}}\right)^{T}
$$

$\frac{\partial L(\mathbf{w})}{\partial w_j}= \frac{1}{m}\sum_{i=i}^{m}[p(\mathbf{x}^i;\mathbf{w}) - y^i]x_j^i $



$\frac{\partial L(\mathbf{w})}{\partial \mathbf{w}}=\left(\frac{\partial L(\mathbf{w})}{\partial w_1}, \frac{\partial L(\mathbf{w})}{\partial w_2}, \cdots, \frac{\partial L(\mathbf{w})}{\partial w_n}\right)^{T}$

####  (c) ```求解对w的二阶导数```
在上面结果的基础上对$w$求解二阶导数，也就是再求一次导数。 这个过程需要回忆一下线性代数的部分 ^^。 参考： matrix cookbook: https://www.math.uwaterloo.ca/~hwolkowi/matrixcookbook.pdf, 还有 Hessian Matrix。 

$\frac{\partial^2 L(w)}{\partial^2 w}= H$

$H_{ab} = \frac{\partial^2 L(w)}{\partial w_a \partial w_b}= \frac{1}{m} \sum_{i=1}^{m} p(\mathbf{x}^i;\mathbf{w})(1-p(\mathbf{x}^i;\mathbf{w})) x_a^i x_b^i   $ 

which can be expressed as: 
$
H = XDX^T
$
where 
X: matrix $d \times  m$, D: diagonal matrix, where $D_{ii} =  \sigma\left(z_{i}\right)\left(1-\sigma\left(z_{i}\right)\right)
$


#### (d) ```证明逻辑回归目标函数是凸函数```
试着证明逻辑回归函数是凸函数。假设一个函数是凸函数，我们则可以得出局部最优解即为全局最优解，所以假设我们通过随机梯度下降法等手段找到最优解时我们就可以确认这个解就是全局最优解。证明凸函数的方法有很多种，在这里我们介绍一种方法，就是基于二次求导大于等于0。比如给定一个函数$f(x)=x^2-3x+3$，做两次
求导之后即可以得出$f''(x)=2 > 0$，所以这个函数就是凸函数。类似的，这种理论也应用于多元变量中的函数上。在多元函数上，只要证明二阶导数是posititive semidefinite即可以。 问题（c）的结果是一个矩阵。 为了证明这个矩阵（假设为H)为Positive Semidefinite，需要证明对于任意一个非零向量$v\in \mathcal{R}$, 需要得出$v^{T}Hv >=0$
请写出详细的推导过程：

// TODO 请写下推导过程


As we have calculated that $H = XDX^T$
So for any $\mathbf{t} \in R^d $, we have:
$$ \mathbf{t} H \mathbf{t}^T = \mathbf{t} XDX^T \mathbf{t}^T  $$
$$ = \mathbf{t} X D^{ \frac{1}{2} }D^{ \frac{1}{2} }  (\mathbf{t} X)^T $$
$$ = \mathbf{t}D^{ \frac{1}{2} } X   (\mathbf{t}D^{ \frac{1}{2} } X)^T $$
$$ = ||\mathbf{t}D^{ \frac{1}{2} } X ||^2_2  >= 0$$



### 问题2
证明p-norm是凸函数， p-norm的定义为：
$||x||_p=(\sum_{i=1}^{n}|x_i|^p)^{1/p}$

hint: Minkowski’s Inequality

PROOF since \(p \geq 1,\) the function \(x \mapsto|x|^{p}\) is convex. It follows that
$$
\begin{aligned}\|(1-\lambda) f+\lambda g\|_{p}^{p} &=\int_{X}|(1-\lambda) f+\lambda g|^{p} d \mu \\ & \leq \int_{X}\left((1-\lambda)|f|^{p}+\lambda|g|^{p}\right) d \mu=(1-\lambda)\|f\|_{p}^{p}+\lambda\|g\|_{p}^{p} \end{aligned}
$$

for any measurable functions $f$ and $g$ and any $\lambda \in[0,1]$. In particular, this proves
that $||(1-\lambda) f+\lambda g||_{p} \leq 1$ whenever 
$ ||f||_p = ||g||_p=1 $
From this Minkowski's inequality follows. First, observe that if $||f||_p=0$, then
f=0 almost everywhere, so Minkowski's inequality follows in this case. A similar
argument holds if $||g_{p}||=0$, so suppose that $||g||_p>0$ and $||g||_p>0$ . Let $\hat{f}=f /\|f\|_{p}$
and $\hat{g}=g /\|g\|_{p}$, and note that $||\hat{f}||_{p}=||\hat{g}||_{p}=1$ . Then
$$\frac{\|f+g\|_{p}}{\|f\|_{p}+\|g\|_{p}}=\left\|\frac{\|f\|_{p}}{\|f\|_{p}+\|g\|_{p}} \hat{f}+\frac{\|g\|_{p}}{\|f\|_{p}+\|g\|_{p}} \hat{g}\right\|_{p} \leq 1$$

### 问题3
在课堂里我们讲过Transportation problem. 重新描述问题： 有两个城市北京和上海，分别拥有300件衣服和500件衣服，另外有三个城市分别是1，2，3分别需要200，300，250件衣服。现在需要把衣服从北京和上海运送到城市1，2，3。 我们假定每运输一件衣服会产生一些代价，比如：
- 北京 -> 1:  5
- 北京 -> 2:  6
- 北京 -> 3:  4
- 上海 -> 1:  6
- 上海 -> 2:  3
- 上海 -> 3:  7

最后的值是单位cost. 

问题：我们希望最小化成本。 

```(a)``` 请写出linear programming formulation。 利用标准的写法(Stanford form)，建议使用矩阵、向量的表示法。 


// your formulation

$\mathbf{b}_{1}$: Beijing -> 1, $\mathbf{b}_{3}$: Beijing -> 3, $\mathbf{s}_{1}$: Shanghai -> 1, $\mathbf{s}_{3}$: Shanghai -> 3, 

Min $$\mathbf{w}_b^T \mathbf{b} +\mathbf{w}_s^T \mathbf{s}   $$, where $\mathbf{w}_b = [5,6,4]$,$\mathbf{w}_s = [6,3,7]$

s.t. $$ \mathbf{b}_1 +\mathbf{b}_2+\mathbf{b}_3 \leq 300  $$
$$ \mathbf{s}_1 +\mathbf{s}_2+\mathbf{s}_3 \leq 500  $$
$$\mathbf{b}_1 +\mathbf{s}_1 \geq 200 $$
$$\mathbf{b}_2 +\mathbf{s}_2 \geq 300 $$
$$\mathbf{b}_3 +\mathbf{s}_3 \geq 250 $$

 



```(b)``` 利用lp solver求解最优解。 参考：
https://docs.scipy.org/doc/scipy/reference/generated/scipy.optimize.linprog.html
    或者： http://cvxopt.org/

In [None]:
# your implementation





```(c)```: 试着把上述LP转化成Dual formulation，请写出dual form. 

// your formulation

In [34]:
from cvxopt import matrix, solvers
A = matrix([ [1.0, 0.0, -1.0, 0.0, 0.0], [1.0, 0.0,0.0, -1.0, 0.0],[1.0, 0.0,0.0, 0.0, -1.0],[0.0, 1.0,-1.0, 0.0, 0.0],[0.0, 1.0,0.0, -1.0, 0.0],[0.0, 1.0,0.0, 0.0, -1.0] ])
b = matrix([300.0,500.0,-200.0,-300.0,-250.0])
c = matrix([1.0,1.0,1.0,1.0,1.0,1.0])
# sol=solvers.lp(c,A,b)

In [35]:
print(A.size)
print(b.size)
print(c.size)

(5, 6)
(5, 1)
(6, 1)


In [36]:
sol=solvers.lp(c,A,b)

ValueError: Rank(A) < p or Rank([G; A]) < n