# 逻辑回归（Logistic Regression）

在线性回归模型上面套用一个逻辑函数（Logistic Function）以实现单分类的功能。

## 模型：线性模型+逻辑函数

其假设函数为：

> $h_\theta(x)=g(\theta^TX)$, 其中$g(z)=\dfrac{1}{1+e^{-z}}$

$h_\theta$的作用是：对于给定的输入变量，计算预测y=1的概率。

#### 决策边界

当$\theta^TX>=0$，预测$y=1$；$\theta^TX<0$，预测$y=0$，可以绘制$\theta^TX=0$这条直线作为决策边界。

> 对于更复杂的决策边界则需要更复杂的模型

## 策略：交叉熵函数

不能再使用线性回归中误差平方和这种函数，因为这个代价函数针对这个问题会变成非凸函数（non-convex function），定义逻辑回归的代价函数为：

> $J(\theta)=\dfrac{1}{m}\sum_{i=1}^mCost(h_\theta(x^{(i)},y^{(i)}))$

其中（其实就是在求各个类的交叉熵）：

> $Cost(h_\theta(x), y)=\begin{cases} -log(h_\theta(x)) \ \ if \ y=1 \\ -log(1- h_\theta(x)) \ \ if \ y=0 \end{cases}$

这样带入可得：

> $J(\theta)=\dfrac{1}{m}\sum_{i=1}^m[-y^{(i)}log(h_\theta(x^{(i)})) - (1-y^{(i)})log(1-h_\theta(x^{(i)}))]$

需要注意的是：

- 非凸函数会有很多局部最小值,会影响梯度下降寻找全局最优值。
- 交叉熵参考：[信息论](../basics/information_theory.ipynb)。

## 算法：梯度下降

使用梯度下降求最优值，其他更好的算法还有：共轭梯度（Conjugate Gradient），局部优化法（Broyden fletcher goldfarb shann,BFGS）和有限内存局部优化法（LBFGS）等。

## 多分类
通过建立多个$h_\theta^{(i)}$来进行多分类。

## 代码实现

In [1]:
import tensorflow as tf
import numpy as np

x_train = [[1.1, 2.1], [2.2, 1.0], [2.1, 1.3], [.5, 1.7]]
y_train = [1, 1, 1, 0]
y_train = np.mat(y_train).reshape(-1, 1)
# print(y_train)

theta = tf.Variable(tf.zeros([2, 1]))
bias = tf.Variable(tf.zeros([1, 1]))

# 模型
y = 1 / (1+tf.exp(-tf.matmul(x_train, theta) + bias))

# 策略
loss = tf.reduce_mean(- y_train * tf.log(y) - (1 - y_train) * tf.log(1 - y))

# 算法
train = tf.train.GradientDescentOptimizer(.01).minimize(loss)

sess = tf.Session()
init = tf.global_variables_initializer()
sess.run(init)
for step in range(20):
    sess.run(train)
    print(step, sess.run(theta).flatten(), sess.run(bias).flatten())

0 [0.006125 0.003375] [-0.0025]
1 [0.01218272 0.00668843] [-0.0049583]
2 [0.01817408 0.00994117] [-0.00737549]
3 [0.02410002 0.01313413] [-0.00975216]
4 [0.02996145 0.01626818] [-0.0120889]
5 [0.03575929 0.0193442 ] [-0.0143863]
6 [0.04149444 0.02236305] [-0.01664493]
7 [0.04716783 0.02532561] [-0.01886537]
8 [0.05278036 0.02823273] [-0.0210482]
9 [0.05833291 0.03108526] [-0.02319399]
10 [0.06382637 0.03388404] [-0.02530328]
11 [0.06926163 0.0366299 ] [-0.02737665]
12 [0.07463955 0.03932368] [-0.02941464]
13 [0.07996101 0.04196617] [-0.0314178]
14 [0.08522686 0.04455819] [-0.03338667]
15 [0.09043793 0.04710054] [-0.03532178]
16 [0.09559508 0.049594  ] [-0.03722365]
17 [0.10069913 0.05203935] [-0.03909282]
18 [0.10575089 0.05443735] [-0.04092979]
19 [0.11075117 0.05678876] [-0.04273507]
