# Softmax Regression

softmax模型可以用来给不同的对象分配概率。<br>
在训练更加复杂的模型时，最后一步也往往需要用softmax来分配概率。<br>

softmax回归分两步：
* 首先 对某个待分类对象属于某个类的“证据”相加求和
* 然后 将这个“证据”的和和转化为概率

例如计算一张图片是否属于某类。<br>
使用加权的方法来累积计算这张图是否属于某类的“证据”。<br>
如果图片的像素强有力的体现该图不属于某个类，则权重的数值为负数。<br>
相反，则权重的数值为正。<br>
还需要引入额外的“证据”，称之为偏置量(bias)<br>
因此对于给定的输入图片$x$是属于第$i$类的总体“证据”可以表示为：

$$
evidence_i = \sum_{i}W_{i,j}x_j + b_i
$$

其中$W_i$代表权重，$b_i$代表第$i$类的偏置量，$j$代表给定图片$x$的像素索引 用于求和<br>
然后利用softmax函数可以把这些“证据”转化成概率$y$

$$
y = softmax(evidence)
$$

给定一张图$x$，它对于每一个类别的吻合度可以被softmax函数转换成一个概率值<br>
softmax函数可以定义为：

$$
softmax(x) = normalize(exp(x))
$$

展开右边可以得到：

$$
softmax(x)_i = \frac{exp(x_i)}{\sum_{j}exp(x_j)}
$$

假设模型里的权值不可以是0或是负数，softmax会正则化这些权重值，<br>
是它们的总和等于1，以此构建一个有效率的概率分布。

$$
\left[
\begin{matrix}
y_1 \\
y_2 \\
y_3
\end{matrix}
\right] = softmax\left(
\begin{matrix}
W_{1,1}x_1 + W_{1,2}x_1 + W_{1,3}x_1 + b_1 \\
W_{2,1}x_2 + W_{2,2}x_2 + W_{2,3}x_2 + b_2 \\
W_{3,1}x_3 + W_{3,2}x_3 + W_{3,3}x_3 + b_3
\end{matrix}
\right)
$$

转换成用 矩阵乘法和向量相加来表示：

$$
\left[
\begin{matrix}
y_1 \\
y_2 \\
y_3
\end{matrix}
\right] = softmax\left(
\left[\begin{matrix}
W_{1,1}&W_{1,2}&W_{1,3} \\
W_{2,1}&W_{2,2}&W_{2,3} \\
W_{3,1}&W_{3,2}&W_{3,3}
\end{matrix}\right]
\cdot
\left[\begin{matrix}
x_1 \\
x_2 \\
x_3
\end{matrix}\right]
+
\left[\begin{matrix}
b_1 \\
b_2 \\
b_3
\end{matrix}\right]
\right)
$$

简化为：
$$
y = softmax(W_x+b)
$$

## 评估模型
为了训练模型，通常需要定义一个指标来评估模型的好坏。<br>
这个指标被称为成本(cost)或是损失(loss)，两者意思相同，然后尽量最小化这个指标。<br>
非常常见的成本函数是“交叉熵”(cross-entropy):

$$
H_{y'}(y) = -\sum_{i}y'_i\log(y_i)
$$

其中y是预测的概率分布。<br>
y‘是实际的分布。<br>

## 计算交叉熵
（重要）<br>
交叉熵不仅仅用来衡量单一的一对预测和真实值，<br>
而是所有图片的交叉熵的总和。<br>
对100个数据点的预测的表示比单一数据点的预测的表示能更好的描述模型的性能。

In [155]:
import tensorflow as tf
import numpy as np
import time
from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)

Extracting MNIST_data/train-images-idx3-ubyte.gz
Extracting MNIST_data/train-labels-idx1-ubyte.gz
Extracting MNIST_data/t10k-images-idx3-ubyte.gz
Extracting MNIST_data/t10k-labels-idx1-ubyte.gz


In [167]:
### 创建模型----------------------------------

# 创建一个占位符x来保存输入值
# None表示第一个维度可以是任何长度（输入图片的个数）
# 第二个维度784=28x28是每一个图片的展平后的向量
x = tf.placeholder(tf.float32, [None, 784])

# 创建一个占位符来保存权重值W和偏置量b
# Variable常用来保存参数，计算中可以被修改，初始值为0
# 0~9共10个类别
W = tf.Variable(tf.zeros([784, 10]))
b = tf.Variable(tf.zeros([10]))

# y是预测出来的分类结果
# x乘以W(相当于W_x)再加上b，然后输入到softmax里面
y = tf.nn.softmax(tf.matmul(x, W) + b)

### 计算交叉熵----------------------------------

# 创建一个占位符y用来保存输出的正确值（正确分类）
y_ = tf.placeholder(tf.float32, [None, 10])

# 计算交叉熵
cross_entropy = tf.reduce_mean(
    -tf.reduce_sum(y_ * tf.log(y), reduction_indices=[1]))
# cross_entropy = tf.reduce_mean(
#     tf.nn.softmax_cross_entropy_with_logits_v2(labels=y_, logits=y))

# 优化方法使用梯度下降算法（gradient descent algorithm）,学习速率为0.5，来最小化交叉熵
# 会自动使用反向传播法（backpropagation algorithm）
train_step = tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy)

### 训练和评估模型----------------------------------

# 建立一个交互式的会话
sess = tf.InteractiveSession()
tf.global_variables_initializer().run()

# 评估
pred = tf.argmax(y, 1)
true = tf.argmax(y_, 1)
correct_prediction = tf.equal(pred, true)
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))

# 循环训练1000次
# 每次训练会随机抓取训练数据中100个数据点
start = time.time()
for i in range(1000):
    batch_xs, batch_ys = mnist.train.next_batch(100)
    sess.run(train_step, feed_dict={x: batch_xs, y_: batch_ys})
    if i % 100 == 0:
        train_acc = accuracy.eval(feed_dict={x: batch_xs, y_: batch_ys})
        test_acc = accuracy.eval(feed_dict={
            x: mnist.test.images,
            y_: mnist.test.labels
        })
        print "step % 5d" % (i), "train_acc={:5f}".format(
            train_acc), "test_acc={:5f}".format(test_acc)
    if i == 5 or i == 999:
        train_pred_sm = y.eval(feed_dict={x: batch_xs, y_: batch_ys})
        np.set_printoptions(suppress=True)
        print "train_pred_sm:", train_pred_sm[:20]
        train_pred = pred.eval(feed_dict={x: batch_xs, y_: batch_ys})
        train_true = true.eval(feed_dict={x: batch_xs, y_: batch_ys})
        test_pred = pred.eval(feed_dict={
            x: mnist.test.images,
            y_: mnist.test.labels
        })
        test_true = true.eval(feed_dict={
            x: mnist.test.images,
            y_: mnist.test.labels
        })
        print "train_pred:", train_pred[:20]
        print "train_true:", train_true[:20]
        print "test_pred:", test_pred[:20]
        print "test_true:", test_true[:20]
end = time.time()
print "Process Time(s):{:.2f}".format(end - start)

### 输出结果----------------------------------
print(sess.run(
    accuracy, feed_dict={
        x: mnist.test.images,
        y_: mnist.test.labels
    }))

step     0 train_acc=0.370000 test_acc=0.224700
train_pred_sm: [[0.02239756 0.01222618 0.00689082 0.00764075 0.25524715 0.01018761
  0.02306607 0.51688164 0.09421608 0.05124613]
 [0.00116836 0.01135979 0.00595533 0.01397507 0.34648108 0.00681434
  0.00615092 0.16604006 0.07366078 0.3683943 ]
 [0.01420384 0.17851281 0.02272771 0.01274697 0.02273072 0.02189529
  0.01891978 0.05884875 0.60802776 0.04138636]
 [0.79462063 0.0075136  0.00505641 0.00484004 0.03206225 0.04401097
  0.01178358 0.04019074 0.04929655 0.01062527]
 [0.00196774 0.8151414  0.00621052 0.01696135 0.01109586 0.01575001
  0.01347058 0.02448422 0.08324686 0.01167145]
 [0.01767117 0.48865578 0.02858606 0.0583864  0.0558616  0.05692977
  0.0545592  0.05406299 0.12905286 0.05623421]
 [0.04609814 0.10939518 0.02742943 0.05474934 0.13089918 0.25228432
  0.10530168 0.06175977 0.15685979 0.05522319]
 [0.01526016 0.10908207 0.02220997 0.1087394  0.0673418  0.1110201
  0.16689055 0.04036485 0.27011585 0.08897529]
 [0.04642769 0.009