# Softmax Regression

softmax模型可以用来给不同的对象分配概率。<br>
在训练更加复杂的模型时，最后一步也往往需要用softmax来分配概率。<br>

softmax回归分两步：
* 首先 对某个待分类对象属于某个类的“证据”相加求和
* 然后 将这个“证据”的和和转化为概率

例如计算一张图片是否属于某类。<br>
使用加权的方法来累积计算这张图是否属于某类的“证据”。<br>
如果图片的像素强有力的体现该图不属于某个类，则权重的数值为负数。<br>
相反，则权重的数值为正。<br>
还需要引入额外的“证据”，称之为偏置量(bias)<br>
因此对于给定的输入图片$x$是属于第$i$类的总体“证据”可以表示为：

$$
evidence_i = \sum_{i}W_{i,j}x_j + b_i
$$

其中$W_i$代表权重，$b_i$代表第$i$类的偏置量，$j$代表给定图片$x$的像素索引 用于求和<br>
然后利用softmax函数可以把这些“证据”转化成概率$y$

$$
y = softmax(evidence)
$$

给定一张图$x$，它对于每一个类别的吻合度可以被softmax函数转换成一个概率值<br>
softmax函数可以定义为：

$$
softmax(x) = normalize(exp(x))
$$

展开右边可以得到：

$$
softmax(x)_i = \frac{exp(x_i)}{\sum_{j}exp(x_j)}
$$

假设模型里的权值不可以是0或是负数，softmax会正则化这些权重值，<br>
是它们的总和等于1，以此构建一个有效率的概率分布。

$$
\left[
\begin{matrix}
y_1 \\
y_2 \\
y_3
\end{matrix}
\right] = softmax\left(
\begin{matrix}
W_{1,1}x_1 + W_{1,2}x_1 + W_{1,3}x_1 + b_1 \\
W_{2,1}x_2 + W_{2,2}x_2 + W_{2,3}x_2 + b_2 \\
W_{3,1}x_3 + W_{3,2}x_3 + W_{3,3}x_3 + b_3
\end{matrix}
\right)
$$

转换成用 矩阵乘法和向量相加来表示：

$$
\left[
\begin{matrix}
y_1 \\
y_2 \\
y_3
\end{matrix}
\right] = softmax\left(
\left[\begin{matrix}
W_{1,1}&W_{1,2}&W_{1,3} \\
W_{2,1}&W_{2,2}&W_{2,3} \\
W_{3,1}&W_{3,2}&W_{3,3}
\end{matrix}\right]
\cdot
\left[\begin{matrix}
x_1 \\
x_2 \\
x_3
\end{matrix}\right]
+
\left[\begin{matrix}
b_1 \\
b_2 \\
b_3
\end{matrix}\right]
\right)
$$

简化为：
$$
y = softmax(W_x+b)
$$

## 评估模型
为了训练模型，通常需要定义一个指标来评估模型的好坏。<br>
这个指标被称为成本(cost)或是损失(loss)，两者意思相同，然后尽量最小化这个指标。<br>
非常常见的成本函数是“交叉熵”(cross-entropy):

$$
H_{y'}(y) = -\sum_{i}y'_i\log(y_i)
$$

其中y是预测的概率分布。<br>
y‘是实际的分布。<br>

## 计算交叉熵
（重要）<br>
交叉熵不仅仅用来衡量单一的一对预测和真实值，<br>
而是所有图片的交叉熵的总和。<br>
对100个数据点的预测的表示比单一数据点的预测的表示能更好的描述模型的性能。

In [1]:
import tensorflow as tf
import input_data
import numpy as np
import time
mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)
np.set_printoptions(suppress=True)

Extracting MNIST_data/train-images-idx3-ubyte.gz
Extracting MNIST_data/train-labels-idx1-ubyte.gz
Extracting MNIST_data/t10k-images-idx3-ubyte.gz
Extracting MNIST_data/t10k-labels-idx1-ubyte.gz


# 1.参数设置

n_input => MNIST数据的图片特征个数为(784个)： 28 x 28 = 784<br>
n_classes => MNIST数据的种类个数为(10个)：0到9<br>
learning_rate => 学习速率：比较好的策略是先设置为0.25,然后在训练到20个Epoch时改为0.025。学习速率太大时会导致代价函数振荡；学习速率太小时会导致收敛过慢。<br>
batch_size => 批尺寸(批大小)：太大，权重的更新就不会那么频繁，优化过程太漫长；太小，计算的加速效果越不明显。<br>
total_batch => 1个epoch需要的迭代次数(550次)。5500 / 100 = 550<br>
training_epochs => 利用训练数据学习多少遍(10遍)。1个epoch意味着训练数据被用过1遍。<br>

In [2]:
n_input = 784
n_classes = 10
learning_rate = 0.25
batch_size = 100
total_batch = int(mnist.train.num_examples / batch_size)
print(total_batch)
training_epochs = 30

550


# 2.创建模型

X => 是一个占位符，用来保存输入数据。类型时float32；第一个维度None表示可以是任何长度(输入图片的个数)；第二个维度784是每个图片展平后的向量。<br>
W => 是一个占位符，用来保存权重值。Variable常用来保存参数，计算中可以被修改，初始值为0。<br>
b => 是一个占位符，用来保存偏置量。<br>
y_pred => 是预测出来的分类结果，还未softmax！！！<br>
y_softmax => 是经过softmax之后的预测出来的分类结果。<br>
Y => 是一个占位符，用来保存输出数据的正确值(正确分类)。<br>
cross_entropy => 交叉熵，又可以叫做cost，有3种代码写作方式：第1种是直接按照公式写出的代码，如果出现log(0)的话结果就会变成Nan，不建议使用；第2种...with_logits用于较低版本的tf；第3种...with_logits_v2用于较新的tf。<br>
train_step => 学习步伐，又可叫做optimizer，永华方法使用梯度下降算法来最小化交叉熵，会自动使用反向传播法。<br>

In [3]:
X = tf.placeholder(tf.float32, [None, n_input])
W = tf.Variable(tf.zeros([n_input, n_classes]))
b = tf.Variable(tf.zeros([n_classes]))
y_pred = tf.matmul(X, W) + b
y_softmax = tf.nn.softmax(y_pred)
Y = tf.placeholder(tf.float32, [None, n_classes])
# type 1:
# cross_entropy = tf.reduce_mean(
#     -tf.reduce_sum(Y * tf.log(y_softmax), reduction_indices=[1]))
# type 2:
cross_entropy = tf.reduce_mean(
    tf.nn.softmax_cross_entropy_with_logits(labels=Y, logits=y_pred))
# type 3:
# cross_entropy = tf.reduce_mean(
#     tf.nn.softmax_cross_entropy_with_logits_v2(labels=Y, logits=y_pred))
train_step = tf.train.GradientDescentOptimizer(learning_rate).minimize(
    cross_entropy)

# 3.为了评估模型所需要输出的数据

pred => 预测的分类结果。<br>
true => 正确的分类结果。<br>
correct_prediction => 对比预测结果和正确结果。<br>
accuracy => 正确率。<br>

In [4]:
pred = tf.argmax(y_pred, 1)
true = tf.argmax(Y, 1)
correct_prediction = tf.equal(pred, true)
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))

# 4.训练模型并实时输出评估数据

循环训练10次，每次训练会随机抓取训练数据中100个数据点。<br>

In [5]:
sess = tf.InteractiveSession()
tf.global_variables_initializer().run()

all_x_test = mnist.test.images
all_y_test = mnist.test.labels
start = time.time()
for epoch_i in range(training_epochs):
    ave_cost = 0
    for batch_i in range(total_batch):
        batch_x, batch_y = mnist.train.next_batch(batch_size)
        _, c = sess.run(
            [train_step, cross_entropy], feed_dict={
                X: batch_x,
                Y: batch_y
            })
        ave_cost += c / total_batch
        # evidence and softmax data
        if (epoch_i == 0 and batch_i == 0) or (epoch_i == 9 and batch_i == 0):
            print("Epoch:%3d Batch:%5d " % (epoch_i + 1, batch_i + 1), )
            print("Details(0~5)--------------------------------------------")
            train_y_pred = sess.run(y_pred, feed_dict={X: batch_x, Y: batch_y})
            train_y_softmax = sess.run(
                y_softmax, feed_dict={
                    X: batch_x,
                    Y: batch_y
                })
            print("train_y_pred:", train_y_pred[:5])
            print("train_y_softmax:", train_y_softmax[:5])
            train_pred = sess.run(pred, feed_dict={X: batch_x, Y: batch_y})
            train_true = sess.run(true, feed_dict={X: batch_x, Y: batch_y})
            test_pred = sess.run(
                pred, feed_dict={
                    X: all_x_test,
                    Y: all_y_test
                })
            test_true = sess.run(
                true, feed_dict={
                    X: all_x_test,
                    Y: all_y_test
                })
            print("train_pred:", train_pred[:5])
            print("train_true:", train_true[:5])
            print("test_pred:", test_pred[:5])
            print("test_true:", test_true[:5])
            print("--------------------------------------------------------")
    if epoch_i % 1 == 0:
        train_acc = sess.run(accuracy, feed_dict={X: batch_x, Y: batch_y})
        test_acc = sess.run(accuracy, feed_dict={X: all_x_test, Y: all_y_test})
        print("Epoch:%2d Batch:%4d" % (epoch_i + 1, batch_i + 1),
              "train_acc=%.3f" % train_acc, "test_acc=%.3f" % test_acc,
              "train_cost=%5.3f" % ave_cost)
end = time.time()
print("Process Time :%.2f s" % (end - start))

# result
acc = sess.run(
    accuracy, feed_dict={
        X: all_x_test,
        Y: all_y_test,
    })
print("test accuracy=%.3f" % acc)
sess.close()

Epoch:  1 Batch:    1 
Details(0~5)--------------------------------------------
train_y_pred: [[ 0.47469005  0.12751044 -0.10305046 -0.7192615   0.01158187  0.07918715
   0.5723592  -0.10206407 -0.24776669 -0.09318632]
 [ 1.8894259  -0.16320719 -0.16151215 -1.0564992  -0.12215927  0.12205854
   0.14894795 -0.03065914 -0.50682557 -0.11957026]
 [ 0.23936163  0.25204918 -0.07889677 -0.5280872  -0.01415258 -0.00047752
   0.05955673  0.11229905 -0.15259793  0.11094521]
 [ 0.35380605  0.14640842  0.07745551 -0.49470162  0.05786588 -0.02199012
   0.03273851  0.01494964 -0.05105225 -0.11548027]
 [ 0.23130167  0.37959972  0.00661225 -0.61404365 -0.04107693 -0.0414057
   0.02010621  0.256797   -0.19012682 -0.0077641 ]]
train_y_softmax: [[0.15174201 0.10723279 0.08515228 0.04598109 0.09549496 0.10217416
  0.16731042 0.08523632 0.07367953 0.08599639]
 [0.46267694 0.05940605 0.05950682 0.02431525 0.06189528 0.07901689
  0.08117044 0.06782589 0.04213074 0.06205574]
 [0.12440082 0.12598921 0.090491  