# Tensorflow2.0 小练习

In [1]:
import tensorflow as tf
import numpy as np

## 实现softmax函数

In [7]:
def softmax(x):
    ##########
    '''实现softmax函数，只要求对最后一维归一化，
    不允许用tf自带的softmax函数'''
    ##########

    """
    softmax函数是一种特殊的激活函数，常用于深度学习模型的输出层，特别是用于处理多分类问题。它的主要作用是将一组实数映射到（0,1）区间，使得整个输出向量的和为1，因此可以被解释为概率分布。算法是先映射到指数空间，然后再归一化。
    """

    # 计算每个元素的指数
    exp_x = np.exp(x)
    # 计算指数的总和，注意这里要保持维度，以便广播的时候能正确对应
    sum_exp_x = np.sum(exp_x, axis=-1, keepdims=True)
    # 计算每个元素的概率
    prob_x = exp_x / sum_exp_x

    return prob_x

test_data = np.random.normal(size=[10, 5])  # 符合正态分布的十行五列的数据
(softmax(test_data) - tf.nn.softmax(test_data, axis=-1).numpy()) ** 2 < 0.0001  # 比较实现是否接近

array([[ True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True]])

## 实现sigmoid函数

In [8]:
def sigmoid(x):
    ##########
    '''实现sigmoid函数， 不允许用tf自带的sigmoid函数'''
    ##########

    prob_x = 1 / (1 + np.exp(-x))

    return prob_x

test_data = np.random.normal(size=[10, 5])
(sigmoid(test_data) - tf.nn.sigmoid(test_data).numpy())**2 < 0.0001

array([[ True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True]])

## 实现 softmax 交叉熵loss函数

In [10]:
def softmax_ce(x, label):
    ##########
    '''实现 softmax 交叉熵loss函数， 不允许用tf自带的softmax_cross_entropy函数'''
    ##########
    
    # 计算对数似然
    log_likelihood = -np.log(x) * label
    # 计算损失
    loss = np.mean(np.sum(log_likelihood, axis=-1))
    return loss

test_data = np.random.normal(size=[10, 5])
prob = tf.nn.softmax(test_data)
label = np.zeros_like(test_data)
label[np.arange(10), np.random.randint(0, 5, size=10)]=1.

((tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(label, test_data))
  - softmax_ce(prob, label))**2 < 0.0001).numpy()

True

## 实现 sigmoid 交叉熵loss函数

In [11]:
def sigmoid_ce(x, label):
    ##########
    '''实现 softmax 交叉熵loss函数， 不允许用tf自带的softmax_cross_entropy函数'''
    ##########

    # 计算对数似然
    log_likelihood = -label * np.log(x) - (1 - label) * np.log(1 - x)
    # 计算损失
    loss = np.mean(log_likelihood)
    return loss

test_data = np.random.normal(size=[10])
prob = tf.nn.sigmoid(test_data)
label = np.random.randint(0, 2, 10).astype(test_data.dtype)
print (label)

((tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(label, test_data))- sigmoid_ce(prob, label))**2 < 0.0001).numpy()

[1. 1. 0. 1. 1. 1. 0. 1. 1. 1.]


True

在上面这段代码中，`np.mean(log_likelihood)`是在计算所有样本的平均对数似然损失。

在训练机器学习模型时，我们通常使用损失函数来衡量模型的预测结果与真实结果之间的差距。对数似然损失是一种常用的损失函数，它可以衡量模型的预测概率分布与真实标签的匹配程度。

`log_likelihood`是一个数组，它的每个元素是一个样本的对数似然损失。我们可以直接使用这个数组的总和作为总损失，但这样做有一个问题：如果我们增加了样本的数量，总损失也会增加，即使每个样本的损失都没有变。这会使得损失值依赖于样本的数量，这不是我们想要的。

为了解决这个问题，我们通常会计算所有样本的平均损失，也就是`np.mean(log_likelihood)`。这样，损失值就不再依赖于样本的数量，而只依赖于每个样本的损失。这使得我们可以更公平地比较不同数量样本的损失，也使得优化算法更稳定。