## Tensorflow的常见损失函数

损失函数（loss function）：
* 用来评价模型的预测值和真实值不一样的程度，损失函数越好，通常模型的性能越好。
* 不同的模型用的损失函数一般是不一样的
* 损失函数是编译模型时所需的两个参数之一：model.compile(loss='mean_squared_error', optimizer='sgd')


损失函数为每个数据点返回一个数字，有以下两个参数:  
* y_true: 真实标签
* y_pred: 预测值  

代码演示内容：
* 二分类：BinaryCrossentropy
* 多分类：SparseCategoricalCrossentropy
* 多分类：CategoricalCrossentropy
* 回归：MSE
* 自己实现损失函数MSE

In [1]:
import tensorflow as tf
import numpy as np

### 1. 二分类：BinaryCrossentropy

* 用于二分类的场景，比如标签值为0和1
* 计算真实标签和预测标签之间的交叉熵损失
* model.compile(optimizer='sgd', loss=tf.keras.losses.BinaryCrossentropy())

In [2]:
# 这是一个batch，有4个样本
y_true = np.array([[0], [1], [0], [1]])
y_pred = np.array([[0.8], [0.7], [0.6], [0.5]])

In [3]:
y_true.shape

(4, 1)

In [4]:
y_pred.shape

(4, 1)

In [5]:
# 默认输出整个batch的loss的平均值
bce = tf.keras.losses.BinaryCrossentropy()
bce(y_true, y_pred).numpy()

0.8938874006271362

In [6]:
# 默认输出整个batch的loss的平均值
bce = tf.keras.losses.BinaryCrossentropy(reduction='none')
bce(y_true, y_pred).numpy()

array([1.60943747, 0.35667479, 0.91629046, 0.693147  ])

### 2. 多分类：SparseCategoricalCrossentropy

* 用于多分类的场景
* 当y_true是[0, 1, 2]这样的数字的时候用这个函数
* 计算标签和预测之间的交叉熵损失
* model.compile(optimizer='sgd', loss=tf.keras.losses.SparseCategoricalCrossentropy())

In [7]:
# 三分类，则标签值范围是[0, 1, 2]
# 对于batch为2的数据
y_true = [1, 2]

# y_pred其实是预测值在多分类的概率分布
y_pred = [[0.05, 0.95, 0], [0.1, 0.8, 0.1]]

In [8]:
loss_func = tf.keras.losses.SparseCategoricalCrossentropy()
loss_func(y_true, y_pred).numpy()

1.1769392

In [9]:
# 默认情况下，一个batch只会输出一个平均后的数字，指定reduction='none'则每个样本输出数字
loss_func = tf.keras.losses.SparseCategoricalCrossentropy(reduction='none')
loss_func(y_true, y_pred).numpy()

array([0.05129344, 2.3025851 ], dtype=float32)

### 3. 多分类：CategoricalCrossentropy

* 用于多分类的场景
* 当y_true是[[1,0,0], [0,1,0], [0,0,1]]这样的one-hot编码的时候
* 即y_true的shape和y_pred的shape是相同的

In [10]:
# batch_size = 2

# y true现在是one-hot编码
y_true = [[0, 1, 0], [0, 0, 1]]
# y pred依然是概率分布
y_pred = [[0.05, 0.95, 0], [0.1, 0.8, 0.1]]

In [11]:
loss_func = tf.keras.losses.CategoricalCrossentropy()
loss_func(y_true, y_pred).numpy()

1.1769392

In [12]:
loss_func = tf.keras.losses.CategoricalCrossentropy(reduction='none')
loss_func(y_true, y_pred).numpy()

array([0.05129331, 2.3025851 ], dtype=float32)

### 4. 回归：MSE

* 回归问题中最常用的损失函数
* 计算标签和预测之间的均方误差
* 实现函数：loss = mean(square(y_true - y_pred), axis=-1)
* 使用：model.compile(optimizer='sgd', loss=tf.keras.losses.MeanSquaredError())


In [13]:
# batch_size = 2
y_true = [[0., 1.], [0., 0.]]
y_pred = [[1., 1.], [1., 0.]]

In [14]:
# 每个batch输出自己的loss
loss = tf.keras.losses.MeanSquaredError()
loss(y_true, y_pred).numpy()

0.5

In [15]:
# 每个batch输出自己的loss
loss = tf.keras.losses.MeanSquaredError(reduction='none')
loss(y_true, y_pred).numpy()

array([0.5, 0.5], dtype=float32)

### 5. 自己实现损失函数MSE

<img src="./images/mse.svg" style="margin-left:0px"/>

In [16]:
# batch_size = 2
y_true = np.array([[0., 1.], [0., 0.]])
y_pred = np.array([[1., 1.], [1., 0.]])

In [17]:
def loss(y_pred, y_true):
    # 相减、平方、平均
    return tf.reduce_mean(tf.square(y_pred - y_true))

In [18]:
loss(y_pred, y_true).numpy()

0.5