In [1]:
import tensorflow as tf
import numpy as np
sess = tf.Session()

  from ._conv import register_converters as _register_converters


RCNN网络的分类loss

In [2]:
# RCNN分类损失 
def rcnn_cls_loss(predict_cls, true_cls):
    """
    predict_cls：（batch_num, train_roi_per_image, class_num）         （生成的proposals都前向传播做分类预测）
    true_cls：（batch_num, train_roi_per_image,(class_label, tags)）   （生成的rois只有部分目标真实值用来计算loss，区分具体类别）
    因为两者维度一致，所以一般共用查询的indices
    """
    # true_cls去除padding
    train_indices = tf.where(tf.not_equal(true_cls[...,-1], 0)) # 分类loss筛除中性样本，保留正、负样本（2维）
    true_cls = tf.gather_nd(true_cls[...,:-1], train_indices)
    predict_cls = tf.gather_nd(predict_cls, train_indices)
    # true_cls稀疏编码转one-hot
    class_num = tf.shape(predict_cls)[1]
    true_cls = tf.one_hot(true_cls, depth=class_num)
    # 交叉熵损失
    loss = tf.nn.softmax_cross_entropy_with_logits_v2(labels=true_cls, logits=predict_cls)
    
    return loss

In [3]:
#=============假设部分参数值========================
predict_cls = tf.constant(np.array([[[1,0],[0,1],[0,1]]]), dtype=tf.float32)
true_cls = tf.constant(np.array([[[0,-1],[1,1],[1,1]]]), dtype=tf.uint8)
# indices = tf.constant(np.array([[[0,-1],[1,1],[2,1]]]), dtype=tf.uint8)

In [4]:
# 函数测试：1
## RCNN索引与编码
train_indices = tf.where(tf.not_equal(true_cls[...,-1], 0)) # 返回2维tensor
true_cls = tf.gather_nd(true_cls[...,:-1], train_indices) # 3维tensor确定1个维度，然后gather_nd选定索引2维tensor，最终返回（batch_num*rpn_train_anchors）的1维tensor
predict_cls = tf.gather_nd(predict_cls, train_indices) # 同样也是返回长度为（batch_num*rpn_train_anchors）的1维cls
print("前2个维度的索引参数一：\n{}".format(train_indices.eval(session=sess)))
print("去除padding后的真实cls稀疏标签参数二：\n{}".format(true_cls.eval(session=sess)))
print("去除padding后的预测cls热码标签参数三：\n{}".format(predict_cls.eval(session=sess)))

前2个维度的索引参数一：
[[0 0]
 [0 1]
 [0 2]]
去除padding后的真实cls稀疏标签参数二：
[[0]
 [1]
 [1]]
去除padding后的预测cls热码标签参数三：
[[1. 0.]
 [0. 1.]
 [0. 1.]]


In [5]:
# 函数测试：2
## 真实稀疏标签的one-hot编码
class_num = tf.shape(predict_cls)[1]
true_cls = tf.one_hot(true_cls[...,0], depth=class_num) # 2维稀疏编码转one-hot编码后，维度加1变为3维
print("类别真实值“独热”编码：\n{}".format(true_cls.eval(session=sess)))

类别真实值“独热”编码：
[[1. 0.]
 [0. 1.]
 [0. 1.]]


In [6]:
# 函数测试：3
## RCNN分类loss
loss = tf.nn.softmax_cross_entropy_with_logits_v2(labels=true_cls, logits=predict_cls)
print("案例tensors的交叉熵loss情况：\n{}".format(loss.eval(session=sess)))

案例tensors的交叉熵loss情况：
[0.31326166 0.31326166 0.31326166]


RCNN网络的回归loss

In [7]:
# 首先定义smooth_l1_loss的计算过程
def smooth_l1_loss(y_true, y_predict):
    """
    smooth L1损失函数；   0.5*x^2 if |x| <1 else |x|-0.5; x是 diff
    :param y_true:[N,4]
    :param y_predict:[N,4]
    :return:
    """
    # 误差绝对值
    abs_diff =  tf.abs(y_true - y_predict, name='A')
    # 根据abs_diff与数值1的关系，计算各个anchor的smooth_l1_loss，并赋值在指定索引
    loss_all = tf.where(tf.less(abs_diff, 1), 0.5 * tf.pow(abs_diff, 2), tf.abs(abs_diff) - 0.5)
    # 一个batch共N个anchors的综合smooth_l1_loss
    loss = tf.reduce_mean(loss_all, axis=1)
    return loss

In [8]:
# 类别相关的回归损失
## 找对应的预测目标时，由于predict_deltas类别相关，需要3维索引来gather_nd
def rcnn_regress_loss(predict_deltas, true_deltas, class_ids):
    """
    predict_deltas：（batch_num, train_roi_per_image, class_num, (dy,dx,dw,dh)）
    true_deltas：（batch_num, train_roi_per_image, (dy,dx,dw,dh,tags)）
    class_ids：（batch_num, train_roi_per_image, (class_id, tags)）
    """
    # true_deltas与class_ids去除padding
    regress_indices = tf.where(tf.equal(true_deltas[...,-1], 1)) # 回归loss筛除中性样本、负样本，只保留正样本做回归（2维）
    true_deltas = tf.gather_nd(true_deltas[...,:-1], regress_indices)
    class_ids = tf.gather_nd(class_ids[...,:-1], regress_indices)
    # 类别相关的索引拼接
    cls_relate_indices = tf.concat([regress_indices, tf.cast(class_ids, tf.int64)], axis=1)
    # 根据三维索引，从predict_deltas中找到相关的预测回归目标
    predict_deltas = tf.gather_nd(predict_deltas, cls_relate_indices)
    
    # smoooth_l1 loss相关
    import keras.backend as K
    loss = K.switch(tf.size(true_deltas) > 0,
                    smooth_l1_loss(true_deltas, predict_deltas),
                    tf.constant(0.0))
    loss = K.mean(loss)
    
    return loss

In [9]:
#=============假设部分参数值========================
## 这里class_num=2说明只有背景类在内的2类，因为是类别相关，假设的参数中背景类的deltas预测结果这里全补0
predict_deltas = tf.constant(np.array([[[[0,0,0,0],[78,22,253,304]],[[0,0,0,0],[269,19,360,296]]]]), dtype=tf.float32) # 4维（1，2，2，(dy,dx,dw,dh)）
## 本来应该有4个真实回归目标，因为类别相关情况下，真正的正样本只有2个，所以这里只有2个真实回归目标
true_deltas = tf.constant(np.array([[[50,30,200,280,1],[280,10,370,320,1]]]), dtype=tf.float32) # （1，2，(dy,dx,dw,dh)）
## 真实回归目标对应的真实类别标签
class_ids = tf.constant(np.array([[[1,1],[1,1]]]), dtype=tf.int64) # 两个正样本proposals

In [10]:
# 函数测试：1
## RCNN索引拼接与gather
regress_indices = tf.where(tf.equal(true_deltas[...,-1], 1)) # 回归loss筛除中性样本、负样本，只保留正样本做回归（2维）
print("索引的indice矩阵维度为：\n{}".format(tf.shape(regress_indices).eval(session=sess)))
true_deltas = tf.gather_nd(true_deltas[...,:-1], regress_indices)
class_ids = tf.gather_nd(class_ids[...,:-1], regress_indices)
print("类别的indice矩阵维度为：\n{}".format(tf.shape(class_ids).eval(session=sess)))
# 类别相关的索引拼接
cls_relate_indices = tf.concat([regress_indices, tf.cast(class_ids, tf.int64)], axis=1)
print("拼接的indice矩阵维度为：\n{}".format(tf.shape(cls_relate_indices).eval(session=sess)))
# 计算loss的预测回归目标
predict_deltas = tf.gather_nd(predict_deltas, cls_relate_indices)
print("案例tensors的回归目标真实值情况：\n{}".format(true_deltas.eval(session=sess)))
print("案例tensors的回归目标预测值情况：\n{}".format(predict_deltas.eval(session=sess)))

拼接的indice矩阵维度为：
[2 3]
案例tensors的回归目标真实值情况：
[[ 50.  30. 200. 280.]
 [280.  10. 370. 320.]]
案例tensors的回归目标预测值情况：
[[ 78.  22. 253. 304.]
 [269.  19. 360. 296.]]


In [11]:
# 函数测试：2
## RCNN回归loss(smoooth_l1 loss相关)
import keras.backend as K
loss = K.switch(tf.size(true_deltas) > 0,
                smooth_l1_loss(true_deltas, predict_deltas),
                tf.constant(0.0))
loss = K.mean(loss)
print("案例tensors的smooth_l1_loss情况：\n{}".format(loss.eval(session=sess)))

Using TensorFlow backend.


Instructions for updating:
keep_dims is deprecated, use keepdims instead
案例tensors的smooth_l1_loss情况：
20.375
