loss不考虑padsequece的情况？ #6

nonva · 2019-11-19T09:11:47Z

one_hot_labels = tf.one_hot(labels, depth=num_labels, dtype=tf.float32)
per_example_loss = -tf.reduce_sum(one_hot_labels * log_probs, axis=-1)
loss = tf.reduce_sum(per_example_loss)
probabilities = tf.nn.softmax(logits, axis=-1)

log_prob是[batch_size, max_seq, label_num]维度， max_seq有pad，直接reduce_sum全部作为loss？

xuanzebi · 2019-11-19T09:21:03Z

这里可以在计算loss的时候将padding部分mask掉。

不过当时写的时候因为padding部分idx 为 0，所以在计算loss的时候影响不太大，就没考虑mask.

zdgithub · 2022-03-01T02:43:39Z

这里可以在计算loss的时候将padding部分mask掉。

不过当时写的时候因为padding部分idx 为 0，所以在计算loss的时候影响不太大，就没考虑mask.
@xuanzebi 您好，
为什么padding部分的label id=0，在计算loss的时候影响不大？这时one-hot标签向量第0维是1吧

xuanzebi closed this as completed Feb 14, 2020

zdgithub mentioned this issue Mar 3, 2022

为什么计算loss时不过滤掉PAD tokens？ #12

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

loss不考虑padsequece的情况？ #6

loss不考虑padsequece的情况？ #6

nonva commented Nov 19, 2019

xuanzebi commented Nov 19, 2019

zdgithub commented Mar 1, 2022 •

edited

Loading

loss不考虑padsequece的情况？ #6

loss不考虑padsequece的情况？ #6

Comments

nonva commented Nov 19, 2019

xuanzebi commented Nov 19, 2019

zdgithub commented Mar 1, 2022 • edited Loading

zdgithub commented Mar 1, 2022 •

edited

Loading