Train loss NaN when previous QA is set to 0 #8

Ajanulk · 2019-03-16T01:13:52Z

When I set previous QA to 0 in conf, the train loss met nan. How can I solve it?

zcgzcgzcg1 · 2019-03-19T20:40:05Z

It may happen that certain weights get very large. Try using smaller gradient clipping (like 1, 0.1).

Ajanulk · 2019-04-02T16:40:20Z

It may happen that certain weights get very large. Try using smaller gradient clipping (like 1, 0.1).

@zcgzcgzcg1 Thanks for your reply. But it doesnt work according to your suggestion (gradient clipping 1, 0.1).

zcgzcgzcg1 closed this as completed Mar 19, 2019

Provide feedback