Improve TriangularMultiplicativeUpdate stability in fp16 mode #295

nikitos9000 · 2023-03-16T21:53:09Z

The solution to (observed) fp16 overflow in TriangularMultiplicativeUpdate torch.matmul caused by hugh std of a*b elements. It produces the same output as it's followed by layer norm which performs equivalent std-normalization.

autocast=False mode doesn't seem to solve this in pure fp16 mode unfortunately.

by @adamlerer

gahdritz · 2023-04-10T05:30:02Z

Thanks!

Improve TriangularMultiplicativeUpdate stability in fp16 mode

6625e8d

gahdritz merged commit 208cce6 into aqlaboratory:main Apr 10, 2023
1 of 2 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Improve TriangularMultiplicativeUpdate stability in fp16 mode #295

Improve TriangularMultiplicativeUpdate stability in fp16 mode #295

nikitos9000 commented Mar 16, 2023 •

edited

gahdritz commented Apr 10, 2023 •

edited

Improve TriangularMultiplicativeUpdate stability in fp16 mode #295

Improve TriangularMultiplicativeUpdate stability in fp16 mode #295

Conversation

nikitos9000 commented Mar 16, 2023 • edited

gahdritz commented Apr 10, 2023 • edited

nikitos9000 commented Mar 16, 2023 •

edited

gahdritz commented Apr 10, 2023 •

edited