Compressed Attention

It turned out that the attention cannot be compresed using TT-decomposition (empirical result) , but with the Tucker decomposition we achieve the same quality as a full model.

BLEU = 0.44 compression rate: 3.175 compression rate without embeddings: 9.174

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

compress_attention.md

compress_attention.md

Compressed Attention

Files

compress_attention.md

Latest commit

History

compress_attention.md

File metadata and controls

Compressed Attention