Error
Looks like something went wrong!

About

Quantized Attention that achieves speedups of 2.1-3.1x and 2.7-5.1x compared to FlashAttention2 and xformers, respectively, without lossing end-to-end metrics across various models.

Readme

Apache-2.0 license

Activity

Custom properties

0 stars

0 watching

0 forks

Report repository

Releases

No releases published

Packages

No packages published

Languages

Cuda 62.2%
Python 32.9%
C++ 2.5%
C 2.1%
Shell 0.3%

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Error
Looks like something went wrong!

About

Uh oh!

Releases

Packages

Languages

License

xlite-dev/SageAttention

ErrorLooks like something went wrong!

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Error
Looks like something went wrong!

Packages