Error
Looks like something went wrong!

About

[NeurIPS'24 Spotlight, ICLR'25, ICML'25] To speed up Long-context LLMs' inference, approximate and dynamic sparse calculate the attention, which reduces inference latency by up to 10x for pre-filling on an A100 while maintaining accuracy.

aka.ms/MInference

Readme

MIT license

Code of conduct

Security policy

Activity

Custom properties

1.1k stars

8 watching

53 forks

Report repository

Releases 11

V0.1.6: Add SCBench Latest

Jun 17, 2025

+ 10 releases

Packages

No packages published

Contributors 15

Languages

Python 97.1%
Shell 2.0%
Other 0.9%

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Error
Looks like something went wrong!

About

Uh oh!

Releases 11

Packages

Uh oh!

Contributors 15

Uh oh!

Languages

License

microsoft/MInference

ErrorLooks like something went wrong!

About

Resources

License

Code of conduct

Security policy

Uh oh!

Stars

Watchers

Forks

Releases 11

Packages 0

Uh oh!

Contributors 15

Uh oh!

Languages

Error
Looks like something went wrong!

Packages