SqueezeBits Inc.

QUICK: Quantization-aware Interleaving and Conflict-free Kernel for efficient LLM inference

Python 111 5

OwLite is a low-code AI model compression toolkit for AI models.

Python 37 3

OwLite Examples repository offers illustrative example codes to help users seamlessly compress PyTorch deep learning models and transform them into TensorRT engines.

Python 8

vllm-quick Public

Python 1

.github Public

mlperf_inference_results_v4.0 Public

C++ 1

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

SqueezeBits Inc.

Popular repositories Loading

Repositories

People

Top languages

Most used topics